NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ chính của Luận văn là nghiên cứu và đề xuất một phương pháp sử dụng các đặc trưng sâu deep features nhằm cải thiện việc giải bài toán phát hiện hình ảnh g
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-
PHẠM VĂN NGOAN
PHÁT HIỆN HÌNH ẢNH CHÂN DUNG GIẢ MẠO
DỰA VÀO CÁC ĐẶC TRƯNG SÂU
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 7 năm 2022
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán bộ hướng dẫn khoa học: PGS TS Lê Hồng Trang
Cán bộ chấm nhận xét 1 : TS Trần Tuấn Anh
Cán bộ chấm nhận xét 2 : PGS TS Nguyễn Tuấn Đăng
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp HCM ngày 21 tháng 7 năm 2022
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 Chủ tịch: TS Phạm Hoàng Anh
2 Thư ký: TS Nguyễn Tiến Thịnh
3 Phản biện 1: TS Trần Tuấn Anh
4 Phản biện 2: PGS.TS Nguyễn Tuấn Đăng
5 Uỷ viên: TS Trần Thanh Tùng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
KHOA HỌC
VÀ KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: PHẠM VĂN NGOAN MSHV: 1870468
Ngày, tháng, năm sinh: 09/11/1996 Nơi sinh: Vĩnh Long
Chuyên ngành: Khoa Học Máy Tính Mã số : 8480101
I TÊN ĐỀ TÀI: Phát hiện hình ảnh chân dung giả mạo dựa vào các đặc
trưng sâu - Detecting fake images based on deep features
II NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ chính của Luận văn là nghiên cứu
và đề xuất một phương pháp sử dụng các đặc trưng sâu (deep features) nhằm
cải thiện việc giải bài toán phát hiện hình ảnh giả mạo Các nội dung chính
bao gồm :
- Nghiên cứu tổng quan về bài toán phát hiện ảnh giả mạo
- Tổng hợp và phân tích các tiếp cận phổ biến hiện nay cho bài toán, tập
trung vào tiếp cận sử dụng các mô hình học sâu
- Nghiên cứu và đề xuất một mô hình giải bài toán dựa trên các đặc
trưng sâu
- Viết một bài báo cho các kết quả đạt được và gửi tham dự báo cáo ở
một hội nghị khoa học quốc tế phù hợp với chủ đề nghiên cứu
III NGÀY GIAO NHIỆM VỤ : 06/09/2021
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 22/05/2022
V CÁN BỘ HƯỚNG DẪN PGS TS Lê Hồng Trang
Trang 4LỜI CẢM ƠN
Luận văn đề tài “PHÁT HIỆN HÌNH ẢNH CHÂN DUNG GIẢ MẠO DỰA VÀO CÁC ĐẶC TRƯNG SÂU” là kết quả của quá trình cố gắng không ngừng nghỉ của bản thân và được sự giúp đỡ tận tình, động viên khích lệ của thầy cô, bạn bè và người thân Qua đây, em xin gửi lời cảm ơn chân thành đến những người giúp đỡ em trong thời gian học tập – nghiên cứu khoa học vừa qua
Em xin trân trọng gửi đến thầy Lê Hồng Trang - Người đã trực tiếp tận tình hướng dẫn cũng như cung cấp tài liệu, thông tin khoa học cần thiết cho luận văn này lời cảm ơn chân thành và sâu sắc nhất
Xin cảm ơn ban giám hiệu vùng toàn thể thầy cô trường đại học Bách Khoa TPHCM, khoa Khoa học máy tính đã tạo điều kiện cho em hoàn thành tốt việc học và nghiên cứu khoa học của mình
Xin cảm ơn cha mẹ, anh chị, bạn bè, người thân đã luôn bên cạnh, ủng hộ, động viên
Em xin chân thành cảm ơn!
Trang 5
TÓM TẮT LUẬN VĂN THẠC SĨ
Ngày nay, hệ thống nhận diện gương mặt phát triển vô cùng nhanh chóng kéo theo các hình thức tấn công ngày càng tinh vi, do đó vấn đề chống giả mạo gương mặt đóng vai trò vô cùng quan trọng trong hệ thống này Có hai cách tiếp cận chính cho bài toán chống giả maọ gương mặt: 1) Sử dụng thuộc tính rút trích thủ công và 2) sử dụng các thuộc tính sâu rút trích từ các mạng học sâu Trong luận văn này, chúng tôi sẽ cùng tìm hiểu kỹ các phương pháp chống giả mạo và đề xuất một phương pháp toàn diện kết hợp cả thuộc tính rút trích thủ công và thuộc tính sâu vào một mạng học sâu để phát hiện ảnh người thật hay tấn công Chúng tôi cũng đánh giá độ hiệu quả của phương pháp chúng tôi đề xuất trên các tập dữ liệu về chống giả mạo gương mặt như CASIA-FASD, MSU-MFSD và ROSE-YOUTU
ABSTRACT
Recently, the face recognition system is rapid development, and face spoofing (FAS) also plays a significant role in that system There are two approaches to FAS methods 1) use handcrafted features and 2) use deep features extracted from deep learning networks In this thesis, we propose an end-to-end framework that combines wide and deep features to detect real and spoof images
anti-in the FAS problem We also evaluated the effectiveness of our methods on different FAS datasets such as CASIA-FASD, MSU-MFSD, and ROSE-YOUTU
Trang 6LỜI CAM ĐOAN
Tác giả xin được cam đoan các số liệu và kết quả của luận văn thạc sĩ đề tài “Phát hiện ảnh chân dung giả mạo dựa vào các đặc trưng sâu” là trung thực và không
có bất kỳ sự sao chép hay sử dụng để bảo bảo vệ một học vị nào Tất cả những
sự giúp đỡ cho việc xây dựng cơ sở lý luận cho luận văn này đều được trích dẫn đầy đủ và ghi rõ nguồn gốc Nếu phát hiện có sự sao chép kết quả nghiên cứu của đề tài khác, tôi xin hoàn toàn chịu trách nhiệm
Học viên
Phạm Văn Ngoan
Trang 7Mục lục
2.1 Tổng quan về bài toán 5
2.2 Các nền tảng 9
2.3 Các tiếp cận đã đề xuất 21
2.4 Một số hệ thống đã phát triển và ứng dụng trong thực tế 26
2.5 Dữ liệu 29
3 Các mô hình phổ biến cho bài toán phát hiện hình ảnh giả mạo 33 3.1 Mô hình sử dụng thuộc tính thủ công trên các không gian màu khác nhau 33 3.2 Mô hình kết hợp giữa thuộc tính thủ công và thuộc tính sâu 36
v
Trang 83.3 Mô hình dùng các phương pháp học sâu truyền thống 38
3.4 Mô hình học sâu có tính tổng quát 45
4 Các đặc trưng sâu và rộng đề xuất 48 4.1 Các mẫu nhị phân cục bộ 48
4.2 Trích xuất các đặc trưng sâu dùng học chuyển tiếp 50
4.3 Kết hợp đặc trưng sâu và rộng 51
4.4 Thực nghiệm và kết quả 52
5 KẾT LUẬN 57 DANH SÁCH CÁC CÔNG TRÌNH KHOA HỌC 58 Deep and Wide Features for Face Anti-Spoofing Paper 58
Trang 9Danh sách hình vẽ
1.1 Một số dạng tấn công từ tập dữ liệu ROSE-YOUTU [1] 2
1.2 Số lượng bài báo khoa học công bố được tìm theo keyword "face anti-spoofing", "face liveness detection" và "face presentation attack detection" trên Google Scholar [2] 3
2.1 Hệ thống chống giả mạo gương mặt trong hệ thống nhận diện gương mặt 5 2.2 Phân loại các dạng tấn công giả mạo 7
2.3 Ví dụ các dạng tấn công giả mạo 8
2.4 Mô tả các tỉ lệ lỗi FAR, FRR, EER 9
2.5 Kiến trúc mạng cơ bản 12
2.6 Kiến trúc mạng nơ-ron cơ bản 14
2.7 Các lớp của một mạng CNNs 16
2.8 Quá trình tính toán của lớp tích chập 17
2.9 Ví dụ về max pooling 18
2.10Ví dụ về tầng kết nối đầy đủ 18
2.11Một khối trong mạng resnet 19
2.12Các biến thể của mạng ResNet 20
2.13Kiến trúc mạng Resnet-50 20
2.14Kiến trúc đề xuất bởi Zinelabidine và cộng sự [3] 22
2.15Trực quan hoá thuộc tính HOG [4] 22
2.16Mô hình đề xuất của [4] 23
2.17Mô hình LBP-TOP được Pereira và cộng sự đề xuất [5] 23
Trang 102.18Mô hình được Lei Li và cộng sự đề xuất [6] 24
2.19Mô hình được Atoum và cộng sự đề xuất [7] 25
2.20Ước lượng ảnh chiều sâu, hai cột đầu tiên chỉ trường hợp người thật, các cột còn lại là các hình thức tấn công [7] 25
2.21Mô hình được Zitong và cộng sự và cộng sự đề xuất [8] 26
2.22Giải pháp chống giả mạo gương mặt của FaceTec 27
2.23Các tổ chức sử dụng ứng dụng chống giả mạo gương mặt Zoom 28
2.24Ảnh ví dụ được lấy từ tập dữ liệu Replay-Attack 29
2.25Ảnh ví dụ được lấy từ tập dữ liệu OULU-NPU 30
2.26Ảnh ví dụ được lấy từ tập dữ liệu SiW 30
2.27Ví dụ trong tập dữ liệu CASIA-FASD, từ trái qua phải tương ứng với trường hợp người thật, giấy in bẻ cong, giấy in cắt mắt, qua màn hình 31
2.28MSU-MFSD (từ trái qua phải): người thật,hiển thị qua video trên iPad, iPhone, và tấn công qua giấy in 32
2.29Ví dụ trong tập dữ liệu ROSE-YOUTU 32
3.1 Biểu diễn các không gian màu khác nhau 34
3.2 Các dạng chính của phương pháp kết hợp thuộc tính thủ công và học sâu [9] 37 3.3 Kiến trúc phương pháp trộn thuộc tính HOG với thuộc tính sâu [10] 38
3.4 Biểu diễn trực quan các thuộc tính có sử dụng HOG (dòng cuối) và không sử dụng HOG (dòng thứ 2) 38
3.5 Các dạng tiếp cận dựa trên học sâu truyền thống [2] 39
3.6 Xác định vị trí gương mặt thông qua các điểm landmark [11] 40
3.7 Phương pháp tạo nhiều dữ liệu hơn bằng cách thay đổi tỉ lệ chứa gương mặt [11] 41
3.8 Kiến trúc ngắn gọn sử dụng mô hình CNN trong phân loại ảnh [11] 41
3.9 Cột bên trái thể hiện điểm số của từng vùng rút trích đặc trưng, cột bên phải là ước lượng chiều sâu của ảnh, ảnh bên trên là người thật, bên dưới là dạng tấn công [7] 42
Trang 113.10Ước lượng ảnh chiều sâu dựa trên mô hình CNN Hàng trên biểu diễn
trường hợp người thật hàng dưới biểu diễn trường hợp tấn công [7] 43
3.11Trực quan biểu thức tích chập với sự sai khác trung tâm [8] 45
3.12Không gian tìm kiếm của mô hình CDCN 46
3.13So sánh giữa domain adaption với domain generalization [2] 47
4.1 Một ví dụ về tính giá trị LBP [9] 49
4.2 LBP từ ba mặt phẳng trực giao [5] 50
4.3 Kiến trúc mô hình đề xuất là sự kết hợp giữa thuộc tính sâu rút trích từ mạng ResNet với thuộc tính rộng từ LBP 52
4.4 Ma trận nhầm lẫn trên ba tập dữ liệu với thiết lập LBP(8,1) 53
4.5 Ma trận nhầm lẫn trên ba tập dữ liệu với thiết lập LBP(8,3) 54
4.6 Ma trận nhầm lẫn trên ba tập dữ liệu với thiết lập LBP(8,5) 54
Trang 12Danh sách bảng
3.1 Kết quả trên tập CASIA-FASD của phương pháp [3] 35
3.2 Kết quả trên tập Replay-Attack của phương pháp [3] 35
3.3 Kết quả trên tập Replay-Attack, CASIA-FASD của phương pháp [3] 35
3.4 Kết quả trên tập OULU-NPU của phương pháp [10] 37
3.5 Kiến trúc mô hình đề xuất mạng CNN cho rút trích đặc trưng theo vùng (trái) và ước lượng chiều sâu ảnh (phải) 44
3.6 Kết quả trên tập dữ liệu CASIA-FASD trên các không gian màu khác nhau của [7] 45
3.7 Kết quả của mô hình CDCN trên các tập dữ liệu CASIA-FASD, Replay-Attack, MSU-MFSD 45
4.1 Các biến thể của mạng ResNet 51
4.2 Kết quả thực nghiệm ACER (%) trên ba tập dữ liệu với thiết lập mô hình Resnet50 và LBP với các giá trị bán kính lần lượt là 1, 3 và 5 53
4.3 Kết quả trên tập dữ liệu CASIA-FASD 54
4.4 Kết quả trên tập dữ liệu MSU MFSD 55
4.5 Kết quả trên tập ROSE-YOUTU 55
4.6 Kết quả thực nghiệm ACER (%) trên ba tập dữ liệu với thiết lập mô hình Resnet101 và LBP(8,1) 56
Trang 13Chương 1
MỞ ĐẦU
Ngày nay với sự phát triển của công nghệ đặc biệt trong lĩnh vực học sâu, những sảnphẩm liên quan đến nhận diện gương mặt ngày càng được ứng dụng rộng rãi Chúng
ta thấy ứng dụng rất nhiều trong hệ thống giám sát an ninh, quản lý ra vào toà nhà, các
hệ thống xác thực người dùng trong các giao dịch thanh toán hay mở các tài khoảnngân hàng, v.v Công nghệ nhận dạng gương mặt dần thay thế các phương pháp xácthực truyền thống và phù hợp với sự chuyển dịch số ngày nay Bên cạnh sự phát triểnnhanh chóng cũng đi kèm những rủi ro về mặt an ninh bằng các phương pháp tấn công
hệ thống để mạo danh người dùng Các hành vi này ngày càng tinh vi, từ việc sử dụnggiấy in gương mặt với các chất liệu và màu sắc khác nhau đến sử dụng ảnh chụp quamàn hình với độ phân giải từ thấp đến cao Tinh vi hơn, người tấn công còn sử dụngcác loại mặt nạ từ 2D đến 3D nhằm qua mặt hệ thống Bên cạnh các vật liệu tấn công,người ta còn biết cách tận dụng các điều kiện bên ngoài như ánh sáng, góc chụp, v.v
(Hình1.1d), qua màn hình (Hình1.1b,1.1c,1.1e)
Chính những rủi ro ngày càng lớn như vậy, việc phát triển một kỹ thuật nhằm chốnglại các hình thức tấn công là điều hết sức cần thiết Thuật ngữ chuyên ngành đề cậpđến phương pháp này là chống giả mạo gương mặt (face anti-spoofing - FAS) hay còn
có cách gọi khác là phát hiện độ chân thực của ảnh người dùng (liveness detection)
Trang 14Hình 1.1: Một số dạng tấn công từ tập dữ liệu ROSE-YOUTU [1]
Lĩnh vực này ngày càng được quan tâm nhiều hơn trong những năm gần đây chính bởi
thể hiện thống kê số lượng công trình nghiên cứu ngày càng tăng đặc biệt trong 3 nămgần đây khi tìm các từ khoá liên quan trên Google Scholar gồm "face anti-spoofing",
"face liveness detection" và "face presentation attack detection"
Có hai cách tiếp cận chính cho vấn đề chống giả mạo gương mặt Cách đầu tiên dựatrên đặc tính tường minh về sự chân thật đó là dựa trên chuyển động Bằng cách yêucầu người dùng thực hiện các hành vi như chớp mắt, quay đầu, mỉm cười để phát hiệnngười thật Cách tiếp cận này gọi là phát hiện ảnh gương mặt giả mạo dựa trên chuyểnđộng (active liveness) Phương pháp này có hiệu quả đối với các dạng tấn công cơ bảnnhư ảnh chụp nhưng không hiệu quả đối với các dạng tấn công phát lại các cử chỉ quavideo hay sử dụng các loại mặt nạ
Cách tiếp cận thứ hai cố gắng phát hiện các đặc trưng về mặt hình ảnh để phânbiệt đâu là ảnh chụp người thật và không yêu cầu bất kì hành động nào từ ngườidùng Phương pháp này gọi là phát hiện giả mạo thụ động (passive liveness) Passiveliveness giúp trải nghiệm người dùng trở nên tốt hơn khi sử dụng các ứng dụng liênquan Tuy vậy, phương pháp này cần đòi hỏi công nghệ phức tạp để có thể phân biệtảnh chụp người thật chỉ dựa trên các ảnh tĩnh Đây cũng là xu thế của cách tiếp cận
Trang 15Hình 1.2: Số lượng bài báo khoa học công bố được tìm theo keyword "face spoofing", "face liveness detection" và "face presentation attack detection" trên
ngày nay Vì vậy, ở luận văn này trình bày phương pháp chống giả mạo gương mặttheo hướng passive liveness với việc rút trích các đặc trưng một cách có chọn lọc dựatrên các mạng học sâu và các thuộc tính bổ trợ Việc kết hợp các thuộc tính kể trênnhằm cho kết quả cao và tổng quát đối với hầu hết các trường hợp tấn công Bên cạnh
đó việc lựa chọn hướng tiếp cận chỉ dựa trên một tấm ảnh chụp gương mặt sẽ có ứngdụng thực tiễn cao, tích hợp dễ dàng vào các sản phẩm nhận diện gương mặt hiện có
và tăng trải nghiệm của người sử dụng vì không phải yêu cầu người dùng thao tác bất
kì hành động nào
Tổng kết lại, luận văn này có các đóng góp chính như sau:
gương mặt, có ý nghĩa cả về mặt nghiên cứu và ứng dụng thực tiễn
một mô hình học sâu được thiết kế riêng
Trang 16các tập dữ liệu công khai.
Các kết quả của luận văn được kiểm chứng trên các tập dữ liệu công khai về lĩnh
Trang 17Chương 2
GIỚI THIỆU
2.1 Tổng quan về bài toán
Với sự phát triển của công nghệ nhận diện gương mặt và được ứng dụng nhiều trongcuộc sống, việc xác định người đứng trước máy ảnh có phải là người thật chính chủhay không là một vấn đề vô cùng quan trọng Một số phương pháp qua mặt hệ thốngnhư đưa tấm ảnh của người cần xác thực ra trước máy ảnh, phát lại qua một video cómặt người đó hay dùng các loại mặt nạ để qua mặt được hệ thống nhận dạng gươngmặt Chính vì vậy, thành phần phát hiện giả mạo gương mặt đóng vai trò quan trọngtrong bất kỳ một hệ thống nhận dạng gương mặt nào
Hình 2.1: Hệ thống chống giả mạo gương mặt trong hệ thống nhận diện gương mặt
Trang 18Các phương pháp tấn công giả mạo
Các phương pháp tấn công ngày càng tinh vi và đa dạng, về cơ bản có thể chia thànhhai dạng của biểu diễn tấn công là tấn công mạo danh và tấn công làm rối hệ thống.Thứ nhất, với sự phát triển của hệ thống internet đặc biệt là mạng xã hội nơi mà người
ta chia sẻ ảnh hay video của gương mặt rất nhiều, những kẻ tấn công sẽ tận dụng đểdùng các loại ảnh/video này để qua mặt các hệ thống xác thực gương mặt Đây gọi làtấn công mạo danh Dạng thứ hai gọi là tấn công làm rối hệ thống, nơi kẻ tấn công
cố gắng dùng những thủ thuật để qua mặt hệ thống nhưng không nhằm mục đích mạodanh bất kỳ ai Hai dạng tấn công này được đã được ghi nhận theo tiêu chuẩn ISO
dạng tấn công và các phương pháp liên quan đến tấn công giả mạo
Các dạng biểu diễn tấn công của tấn công mạo danh bao gồm tấn công thông quaảnh, qua video hay mặt nạ 3D Trong khi đó, tấn công gây rối hệ thống dựa trên cácmẹo để qua mặt hệ thống như sử dụng yếu tố trang điểm, phẫu thuật thẩm mỹ hay che
đưa ra một vài ví dụ từ các tập dữ liệu công khai
Dạng tấn công qua ảnh, và qua phát lại video là hai dạng tấn công tiêu biểu nhất
vì chi phí rẻ để tái tạo và quá trình thu thập ảnh dễ dàng từ mạng xã hội hay trên môitrường internet Nhiều cách đã được sử dụng bởi người tấn công để đánh lừa hệ thống
nhiều kích thước như A3/A4, chất liệu giấy như giấy thông thường hay giấy chuyêndụng cho ảnh kỹ thuật số) Bên cạnh ảnh được in ra, người tấn công có thể phát lại
thấy dạng tấn công dùng ảnh, tuy nhiên có sử dụng yếu tố bẻ cong để tạo chiều sâu
ra còn có thể cắt ảnh ở các bộ phận khác để thực hiện một số hành vi từ hệ thống nhưchớp mắt hay cười Bên cạnh sử dụng ảnh tĩnh thì dạng tấn công qua video sẽ tinh
Trang 19Hình 2.2: Phân loại các dạng tấn công giả mạo
mắt, thay đổi biểu cảm, để qua mặt hệ thống
Trái với các dạng tấn công qua ảnh hay qua video (bản chất đều là không gian 2D),dạng tấn công bằng mặt nạ cố gắng tái tạo những đặc điểm 3D của gương mặt Các
thức đối với các hệ thống chống giả mạo gương mặt Ngày nay việc tạo ra mặt nạ 3Dthường chi phí sẽ cao và đòi hỏi phải có sự hợp tác của người trên mặt nạ thì việc táitạo mới đảm bảo chính xác Chính những yếu tố này mà dạng tấn công này ít phổ biếnhơn dạng tấn công qua ảnh hay video
Trang 20Hình 2.3: Ví dụ các dạng tấn công giả mạo
Cách thức đánh giá
Về phương pháp đánh giá, có thể sử dụng các độ đo phổ biến như tỉ lệ từ chối sai False Rejection Rate (FRR) hay tỉ lệ chấp nhận sai - False Acceptance Rate (FAR).EER là giá trị khi hai chỉ số trên bằng nhau Các chỉ số này thường dùng trong các hệthống sinh trắc học, do đó có thể dùng trong hệ thống chống giả mạo gương mặt Xéttrường hợp tấn công là trường hợp positive, với định nghĩa dưới đây
Bên cạnh đó, hiện nay các công trình dựa trên tiêu chuẩn ISO/IEC 30107-3 gồmcác độ đo: Attack Presentation Classification Error Rate (APCER) - tỉ lệ lỗi phân loại
Trang 21Hình 2.4: Mô tả các tỉ lệ lỗi FAR, FRR, EER
tấn công, Bona Fide Presentation Classification Error Rate (BPCER) - tỉ lệ lỗi phânloại người thật, and Average Classification Error Rate (ACER) - tỉ lệ lỗi phân loạitrung bình Công thức cụ thể như dưới đây:
ACER= APCER+BPCER2Mục tiêu của các hệ thống chống giả mạo là giảm thiểu các tỉ lệ lỗi trên Tuy nhiêntuỳ vào yêu cầu của từng hệ thống mà người ta quan tâm đến một chỉ số hơn các chỉ
số còn lại Ví dụ nếu thiết kế hệ thống đảm bảo không cho phép bất kỳ trường hợp tấncông nào thì các tỉ lệ lỗi liên quan đến tấn công cần được tối thiểu, tất nhiên vẫn đảmbảo các tỉ lệ lỗi của người thật vẫn ở mức chấp nhận được
2.2 Các nền tảng
Các khái niệm
Một vài khái niệm tiêu biểu cho hệ thống chống giả mạo gương mặt:
Trang 22• FAS - Face Anti-Spoofing (Chống giả mạo gương mặt): là việc phát hiện cáchình thức tấn công dựa trên gương mặt thường được tích hợp trong hệ thốngnhận diện gương mặt hay một hệ thống độc lập để kiểm tra độ chân thật của ảnhgương mặt.
công giả mạo gương mặt đã được liệt kê như tấn công sử dụng giấy in, phát lạiqua các loại màn hình hay tinh vi hơn là sử dụng các dạng mặt nạ,
Các hướng giải quyết cho vấn đề phát hiện giả mạo
Có hai hướng chính cho vấn đề phát hiện giả mạo: sử dụng chuyển động của ngườidùng (active liveness) và không sử dụng chuyển động (passive liveness) Đối với ac-tive liveness, hệ thống sẽ yêu cầu người dùng thực hiện các thao tác như cười, nháymắt, xoay đầu để bắt được các hành động này Hệ thống này sẽ làm việc tốt với cácdạng tấn công in qua giấy, nhưng sẽ gặp khó khăn với các dạng tấn công phát lại quavideo hay dùng mặt nạ Dạng chống tấn công thứ hai được gọi là passive liveness, ởdạng này không yêu cầu bất kỳ chuyển động nào, chỉ cần dùng một tấm ảnh là có thểphát hiện được các trường hợp giả mạo
Xét về phương pháp kỹ thuật, có thể chia ra thành 5 nhóm chính:
định chuyển động của biểu diễn gương mặt Các phương pháp chính là sử dụngchuyển động của đầu, biểu cảm gương mặt hay các thay đổi tinh vi hơn như tínhiệu chuyển động của máu Vì vậy những phương pháp này có thể chia thành hainhóm:
– Phương pháp dựa trên chuyển động thông thường yêu cầu đầu vào là một
video để phân biệt gương mặt thường với những bức ảnh tĩnh Phương phápnày hữu hiệu với các dạng tấn công dùng ảnh tĩnh nhưng không có tác dụngvới tấn công phát lại các chuyển động qua videop hay sử dụng mặt nạ 3D
Trang 23– Remote PhotoPlethysmoGraphy (rPPG): Đây là phương pháp được sử dụng
rộng rãi nhất trong việc đánh giá sự thay đổi tin vi của nhịp máu Phươngpháp này có thể phát hiện các dạng tấn công qua ảnh hay mặt nạ 3D vì cácdạng này không thể hiện chuyển động tinh vi trên gương mặt Chúng cũngphát hiện tốt đối với các dạng tấn công qua video độ phân giải thấp Tuynhiên video phát lại với độ phân giải cao, phương pháp này sẽ không hữuhiệu
thành hai thuộc tính tĩnh và động Ở thuộc tính tĩnh có thể dùng các phương pháp
sử dụng những thuộc tính thủ công hay thuộc tính của mạng deep learning đểrút trích thông tin từ một ảnh Ở thuộc tính động phải kết hợp việc xử lý nhiềukhung ảnh để có được các thuộc tính về thời gian Phương pháp này hiệu quả vớihầu hết các dạng tấn công, tuy nhiên với trường hợp mặt nạ 3D vô cùng tinh viphương pháp này sẽ không hữu hiệu vì mặt nạ 3D có các đặc điểm bề mặt tương
tự như mặt thật
này dùng thêm những thành phần từ ảnh như hình dạng 3D hay ước lượng chiềusâu của ảnh dựa trên thuật toán Phương pháp này hiệu quả với dạng tấn côngqua ảnh và video, không hiệu quả cao đối với trường hợp sử dụng mặt nạ 3D
các phương pháp trước đó lại với nhau nhằm tối ưu kết quả Ví dụ như kết hợp cảnhững thuộc tính về sự sống và thuộc tính liên quan đến đặc điểm bề mặt
kiến trúc của mạng học sâu, các phương pháp học một nhóm,
Mạng nơ-ron nhân tạo
Mạng nơ-ron (neural network) là một kiến trúc được lấy cảm hứng từ mạng nơ-ronthần kinh của con người Với các tiến bộ của khoa học cũng như việc ứng dụng
Trang 24Hình 2.5: Kiến trúc mạng cơ bản
các công nghệ học sâu (Deep learning), Neural Network đã trở thành một công cụmạnh mẽ giúp giải quyết rất nhiều bài toán khó như xử lý, nhận dạng ảnh (ComputerVision), giọng nói (Speech processing), xử lý ngôn ngữ tự nhiên (Natural languageprocessing)
Nơron và hàm kích hoạt
Mạng nơ-ron là mạng được lấy cảm hứng từ mô hình não người Với cấu tạo từ nơron
và kết nối não người có thể thực hiện được rất nhiều các tác vụ phức tạp Tương tựnhư vậy thì các mạng nơron máy tính cũng được cấu tạo bởi các nơron ( node mạng)
ở dạng đơn giản Một node sẽ nhận một hoặc nhiều đầu vào và cho ra một kết quả duynhất Các đầu vào được điều phối tầm ảnh hưởng bởi các trọng số (weights) tươngứng của nó, còn kết quả đầu ra được quyết định dựa vào một ngưỡng (bias) quyết địnhthông qua một Step Function (Sigmoid, Tanh, Relu, ) hay gọi là các hàm kích hoạt.Các hàm kích hoạt luôn là các hàm phi tuyến (non-linear) Lý do xuất phát chính từcấu trúc của các mạng nơron, giả sử chỉ sử dụng các hàm tuyến tính để làm hàm kíchhoạt thì tương tự với việc dùng thêm một tầng ẩn nữa vì các phép biến đổi cũng chỉ
Trang 25đơn thuần là nhân thêm với một trọng số nào đó Các phép biến đổi đơn giản như vậythì mô hình mạng sẽ không có khả năng học được những mối quan hệ phức tạp giữacác dữ liệu, cũng không có khả năng giải quyết được những bài toán phức tạp như xử
lý ảnh hay xử lý ngôn ngữ tự nhiên
Các hàm kích hoạt thường dùng
tính đơn giản khi lập trình và hiệu quả trong nhiều tác vụ dự đoán ReLU là mộtphép biến đổi phi tuyến đơn giản Cho trước một phần tử z , ta định nghĩa hàmReLU là giá trị lớn nhất giữa chính phần tử đó và 0
Hàm ReLU chỉ giữ lại các phần tử có giá trị dương và loại bỏ tất cả các phần tử
có giá trị âm (đặt kích hoạt tương ứng là 0) Có một vài biến thể của ReLU, tiêubiểu là hàm ReLU được tham số hoá (pReLU), mục đích thêm một phần tuyếntính vào ReLU, do đó một số thông tin vẫn được giữ lại ngay cả khi đối số là âm
được gọi là hàm ép: nó ép một giá trị đầu vào bất kỳ nằm trong khoảng ( - ∞ , ∞)thành một giá trị đầu ra nằm trong khoảng (0, 1)
1 + exp(−x)Khi phương pháp học dựa trên gradient trở nên phổ biến, hàm sigmoid là mộtlựa chọn tất yếu của đơn vị ngưỡng bởi tính liên tục và khả vi của nó Tuy nhiên,trong các tầng ẩn, hàm sigmoid hầu hết bị thay thế bằng hàm ReLU vì nó đơngiản hơn và giúp cho việc huấn luyện trở nên dễ dàng hơn
Trang 26Hình 2.6: Kiến trúc mạng nơ-ron cơ bản
các biến đầu vào và biến đổi chúng thành các phần tử nằm trong khoảng -1 và 1:
1 + exp(−2x)Nếu đầu vào có giá trị gần bằng 0, hàm tanh sẽ tiến đến một phép biến đổi tuyếntính
Kiến trúc mạng nơ-ron
Mạng nơ-ron được cấu tạo từ nhiều tầng (layer) lại với nhau Trong mỗi tầng lại bao
logic, suy luận của mạng
Giữa các tầng có các liên kết bởi những nơ-ron trong mỗi tầng hoặc là giữa các tầngvới nhau Trong mỗi tầng có thể có số lượng nơ-ron khác nhau cũng như các kết nốikhác nhau
Trang 27Quá trình học
Ở đây chúng ta đề cập đến hai khái niệm lan truyền xuôi và Lan truyền ngược
Lan truyền xuôi (feedforward) : Với mô hình mạng ở trên, thì các node được kếtnối một chiều duy nhất từ đầu đến cuối mà không có suy luận ngược lại, hay chúng ta
có thể nói đấy là việc Lan truyền xuôi
Lan truyền ngược (backpropagation) : Để huấn luyện mô hình thì sẽ định nghĩamột hàm mất mát Với các bài toán học có giám sát, hàm mất mát được hiểu đơn giản
là sự sai lệch giữa kết quả đầu ra của mô hình và kết quả thật
Giả sử với cặp dữ liệu (x0, y0) được kết quả sau khi đưa qua mô hình là (x0, f (x0))
nơ-ron được coi là tốt khi mà sự sai khác giữa hai giá trị trên là nhỏ Việc huấn luyện
mô hình chính là việc điều chỉnh các tham số sao cho tối ưu hàm mất mát
Mạng Nơron tích chập
Trong mạng nơ-ron, mạng nơ-ron tích chập (ConvNets hay CNNs, ConvolutionalNeural Network) là một trong những phương pháp chính để thực hiện nhận dạnghình ảnh, phân loại hình ảnh CNN được sử dụng rộng rãi trong một số lĩnh vực nhưphát hiện đối tượng, nhận dạng khuôn mặt,
Convolutional Neural Network là một trong những phương pháp chính khi sử dụng
dữ liệu về ảnh Kiến trúc mạng này xuất hiện do các phương pháp xử lý dữ liệu ảnhthường sử dụng giá trị của từng pixel Vậy nên với một ảnh có giá trị kích thước
đầu vào Điều đó kéo theo việc có một số lượng lớn tham số dẫn đến mạng nơ-rontrở nên quá lớn, gây khó khăn cho việc tính toán Hơn nữa, quan sát có thể thấy rằngthông tin của các pixel thường chỉ chịu tác động bởi các pixel ngay gần nó, vậy nênviệc bỏ qua một số nút ở tầng đầu vào trong mỗi lần huấn luyện sẽ không làm giảm
độ chính xác của mô hình Do đó việc sử dụng cửa số tích chập nhằm giải quyết vấn
đề số lượng tham số lớn mà vẫn trích xuất được đặc trưng của ảnh
Trang 28ta sẽ học được những đặc trưng khác nhau của ảnh, nên trong mỗi lớp tích chập dùngnhiều bộ lọc để học được nhiều thuộc tính của ảnh Kết quả của lớp tích chập sẽ quahàm kích hoạt trước khi trở thành đầu vào của lớp tích chập tiếp theo
Lớp pooling
Lớp pooling thường được dùng giữa các lớp tích chập, để giảm kích thước dữ liệunhưng vẫn giữ được các thuộc tính quan trọng Kích thước dữ liệu giảm giúp giảm
Trang 29Hình 2.8: Quá trình tính toán của lớp tích chập
việc tính toán trong mô hình Trong quá trình này, quy tắc về stride và padding ápdụng như phép tính tích chập trên ảnh Có 2 dạng pooling chính là max pooling vàaverage pooling tương ứng với việc lấy giá trị lớn nhất hay lấy trung bình các giá trị
stride bằng 2 Kết quả với mỗi cửa sổ đang xét, giá trị lớn nhất được lấy ra
Lớp kết nối đầy đủ
Lớp kết nối đầy đủ (Fully Connected Layer - FC) nhận đầu vào là các dữ liệu đã đượclàm phẳng, mà mỗi đầu vào đó được kết nối đến tất cả nơ-ron Trong mô hình mạngCNNs, các tầng kết nối đầy đủ thường được tìm thấy ở cuối mạng và được dùng để tối
Trang 30Mạng ResNet là một mạng CNN được thiết kế để làm việc với hàng trăm hoặchàng nghìn lớp chập Một vấn đề xảy ra khi xây dựng mạng CNN với nhiều lớp chập
Trang 31Hình 2.11: Một khối trong mạng resnet
sẽ xảy ra hiện tượng suy giảm đạo hàm dẫn tới quá trình học tập không tốt
Trước hết thì thuật toán backpropagation là một kỹ thuật thường được sử dụng trongquá trình huấn luyện Ý tưởng chung của thuật toán là sẽ đi từ output layer đến inputlayer và tính toán đạo hàm của hàm mất mát tương ứng cho từng parameter (weight)của mạng Gradient descent sau đó được sử dụng để cập nhật các parameter đó.Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các tham số của mạngđược hội tụ Thông thường chúng ta sẽ có một siêu tham số - hyperparametr (số epoch
- số lần mà tập huấn luyện được duyệt qua một lần và trọng số được cập nhật) địnhnghĩa cho số lượng vòng lặp để thực hiện quá trình này Nếu số lượng vòng lặp quánhỏ thì ta gặp phải trường hợp mạng có thể sẽ không cho ra kết quả tốt và ngược lạithời gian huấn luyện sẽ lâu nếu số lượng vòng lặp quá lớn Tuy nhiên, trong thực tếGradients thường sẽ có giá trị nhỏ dần khi đi xuống các layer thấp hơn Dẫn đến kếtquả là các cập nhật thực hiện bởi Gradients Descent không làm thay đổi nhiều trọng
số của các layer đó và làm chúng không thể hội tụ và mạng sẽ không thu được kết quảtốt Mạng ResNet ra đời cũng giải quyết vấn đề đó
Kiến trúc mạng ResNet
Cho nên giải pháp mà ResNet đưa ra là sử dụng kết nối "tắt" đồng nhất để xuyên quamột hay nhiều lớp Một khối như vậy được gọi là một Residual Block, như trong hình
2.11
Trang 32Hình 2.12: Các biến thể của mạng ResNet
Hình 2.13: Kiến trúc mạng Resnet-50
ResNet gần như tương tự với các mạng gồm có convolution, pooling, activation vàfully-connected layer Ảnh bên trên hiển thị khối dư được sử dụng trong mạng Xuấthiện một mũi tên cong xuất phát từ đầu và kết thúc tại cuối khối dư Hay nói cáchkhác là sẽ bổ sung dữ liệu đầu vào vào đầu ra của layer, hay chính là phép cộng mà
ta thấy trong hình minh họa, việc này sẽ chống lại việc đạo hàm bằng 0, do vẫn còncộng thêm X Với H(x) là giá trị dự đoán, F(x) là giá trị thật (nhãn), chúng ta muốnH(x) bằng hoặc xấp xỉ F(x)
Xây dựng mạng ResNet-50
Hình dưới đây mô tả chi tiết kiến trúc mạng nơ ron ResNet-50 :
"ID BLOCK" trong hình trên là viết tắt của từ Identity block và ID BLOCK x3nghĩa là có 3 khối Identity block chồng lên nhau Quá trình trải qua 5 giai đoạn chính
Trang 33• Zero-padding : Input với (3,3)
BatchNorm, MaxPooling (3,3)
2 Identity blocks với filter size 64x64x256, f=3
blocks với filter size 128x128x512, f=3
Iden-tity blocks với filter size 256x256x1024, f=3
Iden-tity blocks với filter size 512x512x2048, f=3
Bên cạnh mạng Resnet-50 phổ biến, các biến thể của Resnet cũng rất đa dạng ở
Resnet-34, Resnet-50, Resnet-101, Resnet-152
2.3 Các tiếp cận đã đề xuất
Các cách tiếp cận truyền thống tập trung chủ yếu vào rút trích các thuộc tính thủ công
rút trích thông tin Bằng cách kết hợp xử lý dữ liệu đầu vào chuyển từ dạng ảnh RGBsang YCbCr để tính LBP Mỗi kênh màu được tính giá trị LBP riêng, sau đó kết hợplại và dùng giải thuật LBP để phân loại Đạt được kết quả tốt nhất trên tập CASIA-
Trang 34mô tả kiến trúc đề xuất của tác giả Một thuộc tính thủ công khác được sử dụng là
đề dữ liệu ảnh có những độ sáng và chất lượng ảnh khác nhau Phương pháp này còn
sử dụng thêm một khối phát hiện vùng trên của cơ thể để đưa ra quyết định sớm, vốnhiệu quả đối với các dạng tấn công chỉ dùng ảnh hay video mà không xuất hiện cơ thểtrên của người Thuộc tính HOG được tính toán và sử dụng giải thuật SVM để phân
Kết quả đạt được tốt nhất trên tập dữ liệu CASIA-FASD với EER bằng 2.2%
kết hợp thêm chiều thời gian trong việc tính thuộc tính LBP Thay vì chỉ xét khônggian XY như LBP truyền thống, LBP-TOP sử dụng thêm chiều thời gian T, với mỗigiá trị cần tính LBP là tổng hợp của ba mặt phẳng trực giao XY, XT và YT Thực
Trang 35Hình 2.16: Mô hình đề xuất của [4]
nghiệm trên tập Replay Attack cho kết quả tốt với HTER bằng 7.6% cải thiện so với
Với sự phát triển của các mạng học sâu, những phương pháp dựa trên các mạng
rút trích thuộc tính dựa trên mạng CNNs với hai giai đoạn Giai đoạn 1 fine-tuneing
mô hình VGG-face đoạn 2 dùng mô hình đã fine-tune để rút trích đặc trưng Phươngpháp thu giảm số chiều được sử dụng để tránh bị over-fitting theo sau đó là bộ phânlớp SVM để phân loại dữ liệu Kết quả đạt được EER bằng 4.5% trên tập dữ liệu
hợp những thuộc tính sâu và thuộc tính liên quan đến chuyển động nhắm mở mắt.Một video được phân loại là thực thể sống nếu cả hai thuộc tính của hai phương phápđều cho kết quả ảnh thật Kết quả thực nghiệm cho thấy phương pháp này đạt kết quả
đề xuất phương pháp ước lượng chiều sâu của ảnh và kết hợp rút trích đặc trưng theonhiều vùng trên ảnh Kết quả là sự kết hợp của rút trích đặc trưng dưới dạng chiều sâu
Trang 36Hình 2.18: Mô hình được Lei Li và cộng sự đề xuất [6]
này Về rút trích đặc trưng theo nhiều vùng, tác giả đã sử dụng nhiều không gian màukhác nhau như HSV và YCbCr để tăng độ chính xác của phương pháp Để ước lượngđược ảnh chiều sâu của ảnh, tác giả đã đề xuất một kiến trúc mới dựa trên mạng tích
đầu tiên là người thật và ảnh ước lượng chiều sâu tương ứng, các trường hợp còn lạithuộc nhóm giả mạo Ta có thể thấy sự khác nhau lớn giữa chiều sâu của trường hợpngười thật với các dạng tấn công như qua giấy in hay màn hình ở các cột phía sau.Kết quả mô hình kết hợp cho kết quả tốt nhất trên cả hai tập dữ liệu CASIA-FASD vàReplay Attack với EER lần lượt là 2.67% và 0.79%
chập bằng cách thêm vào một đại lượng sai khác của giá trị trung tâm với các giá trị
Trang 37Hình 2.19: Mô hình được Atoum và cộng sự đề xuất [7]
Hình 2.20: Ước lượng ảnh chiều sâu, hai cột đầu tiên chỉ trường hợp người thật, cáccột còn lại là các hình thức tấn công [7]
lân cận Đồng thời tác giả sử dụng phương pháp tìm kiếm tự động kiến trúc mạng để
thông qua giải thuật tìm kiếm kiến trúc mạng Kết quả là ước lượng ảnh chiều sâu củaảnh gương mặt đầu vào Nếu trường hợp người thật, tức có ảnh chiều sâu, các giá trịvùng sáng sẽ chiếm ưu thế, ngược lại nếu trường hợp tấn công, kết quả sẽ là vùng tốichiếm ưu thế Kết quả đạt được tốt nhất trên các tập dữ liệu công khai hiện tại
Trang 38Hình 2.21: Mô hình được Zitong và cộng sự và cộng sự đề xuất [8]
2.4 Một số hệ thống đã phát triển và ứng dụng trong
thực tế
Vấn đề chống giả mạo gương mặt ngày càng trở nên cấp thiết bởi các hình thức tấncông ngày càng tinh vi và đem lại rủi ro các với các hoạt động trên không gian sốđặc biệt trong các hình thức xác thực tài chính trực tiếp Do đó các tổ chức quốc tế
đã đề ra các bộ giải pháp để cùng giải quyết vấn đề này Tổ chức tiêu chuẩn hoá quốc
tế (International Organization for Standardization - ISO) đã đề ra các quy chuẩn vềchống giả mạo gương mặt bao gồm toàn bộ các quy chuẩn về các dạng tấn công,các mức độ phòng chống và các quy chuẩn liên quan đến xây dựng bộ giải pháp
(National Institute of Standards and Technology - NIST) đã cung cấp các hướng dẫn
để xây dựng các quy trình kiểm thử để đảm bảo các hệ thống xác thực thoả mãn cáctiêu chuẩn về chống giả mạo gương mặt Các phòng thực nghiệm đã dần áp dụng cácquy chuẩn ISO và hướng dẫn của NIST để đánh giá các hệ thống xác thực giả mạo.Tiêu biểu là tổ chức iBeta - viện kiểm định phần mềm có trụ sở tại Mỹ iBeta đã đề rahai mức độ kiểm thử dựa trên ISO/IEC 30107 về chống giả mạo gương mặt
được 6 dạng tấn công chia thành ba nhóm: qua giấy in, qua màn hình, và mặt nạ3D đơn giản Số lần thực hiện tấn công là 1200 lần đảm bảo không được phép cótrường hợp qua mặt hệ thống
ISO yêu cầu các hệ thống phải chống lại các dạng tấn công tinh vi hơn dưới dạng
Trang 39mặt nạ 3D cao cấp.
Có tổng số 75 công ty đạt được chứng nhận ISO/IEC 30107 trên toàn thế giới vớikiểm định bởi iBeta, trong đó có khoảng 20 công ty đạt được chứng nhận cấp độ 2.Dưới đây là hai công ty tiêu biểu sử dụng công nghệ chống giả mạo gương mặt dượciBeta chứng nhận cấp độ 2
Zoom - Công nghệ chống giả mạo gương mặt của FaceTec [ 16 ]
Hình 2.22: Giải pháp chống giả mạo gương mặt của FaceTec
FaceTec là công ty chuyên cung cấp giải pháp về xác thực gương mặt và chốnggiả mạo, Zoom là sản phẩm chuyên về chống giả mạo gương mặt có độ uy tín hàng
kiểm tra độ chân thực người dùng được thực hiện thông qua chuyển động gương mặtlại gần màn hình điện thoại Ứng dụng Zoom của FaceTec hỗ trợ đa nền tảng với tỉ
lệ sai bằng 0 Khả năng hoạt động với cả điều kiện môi trường ánh sáng, biểu cảmgương mặt khác nhau Theo công bố, Zoom sử dụng công nghệ tái tạo không gian 3D
Trang 40của gương mặt để xác thực độ chân thật của ảnh Điểm hạn chế của ứng dụng này làyêu cầu người dùng thực hiện chuyển động, đôi lúc sẽ gây khó khăn cho một số người
sử dụng Các đối tác sử dụng ứng dụng Zoom rất đa dạng, bao gồm chủ yếu các tổ
mà sử dụng ứng dụng chống giả mạo của Zoom
Hình 2.23: Các tổ chức sử dụng ứng dụng chống giả mạo gương mặt Zoom
IDLive - Giải pháp chống giả mạo gương mặt passive của IDRND [ 17 ]
IDLive là giải pháp chống giả mạo gương mặt của IDRND, một công ty có trụ sởtại Mỹ Giải pháp đạt được chứng nhận iBeta mức độ 2 cho ứng dụng chống giả mạokhông dùng chuyển động (passive) Ứng dụng này chỉ cần chụp một tấm ảnh của ngườidùng, không yêu cầu bất kỳ chuyển động để xác thực người thật hay tấn công Bêncạnh độ chính xác cao (được kiểm thử bởi iBeta), IDLive còn mang đến trải nghiệmtốt cho người dùng khi không yêu cầu bất kỳ thao tác chuyển động nào Tương tự vớicác công ty cung cấp giải pháp chống giả mạo gương mặt, khách hàng của IDRNDphần lớn đến từ các tổ chức tài chính trên thế giới