Do mỗi frame cóthể xem là một hình ảnh tĩnh, do đó có thể áp dụng nhiều phương pháp truyềnthống cho hình ảnh tĩnh như phương pháp mô hình thống kê Statisticalmodeling method, phương pháp
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
VŨ THÁI LINH
NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET
VÀ PRINCIPLE COMPONENT ANALYSIS (PCA)
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên, 2018
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
VŨ THÁI LINH
NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET
VÀ PRINCIPLE COMPONENT ANALYSIS (PCA)
Chuyên ngành: Khoa học máy tính
Mã số: 8 480 101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS NGUYỄN TOÀN THẮNG
Thái Nguyên, 2018
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm củariêng cá nhân, không sao chép lại của người khác Trong toàn bộ nội dung củaluận văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổnghợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõràng và được trích dẫn hợp pháp
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theoquy định cho lời cam đoan của mình
Tác giả luận văn
Vũ Thái Linh
Trang 4Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến thầygiáo TS Nguyễn Toàn Thắng người đã tận tình hướng dẫn, chỉ bảo và giúp
đỡ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn này
Tôi cũng xin bày tỏ lòng cảm ơn đến gia đình và bạn bè, những ngườiluôn quan tâm, động viên và khuyến khích tôi
Tác giả luận văn
Vũ Thái Linh
Trang 53
Trang 6TRANG BÌA PHỤ
MỤC LỤC
Trang
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC BẢNG v
DANH MỤC HÌNH ẢNH vi
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT NGƯỜI 1
1.1 Giới thiệu chung về nhận dạng khuôn mặt 1
1.2 Các phương pháp phát hiện khuôn mặt .3
1.2.1 Các phương pháp phát hiện tiêu biểu 4
1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều .5
1.3 Các phương pháp theo dõi khuôn mặt 6
1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu .7
1.3.2 Các phương pháp theo dõi thời gian thực 9
1.4 Nhận dạng khuôn mặt 10
1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin 11
1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê 12
1.4.3 Phương pháp nhận dạng dựa trên những gợi ý lai 13
1.4.4 Các phương pháp nâng cao trong nhận dạng khuôn mặt 13
1.5 Các cơ sở dữ liệu ảnh và video nổi tiếng 18
KẾT LUẬN CHƯƠNG 1 20
CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT NGƯỜI SỬ DỤNG PCA QUA BIẾN ĐỔI WAVELET 21
2.1 Biến đổi Wavelet 23
Trang 72.1.1 Giới thiệu về Wavelet 23
2.1.2 Lựa chọn Wavelet 28
2.2 Đánh giá về PCA và Eigenfaces để nhận dạng khuôn mặt 30
2.2.1 Phân tích thành phần chính - PCA 30
2.2.2 Eigenfaces 32
2.3 Giai đoạn huấn luyện 33
2.4 Giai đoạn nhận dạng 36
KẾT LUẬN CHƯƠNG 2 38
CHƯƠNG 3 ỨNG DỤNG ĐIỂM DANH 39
3.1 Giới thiệu bài toán 39
3.2 Giao diện và hoạt động của chương trình 39
3.3 Đánh giá kết quả thu được 42
KẾT LUẬN CHƯƠNG 3 47
KẾT LUẬN CHUNG 48
TÀI LIỆU THAM KHẢO 50
Trang 9DANH MỤC BẢNG
TrangBảng 1.1: Cơ sở dữ liệu mặt 19Bảng 2.1: Tỷ lệ nhận dạng bằng cách sử dụng các wavelet khác nhau trên
cơ sở dữ liệu của Yale 24Bảng 2.2: Sự chênh lệch của các hình ảnh subband của WT và độ phân giải
của nó trong Hình 2.3 (b) .28Bảng 2.3: Tỉ lệ nhận dạng khuôn mặt trên các subband khác nhau 29Bảng 3.1: So sánh hiệu năng sử dụng cơ sở dữ liệu huấn luyện 44
Trang 11DANH MỤC HÌNH ẢNH
Trang
Hình 1.1: Quy trình nhận dạng khuôn mặt trong video 3
Hình 2.1 Sơ đồ khối của hệ thống nhận dạng khuôn mặt được đề xuất 22
Hình 2.2: (a) Phân rã wavelet cấp 1 và (b) Phân rã wavelet cấp 3 và phân rã wavelet cấp 6, dải A bị phân rã một lần nữa .26
Hình 2.3: (a) Một hình ảnh gốc có độ phân giải 128x128; (b) Sự phân rã WT ba mức của hình ảnh (a) .27
Hình 2.4 Biểu diễn ảnh 33
Hình 2.5: (a) Năm hình ảnh từ Đại học Brown 35
(b) Hình ảnh biểu diễn đào tạo dựa trên subband 4 35
Hình 3.1: Tập ảnh huấn luyện thực tế 40
Hình 3.2: Giao diện khi huấn luyện cơ sở dữ liệu 41
Hình 3.3: Giao diện khi nhận dạng được khuôn mặt 42
Hình 3.4: Hình ảnh từ cơ sở dữ liệu tập huấn với các biểu hiện trên khuôn mặt khác nhau, điều kiện chiếu sáng .43
Hình 3.5: Hình ảnh hệ thống nhận dạng nhiều người một lúc 44
Hình 3.6: Hình ảnh hệ thống nhận dạng với người không có trong cơ sở dữ liệu huấn luyện 45
Hình 3.7: Hình ảnh hệ thống nhận dạng với nhiều người không có trong cơ sở dữ liệu huấn luyện 46
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT NGƯỜI 1.1 Giới thiệu chung về nhận dạng khuôn mặt
Trong những năm qua, nhận dạng khuôn mặt trong video đã nhận được
sự chú ý đáng kể Đã xuất hiện những công nghệ khả thi sau nhiều thập niênnghiên cứu đóng góp vào xu thế này, chúng không chỉ ứng dụng vào các ứngdụng thương mại, ứng dụng bảo mật mà còn nhiều lĩnh vực khác trong cuộcsống Mặc dù hệ thống nhận dạng khuôn mặt hiện tại đã đạt đến một mức độphát triển nhất định, nhưng chúng vẫn còn nhiều hạn chế khi áp dụng vào cácđiều kiện thực tế Ví dụ, các hình ảnh nhận dạng của video được lấy trong môitrường thực tế với sự thay đổi độ sáng, khuôn mặt nghiêng hoặc độ phân giảithấp của hình ảnh thu được vẫn là vấn đề khó giải quyết Nói cách khác, cácthuật toán hiện tại vẫn chưa được hoàn thiện tốt nhất Trong chương này, sựphát triển hiện tại của nhận dạng khuôn mặt dựa trên video được chia thànhcác mục như sau:
Phần 1.1 Giới thiệu chung
Phần 1.2 Giới thiệu các kỹ thuật điển hình của việc phát hiện khuônmặt trong video, thời gian thực và đa chiều
Phần 1.3 Các phương pháp theo dõi gương mặt điển hình
Phần 1.4 So sánh với hình ảnh tĩnh, và liệt kê những thuận lợi và bất lợicủa nhận dạng khuôn mặt trong video Các phương pháp đặc biệt để giải quyết các vấn đề như chiếu sáng, độ phân giải thấp và giới thiệu về 3D
Phần 1.5 Trình bày một số cơ sở dữ liệu dựa trên video nổi tiếng
Từ lần đầu tiên được đề xuất vào những năm 1880, nhận dạng khuônmặt đã nhận được sự chú ý đáng kể và trở thành một trong những hướngnghiên cứu thành công nhất của nhận dạng mẫu Các nghiên cứu đã đưa ranhiều thuật toán có giá trị cho bài toán nhận dạng khuôn mặt, ví dụ …
Trang 13Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA),Elastic Graph Matching (EGM), v.v So với hình ảnh tĩnh, video có thể cungcấp thêm thông tin về không gian và thời gian Do đó, nhận dạng khuôn mặtdựa trên video đã thu hút nhiều sự chú ý hơn trong thời gian gần đây Trongchương này sẽ khảo sát sự nhận dạng khuôn mặt dựa trên video trong nhữngnăm đây Ngay từ đầu, hầu hết các phương pháp đã được dựa trên các kỹthuật xử lý trên các frame (khung hình) dừng nhằm mục đích để lựa chọnframe tốt nhất và sau khi đã làm một số xử lý tương đối
Gần đây các nhà nghiên cứu đã bắt đầu thực sự giải quyết những vấn đềnhư vậy bằng cách thể hiện không gian thời gian Hầu hết các hệ thống hiện
có đều giải quyết các vấn đề nhận dạng khuôn mặt dựa trên video như sau:
Trước tiên, phát hiện khuôn mặt và theo dõi nó theo thời gian Đôikhi chọn các frame hình tốt có mặt trước mặt hoặc các tín hiệu có giá trị làcần thiết
Tiếp theo, khi một frame thỏa mãn các tiêu chí nhất định (kích thước,hình dáng, độ sáng và v.v…), việc nhận dạng được thực hiện bằng cách sửdụng kỹ thuật nhận dạng Hình 1.1 cho thấy toàn bộ quá trình
Trang 14Phát hiện khuôn mặt và Theo dõi khuôn mặt
Trang 15Hình 1.1: Quy trình nhận dạng khuôn mặt trong video
Ngoài ra, một số phương pháp cũng sử dụng tín hiệu kết hợp, chẳnghạn như âm thanh, đi bộ và như vậy, để thực hiện phân tích toàn diện và đưa
ra quyết định
1.2 Các phương pháp phát hiện khuôn mặt.
Phát hiện khuôn mặt là giai đoạn đầu tiên của hệ thống nhận dạngkhuôn mặt Rất nhiều nghiên cứu đã được thực hiện trong lĩnh vực này và đạtđược nhiều kết quả tốt đối với ảnh tĩnh Tuy nhiên các phương pháp này lại cónhiều hạn chế khi áp dụng vào video Trong các cảnh quay video, khuôn mặt
Trang 16của con người có thể có các hướng và vị trí không giới hạn, do đó việc pháthiện khuôn mặt người là một loạt các thách thức đối với các nhà nghiên cứu.Nói chung, có cách tiếp cận cho bài toán phát hiện khuôn mặt dựa trên video.
Thứ nhất là phát hiện khuôn mặt trong từng frame Do mỗi frame cóthể xem là một hình ảnh tĩnh, do đó có thể áp dụng nhiều phương pháp truyềnthống cho hình ảnh tĩnh như phương pháp mô hình thống kê (Statisticalmodeling method), phương pháp dựa trên mạng neuron nhân tạo (neuralnetwork-based method), phương pháp dựa trên SVM, phương pháp dựa trên
mô hình Markov ẩn HMM, phương pháp BOOST và phát hiện khuôn mặt dựatrên màu sắc, v.v… Tuy nhiên, nhược điểm chính của các cách tiếp cận này là
bỏ qua thông tin thời gian thu được từ các frame nối tiếp
Thứ hai, là kết hợp phát hiện và theo dõi, quá trình này phát hiện khuônmặt trong frame đầu tiên và sau đó theo dõi vị trí khuôn mặt qua các frame kếtiếp Do việc phát hiện và theo dõi được độc lập, phương pháp này có thểđánh mất dấu vết của khuôn mặt đươc theo dõi
Hướng tiếp cận thứ ba là khai thác mối quan hệ thời gian giữa cácframe để phát hiện nhiều khuôn mặt người trong một chuỗi video Hướng tiếpcận này phát hiện và dự đoán vị trí của khuôn mặt trong các frame tiếp và sau
đó cập nhật theo dõi Điều này giúp việc phát hiện khuôn mặt ổn định hơn sovới hai hướng tiếp cận trên
1.2.1 Các phương pháp phát hiện tiêu biểu
Vào năm 2000, Zhu Liu và Yao Wang đã trình bày một thủ tục kết hợpnhanh với dynamic programming để phát hiện khuôn mặt và theo dõi nhữngkhuôn mặt không trực diện sử dụng các mô hình khuôn mặt thích nghi Thực
tế quan sát thấy rằng mật độ tập trung các cạnh cao hơn ở các vùng chứa
Trang 17khuôn mặt và mật độ cạnh xuất hiện ít hơn ở các vùng bên ngoài Dựa trênquan sát này, Li Silva, K Aizawa và M Hatori đề xuất một phương pháp đếmcạnh, để phát hiện và theo dõi các đặc trưng của khuôn mặt trong chuỗi video.Han và cộng sự đã phát hiện và theo dõi nhiều đối tượng không xác định bằngcách sử dụng graph structure that maintains multiple hypotheses Và D.Ramanan đã đưa ra các mô hình trình diễn tự động được xây dựng dựa trênphân nhóm thích hợp trên các phân đoạn video Ngoài ra, một số phươngpháp tiếp cận kết hợp tính năng Edge Orientation Features để nâng cao hiệuquả của việc phát hiện vị trí khuôn mặt thời gian thực trên ảnh tĩnh xám Để
sử dụng đầy đủ các thông tin thời gian được cung cấp bởi video, Mikolajczyk,
K và cộng sự đề xuất một phương pháp phát hiện khuôn mặt sử dụng biểu đồđịa phương của các hệ số wavelet đại diện cho một frame phối hợp cố địnhcho đối tượng Zhenqiu Zhang đề xuất Floatboost dựa trên phát hiện khuônmặt để tạo ra một điểm quyết định, và sau đó sử dụng thông tin thời gian đểxác nhận và xác nhận kết quả
1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều.
Phát hiện khuôn mặt nhiều lần và trong thời gian thực là một yêucầu rất quan trọng trong việc phát hiện khuôn mặt dựa trên video Có một
số phương pháp thường được áp dụng để phát hiện khuôn mặt trong thờigian thực:
Sử dụng Haar wavelet kết hợp với Cascade AdaBoost của Viola vàJones
Sử dụng thông tin màu để phát hiện và xác nhận khuôn mặt người.Một kỹ thuật thống kê phi tham số được khai thác bởi Bradski và cộng
sự để phát hiện khuôn mặt trong 3D Schneiderman và Kanade trong IEEEComputer Society Conference on Computer Vision and Pattern Recognition
Trang 18năm 2000 đã công bố hệ thống của họ là hệ thống đầu tiên trên thế giới đểphát hiện khuôn mặt đa diện Trong những năm qua, đã có nhiều tiến bộ tronglĩnh vực này Có hai phương pháp chính:
Phương pháp xây dựng một máy dò duy nhất để áp dụng với tất cả các góc nhìn của khuôn mặt;
Phương pháp xây dựng nhiều máy dò để áp dụng các góc nhìn khác nhau
Feraud và cộng sự đã sử dụng một dãy của 5 máy dò với mỗi máy dòcho một lần kiểm tra Các máy dò quay để nhận ra những thay đổi, dựa trênquỹ đạo của khuôn mặt trong các không gian đặc trưng PCA tuyến tính, S.Gong và cộng sự đã cung cấp một cơ chế hữu ích để điều tra những thay đổinày Thêm vào đó, kiến trúc kim tự tháp được phát hiện trình bày bởi ZhenqiuZhang, trong đó đã áp dụng một chiến lược tổng hợp về sự phân rã từ thấpđến cao và sự phân loại khuôn mặt hoặc không phải khuôn mặt Để đạt được
tỷ lệ lỗi tối thiểu, Li và Zhang đã đề xuất một thuật toán bằng cách tích hợpnguyên lý của cả Cascade AdaBoost và mảng dò
Tuy nhiên, theo hầu hết các cách tiếp cận này, có một vấn đề nghiêmtrọng xảy ra bởi vì tính đa dạng trong lớp của tập dữ liệu khuôn mặt đa diệnrộng lớn hơn so với bộ dữ liệu khuôn mặt chụp trực diện Mặc dù AdaBoost(DPAA) có khả năng xử lý vấn đề này, nhưng do sự phức tạp tăng dẫn đếnviệc tải phép tính cao hơn và không phù hợp trong huấn luyện dữ liệu
1.3 Các phương pháp theo dõi khuôn mặt
Ở các hệ thống nhận dạng khuôn mặt, việc theo dõi khuôn mặt là khaithác sự tương ứng của khuôn mặt theo thời gian giữa các frame Theo dõikhuôn mặt có thể được chia thành ba hướng:
Trang 19 Theo dõi đầu (dựa trên màu, dựa trên mô hình và dựa trên hình dạng).
Theo dõi các đặc điểm trên khuôn mặt
Kết hợp theo dõi đặc điểm trên khuôn mặt và mặt
Đối với xử lý video, thời gian thực chính là tính năng hàng đầu để theodõi khuôn mặt
1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu.
Phương pháp đầu tiên để theo dõi khuôn mặt là dựa trên mô hình,thường bao gồm các mô hình thống kê và dựa trên mẫu Hongli và nhữngngười khác đã áp dụng hiệu quả bản đồ biên cho quá trình theo dõi tiếp theotrên cơ sở kết quả phân đoạn trước Các bước chính trong giai đoạn theo dõi
là sự kết hợp và kết nối các biên với nhau Việc xây dựng trước bản đồ để xácđịnh ranh giới của khuôn mặt và sau đó được sử dụng để trích xuất khu vựcgiữa hai điểm chính
1.3.1.1 Cách tiếp cận dựa trên mô hình
Hager và Belhumeur đã sử dụng một mô hình tham số để theo dõi Môhình Active Appearance Model (AAM) được giới thiệu bởi Cootes và nhữngngười khác, trong đó có một mô hình thống kê về hình dạng và mức độ màuxám của đối tượng chính để mã hóa thông tin hình dạng và cấu trúc Dựa vàoAAM, Jorgen Ahlberg vào năm 2001 đã trình bày một mô hình hoạt động đểtheo dõi những đặc điểm trên khuôn mặt Theo dõi mẫu của J Saragih và RGoecke mở rộng ý tưởng về AAM và đã đạt được kết quả tốt hơn Isard vàBlake đã kết hợp thuật toán ngưng tụ với các đường viền hoạt động đượctham số hóa bởi các vectơ Thuật toán tương tự được khái quát bởi Seo vàcộng sự tại IEEE 5th Asian Control Conference năm 2004, sử dụng đườngviền hoạt động với sự ngưng tụ và cũng như sử dụng thông tin màu sắc
Trang 201.3.1.2 Cách tiếp cận dựa trên màu sắc và hình dạng.
Màu sắc và hình dạng là các tín hiệu quan trọng để theo dõi khuôn mặt
Đã có nhiều phương pháp được đề xuất, một phương pháp theo dõi khuôn mặttốt dựa trên thuật toán ngưng tụ kết hợp màu da với hình dạng khuôn mặt đãđược giới thiệu bởi Hyung-Soo Lee và cộng sự Màu da và hệ thống theo dõikhuôn mặt được xây dựng như là thước đo quan sát tương ứng Kết quả chothấy phương pháp này thậm chí còn tỏ ra ổn định trong khi thay đổi ánh sángđột ngột Tương tự như vậy, F.M Noguer và Alberto Sanfeliu đề xuất việc sửdụng một phương pháp không gian màu mới dựa trên phương pháp LinearDiscriminate Analysis kết hợp màu sắc và hình dạng khuôn mặt thành thuậttoán ngưng tụ Ying Ren và Chin Seng Chua tích hợp quy trình theo dõi vớimiền không gian và đề xuất phương pháp Bilateral Learning Thuật toán của
họ chủ yếu chọn các mẫu đáng tin cậy để cập nhật mô hình màu và khônggian trong EM framework và nó không cần mô hình hình dạng chính xác.Jwu-Sheng Hu đã đưa ra một phương pháp theo dõi chuyển đổi trung bình đãđược cải tiến sử dụng tính năng không gian hỗn hợp và đề xuất một chứcnăng đo lường tương tự mới
Theo dõi các đặc điểm trên khuôn mặt luôn được đặt trọng tâm Cácphương pháp tiếp cận gặp khó khăn với sự thay đổi tỉ lệ hoặc độ phân giải,nhưng nó chính xác và cho kết quả tốt với chuyển động phẳng Yan Tong vàYangWang đã áp dụng một mô hình đồng thời mô tả các hình dạng và các chitiết cấu trúc cục bộ trên khuôn mặt người Cùng với đó wavelet gabor và các
hồ sơ cấp độ xám được tích hợp để có hiệu quả hơn và thể hiện các đặc điểmtrên khuôn mặt một cách hiệu quả hơn Phương pháp tiếp cận theo dõi nhiều
mô hình được sử dụng để ước tính vị trí các điểm đặc trưng trên khuôn mặtmột cách chính xác và tối ưu nhất Tu JL và Tao H đã đưa sự theo dõi tíchhợp vào bộ lọc Kalman, trong đó hệ thống phi tuyến tính trở thành giống một
Trang 21mô hình tuyến tính cục bộ Christian Kublbeck và Andreas Ernst đã trình bàyviệc theo dõi khuôn mặt bằng các phương tiện phát hiện liên tục và đưa ra cáctính năng cấu trúc không thay đổi về độ sáng trong bộ lọc Kalman.
Hướng còn lại là theo dõi dựa trên sự kết hợp của đầu và đặc điểm trênkhuôn mặt Brais Martinez và Xavier Binefa trình bày một phương pháp đểtheo dõi một số đặc điểm của một mục tiêu trải qua một chuyển động 3D tự
do Phương pháp Multiple kernel tracking có thể theo dõi các đối tượng trảiqua quá trình biến đổi tham số Phương pháp này mở rộng kết quả đến cáctình huống tổng quát hơn Indra Sulistijono và Naoyuki Kubota đã đề xuấtmột phương pháp nâng cấp của SSGA và Particle Swarm Optimization (PSO)
để thực hiện việc theo dõi nhiều người và phương pháp này cũng có thể làmgiảm chi phí tính toán Trong Proceedings 2nd Joint IEEE InternationalWorkshop on VS-PETS năm 2005, Yonggang Jin trình bày một bộ lọc hợpnhất dữ liệu cho phương pháp theo dõi đầu đã được đề xuất dựa trên các tínhiệu màu và cạnh Một bộ lọc Boosted Adaptive Particle (BAPF) để cho phépước lượng và theo dõi với độ chính xác cao hơn nhiều
1.3.2 Các phương pháp theo dõi thời gian thực.
Theo dõi khuôn mặt theo thời gian thực gần đây đã thu hút nhiều sựchú ý Các kỹ thuật theo dõi thời gian thực hiện tại bao gồm: CAMSHIFT,ngưng tụ và bộ lọc Kalman Khi đối tượng ở xa camera, thuật toán khó có thểtheo dõi được Để hiệu quả trong việc tăng hiệu suất theo dõi và khả năng tínhtoán, các phương pháp theo dõi khuôn mặt dựa trên phân bố màu đã đượcnghiên cứu Ví dụ, Yao và Gao đã đề xuất một thuật toán theo dõi khuôn mặtdựa trên sự biến đổi màu da và màu sắc môi Huang và Chen năm 2000 đãxây dựng một mô hình màu thống kê và mẫu để theo dõi nhiều khuôn mặt
Trang 221.4 Nhận dạng khuôn mặt
Nhận dạng khuôn mặt là giai đoạn quan trọng nhất trong toàn bộ hệthống Các thuật toán nhận dạng khuôn mặt trên video sử dụng các phươngpháp tiếp cận về công nghệ xử lý trên các frame dừng Tuy nhiên, video cókhả năng cung cấp nhiều thông tin hơn hình ảnh tĩnh Ta thấy được rằng cóbốn lợi thế lớn khi sử dụng video như sau:
Khả năng sử dụng các frame khác có trong video để cải thiện hiệu suất nhận dạng hình ảnh
Nghiên cứu tâm lý và tâm thần học gần đây đã chỉ ra rằng thông tinđộng là rất quan trọng trong quá trình nhận biết khuôn mặt của conngười
Các lợi thế như mô hình mặt 3D hoặc hình ảnh có độ phân giải cao, cóthể được lấy từ video và được sử dụng để cải thiện hiệu quả nhận dạng
Nhận dạng khuôn mặt dựa trên video cho phép học tập hoặc cập nhật
mô hình theo thời gian
Mặc dù có rất nhiều lợi thế khi nhận dạng khuôn mặt trên video nhưng
ta thấy rằng cũng có một số nhược điểm cần quang tâm như:
Chất lượng video kém, độ phân giải hình ảnh thấp
Chiếu sáng
Thay đổi dáng đi, chuyển động
Biểu hiện khuôn mặt
Khoảng cách lớn từ camera
Với tất cả những thuận lợi và những nhược điểm này, đã có nhiềuphương pháp áp dụng giải quyết nhiều khía cạnh đã nêu để nhận dạng khuônmặt dựa trên video
Trang 231.4.1 Phương pháp nhận dạng dựa vào không gian thông tin
Hầu hết các cách tiếp cận gần đây sử dụng không gian thông tin đểnhận dạng khuôn mặt trong video Thông thường, một số phương pháp sửdụng chọn lọc tạm thời để cải thiện tỷ lệ nhận dạng Ngoài ra còn có một sốthuật toán lấy được cấu trúc khuôn mặt 2D hoặc 3D từ video như của W Y.Zhao and R Chellappa Khác với cách tiếp cận chọn lọc đơn giản, Li và cộng
sự đã đề xuất một phương pháp dựa trên mô hình hình dạng và kết cấu vàkhai thác tính năng hạt nhân Tuy nhiên, phương pháp như vậy không sử dụngđầy đủ thông tin trong video Zhou và Chellappa đã đưa ra một phương phápkết hợp thông tin thời gian trong một trình tự video cho nhiệm vụ xác thựckhuôn mặt Một mô hình không gian trạng thái với vector theo dõi trạng thái
và nhận dạng biến số được sử dụng để mô tả các đặc điểm trên khuôn mặt.Cách tiếp cận xác suất này nhằm tích hợp chuyển động và thông tin nhậndạng theo thời gian với thuật toán sequential importance sampling algorithm;tuy nhiên nó vẫn chỉ xem xét được duy nhất sự thống nhất trong miền thờigian và do đó nó có thể không hoạt động tốt khi đối tượng bị che khuất.Zhang YB, Martinez AM đã so sánh PCA, LDA và ICA với nhiều hình ảnhvới các đoạn video, điều này chứng minh rằng cách tiếp cận xác suất cân bằng
có thể giải quyết được các vấn đề tồn tại trong ảnh đơn Krueger và Zhou đãchọn những hình ảnh đại diện cho từng khuôn mặt như là những mẫu đượclấy từ các video huấn luyện trực tiếp Mô hình này có hiệu quả trong việc thuđược chuyển động 2D nhỏ nhưng có thể không phù hợp với sự thay đổi hoặcche khuất với hình dạng 3D lớn Năm 2002, Li và những người khác đã ápdụng mô hình piecewise linear để nắm bắt các chuyển động cục bộ Phươngpháp tương tự đã được đề xuất bởi Kuang-Chih Lee, đã mang lại phươngpháp tuyên truyền xác suất của các mô hình tuyến tính thông qua ma trậnchuyển đổi Thuật toán ngưng tụ có thể được sử dụng thay thế cho mô hình
Trang 24cấu trúc thời gian của S Zhou Các phương pháp dựa trên không gian thờigian để nhận biết khuôn mặt trong video có một số nhược điểm:
Động lực học trên khuôn mặt của từng cá nhân cụ thể rất hữu ích choviệc phân biệt giữa những người khác nhau, tuy nhiên thông tin thờigian trong cá nhân liên quan đến biểu hiện khuôn mặt và cảm xúc cũngđược mã hoá và sử dụng
Trọng lượng trung bình được đưa ra đối với các đặc điểm không thờigian mặc dù một số tính năng góp phần nhận ra nhiều hơn những điểmkhác;
Rất nhiều phương pháp chỉ có thể xử lý tốt các khuôn mặt do vậy hạnchế sử dụng của các phương pháp đó trong thực tế với ảnh người có cảphong cảnh
1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê
Năm 2002, Zhou và những người khác đã thu được các mô hình thống
kê từ video bằng cách sử dụng các tính năng cấp thấp (ví dụ: bằng PCA) chứatrong các hình ảnh mẫu, được sử dụng để thực hiện kết hợp giữa một frameđơn và luồng video hoặc giữa hai luồng video Satoh đã khớp với hai chuỗivideo bằng cách chọn cặp frame gần nhất trên cả hai video Một vài phươngpháp sử dụng trình tự video để đào tạo mô hình thống kê khuôn mặt cho phùhợp Phương pháp mutual subspace lấy các frame riêng biệt trong video chomỗi người để tính toán nhiều không gian riêng lẻ, xem xét góc giữa đầu vào
và các không gian con tham chiếu được hình thành bởi các thành phần chínhcủa các chuỗi hình ảnh là thước đo cho sự nhận dạng Năm 2003, một phươngpháp đã được đề xuất bằng cách sử dụng các góc độ không gian hình ảnh banđầu và sử dụng một không gian đặc trưng để đo sự tương đồng giữa hai chuỗivideo Để cải thiện, Topkaya đã đề xuất thuật toán đơn giản dựa trên các tính
Trang 25năng và vị trí khuôn mặt để lựa chọn các frame đại diện, sau đó phân tíchchiều được áp dụng để biến đổi chúng thành không gian mới Gần đây, môhình ARMA được sử dụng để mô hình hóa chuyển động của khuôn mặt như
là một hệ thống tuyến tính động và thực hiện nhận dạng khuôn mặt Các môhình Markov ẩn được sử dụng rộng rãi đã được áp dụng để nhận dạng trongvideo Liu và cộng sự đã sử dụng các mô hình HMM và ARMA để kết hợptrong video trực tiếp Minyoung Kim đã cho thấy rằng vấn đề của các khókhăn trực quan có thể được giải quyết bằng frame xác thực dựa trên HMM
1.4.3 Phương pháp nhận dạng dựa trên những gợi ý lai
Ta biết rằng video có thể cung cấp nhiều thông tin hơn so với hình ảnhtĩnh Một số phương pháp sử dụng các thông tin khác thu được từ các chuỗivideo, chẳng hạn như giọng nói, dáng đi, chuyển động v.v Ví dụ, Shan vànhững người khác kiểm tra sự kết hợp của khuôn mặt và hoạt động ở cấp tínhnăng và đạt được hiệu suất tăng lên bằng cách kết hợp hai tín hiệu Zhou X,Bhanu B đã trình bày một cách tiếp cận mới dựa trên tích hợp thông tin từkhuôn mặt và đi đường ở cấp tính năng bởi PCA và MDA vào năm 2008.Christian Micheloni đã thông qua một kỹ thuật nhận biết khuôn mặt và loa đểnhận dạng sinh học âm thanh-video năm 2009 Phương pháp này đã kết hợpviệc chuẩn hóa biểu đồ và phân tích phân loại tuyến tính để giải quyết vấn đềnhư chiếu sáng, bị che khuất và đề xuất tối ưu hóa thuật toán giảm nhiễu trên
cơ sở Bộ lọc Kalman mở rộng (EKF) M Balasubramanian đưa ra một cáchtiếp cận khác được trình bày bởi radial basis function neural networks, được
sử dụng để nhận dạng một người trong các trình tự video bằng cách sử dụngphương pháp nhận dạng khuôn mặt và miệng
1.4.4 Các phương pháp nâng cao trong nhận dạng khuôn mặt
Trong những năm qua, nhận dạng trong video đã phát triển và các trọngtâm phổ biến của công nghệ nhận dạng khuôn mặt dựa trên video được tập
Trang 26trung vào một số vấn đề như chiếu sáng, các cách tiếp cận khác nhau, 3D và
độ phân giải thấp của video
1.4.4.1 Chiếu sáng
Có rất nhiều yếu tố ảnh hưởng đến nhận dạng khuôn mặt, trong đó cóhai thách thức chính là: ánh sáng và tư thế Hệ thống nhận dạng sẽ gặp khókhăn để nhận dạng cá nhân khi bị thay đổi trong ánh sáng mạnh hơn Adini,Moses, và Ullman lần đầu tiên quan sát vấn đề đó Tuy nhiên, Zhao vàChellappa đã đưa ra một bằng chứng lý thuyết về vấn đề này trên cơ sở hệthống phép chiếu cục bộ Để giải quyết những vấn đề như vậy, các nhà nghiêncứu đã đề xuất các phương thức tiếp cận khác nhau Ví dụ như Belhumeur vàBartlett đã thông qua PCA bằng cách loại bỏ các thành phần chính đầu tiên vàđạt được hiệu suất tốt hơn cho hình ảnh trong những điều kiện ánh sáng khácnhau Giả thiết của họ là các thành phần chính đầu tiên chỉ nắm bắt được cácbiến thể do ánh sáng Do đó, một số loại bỏ quan trọng có thể ảnh hưởng đến
sự nhận dạng trong điều kiện ánh sáng bình thường Ngoài ra, một số cáchtiếp cận được trình bày dựa trên kỹ thuật khai thác các tính năng của hình ảnh.Tại IEEE conference on computer vision and pattern recognition năm 1998,Jacobs đã trình bày một phương pháp dựa trên thực tế đó là đối với các điểmnguồn ánh sáng và các đối tượng có phản xạ Lambertian, tỷ lệ của hai hìnhảnh từ cùng một đối tượng đơn giản hơn tỷ lệ hình ảnh từ các đối tượng khácnhau Nanni và cộng sự đề xuất các phương pháp dựa trên bộ lọc Gabor Liu
và cộng sự đã sử dụng một hình ảnh tỷ lệ để giải quyết sự thay đổi độ sáng.Phương pháp tương tự đã được đề xuất bởi Wang, nhằm mục đích thu đượchình ảnh gương mặt được chiếu sáng không thay đổi cho một nhóm các hìnhảnh của cùng một chủ đề Trong The international conference on computervision and pattern recognition, Savvides đưa ra một phương pháp lai dựa trênviệc sử dụng PCA và các bộ lọc tương quan đã được đề xuất Du và cộng sự
Trang 27đã trình bày một phương pháp chuyển đổi dựa trên wavelet Mô hình LocalBinary Pattern (LBP) đã thu hút nhiều sự chú ý kể từ lần đầu tiên được đềxuất bởi Ojala Một số nghiên cứu khác cũng có đóng góp tương ứng cho môhình này, ví dụ như LBP đa phân giải được trình bày ở những khu vực có kíchthước khác nhau được xem xét để xử lý các kết cấu ở các quy mô khác nhau
và LBP đồng nhất, có đặc tính tối đa là 0-1 hoặc 1-0 chuyển tiếp, để đại diệntốt hơn các thông tin cấu trúc cơ bản như cạnh và góc Zhang và cộng sự đềxuất để kết hợp LBP với Gabor Mô hình Local ternary pattern (LTP) đãđược Tan và Triggs đề xuất, cũng là một sự mở rộng của LBP Gần đây,Georghiades đưa ra một phương pháp hiệu quả để xử lý biến thể chiếu sángđược trình bày bằng cách sử dụng hình nón chiếu sáng Phương pháp nàycũng được đề cập đến điều kiện ánh sáng bóng tối và nhiều ánh sáng dựa trên
cơ sở tuyến tính không gian 3D Vấn đề chính của phương pháp này là tậphuấn luyện đòi hỏi phải có hơn 3 hình ảnh liên kết cho mỗi người
1.4.4.2 Đặt ra các vấn đề tiếp cận
Đặt ra các vấn đề là một yếu tố quan trọng nhất cho hệ thống nhậndạng khuôn mặt Các phương pháp tiếp cận hiện tại có thể được chia thành
ba nhóm:
Phương pháp tiếp cận nhiều hình ảnh
Phương pháp tiếp cận lai
Phương pháp tiếp cận dựa trên hình ảnh đơn
Trong phương pháp tiếp cận nhiều hình ảnh, các phương pháp dựa vào
bề mặt hình chiếu và hình chiếu 3D đã được đề xuất để giải quyết vấn đềchiếu sáng Các phương pháp tiếp cận lai có thể là giải pháp thực tiễn nhấthiện nay, bao gồm phương pháp dựa trên lớp tuyến tính, nó dựa trên giả thiếtcác lớp đối tượng tuyến tính và mở rộng tuyến tính đến các hình ảnh, phương
Trang 28pháp kết hợp đồ thị với EBGM và phương pháp view-based eigenface bằngcách xây dựng các vị trí riêng cho mỗi đặc điểm Phương pháp thứ ba đã được
đề xuất nhưng rất khó để áp dụng hiện nay do chi phí tính toán cao và phứctạp cao
Các phương pháp AAM mới trong hội nghị The IEEE InternationalConference on Automatic Face and Gesture Recognition đã đề xuất để xử lý
cả hai cách đặt ra và các biểu hiện khác nhau Trong năm 2004, các phươngpháp Eigen light-fields và phương pháp Fisher light-fields đã được đề xuất
để nhận dạng khuôn mặt không thay đổi Một phương pháp dựa theo môhình 3D của toàn bộ đầu nhằm khai thác các tính năng như kiểu tóc, xử lýnhững thay đổi lớn trong việc theo dõi đầu và nhận dạng khuôn mặt bằngvideo được trình bày bởi M Everingham và A Zisserman Tính toán sựkhác biệt của Kullback-Leibler giữa việc kiểm tra bộ ảnh và học được mật
độ đa dạng O Arandjelovic và cộng sự đã đưa ra học đa dạng hóa các biếnthể khuôn mặt để nhận biết khuôn mặt trong video Trong nghiên cứu này,
họ đã đạt được khả năng nhận dạng tốt của mình bằng cách phân chia từngdiện mạo thành các cụm Gaussian, so sánh các cụm tương ứng và kết hợpcác kết quả bằng mạng RBF
Trang 29chung để cải thiện tính chính xác và tỷ lệ công nhận Đối với phương phápthứ hai, các phương pháp này làm việc trực tiếp trên bộ dữ liệu 3D Trong khinhóm phương pháp cuối cùng là những người sử dụng cả thông tin 2D và 3D.Một ví dụ được đưa ra bởi Blanz và Vetter đề xuất một phương pháp để tạo
mô hình mặt 3D từ một hình ảnh duy nhất Zhang và Cohen đã biến đổi môhình chung 3D từ hình ảnh đa góc nhìn bằng cách sử dụng một đa thức bậc
ba Tuy nhiên, vẫn có thể nghi ngờ rằng việc tái tạo khuôn mặt 3D từ mộthình ảnh đơn hoặc hình ảnh có nhiều lần xem có thể được xem là chưa đủ tốt
để nhận dạng Kể từ năm 2000, nhiều phương pháp tiếp cận đa dạng hơn vànhiều hơn nữa đã được đề xuất để cải thiện hiệu suất nhận dạng khuôn mặt.Dalong Jiang và những người khác đã đưa ra một phương pháp tái tạo khuônmặt tích hợp 2D-to-3D hiệu quả và hoàn toàn theo phương pháp phân tíchtheo tổng hợp Hình dạng khuôn mặt 3D được xây dựng lại theo các điểm đặctrưng và cơ sở dữ liệu mặt 3D Sau đó, mô hình khuôn mặt đã được ánh xạ kếtcấu bằng cách chiếu hình ảnh đầu vào 2D vào khuôn mặt 3D Tác giả tổnghợp các mẫu ảo với PIE biến thể để đại diện cho không gian hình ảnh khuônmặt 2D Sotiris Malassiotis đưa ra hệ thống được dựa trên thời gian thực bánđồng thời màu sắc và thu nhận hình ảnh 3D được dựa trên phương pháp tiếpcận cấu trúc ánh sáng màu Thông tin 3D đã làm cho phân đoạn và phát hiệnđơn giản với hỗn hợp của Gaussians giả định Các tham số được ước tínhbằng thuật toán Expectation Maximization Nó cũng làm cho tư thế và ánhsáng bù đắp cho nhau, giúp cải thiện nhận dạng khuôn mặt
1.4.4.4 Độ phân giải thấp
Một vấn đề chúng ta thấy rõ đó là rất khó để nhận ra khuôn mặt của conngười trong các video có độ phân giải thấp Với việc sử dụng rộng rãi camera(giám sát, vv), các giải pháp để giải quyết những vấn đề như vậy ngày càngđược chú ý hơn Hai phương pháp chính là phương pháp Super Resolution và
Trang 30phương pháp Multiple Resolution-faces Phương pháp thứ hai có thể được ápdụng để ước tính hình ảnh khuôn mặt có độ phân giải cao từ những ảnh có độphân giải thấp Tuy nhiên, có điểm bất lợi đó là cần các hình khuôn mặt nhiềugóc thuộc cùng một chủ đề chụp từ cùng một cảnh là bắt buộc MRF đã vượtqua nhược điểm đó, nó làm tăng sự phức tạp và đòi hỏi nhiều bộ nhớ hơntrong hệ thống nhận dạng khuôn mặt Gần đây, các nhà nghiên cứu đã cải tiếncác phương pháp hiện tại của SR & MRF và đưa ra một số phương pháp mới.Arandjelovic và cộng sự đề xuất sự không thay đổi màu được áp dụng đểnhận ra khuôn mặt Kết quả của họ cho thấy các biến thể bất biến màu sắc cóquyền phân biệt khá rõ ràng và tăng tính chính xác cho các phương pháp pháthiện da có độ phân giải thấp Jae Young Choi và cộng sự đã đề xuất mộtphướng pháp tiếp cận đó là cung cấp một không gian đặc trưng để tương thíchtrực tiếp với độ phân giải có thể thay đổi ngẫu nhiên của đầu dò ở giai đoạn
áp dụng / thử nghiệm và vượt qua vấn đề không phù hợp với kích thước Cáctác giả Xiaoli Zhou và Bhanu B đã xây dựng các frame có độ phân giải cao từmột chuỗi video bằng cách sử dụng cả thông tin không gian và thời gian hiệndiện trong một số các frame có độ phân giải thấp liền kề Một kỹ thuật mới cótên là face scoring đã được Tse-Wei Chen và cộng sự trình bày Phương phápbao gồm tám chức năng tính điểm dựa trên kỹ thuật trích chọn đặc điểm trênkhuôn mặt, được tích hợp bởi một hệ thống đào tạo mạng nơ-ron một lớp đểđạt được sự kết hợp tuyến tính tối ưu nhằm chọn những khuôn mặt có độ phângiải cao
1.5 Các cơ sở dữ liệu ảnh và video nổi tiếng
Để so sánh một thuật toán, ta sử dụng một số bộ dữ liệu tiêu chuẩn đểthử nghiệm Bảng 1 liệt kê một số cơ sở dữ liệu khuôn mặt nổi tiếng dựa trênvideo và một số cơ sở dữ liệu liên quan đến vấn đề chiếu sáng, v.v
Trang 32KẾT LUẬN CHƯƠNG 1
Trong những năm qua, cùng với sự phát triển của nhận dạng mẫu, nhậndạng khuôn mặt cũng đã có được những thành tựu nhất định Chương 1 đãgiới thiệu được tổng quan về lĩnh vực nhận dạng khuôn mặt người trên thếgiới Các phương pháp phát hiện, theo dõi và nhận dạng khuôn mặt điển hìnhtrong những năm vừa qua đã được trình bày tóm tắt và khái quát nhất cùngvới đó là phân tích những điểm mạnh và hạn chế của các phương pháp này.Ngoài ra còn nêu thêm được các cơ sở dữ liệu ảnh và video nổi tiếng trên thếgiới hiện nay nhằm phục vụ cho mục đích nghiên cứu và thử nghiệm cácphương pháp đã trình bày
Trang 33CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT NGƯỜI SỬ DỤNG PCA
QUA BIẾN ĐỔI WAVELET
Nhận dạng khuôn mặt bằng máy tính hiện nay có thể được chia thànhhai hướng tiếp cận, cụ thể là dựa trên thành phần cấu thành và dựa trên khuônmặt Trong hướng tiếp cận dựa trên thành phần, nhận dạng khuôn mặt dựatrên mối quan hệ giữa các đặc điểm của khuôn mặt con người như mắt,miệng, mũi, hình dáng cá nhân và ranh giới mặt Tuy nhiên, việc trích xuấtcác đặc điểm trên khuôn mặt là khá khó khăn Hướng tiếp cận dựa trên khuônmặt cố gắng nắm bắt và xác định khuôn mặt như một tổng thể Các khuôn mặtđược xem như là một mô hình hai chiều của sự biến đổi cường độ Theohướng tiếp cận này, khuôn mặt là kết hợp thông qua xác định thống kê cơ bảncủa nó Phương pháp nhận dạng PCA áp dụng biến đổi Wavelet được sử dụng
để nhận dạng khuôn mặt và cả quá trình đó được thể hiện qua hình 2.1 Sơ đồkhối của hệ thống nhận dạng khuôn mặt Các hình ảnh sau khi qua biến đổiWavelet để trích chọn các đặc trưng sẽ được tiếp tục qua thuật toán (PCA) đểđưa ra được ảnh cuối cùng phục vụ cho việc nhận dạng khuôn mặt Chi tiếtphép biến đổi Wavelet và thuật toán PCA được trình bày trong chương này
Trang 35Hình ảnh subband Vector riêngvà giá trị
riêng
Cơ sở đại diện Huấn luyện
hình ảnh đại diện Hình ảnh
với giá trị lớn nhất
Phép chiếu
Giai đoạn huấn luyện
Thử hình ảnh đại diện Hình ảnh
không xác
Wavelet
Hình subband
chiếu phụ
Phép đo tương tự
Xác định hình ảnh khuôn mặt không rõ
Giai đoạn nhận dạng
Hình 2.1 Sơ đồ khối của hệ thống nhận dạng khuôn mặt được đề xuất
Chương 2 sẽ được viết thành các phần như sau:
Phần 2.1 Giới thiệu về chuyển đổi Wavelet
Phần 2.2 Thuật toán PCA và các vector riêng
Phần 2.3 Quá trình huấn luyện hình ảnh
Phần 2.4 Quá trình nhận dạng khuôn mặt