Việc phát hiện khuôn mặt trong ảnh còn được dùng để đếm số người trong ảnh, việc đếm số người này có ý nghĩa thực tiễn trong cuộc sống như xác định được số lượng khách ra vào siêu thị, m
Trang 1TRƯỜNG ĐẠI HỌC LẠC HỒNG
***
TRẦN VĂN MINH
PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH DỰA VÀO ĐẶC TRƯNG 3D
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Đồng Nai, Năm 2013
Trang 2TRƯỜNG ĐẠI HỌC LẠC HỒNG
***
TRẦN VĂN MINH
PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH DỰA VÀO ĐẶC TRƯNG 3D
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 60.48.02.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học:
PGS.TS Đỗ Năng Toàn
Đồng Nai, Năm 2013
Trang 3Lời đầu tiên cho tôi gửi lời cảm ơn chân thành đến quý thầy cô đã cho tôi có kiến thức làm nền tảng để đi đến thực hiện luận văn ngày hôm nay
Xin tỏ lòng biết ơn sâu sắc, chân thành đến thầy PGS.TS Đỗ Năng Toàn người đã tận tình giúp đỡ, chỉ dạy và động viên tôi trong suốt thời gian thực hiện luận văn này
Con xin cảm ơn ba mẹ và những thành viên trong gia đình của mình đã cùng con chia sẽ nhưng khó khăn khi thực hiện luận văn này
Tôi xin cảm ơn các anh chị và đồng nghiệp đã tạo điều kiện và giúp đỡ tôi có được những khoảng thời gian để hoàn thành khóa học
Qua đây tôi xin gửi đến quý thầy cô cùng ba mẹ và các anh chị em đồng nghiệp cành hoa để cảm ơn những gì tốt đẹp nhất mà mọi người dành cho tôi với tất
cả tấm lòng mình!
Trân trọng ! Đồng Nai, ngày 10 tháng 6 năm 2013
Trần Văn Minh
Trang 4Tôi xin cam đoan : Luận văn này là công trình nghiên cứu thật sự của cá nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS.TS Đỗ Năng Toàn
Các số liệu và thông tin thứ cấp sử dụng trong luận văn được trích dẫn rõ ràng Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn
Học viên
Trần Văn Minh
Trang 5Trang
Bảng 2.1 Các thông tin trên một vùng không gian nút 34
Bảng 2.2 Khoảng cách Euclide của mỗi nút so với các nút cùng mức 34
Bảng 2.3 Vị trí tương đối của nút con so với nút gốc 35
Bảng 3.1 Kết quả thử nghiệm trên thư viện Markus Weber 52
Bảng 3.2 Kết quả thử nghiệm trên tập không có khuôn mặt 53
Trang 6Trang
Hình 1.1 Mô phỏng quá trình xử lý ảnh 3
Hình 1.2 Mô phỏng các bước trong một hệ thống xử lý ảnh 4
Hình 1.3 Ví dụ hệ thống phát hiện khuôn mặt 6
Hình 1.4 Hệ thống kiểm soát ra vào dựa vào kỹ thuật phát hiện mặt người 8
Hình 1.5 Mô hình tổng quát các phương pháp giải quyết phát hiện mặt người 9
Hình 1.6 Phương pháp sử dụng đa độ phân giải 10
Hình 1.7 Tri thức của chuyên gia nghiên cứu phân tích trên khuôn mặt 11
Hình 1.8 Mô tả phương pháp chiếu 11
Hình 1.9 Chiếu từng phần ứng viên để xác thực thành phần khuôn mặt 12
Hình 1.10 Mẫu so sánh khớp sử dụng 23 quan hệ 16
Hình 1.11 Mô hình mạng nơ ron của Rowley 18
Hình 1.12 Kiến trúc hệ thống phát hiện khuôn mặt dựa trên mạng nơ ron 19
Hình 1.13 Dùng HMM xác định khuôn mặt 22
Hình 1.14 Mô hình Markow ẩn 22
Hình 2.1 Những điểm tương quan giữa các thành phần trên khuôn mặt 2D và 3D 25
Hình 2.2 Thông tin các điểm xương và rãnh trên ảnh vệ tinh 26
Hình 2.3 Thông tin các điểm xương và rãnh trên ảnh khuôn mặt 26
Hình 2.4 Dò tìm trên từng vùng 27
Hình 2.5 Tập các bộ lọc kích thước S 28
Hình 2.6 Tìm vùng 3D bằng nhiều mức giá trị dò 30
Trang 7Hình 2.8 Ví dụ về khuôn mặt 3D và kết xuất khung lưới 3D của khuôn mặt 31
Hình 2.9 Cách tạo cây bậc D cỡ K 32
Hình 2.10 Cấu trúc cây rút các đặc trưng 3D từ hình 2.6 33
Hình 2.11 Mô tả cách quét để lưu thông tin mức sáng 35
Hình 2.12 Một số kết xuất khung lưới cơ bản 36
Hình 2.13 Các nút tạo thành từ xương và rãnh được rút trích theo mức 36
Hình 2.14 Ảnh phân tích 37
Hình 2.15 Tính tổng mức sáng của hình chữ nhật R(l,t,r,b) 37
Hình 2.16 Một số ảnh trong thư viện của Markus Weber 39
Hình 2.17 Mẫu hình canh biên tại các vị trí trên khuôn mặt 43
Hình 2.18 Gán nhãn bằng phương pháp thủ công 44
Hình 2.19 Các bước tiền xử lý để hiệu chỉnh độ sáng và cân bằng lược đồ 45
Hình 2.20 Kiểm tra phát hiện khuôn mặt 46
Hình 2.21 Mô tả thuật toán giảm các ứng viên trùng lắp 48
Hình 2.22 Luồng xử lý việc dò tìm khuôn mặt 50
Hình 3.1 Một số ảnh của tập ảnh Markus Weber 52
Hình 3.2 Tổ chức thư viện OpenCV 53
Hình 3.3 Giao diện chính của chương trình 54
Hình 3.4 Một số trường hợp phát hiện đúng 55
Hình 3.5 Một số kết quả phát hiện thiếu 56
Hình 3.6 Một số kết quả không phát hiện được khuôn mặt 57
Trang 8PHẦN MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục tiêu đề tài 1
3 Phạm vi nghiên cứu 2
4 Những đóng góp mới của đề tài 2
CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN KHUÔN MẶT 3
1.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN XỬ LÝ ẢNH 3
1.1.1 XỬ LÝ ẢNH LÀ GÌ? 3
1.1.2 CÁC KHÁI NIỆM CƠ BẢN 4
1.2 BÀI TOÁN PHÁT HIỆN KHUÔN MẶT 5
1.2.1 GIỚI THIỆU 5
1.2.2 BÀI TOÁN PHÁT HIỆN KHUÔN MẶT TRONG ẢNH 5
1.2.3 NHỮNG KHÓ KHĂN VÀ THÁCH THỨC TRONG QUÁ TRÌNH PHÁT HIỆN KHUÔN MẶT 7
1.2.4 CÁC LĨNH VỰC ỨNG DỤNG BÀI TOÁN PHÁT HIỆN KHUÔN MẶT 7
1.2.4.1 HỆ THỐNG QUAN SÁT VÀ THEO DÕI HÀNH VI 8
1.2.4.2 HỆ THỐNG TƯƠNG TÁC GIỮA NGƯỜI VÀ MÁY 8
1.2.4.3 BẢO MẬT 8
1.2.4.4 MỘT SỐ ỨNG DỤNG KHÁC 9
1.3 CÁC PHƯƠNG PHÁP PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH 9
1.3.1 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN CÁC LUẬT TRI THỨC 10 1.3.2 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN CÁC ĐẶC TRƯNG BẤT BIẾN 12
1.3.2.1 CÁC ĐẶC TRƯNG KHUÔN MẶT 13
1.3.2.2 ĐẶC TRƯNG KẾT CẤU 14
1.3.2.3 ĐẶC TRƯNG SẮC MÀU CỦA DA 14
1.3.2.4 ĐA ĐẶC TRƯNG 14
1.3.3 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN ĐỐI SÁNH MẪU 15
1.3.3.1 XÁC ĐỊNH MẪU TRƯỚC 15
1.3.3.2 CÁC MẪU BỊ BIẾN DẠNG 17
Trang 91.3.4.1 KIẾN TRÚC HOẠT ĐỘNG CỦA HỆ THỐNG 19
1.3.4.2 TIỀN XỬ LÝ 20
1.3.4.3 XÂY DỰNG MÔ HÌNH QUÁ TRÌNH HỌC 20
1.3.4.4 SUPPORT VECTOR MACHINE (SVM) 20
1.3.4.5 MẠNG LỌC THƯA (SPARSE NETWORK OF WINNOWS – SNOW) 21
1.3.4.6 MÔ HÌNH MARKOW ẨN ( HIDDEN MARKOW MODEL – HMM) 21
1.3.4.7 PHÂN LOẠI BAYES 22
1.3.5 PHƯƠNG PHÁP TIẾP CẬN DỰA VÀO ĐẶC TRƯNG 3D 23
1.3.6 NHẬN XÉT CHUNG CÁC PHƯƠNG PHÁP TIẾP CẬN HIỆN TẠI 23
1.4 PHẠM VI CỦA ĐỀ TÀI 24
CHƯƠNG 2: PHÁT HIỆN KHUÔN MẶT DỰA VÀO ĐẶT TRƯNG 3D 25
2.1 RÖT TRÍCH CÁC ĐẶC TRƯNG 3D 25
2.1.1 ĐIỂM 3D 27
2.1.2 DÒ TÌM VÀ RÚT TRÍCH CÁC VÙNG 3D 27
2.1.3 DÒ TÌM VÀ RÚT TRÍCH CÁC VÙNG 3D Ở NHIỀU MỨC KHÁC NHAU 28
2.2 MÔ HÌNH KHUNG TRONG TIẾP CẬN 3D 31
2.2.1 MÔ HÌNH KHUNG LƯỚI 31
2.2.2 XÂY DỰNG CẤU TRÚC CÂY 3D 32
2.2.3 XÂY DỰNG KHUNG LƯỚI 35
2.2.4 TỐI ƯU HÓA VIỆC DÕ TÌM CÁC ĐẶC TRƯNG 36
2.2.5 CẮT TỈA CẤU TRÚC CÂY 3D 38
2.3 XÂY DỰNG TẬP MẪU 38
2.4 CÁC KỸ THUẬT DÒ BIÊN 39
2.4.1 KỸ THUẬT PHÁT HIỆN BIÊN TRỰC TIẾP 40
2.4.2 KỸ THUẬT PHÁT HIỆN BIÊN GIÁN TIẾP 42
2.5 GÁN NHÃN CANH BIÊN CÁC ĐẶC TRƯNG CỦA KHUÔN MẶT 42
2.5.1 ĐỊNH NGHĨA CANH BIÊN GIỮA HAI ĐIỂM ĐẶC TRƯNG 42
Trang 102.6 XỬ LÝ ĐỘ SÁNG VÀ ĐỘ TƯƠNG PHẢN TRÊN TẬP MẪU 44
2.7 ÁP DỤNG MÔ HÌNH THỐNG KÊ 45
2.7.1 THỐNG KÊ 45
2.7.2 ĐÁNH GIÁ DỰA TRÊN SỐ LIỆU THU THẬP ĐƯỢC 47
2.8 HUẤN LUYỆN DÒ TÌM KHUÔN MẶT 48
2.8.1 GIỚI THIỆU 48
2.8.2 HUẤN LUYỆN DÒ TÌM KHUÔN MẶT 48
2.9 QUÁ TRÌNH DÒ TÌM KHUÔN MẶT 49
CHƯƠNG 3: THỬ NGHIỆM VÀ KẾT QUẢ 50
3.1 MÔI TRƯỜNG THỬ NGHIỆM 50
3.2 KẾT QUẢ 52
3.3 NHẬN XÉT 53
3.4 GIAO DIỆN CHÍNH 53
3.5 MỘT SỐ MÀN HÌNH KẾT QUẢ VỀ 54
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58
4.1 KẾT LUẬN 57
4.2 HƯỚNG PHÁT TRIỂN 57
4.2.1 ĐẶT VẤN ĐỀ 57
4.2.2 PHƯƠNG PHÁP THỰC HIỆN 58
Trang 11PHẦN MỞ ĐẦU
1 Lý do chọn đề tài
Bài toán phát hiện mặt người được bắt đầu nghiên cứu từ những năm 1970,
và đã có rất nhiều công trình nghiên cứu về việc phát hiện mặt người trong ảnh, tuy nhiên cho đến hôm nay do sự đa dạng và tính phức tạp của thực tế do đó giải pháp toàn diện vẫn đang còn là một thách thức và đang trong giai đoạn nghiên cứu
Gần đây, lĩnh vực nghiên cứu nhận dạng đang được quan tâm nhiều nhất là nhận dạng khuôn mặt, vân tay, giọng nói …Trong đó phát hiện khuôn mặt chiếm một vị trí đáng kể và cũng không kém quan trọng Nó được ứng dụng trong nhiều lĩnh vực cho các hệ thống an toàn bảo mật, hình sự…
Xuất phát từ nhu cầu thực tế khoa học kỹ thuật phát triển những ứng dụng của
nó trong đời sống trở nên phổ biến và tình hình tội phạm đang ngày càng phát triển, tinh vi hơn, ứng dụng phát hiện người trong ảnh, camera trở nên quan trọng vì nó giúp cho cơ quan an ninh nhanh chóng xác định được mục tiêu và hỗ trợ con người trong việc cảnh báo và bảo mật thông tin
Việc phát hiện khuôn mặt trong ảnh còn được dùng để đếm số người trong ảnh, việc đếm số người này có ý nghĩa thực tiễn trong cuộc sống như xác định được
số lượng khách ra vào siêu thị, mật độ lưu thông trên đường…
Như chúng ta đã biết khuôn mặt đóng vai trò quan trọng trong quá trình giao tiếp giữa người với người, và nó cũng mang một lượng thông tin trong đó như tuổi tác, giới tính, trạng thái cảm xúc…Nếu chúng ta để ý hơn thì khi hai người đối diện nói chuyện với nhau mình có thể biết người đó đang muốn nói cái gì Do đó mà phát hiện khuôn mặt là một lĩnh vực nghiên cứu hấp dẫn và được nhiều người quan tâm
2 Mục tiêu đề tài
Nghiên cứu các đặc trưng 3D trên mặt người và kỹ thuật rút trích đặc trưng 3D phục vụ cho bài toán phát hiện mặt người Trên cơ sở các kiến thức tìm hiểu được, xây dựng thử nghiệm chương trình phát hiện mặt người trong ảnh theo tiếp cận 3D
Trang 123 Phạm vi nghiên cứu
Trong luận văn này tôi hướng đến một tiếp cận mới hiệu quả cho việc giải quyết bài toán phát hiện khuôn mặt trong ảnh mà không giải quyết bài toán nhận
dạng
4 Những đóng góp mới của đề tài
Đề tài giới thiệu hướng tiếp cận mới nhằm áp dụng các ưu điểm của một số phương pháp tiếp cận đã được nghiên cứu trước đó vào hướng tiếp cận mới 3D, góp phần nâng cao khả năng xử lý phát hiện và nhận dạng khuôn mặt Là một nỗ lực nghiên cứu và tìm hiểu nhằm cung cấp nền tảng và tài nguyên cho các nghiên cứu sâu hơn
Với mục tiêu chính là tìm hiểu, nghiên cứu các đặc trưng 3D trên mặt người
và kỹ thuật rút trích đặc trưng 3D, đồng thời áp dụng để phục vụ cho bài toán phát hiện mặt người trong ảnh, luận văn trình bày trong bốn chương với bố cục như sau:
Chương 1: Tổng quan về phát hiện khuôn mặt trong ảnh: Giới thiệu tổng
quan về bài toán phát hiện mặt người trong ảnh, các ứng dụng, những khó khăn và thách thức mới trong việc giải bài toán trên, đồng thời xác định phạm vi của đề tài, cũng như xác định mục tiêu
Chương 2: Phát hiện khuôn mặt dựa vào đặc trưng 3D: Nói chi tiết bài
toán phát hiện mặt người, các nghiên cứu và những kết quả đạt được của các nhà nghiên cứu trước đây từ đó rút ra các hướng tiếp cận trong việc giải quyết bài toán phát hiện mặt người trong ảnh Đi sâu vào nghiên cứu các đặc trưng 3D và các kỹ thuật rút trích đặc trưng 3D đó, cách áp dụng vào bài toán phát hiện khuôn mặt trong ảnh
Chương 3: Thử nghiệm và kết quả: Xây dựng thử nghiệm chương trình phát
hiện mặt người trong ảnh theo tiếp cận dựa trên đặc trưng 3D Nêu lên các phân tích – thiết kế của chương trình
Cuối cùng là Phần kết luận và hướng phát triển :Tóm tắt những kết quả đạt
được, những khó khăn, hạn chế và đưa ra hướng phát triển trong tương lai
Trang 13CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN KHUÔN MẶT
1.1 Các khái niệm liên quan đến xử lý ảnh
Trong những năm gần đây, khái niệm ảnh kỹ thuật số đã trở nên thân thiện với mọi người trong xã hội việc thu nhận ảnh và lưu trữ vào máy tính trở nên đơn giản hơn bao giờ hết Với điều kiện như vậy xử lý ảnh trở thành một lĩnh vực được quan tâm và nghiên cứu bởi nhiều tác giả Một câu hỏi mà mọi người đều muốn hiểu, xử lý ảnh là gì?
1.1.1 Xử lý ảnh là gì?
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Việc phần cứng phát triển kéo theo đồ họa và xử lý ảnh phát triển theo một cách mạnh mẽ, đã có nhiều ứng dụng trong cuộc sống Quá trình xử lý ảnh được xem là một quá trình thao tác trên ảnh đầu vào nhằm cho ra một kết quả theo ý muốn Kết quả đầu ra của một quá trình xử lý như vậy ảnh có thể tốt hơn hoặc là một kết luận nào đó
Hình 1.1 Mô phỏng quá trình xử lý ảnh
Một ảnh được xem là một tập hợp các điểm ảnh và mỗi điểm ảnh được xem là đặc trưng cường độ ánh sáng hay một dấu hiệu nào đó tại một vị trí của đối tượng trong không gian Do đó ảnh trong xử lý ảnh có thể được xem là ảnh n chiều Các bước cơ bản trong một hệ thống xử lý ảnh:
Xử lý ảnh
Ảnh tốt hơn
Kết luận
Trang 14Hình 1.2 Mô phỏng các bước trong một hệ thống xử lý ảnh
1.1.2 Các khái niệm cơ bản
+ Ảnh và điểm ảnh: Điểm ảnh được xem là một dấu hiệu hay cường độ sáng tại một tọa độ trong không gian của đối tượng và ảnh được xem là một tập hợp các điểm ảnh
+ Màu, mức xám: Là số giá trị có thể có của các điểm ảnh
+ Khử nhiễu: Có hai loại nhiễu cơ bản là:
- Nhiều hệ thống: Là nhiễu có quy luật và có thể khử nhiễu bằng các phép biến đổi
- Nhiễu ngẫu nhiên: Là các vết không rõ nguyên nhân có thể khử bằng các phép lọc
+ Nén ảnh: Nhằm giảm thiểu không gian lưu trữ, thường được tiến hành theo
cả hai khuynh hướng là nén có bảo toàn và nén không bảo toàn thông tin + Phân tích ảnh: là khâu quan trọng trong quá trình xử lý ảnh nhằm tiến tới hiểu ảnh Trong quá trình phân tích việc trích chọn các đặc điểm là bước quan trọng
+ Chỉnh mức xám: Nhằm khắc phục tính không đồng đều của hệ thống Có hai cách tiếp cận cơ bản:
- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành một mức chung
Hậu xử lý Kết luận
Hỗ trợ ra quyết định Lưu trữ
Trang 15- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
1.2 Bài toán phát hiện khuôn mặt
1.2.1 Giới thiệu
Trong cuộc sống những ứng dụng về nhận dạng khuôn mặt đang được chú tâm phát triển Đây là lớp bài toán để giải quyết trong hệ thống máy và quan sát đám đông Để nhận dạng được khuôn mặt trong ảnh thì vấn đề cốt lõi là làm sao phát hiện ra khuôn mặt đó trong ảnh, trước khi nhận dạng nó là ai, là cái gì…Và vấn đề phát hiện khuôn mặt trong ảnh là cần thiết cho bất cứ hệ thống xử lý nhận dạng khuôn mặt như xác thực người dùng, xác định các thành phần đặc trưng của khuôn mặt,…
Cốt lõi trong hệ thống phát hiện mặt người là xác định xem có khuôn mặt người trong ảnh đầu vào hay không và nếu có thì chỉ ra vị trí, kích thước khuôn mặt có trong ảnh đó
Trong gần hai thập kỷ gần đây, vấn đề này được các nhà khoa học trên thế giới quan tâm nghiên cứu về bài toán phát hiện khuôn mặt người trong ảnh, từ ảnh đen trắng, xám đến ảnh màu và trong chuỗi ảnh video Tuy nhiên do sự đa dạng và tính phức tạp của thực tế do đó giải pháp toàn diện vẫn đang còn là một thách thức và đang trong giai đoạn nghiên cứu Xuất phát từ yêu cầu thực tế trên người thực hiện đã tìm hiểu và tập trung vào vấn đề nghiên cứu để phát hiện mặt người trong ảnh dựa vào đặc trưng 3D
1.2.2 Bài toán phát hiện khuôn mặt trong ảnh
Bài toán phát hiện mặt người là hệ thống nhận vào là một ảnh hoặc một đoạn video, qua xử lý trên máy tính thuật toán xác định được tất cả vị trí, kích thước khuôn mặt người trong ảnh đó, nhưng sẽ bỏ qua những thứ khác như ngôi nhà, mặt con vật, cơ thể con người ,…
Trang 16Hình 1.3 Ví dụ hệ thống phát hiện khuôn mặt
Hệ thống phát hiện khuôn mặt trong ảnh
Trang 171.2.3 Những khó khăn và thách thức trong quá trình phát hiện khuôn
mặt
Tuy được nghiên cứu từ những năm 70 nhưng do đây là một bài toán khó nên những nghiên cứu từ đó đến nay vẫn chưa đạt kết quả mong muốn, vì vậy việc xác định khuôn mặt trong ảnh có những khó khăn nhất định:
- Nét mặt trong quá trình chụp hình sẽ khác nhau tùy thuộc vào tâm trạng của của người đó như lúc vui, buồn,…do đó khuôn mặt sẽ không giống với trạng thái mẫu lý tưởng
- Hướng của khuôn mặt đối với máy ảnh khi chụp: như nhìn thẳng, nhìn nghiên, dó đó cùng trong một ảnh mà có nhiều khuôn mặt ở nhiều tư thế khác nhau
- Điều kiện chụp ảnh thiếu ánh sáng làm cho chất lượng ảnh kém hoặc chụp ngược ánh sáng
- Trong quá trình chụp ảnh khuôn mặt bị che bởi một số vật chắn
- Sự có mặt của các chi tiết đi kèm với khuôn mặt như mắt kính, khảo trang,…
Từ những khó khăn cơ bản được nêu ở trên chứng tỏ rằng bất cứ thuật toán xác định khuôn mặt nào cũng gặp phải những khuyết điểm nhất định Do vậy để so sánh với các thuật toán xác định mặt người khác ta thường dựa trên các tiêu chí đánh giá sau:
- Tỷ lệ phần trăm về vị trí xác định chính xác khuôn mặt, có xác định được tất cả khuôn mặt có trong ảnh không để so sánh với số lượng thực tế khuôn mặt trong ảnh đó
- Tổng thời gian để máy tính xác định được tất cả các khuôn mặt trong ảnh 1.2.4 Các lĩnh vực ứng dụng bài toán phát hiện khuôn mặt
Xác định mặt người là một phần của hệ thống nhận dạng khuôn mặt Nó được dùng trong giám sát video, giao tiếp giữa người và máy, các ứng dụng cơ bản của xác định khuôn mặt có thể kể đến là:
Trang 181.2.4.1 Hệ thống quan sát và theo dõi hành vi
Hệ thống quan sát và theo dõi hành vi sử dụng camera để xác định đâu
là con người và theo dõi người đó có xâm nhập bất hợp pháp vào một khu vực nào đó hay không Hoặc dựa vào ảnh của một người để nhận dạng xem họ có phải là tội phạm hay không bằng cách so sánh với các ảnh tội phạm được lưu
trữ trước đó và đưa ra cảnh báo giúp cơ quan an ninh quản lý tốt con người 1.2.4.2 Hệ thống tương tác giữa người và máy
Sử dụng các biểu cảm của khuôn mặt như nháy mắt để giúp những người bị bại liệt có thể giao tiếp với máy tính từ đó thể hiện được những gì họ đang muốn Ngoài ra giúp những người bị tật hoặc khiếm khuyết có thể dùng ngôn ngữ tay chân trao đổi giao tiếp với những người bình thường
1.2.4.3 Bảo mật
Ứng dụng phát hiện khuôn mặt trong ảnh vào bảo mật rất đa dạng, một trong số đó là hệ thống nhận dạng mặt người của laptop, với hệ thống này cho phép chủ nhân của máy tính ngồi trước webcam là có thể đăng nhập được Điều kiển ra vào công ty, văn phòng… kết hợp với nhận dạng vân tay để cho phép từng người ra vào khu vực mà họ được phép
Xác định mặt người có thể được ứng dụng trong các trạm rút tiền tự động (ATM) để lưu trữ khuôn mặt của người rút tiền, nhằm giảm hiện tượng
bị rút trộm tiền rồi đổ lỗi cho ngân hàng
Hình 1.4 Một hệ thống kiểm soát vào/ra dựa vào kỹ thuật phát hiện mặt người
Trang 191.2.4.4 Một số ứng dụng khác
Tại Mỹ cơ quan an ninh sân bay xuất nhập cảnh sử dụng camera quan sát để xác thực người nhập cảnh mục đích để kiểm tra xem người đó có phải là phần tử khủng bố hay tội phạm không
- Kiểm tra trạng thái của tài xế có mất cảnh giác hay ngủ gật khi đang lái xe không để ra thông báo hỗ trợ khi cần thiết
- Hệ thống tìm kiếm dữ liệu liên quan đến con người thông qua ảnh khuôn mặt hay đoạn video
- Một số hãng sản xuất máy chụp ảnh như Canon, fuijfilm đã ứng dụng thuật toán xác định mặt người trong ảnh vào máy chụp hình của mình để cho kết quả ảnh tại vị trí khuôn mặt đẹp và rõ hơn hơn
- Hiện nay số lượng người bị mất thẻ và mã PIN ngày càng nhiều, và một số chủ tài khoản thì tham rút tiền rồi nhưng báo là bị rút trộm tiền Ứng dụng trong hệ thống ATM để lưu trữ khuôn mặt người rút tiền sẽ giúp cho ngân
hàng dễ xử lý và đối chứng hơn
1.3 Các phương pháp phát hiện mặt người trong ảnh
Theo Ming-Hsuan Yang [28], dựa vào tính chất của các phương pháp có thể phân loại các phương pháp phát hiện khuôn mặt trong ảnh thành 4 nhóm chủ sau:
Hình 1.5 Mô hình tổng quát các phương pháp giải quyết phát hiện mặt người
Trang 201.3.1 Phương pháp tiếp cận dựa trên các luật tri thức
Nhóm phương pháp này chủ yếu dựa trên các luật được người nghiên cứu định nghĩa trước về khuôn mặt Những thuộc tính được định nghĩa thường có mối quan hệ giữa các thành phần trên khuôn mặt Một số nghiên cứu áp dụng theo hướng tiếp cận này như G Yang 1994 [10], Kotropoulos 1997 [5]
Hình 1.6 Phương pháp sử dụng đa độ phân giải Ảnh a có độ phân giải n=1, b=4, c=8, d= 16
Trong phương pháp tiếp cận này, người nghiên cứu sẽ đưa ra các tập luật dựa vào tri thức mà họ thu nhận được và cách làm thế nào để chuyển tri thức con người sang các tập luật Đây là hướng tiếp cận dạng top – down, đại diện nhà nghiên cứu Yang đã sử dụng cách tiếp cận này để xác định khuôn mặt trong ảnh
Hệ thống của tác giả sử dụng ba mức tập luật Ở mức đầu tiên tác giả đã dùng một khung cửa sổ quét trên toàn ảnh thông qua một tập luật để tìm các đối tượng được cho là khuôn mặt Qua mức thứ hai tác giả đã sử dụng một tập luật khác để
mô tả tổng quát hình thể khuôn mặt Mức cuối cùng tác giả sử dụng tập luật khác
để phân tích chi tiết các đặc trưng được xác định ở bước hai Hệ thống đa độ phân giải có thứ tự được dùng để xác định hình 1.6 Các luật ở mức cao dùng để tìm các ứng viên như là vùng trung tâm khuôn mặt, phần xung quanh bên trên của một khuôn mặt, mức độ khác nhau giữa các giá trị xám trung bình của phần vùng trung tâm và phần bao xung quanh bên trên Sang mức thứ hai, xem xét biểu đồ của các ứng viên để loại bớt ứng viên nào không phải là khuôn mặt, đồng thời dò ra cạnh bao xung quanh các ứng viên đó Ở mức cuối cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về mắt, mũi và miệng, hai ông đã dùng chiến thuật làm rõ dần để giảm bớt số lượng tính toán xử
lý
Trang 21Hình 1.7 Tri thức của chuyên gia nghiên cứu phân tích trên khuôn mặt
Pitas và Kotropoulos đưa ra một phương pháp dùng trên độ phân giải thấp Hai tác giả dùng phương pháp chiếu để xác định các đặc trưng khuôn mặt
Phương pháp này được thể hiện như sau:
Gọi I(x,y) là giá trị mức xám của một điểm ảnh có kích thước m x n tại vị trí (x,y) các hàm chiếu ảnh theo phương ngang và thẳng đứng được định nghĩa như sau:
HI(x)= ∑ và VI(y)=∑ (1.1)
Hình 1.8 Mô tả phương pháp chiếu
a) Ảnh có khuôn mặt và nền đơn giản b) Ảnh có khuôn mặt và nền khá phức tạp c) Ảnh có quá nhiều khuôn mặt
Dựa vào biểu đồ phương ngang ta thấy có hai giá trị cực tiểu cục bộ khi hai tác giả đang xét quá trình thay đổi độ dốc của HI đó chính là cạnh bên trái và bên
Trang 22phải của hai bên đầu Tương tự với phương chiếu thẳng đứng VI các cực tiểu cục
bộ cũng cho ta biết vị trí miệng, mũi và hai mắt Với các đặc trưng này đã đủ để xác định khuôn mặt
Chicote và Mateos dùng kết cấu để xác định ứng viên trong ảnh màu, sau đó phân tích hình dáng , kích thước và thành phần khuôn mặt để xác định khuôn mặt Khi tìm được ứng viên khuôn mặt, hai tác giả trích ra các ứng viên của từng thành phần khuôn mặt, sau đó dùng phép chiếu ở trên chiều từng phần để xác thực lại lần nữa đó có phải là thành phần khuôn mặt hay không hình 1.9
Hình 1.9 Chiếu từng phần ứng viên để xác thực thành phần khuôn mặt
1.3.2 Phương pháp tiếp cận dựa trên các đặc trưng bất biến
Với nhóm phương pháp này tác giả tập trung tìm các đặc trưng không phụ thuộc vào tư thế của khuôn mặt, cũng như điều kiện về ánh sáng trong ảnh Các đặc trưng này sẽ được gọi là bất biến Một số nghiên cứu áp dụng theo hướng tiếp cận này như K C Yow và R Cipolla 1997[22], T K Leung 1995[32] Đây
là hướng tiếp cận theo kiểu bottom – up Dựa trên nhận xét trong thực tế, con người dễ dàng nhận biết khuôn mặt trong các khuôn mặt khác nhau và điều kiện ánh sáng khác nhau, do đó khuôn mặt sẽ phải có các thuộc tính hay đặc trưng không thay đổi nào đó Theo các nghiên cứu thì đầu tiên phải xác định được các đặc trưng khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưng như: lông mày, mắt, mũi, miệng và đường viền của tóc được rút trích bằng phương pháp xác định cạnh Trên cơ sở các đặc trưng này sẽ xây dựng được mô hình thống kê để mô tả quan hệ của các đặc trưng này và xác định sự tồn tại của khuôn mặt trong ảnh Một khuyết điểm mà thuật toán theo hướng tiếp cận này
Trang 23phải làm là điều chỉnh lại độ sáng ảnh cho phù hợp, giảm nhiễu và bị che khuất
Vì bóng của khuôn mặt sẽ tạo thêm một cạnh mới mà cạnh này lại rõ hơn cạnh thật của khuôn mặt do đó nếu dùng cạnh để xác định sẽ bị sai
1.3.2.1 Các đặc trƣng khuôn mặt
Sirohey đưa ra một phương pháp xác định khuôn mặt từ một ảnh có hình nền phức tạp [18] Đây là phương pháp dựa trên đường biên và phương pháp Candy và heuristics để loại bỏ các cạnh để còn lại duy nhất đường bao xung quanh khuôn mặt Dùng một hình ellipse để bao khuôn mặt, tách biệt vùng đầu và hình nền
Graf đưa ra một phương pháp xác định các đặc trưng rồi xác định khuôn mặt trong ảnh xám Dùng bộ lọc để làm nổi biên, sau đó sử dụng các phép toán hình thái học để làm nổi bật các vùng có cường độ cao và hình dáng chắc chắn Thông qua biểu đồ tìm ra các thành phần nổi bật rồi xác định các ngưỡng để chuyển ảnh xám thành hai ảnh nhị phân Các thành phần dính nhau đều xuất hiện trong ảnh nhị phân thì được xem là vùng ứng viên khuôn mặt để phân tích xem có phải là khuôn mặt hay không
Leung đưa ra một mô hình xác suất để xác định khuôn mặt trong ảnh có hình nên phức tạp dựa trên việc tìm kiếm các đặc trưng không thay đổi của khuôn mặt trong ảnh, sau đó dùng đồ thi ngẫu nhiên để xác định khuôn mặt Phương pháp này xem bài toán xác định khuôn mặt là bài toán tìm kiếm thứ tự các đặc trưng không thay đổi của khuôn mặt Ông đã dùng 2 cặp đặc trưng mắt, mũi và miệng để mô tả khuôn mặt Đồng thời tính khoảng cách cho tất cả các cặp đặc trưng sau đó dùng phân bố Gauuss để mô hình hóa Với mỗi mẫu khuôn mặt đưa ra được thông qua trung bình tương ứng cho một tập đa hướng,
đa tỷ lệ của đạo hàm Gauuss Từ một ảnh, các đặc trưng của ứng viên được xác định bằng cách so khớp từng điểm ảnh khi lọc tương ứng với vector mẫu
Từ các đặc trưng không thay đổi này, các đặc trưng khác sẽ được xác định thông qua sự đánh giá xác suất khoảng cách giữa các đặc trưng
Bên cạnh khoảng cách để mô tả quan hệ giữa các đặc trưng như Leung Kendall[8], Mardia and Dryden[24] dùng lý thuyết xác suất thống kê về hình dáng, dùng hàm mật độ xác suất qua N điểm đặc trưng, tương ứng tại I(x, y)
Trang 24giả sử phân bố Gauss có 2N chiều, hai tác giả đã áp dụng phương thức cực đại khả năng để xác định vị trí khuôn mặt, ưu điểm của phương pháp này là các khuôn mặt bị che có thể phát hiện được
Juan và Narciso xây dựng một không gian màu mới YCg’Cr’ để lọc các vùng là ứng viên khuôn mặt dựa trên sắc thái của màu da người Sau khi có ứng viên, hai ông dùng các quan hệ về hình dáng khuôn mặt, mức độ cân đối của các thành phần khuôn mặt để xác định khuôn mặt người Tương tự, Chang, Hwang và Jin xây dựng một bộ lọc để xác định ứng viên khuôn mặt người theo màu da người Từ ứng viên này tác giả xác định khuôn mặt người theo hình dáng khuôn mặt và các quan hệ đặc trưng về thành khuôn mặt, với mắt phải được chọn làm gốc tọa độ để xét quan hệ
Mark và Andrew dùng phân bố màu da và thuật toán Difference of Gauss để tìm các ứng viên, rồi xác thực bằng một hệ thống học kết cấu của khuôn mặt Manian và Ross dùng biến đổi wavelet để xây dựng tập dữ liệu kết cấu của khuôn mặt trong ảnh xám thông qua nhiều độ phân giải khác nhau, kết hợp với xác suất thống kê để xác định khuôn mặt trong ảnh
1.3.2.3 Đặc trƣng sắc màu của da
Mục đích của việc sử dụng đặc trưng sắc màu của da là để giảm thiểu
dữ liệu của vùng ứng viên có thể là khuôn mặt
1.3.2.4 Đa đặc trƣng
Yachida đưa ra phương pháp xác định khuôn mặt trong ảnh màu bằng
lý thuyết logic mờ Ông dùng hai mô hình mờ để mô tả phân bố màu da và màu tóc trong không gian màu CIE XYZ Có năm mô hình dùng để mô tả hình dáng của mặt trong ảnh Mỗi mô hình là một mẫu hai chiều bao gồm các ô
Trang 25vuông kích thước m x n, mỗi ô có thể chứa nhiều hơn một điểm ảnh Hai thuộc tính được gán trên mỗi ô là tỷ lệ màu da và tỷ lệ tóc so với diện tích của ô Mỗi điểm ảnh sẽ được phân loại thành tóc, khuôn mặt, tóc/khuôn mặt và tóc/nền và phân bố đều trên mô hình, với cách làm như vậy sẽ có các vùng giống khuôn mặt và giống tóc Mô hình hình dáng của đầu sẽ được so sánh với vùng giống khuôn mặt và giống tóc này
Pitas và Sobottke dùng các đặc trưng về hình dáng và màu sắc để xác định khuôn mặt Hai tác giả dùng một ngưỡng để phân đoạn ảnh trong không gian màu HSV để xác định các vùng có thể là màu da người Các thành phần liên kết với nhau sẽ được xác định bằng thuật toán tăng vùng ở độ phân giải thấp Sau khi phân đoạn ảnh sẽ tìm ứng viên vừa khớp với hình ellipse chọn làm ứng viên của khuôn mặt Từ ứng viên này sẽ sử dụng các đặc trưng bên trong như mắt, mũi , được trích ra trên cơ sở vùng mắt và miệng sẽ tối hơn các vùng khác, sau cùng phân loại dựa trên mạng nơ ron để biết vùng ứng viên nào là khuôn mặt thật sự
1.3.3 Phương pháp tiếp cận dựa trên đối sánh mẫu
Nhóm phương pháp này nghiên cứu kỹ thuật đối sánh mẫu dựa trên sự đối sánh khuôn mặt nhận được với các mẫu được xây dựng trước bằng cách quét qua toàn bộ ảnh và tính toán giá trị tương đồng cho mỗi vị trí Một số nghiên cứu điển hình theo hướng tiếp cận này như I.Craw 1992[15], A Lanitis 1995[1]
Trong hướng tiếp cận này, các mẫu khuôn mặt sẽ được xác định trước hoặc xác định các tham số thông qua một hàm nào đó Từ một ảnh đầu vào tính
ra các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt, mắt, mũi và miệng Thông qua các giá trị này tác giả quyết định có hay không có khuôn mặt trong ảnh
Trang 26thay đổi gradient nhiều nhất và so khớp với các mẫu con Đầu tiên tìm ra các vùng ứng viên thông qua mối tương quan giữa các ảnh con và các mẫu về đường viền Sau đó so khớp với các mẫu con khác
Craw đề xuất ra một phương pháp xác định khuôn mặt dựa vào các mẫu
về hình dáng của các ảnh được chụp thẳng Đầu tiên dùng phép lọc Sobel để tìm các cạnh, các cạnh này sẽ được nhóm lại theo một số ràng buộc Sau đó, tìm đường viền của đầu quá trình như vậy được lặp đi lặp lại ứng với mỗi tỷ lệ khác nhau để xác định các đặc trưng về mắt, môi,
Sinha dùng một tập nhỏ các bất biến ảnh trong không gian ảnh để mô tả không gian các mẫu ảnh Tư tưởng chính của ông dựa vào sự thay đổi mức sáng của các vùng khác nhau của khuôn mặt Từ đó ông xác định các cặp tỷ số của mức độ sáng của một số vùng sẽ cho ta một lượng bất biến khá hiệu quả Các vùng có độ sáng đều được xem là mẫu tỷ số mà là mẫu thô trong không gian ảnh của một khuôn mặt Ông lưu giữ lại sự thay đổi độ sáng của các vùng trên khuôn mặt trong một tập thích hợp với các cặp quan hệ sáng hơn – tối hơn giữa các vùng Như vậy một khuôn mặt được xác định khi nó phù hợp với tất
cả các cặp sáng hơn – tối hơn
Hình 1.10 Mẫu so sánh khớp sử dụng 23 quan hệ
Hình 1.10 cho thấy mẫu nổi bật trong 23 quan hệ được định nghĩa, dùng các quan hệ này để phân loại , có 11 quan hệ cần thiết được mô tả bằng mũi tên và 12 quan hệ xác thực Mỗi quan hệ thỏa mãn mẫu khuôn mặt khi tỷ
Trang 27lệ giữa hai vùng vượt qua một ngưỡng nào đó và 23 quan hệ này cũng vượt qua ngưỡng nào đó thì được xem là một khuôn mặt
Wei và Lai dùng bộ lọc để phân đoạn kết hợp thuật toán tìm láng giềng gần nhất xác định ứng viên khuôn mặt, từ ứng viên này sau đó so khớp với các mẫu đã xác định trước để biết ứng viên có phải là khuôn mặt thật sự hay không
1.3.3.2 Các mẫu bị biến dạng
Yuille dùng các mẫu biến dạng để mô hình hóa các đặc trưng của khuôn mặt [3], mô hình này có khả năng linh hoạt cho các đặc trưng khuôn mặt Với hướng tiếp cận này, các đặc trưng khuôn mặt được mô tả bằng các mẫu được tham số hóa Một hàm giá trị được định nghĩa để liên kết các cạnh, đỉnh và các vùng trong ảnh để tương ứng với các tham số mẫu Ngoài ra còn
có rất nhiều nghiên cứu dựa trên đường gấp khúc snake và các mẫu để xác định khuôn mặt Đầu tiên sẽ dùng phép lọc làm mờ rồi sử dụng phép toán morphology để làm nổi bật cạnh lên Sau đó tác giả sử dụng một đường gấp khúc có n điểm ảnh để tìm và ước lượng các đoạn cong Mỗi ứng viên là khuôn mặt sẽ được xấp xỉ bằng một ellipse sử dụng biến đổi Hough rồi tìm một ellipse nổi trội nhất Các ứng viên sẽ có bốn tham số mô tả một hình ellipse trên Nếu mỗi ứng viên tìm thấy số lượng đáng kể các đặc trưng khuôn mặt và thỏa mãn tỷ lệ cân đối thì xem như đã xác định được một khuôn mặt Ngược lại Lam và Yan [23] sử dụng đường gấp khúc và thuật toán Greedy để cực tiểu hóa hàm để xác định vị trí đầu
Lanitis mô tả một phương pháp biểu diễn khuôn mặt người với hai thông tin: hình dáng và cường độ [25] Bắt đầu bằng các tập ảnh được huấn luyện với các đường viền mẫu như là đường bao mắt, mũi, cằm/má đã được gán nhãn Ông dùng một vector các điểm mẫu để mô tả hình dáng Sau đó dùng một mô hình phân bố điểm (Point Distribution Model – PDM) để mô tả vector hình dáng qua toàn bộ các cá thể Sử dụng tiếp cận của Kirby và Sirovich [26] để
mô tả cường độ bề ngoài của hình dáng đã được chuẩn hóa Để tìm kiếm và ước lượng vị trí khuôn mặt cũng như các tham số về hình dáng ông sử dụng
Trang 28một mô hình PDM có hình dáng như khuôn mặt Các ứng viên của khuôn mặt được làm biến dạng về hình dáng trung bình rồi trích lấy các tham số cường
độ Sau đấy các tham số hình dáng và cường độ được dùng để gán nhãn và xác định khuôn mặt
1.3.4 Phương pháp tiếp cận dựa trên kỹ thuật học máy
Mạng nơ ron được áp dụng khá thành công trong các bài toán nhận dạng mẫu như nhận ký tự, đối tượng,… Nhóm phương pháp này đề xuất ra mô hình quá trình học để rút trích các mẫu và sử dụng mô hình này để huấn luyện và tìm kiếm khuôn mặt Một số nghiên cứu áp dụng hướng tiếp cận này như Phân lớp Bayes (H Schneiderman và T Kanade 1998)[12], mô hình tăng cường (AdaBoost của P Viola và M Jones 2001) [29][30], mạng nơ ron (H Rowley 1998)[11], mô hình Markov ẩn (A Rajagopalan et al 1998) [2]
Hình 1.11 Mô hình mạng nơ ron của Rowley
Propp và Samal phát triển mạng nơ ron để xác định khuôn mặt sớm nhất Mạng nơ ron của hai tác giả gồm bốn tầng với 1024 đầu vào và 256 đầu kế tiếp trong tầng ẩn thứ nhất, tám đầu kế tiếp trong tầng ẩn thứ hai và hai đầu ra
Vaillant dùng mạng nơ ron xoắn để xác định khuôn mặt người Đầu tiên sẽ tạo ra ảnh mẫu khuôn mặt và không phải khuôn mặt có kích thước 20x20 Dùng một mạng nơ ron, mạng này đã được huấn luyện để tìm các vị trí tương đối của các khuôn mặt ở các vị trí khác nhau rồi dùng một mạng khác để xác định vị trí chính xác của khuôn mặt Mạng đầu tiên được dùng để tìm ứng viên khuôn mặt, còn mạng thứ hai để xác định ứng viên nào là khuôn mặt thật sự
Trang 29Theo đánh giá các phương pháp dùng mạng nơ ron thì phương pháp dùng mạng nơ ron của Rowlley được xem là tối ưu nhất đối với ảnh xám Phương pháp này sử dụng mạng đa tầng để học các mẫu khuôn mặt và không khuôn mặt từ các ảnh tương ứng dựa trên quan hệ về cường độ sáng, vị trí trong không gian của các điểm ảnh
1.3.4.1 Kiến trúc hoạt động của hệ thống
Vấn đề phát hiện khuôn mặt thực chất là bài toán phân hai lớp: lớp khuôn mặt và lớp không là khuôn mặt Kiến trúc của hệ thống phát hiện khuôn mặt trong ảnh dựa trên mạng nơ ron và cơ chế làm việc của hệ thống được trình bày trong hình 1.12 Hệ thống này sẽ cung cấp các kết quả phát hiện xem trong một ảnh đơn ở đầu vào có ảnh khuôn mặt hay không, nếu có thì xác định
vị trí của khuôn mặt Tập hợp các ảnh dùng cho quá trình học của mạng nơ ron được chuẩn hóa với độ phân giải 18x27 pixels Đây là bài toán học có giám sát, tập các ảnh học bao gồm hai lớp: lớp ảnh khuôn mặt và lớp ảnh không là khuôn mặt Để phát hiện khuôn mặt trong ảnh đầu vào có kích thước MxM ta
sử dụng phương pháp đa phân giải Một ảnh vào được xem như một tập hợp các ảnh có độ phân giải khác nhau dựa trên cấu trúc tháp Một cửa sổ phân tích kích thước 18x27 pixels được quét qua lần lượt khắp các vị trí của ảnh này, tại mỗi vị trí nó sẽ phát hiện là có khuôn mặt hay không và nó được thực hiện bởi mạng Perceptron nhiều tầng (MLP)
Trang 30Hình 1.12 Kiến trúc hệ thống phát hiện khuôn mặt dựa trên mạng nơ ron 1.3.4.2 Tiền xử lý
Ảnh đầu vào của toàn hệ thống là ảnh màu, tuy nhiên để làm giảm bớt
độ phức tạp tính toán các ảnh đầu vào của mạng nơ ron, tập các ảnh để huấn luyện cho mạng đều là ảnh xám Tập các ảnh xám này được xử lý để nâng cao chất lượng độ tương phản, làm giảm nhiễu các kỹ thuật thường được dùng như dãn histogram, lọc,…
1.3.4.3 Xây dựng mô hình quá trình học
Chúng tôi lựa chọn kiến trúc mạng MLP với giải thuật học lan truyền ngược, để có thể tạo mô hình học tốt thì tiêu chí ảnh khuôn mặt mô tả càng nhiều sự thay đổi của khuôn mặt càng tốt, để giải quyết yêu cầu này tôi đề nghị một giải pháp là tạo ra các ảnh mới từ tập ảnh học ban đầu bằng cách xoay ảnh ở những góc thích hợp và cách lấy đối xứng trái – phải
1.3.4.4 Support Vector Machine (SVM)
Support Vector Machine(SVM) là một kỹ thuật học máy được Vapnik
đề xuất, phương pháp này sẽ hiệu quả với dữ liệu lớn, nhưng gặp khó khăn khi cần phải mô tả chính xác các khuôn mặt SVM được xem là một kiểu mới dùng huấn luyện để phân loại theo hàm đa thức Hầu hết các phương pháp khác dùng huấn luyện để phân loại đều dùng tiêu chí tối thiểu lỗi huấn luyện,
Trang 31trong khi SVM dùng quy nạp và mục tiêu là làm tối thiểu lỗi tổng quát Một phân loại SVM là một phân loại tuyến tính dùng một mặt phẳng để tách dữ liệu Dựa trên một kết hợp có các trọng số của một tập con các vector huấn luyện các vector này được gọi là support vector
1.3.4.5 Mạng lọc thƣa (Sparse Network of Winnows – SnoW)
Phương pháp này do Yang đề xuất, dùng để xác định các khuôn mặt với các đặc trưng khác nhau và biểu diễn trong các tư thế khác nhau dưới điều kiện ánh sáng khác nhau SnoW là một mạng thưa dùng các hàm tuyến tính và lọc để cập nhật luật Phương pháp này tương đối thích hợp cho học trong miền khi các đặc trưng tiềm năng tạo nên các quyết định khác nhau mà không biết mức độ ưu tiên
1.3.4.6 Mô hình Markow ẩn ( Hidden Markow Model – HMM)
Young dùng HMM 2 chiều hình 1.13 để rút trích đặc trưng khuôn mặt dùng để nhận dạng khuôn mặt HMM khai thác cấu trúc khuôn mặt tuân theo các chuyển tiếp trạng thái Các vùng đặc trưng quan trọng như trán, mắt, mũi, miệng tác giả phân tích theo tự nhiên từ trên xuống dưới, mỗi vùng được thiết
kế thành một trạng thái một chiều Mỗi ảnh được phân đoạn thành năm vùng theo thứ tự từ trên xuống dưới tạo thành năm trạng thái Giả thuyết quan trọng của mô hình Markow ẩn là các mẫu có thể được đặc tính hóa như các tiến trình ngẫu nhiên có tham số và các tham số này được ước lượng chính xác Khi phát triển HMM để giải quyết cho bài toán nhận dạng mẫu, phải xác định
rõ có bao nhiêu trạng thái ẩn đầu tiên cho hình thái mô hình Sau đó, huấn luyện HMM học xác suất chuyển tiếp giữa các trạng thái từ các mẫu, các mẫu này được mô tả như một chuỗi các quan sát Mục tiêu của HMM là cực đại hóa xác suất của quan sát từ dữ liệu huấn luyện bằng cách điều chỉnh các tham
số trong mô hình thông qua phương pháp phân đoạn Viterbi chuẩn và các thuật toán Baum Welch Có nghĩa là chia một khuôn mặt thành nhiều vùng khác nhau như đầu, mắt, mũi,… Có thể nhận dạng mẫu khuôn mặt bằng một tiến trình xem các vùng quan sát theo thứ tự thích hợp Mục tiêu của hướng tiếp cận này là kết hợp các vùng đặc trưng khuôn mặt với các trạng thái của
mô hình Thông thường các phương pháp dựa vào HMM sẽ xem xét một mẫu
Trang 32khuôn mặt như một chuỗi các vector quan sát, với mỗi vector là một dãy các điểm ảnh hình 1.14, sau đó áp dụng một định hướng theo xác suất để chuyển
từ trạng thái này sang trạng thái khác , hình 1.14 dữ liệu ảnh được chuyển sang
mô hình hóa bằng phân bổ Gauss nhiều biến
Hình 1.13 Dùng HMM xác định khuôn mặt
Hình 1.14 Mô hình Markow ẩn 1.3.4.7 Phân loại Bayes
Bayes là một bộ phân loại tuyến tính dựa trên xác suất Tư tưởng chính của phân loại này là dựa vào xác suất của các đặc trưng xuất hiện trên khuôn mặt Đây là một phương pháp đơn giản, tốc độ nhanh nhưng cần phải có tập huấn luyện lớn
Trang 33Một số nghiên cứu điển hình dùng phân loại Bayes theo hướng tiếp cân dựa trên diện mạo đó là nghiên cứu của Schneiderman và Kanade Hai ông đã
mô tả phân loại để ước lượng xác suất chung của diện mạo cục bộ và vị trí của các mẫu ở nhiều độ phân giải khác nhau Ứng với mỗi độ phân giải, khuôn mặt người được chia thành bốn vùng hình chữ nhật, các vùng này được chiếu xuống không gian có số chiều bé hơn và được lượng tử hóa thành các tập mẫu
có giới hạn Sau đó thông kê các vùng đã được chiếu để mã hóa diện mạo cục
bộ Nếu xác suất này lớn hơn xác suất tiền nghiệm thì kết luận có khuôn mặt Với hướng tiếp cận này cho phép xác định các khuôn mặt bị xoay và nghiên
1.3.5 Phương pháp tiếp cận dựa vào đặc trưng 3D
James L Crowley 1983, đã đưa ra khái niệm ridges and peaks [19][20], Ridges là các điểm nổi ( hay những vùng nhô cao) trên khuôn mặt, điểm nổi này
sẽ tạo thành những đường xương và tập các đường xương này được gọi là Peaks James L.Crowley dùng phép hiệu lọc của Low Pass để rút ra các điểm xương trên ảnh, sau đó dùng thuật toán duyệt để kết các điểm xương này lại với nhau tạo thành đặc trưng ridges and peaks Một số hướng tiếp cận khác được đề xuất để rút các đặc trưng ridges and peaks [21][4][7] Đa phần các hướng tiếp cận này sử dụng các kỹ thuật lọc phụ thuộc vào không gian như lọc trung vị, lọc trung bình,… để tăng cường thông tin về cạnh trên ảnh sau đó dò tìm điểm cực trị Các điểm cực trị này được xem là các đặc trưng Ridges and Peaks Năm 2004, Hải Trần đưa ra cách tiếp cận Laplacian[13][14] để tăng cường khả năng phát hiện các đặc trưng Ridges and Peaks dưới nhiều mức khác nhau Với hướng tiếp cận này các đặc trưng ridges and peaks sẽ được biểu diễn dưới dạng cây bậc D cỡ K Quan Yaun[31], đưa ra khái niệm valley – like Đặc trưng này dựa trên độ sáng của các điểm xung quanh so với điểm đang xét để xác định xem có phải là điểm Ridges and Peaks không Tuy nhiên hướng tiếp cận của Quan Yaun quá đặc biệt đối với ảnh đầu vào nên ít được phát triển và để ý
1.3.6 Nhận xét chung các phương pháp tiếp cận hiện tại
Các phương pháp tiếp cận được trình bày ở phần 1.3 cho chúng ta thấy chúng khá linh hoạt và ổn định nhưng vẫn còn một số khuyết điểm hạn chế Hầu
Trang 34hết các phương pháp trên sử dụng độ sáng của điểm ảnh nên sẽ có mức độ ý niệm thấp, dó đó cần phải kết hợp các các luật, tri thức được định nghĩa trước nếu không các mô hình này sẽ không đạt được độ chính xác trong quá trình phát hiện khuôn mặt Do đó, chúng ta cần hướng đến một đặc trưng có ý niệm cao hơn trong việc phát hiện khuôn mặt như cần có đặc trưng về cấu trúc khuôn mặt, các điểm nổi chính trên khuôn mặt,…
Để giải quyết những khó khăn và hạn chế được nêu ở trên, trong luận văn này tôi
sẽ đưa ra một đặc trưng có ý niệm cao hơn đó là đặc trưng 3D trên khuôn mặt Với phương pháp tiếp cận này cấu trúc của khuôn mặt sẽ được biểu diễn bằng cây bậc D cỡ K các điểm 3D phân tích được Từ mô hình này tôi sẽ áp dụng
phương pháp thống kê để phát hiện khuôn mặt trong ảnh
1.4 Phạm vi của đề tài
Do những khó khăn đã nêu ở phần trên nên trong luận văn này tôi xin đưa ra các giả định và ràng buộc như sau để giảm độ phức tạp của thuật toán Luận văn trên tôi tập trung vào việc xác định mặt người trong ảnh là chính và sẽ mở rộng sang video và web sau
- Khuôn mặt trong ảnh phải chụp thẳng, nếu nghiên thì góc nghiên không quá 30 độ
- Ảnh được chụp trong điều kiện ánh sáng bình thường
- Phông nền của ảnh không quá phức tạp
Trang 35CHƯƠNG 2: PHÁT HIỆN KHUÔN MẶT DỰA VÀO ĐẶT TRƯNG 3D
Hình 2.1 Những điểm tương quan giữa các thành phần trên khuôn mặt 2D và
3D
Để dễ hình dung hơn về 3D chúng ta nên hiểu theo nghĩa thật sự của nó, 3D thực ra là những điểm nhô cao trên khuôn mặt và nhưng điểm rãnh trên khuôn mặt Những điểm nhô cao thực ra là những điểm xương mà ta xác định được, còn rãnh là điểm khe nằm giữa các điểm xương Đối với ảnh khuôn mặt thì những điểm nhô cao là phần mũi, hai gò má, cằm và trán, các phần hốc mắt, khe giữa gò má và mũi được coi là rãnh