...12 Hình 1.2: Hỗn hợp mô hình Gaussian cho phép trừ nền...15 Hình 1.3: Tách hình nền dựa trên phân hủy Eigenspace không gian được xây dựng với các vật thể trong FOV của máy ảnh...17 Hì
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐINH QUANG HUY
PHƯƠNG PHÁP PHÁT HIỆN MẶT NGƯỜI
SỬ DỤNG ĐẶC TRƯNG HOG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên, 2018
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐINH QUANG HUY
PHƯƠNG PHÁP PHÁT HIỆN MẶT NGƯỜI
SỬ DỤNG ĐẶC TRƯNG HOG
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS NGUYỄN TOÀN THẮNG
Thái Nguyên, 2018
Trang 3LỜI CAM ĐOAN
Tên tôi là: Đinh Quang Huy
Sinh ngày: 06/08/1981
Học viên lớp cao học CHK15A - Trường Đại học Công nghệ Thông tin vàTruyền thông - Đại học Thái Nguyên
Hiện đang công tác tại: Sở Giáo dục và Đào tạo tỉnh Thái Nguyên
Xin cam đoan: Đề tài “Phương pháp phát hiện mặt người sử dụng đặc trưng
HOG” do TS Nguyễn Toàn Thắng hướng dẫn là công trình nghiên cứu của riêng
tôi Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nộidung trong đề cương và yêu cầu của thầy giáo hướng dẫn Nếu sai tôi hoàn toànchịu trách nhiệm trước hội đồng khoa học và trước pháp luật
Thái Nguyên, ngày tháng năm 2018
Tác giả luận văn
Đinh Quang Huy
Trang 4Tôi xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hướng dẫn TS Nguyễn Toàn Thắng đã tận tình chỉ dẫn, giúp đỡ
tôi hoàn thành luận văn này
Phòng đào tạo Sau đại học Trường Đại học Công nghệ Thông tin và Truyềnthông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn
Sở Giáo dục và Đào tạo tỉnh Thái nguyên nơi tôi công tác đã tạo điều kiện tối
đa cho tôi thực hiện khóa học này
Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoànthành luận văn này
Thái Nguyên, ngày 17 tháng 6 năm 2018
Tác giả luận văn
Đinh Quang Huy
Trang 5MỤC LỤC
Trang
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC TỪ VIẾT TẮT 5
DANH MỤC HÌNH ẢNH 6
DANH MỤC BẢNG BIỂU 8
MỞ ĐẦU 9
1 Mục tiêu của đề tài 10
2 Hướng nghiên cứu của đề tài 11
3 Ý nghĩa khoa học và thực tiễn của đề tài 11
CHƯƠNG I TỔNG QUAN VỀ PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH VÀ VIDEO
12 1.1 Phát hiện điểm 12
1.2 Phép trừ nền 14
1.3 Phân vùng 18
1.3.1 Mean-Shift Clustering 18
1.3.2 Phân đoạn Hình ảnh Sử dụng Đồ thị-Cuts .19
1.3.3 Đường nét hoạt động 20
1.4 Học có giám sát 21
1.5 Thuật toán Viola–Johns và các vấn đề liên quan 23
1.5.1 Thuật toán Viola–Johns 23
1.5.2 Đánh Giá Thuật Toán Viola-Jones 24
Trang 61.6 Adaboost 26
1.7 Đặc trưng Haar wavelet 30
CHƯƠNG 2 ĐẶC TRƯNG HOG VÀ CÁCH SỬ DỤNG HOG KẾT HỢP VỚI SVM TRONG PHÁT HIỆN MẶT NGƯỜI 33
2.1 Phương pháp phát hiện mặt người sử dụng HOG 33
2.2 Rút trích đặc trưng HOG trong ảnh 38
2.3 Chuẩn hóa vector đặc trưng cho từng block 42
2.4 Integral Image, công thức đệ quy tính Integral Image 43
2.5 Chuẩn hóa ánh sáng với bộ lọc Retinal filter 44
2.6 Phương pháp phân lớp SVM 47
CHƯƠNG 3 XÂY DỰNG CHƯƠNG TRÌNH, THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 50
3.1 Môi trường thử nghiệm 50
3.2 Dữ liệu thử nghiệm 50
3.2.1 Cơ sở dữ liệu UOF 50
3.2.2 Cơ sở dữ liệu FEI 51
3.2.3 Cơ sở dữ liệu JAFFE 51
3.2.4 Cơ sở dữ liệu LFW 52
3.3 Kết quả thử nghiệm 52
KẾT LUẬN 56
DANH MỤC TÀI LIỆU THAM KHẢO 58
Trang 8DANH MỤC HÌNH ẢNH
Hình 1.1: Các điểm quan tâm được phát hiện bằng cách áp dụng (a) Harris, (b) các
toán tử KLT, và (c) SIFT .12
Hình 1.2: Hỗn hợp mô hình Gaussian cho phép trừ nền 15
Hình 1.3: Tách hình nền dựa trên phân hủy Eigenspace (không gian được xây dựng với các vật thể trong FOV của máy ảnh 17
Hình 1.4: Phân chia hình ảnh trong (a), sử dụng phân đoạn dịch chuyển trung bình (b) và vết cắt bình thường (c) .17
Hình 1.5: Đặc trưng Haar - Like 23
Hình 1.6: Tính tích phân ảnh 23
Hình 1.7: Cách tính P(x, y) 24
Hình 1.8: Kiểm tra kết quả chương trình so với bộ dữ liệu test 25
Hình 1.9: Kết quả phát hiện khuôn mặt bị sai lệch với khuôn mặt đeo kính 26
Hình 1.10: Mô hình phân tầng kết hợp các bộ phân loại yếu để xác định khuôn mặt .27
Hình 1.11: Kết hợp các bộ phận loại yếu thành bộ phận loại mạnh 28
Hình 1.12: Sơ đồ khối thuật toán Adaboost 28
Hình 1.13 Minh họa tầng phân loại 31
Hình 2.1 Mô hình phương pháp phát hiện khuôn mặt sử dụng đặc trưng HOG 33
Hình 2.2: Minh họa các mẫu cửa sổ tìm kiếm kích thước 64x128 34
Hình 2.3: Minh họa ô kích thước 8x8 trong cửa sổ tìm kiếm 35
Hình 2.4: Minh họa cho HOG 35
Hình 2.5: Minh họa cho việc cộng thêm và nhân thêm vào giá trị của từng điểm ảnh .36
Hình 2.6: Minh họa cho sự thay đổi giá trị các vector gradient khi có sự thay đổi về ánh sáng 36
Trang 9Hình 2.7: Hình ảnh minh họa cho sự gộp các ô để tạo nên các khối có sự chồng lấp
37
Hình 2.8: R-HOG và C-HOG [7] 38
Hình 2.9: Mỗi khối (block) gồm nhiều ô (cell) Trong hình trên ta thấy một khối gồm 9 ô .39
Hình 2.10: Các khối được xếp chồng lên nhau 39
Hình 2.11: Tính góc và biên độ theo X-gradient và Y-gradient 40
Hình 2.12: Các bước rút trích đặc trưng HOG [10] 42
Hình 2.13: Integral Image [11] 43
Hình 2.14 Các bước trong bộ lọc Retinal filter 45
Hình 2.15: Kết quả của việc tiền xử lý với bộ lọc Retina filter 46
Hình 2.16 Siêu phẳng tách với khoảng cách lề cực đại 47
Hình 3.1: Cơ sở dữ liệu mẫu UOF 51
Hình 3.2: Cơ sở dữ liệu mẫu FEI 51
Hình 3.3: Cơ sở dữ liệu mẫu JAFFE 52
Hình 3.4: Cơ sở dữ liệu mẫu LFW 52
Hình 3.5: Giao diện chương trình 55
Hình 3.6: Giao diện chương trình khi thực hiện phát hiện được khuôn mặt 55
Trang 10DANH MỤC BẢNG BIỂU
Bảng 1.1: Bảng đánh giá thuật toán Viola - Jones 25Bảng 3.1: Đánh giá hiệu quả phát hiện khuôn mặt 53Bảng 3.2: Đánh giá độ chính xác phát hiện khuôn mặt 54
Trang 11MỞ ĐẦU
Thị giác máy là một lĩnh vực thu hút nhiều nghiên cứu và thể hiện khả năngứng dụng cao trong những năm gần đây Một trong những bài toán được đặc biệtquan tâm là phát hiện vật thể trong ảnh/video Phát hiện vật thể thường là bước khởiđầu cho các hệ thống theo dõi/giám sát và nhận diện
Phát hiện mặt người là một chủ đề nghiên cứu thuộc lĩnh vực thị giác máytính đã được phát triển từ đầu những năm 90 của thế kỷ trước, cho tới hiện nay, đâyvẫn là một chủ đề nghiên cứu mở, nhận được sự quan tâm của nhiều nhà nghiên cứu
từ nhiều lĩnh vực nghiên cứu khác nhau Điều này là do có rất nhiều ứng dụng thực
tế cần tới một hệ thống phát hiện mặt người, từ các hệ thống quản lý đăng nhập đơngiản cho tới các ứng dụng giám sát tại các địa điểm công cộng, hoặc quản lý dân số
và pháp lý
Hơn một thập kỷ qua, có rất nhiều công trình nghiên cứu về bài toán xác địnhkhuôn mặt người từ ảnh đen trắng, ảnh xám, đến ảnh màu như ngày nay Cácnghiên cứu đi từ bài toán đơn giản là ảnh chỉ chứa một khuôn mặt người nhìn thẳngvào thiết bị thu hình và đầu ở tư thế thẳng đứng, cho đến ảnh màu với nhiều khuônmặt người trong cùng ảnh, khuôn mặt có quay một góc nhỏ, hay bị che khuất mộtphần, và với ảnh nền của ảnh phức tạp (ảnh chụp ngoài thiên nhiên) nhằm đáp ứngnhu cầu thật sự cần thiết của con người
Bài toán xác định khuôn mặt người (Face detection) là một kỹ thuật máy tính
để xác định các vị trí và các kích thước của khuôn mặt trong ảnh bất kỳ (ảnh kỹthuật số) Kỹ thuật này nhận biết các đặt trưng khuôn mặt và bỏ qua những thứ khácnhư: tòa nhà, cây cối, cơ thể
Một số ứng dụng của bài toán xác định khuôn mặt là: hệ thống tương tác giữangười và máy (điều kiển máy tính qua các cử động của khuôn mặt), hệ thống nhậndạng người (giúp cho các cơ quan an ninh quản lý con người), hệ thống quan sáttheo dõi, hệ thống quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra
Trang 12người lái xe có ngủ gật hay không, hệ thống phân tích cảm xúc trên khuôn mặt, và
hệ thống nhận dạng khuôn mặt cho các máy ảnh kỹ thuật số
Hiện nay có rất nhiều phương pháp phát hiện khuôn mặt người, dựa vào cáctính chất của các phương pháp, ta có thể chia ra làm bốn hướng tiếp cận chính nhưsau: Hướng tiếp cận dựa trên tri thức: mã hoá hiểu biết của con người về các loạikhuôn mặt và tạo ra các tập luật để xác định khuôn mặt Hướng tiếp cận dựa trênđặc tả không thay đổi: mục tiêu các thuật toán tìm ra các đặt trưng mô tả cấu trúckhuôn mặt người (các đặt trưng không thay đổi với tư thế, vị trí đặt thiết bị thu hình,
độ sáng tối thay đổi ) Hướng tiếp cận dựa trên so khớp mẫu: dùng các mẫu chuẩnhay các đặc trưng của khuôn mặt người Hướng tiếp cận dựa trên diện mạo: phươngpháp học từ một tập ảnh huấn luyện mẫu để xác định khuôn mặt người
Phương pháp nhận diện được sử dụng rất phổ biến hiện nay dựa trên thuậttoán của Viola-Johns Tuy nhiên, phương pháp này có thời gian huấn luyện rất dài,yêu cầu số mẫu lớn Một số cải tiến đã được đưa ra để giải quyết vấn đề này, trong
đó có việc sử dụng đặc trưng HOG (Histogram of Oriented Gradient)
Mục tiêu của đề tài là nghiên cứu loại đặc trưng HOG, cách sử dụng nó kếthợp với SVM (Support Vector Machines) để phát hiện khuôn mặt người trong ảnhthu từ camera giám sát Đây là một vấn đề cần giải quyết để xây dựng thử nghiệmmột hệ thống hỗ trợ điểm danh tự động học sinh
1 Mục tiêu của đề tài
Mục tiêu của đề tài nghiên cứu các vấn đề sau:
- Nghiên cứu Haar wavelet và Adaboost;
- Nghiên cứu thuật toán Viola - Johns;
- Nghiên cứu đặc trưng HOG;
- Nghiên cứu cách sử dụng đặc trưng HOG với SVM trong phát hiện mặt người
- Xây dựng bộ dữ liệu khuôn mặt để thử nghiệm;
- Thực hiện huấn luyện và test;
- Phân tích, đánh giá kết quả thu được; so sánh kết quả thu được với kết quả của một số phương pháp phát hiện đã được công bố
Trang 13- Xây dựng thử nghiệm chương trình phát hiện khuôn mặt từ camera giám sátlớp học
2 Hướng nghiên cứu của đề tài
- Nghiên cứu Haar wavelet và Adaboost, thuật toán Viola - Johns;
- Nghiên cứu cách sử dụng đặc trưng HOG với SVM trong phát hiện mặt người
- Xây dựng dữ liệu để huấn luyện và test; phân tích và đánh giá kết quả thuđược; so sánh kết quả test trên các kho dữ liệu cử chỉ khác nhau; so sánh kếtquả thu được bằng phương pháp sử dụng đặc trưng HOG với các phương phápkhác đã được công bố
3 Ý nghĩa khoa học và thực tiễn của đề tài
Đề tài có ý nghĩa thực tiễn trong việc xây dựng một hệ thống thử nghiệm hỗtrợ điểm danh tự động cho trường phổ thông Hệ thống này gồm một đề tài về pháthiện khuôn mặt và một đề tài về nhận diện khuôn mặt
Trang 14sự khác biệt hình ảnh, làm nổi bật các vùng thay đổi trong các hình ảnh liên tiếp.
1.1 Phát hiện điểm
Phát hiện điểm [1] được sử dụng để tìm các điểm quan tâm trong các hình ảnh
có kết cấu biểu cảm ở các vùng tương ứng Điểm quan tâm được sử dụng nhiềutrong các ngữ cảnh chuyển động, âm thanh stereo, và các vấn đề theo dõi Chấtlượng mong muốn của điểm quan tâm là sự bất biến của nó đối với những thay đổi
về độ chiếu sáng và quan điểm của máy ảnh
Trong các tài liệu, các phát hiện điểm thường được sử dụng bao gồm: pháthiện điểm Moravec, phát hiện điểm Harris, máy dò KLT, và phát hiện SIFT Đểđánh giá, so sánh các điểm quan tâm, chúng ta tham khảo nghiên cứu củaMikolajczyk và Schmid Để tìm các điểm quan tâm, thuật toán của Moravec tínhtoán sự thay đổi của các điểm ảnh hình ảnh trong một bảng kích thước 4x4 theohướng ngang, dọc, đường chéo và chọn tối thiểu bốn biến thể như các giá trị đạidiện cho cửa sổ Một điểm được xác nhận là quan tâm nếu sự thay đổi cường độ cục
bộ tối đa kích thước 12x12
Hinh 1.1: Các điểm quan tâm được phát hiện bằng cách áp dụng (a) Harris, (b) các
toán tử KLT, và (c) SIFT.
Trang 16sau khi áp dụng sự khử không tối đa (kết quả hình 1.1 (a)).
Ma trận thời gian tương tự M được đưa ra trong phương trình (1) được sửdụng trong bước phát hiện điểm quan tâm của phương pháp theo dõi KLT Xác địnhđiểm quan tâm R được tính bằng cách sử dụng giá trị riêng tối thiểu của �,
����
Các điểm quan tâm được lựa chọn bởi ngưỡng R Trong số các điểm quan tâm,KLT loại bỏ các điểm quan tâm mà không gian gần nhau (Hình 1.1 (b)).Về mặtđịnh lượng cả Harris và KLT đều nhấn mạnh các biến thể cường độ bằng các biệnpháp tương tự nhau Ví dụ, R ở Harris có liên quan đến đa thức đặc trưng được sửdụng để tìm các giá trị riêng của �: �2 + ���(�) − � ��(�) =
0, trong khi
KLT tính trực tiếp các giá trị riêng
Trong thực tế, cả hai phương pháp này đều tìm thấy gần như cùng một điểmquan tâm Sự khác biệt duy nhất là tiêu chí KLT bổ sung thực thi một khoảng cáchkhông gian được xác định trước giữa các điểm quan tâm đã phát hiện
Về lý thuyết, ma trận M là bất biến đối với phép quay và dịch Tuy nhiên,không phải bất biến đối với các biến đổi affine hoặc projective Để giới thiệu sựphát hiện mạnh mẽ các điểm quan tâm dưới các biến đổi khác nhau, Lowe đã giớithiệu phương pháp SIFT (Quy mô biến đổi không đổi) bao gồm bốn bước
Thứ nhất, một không gian được xây dựng bằng cách hợp nhất hình ảnh với các
bộ lọc Gaussian ở các quy mô khác nhau Hình ảnh đã hợp nhất được sử dụng để
Trang 17tạo ra các hình ảnh khác nhau của Gaussians (DoG) Các điểm quan tâm đề xuất sau
đó được chọn từ các cực tiểu và cực đại của các hình ảnh DoG trên tỷ lệ
Bước tiếp theo cập nhật vị trí của mỗi đề xuất bằng cách nội suy các giá trịmàu sắc và sử dụng các điểm ảnh lân cận Trong bước thứ ba, loại bỏ các đề xuấttương phản thấp, dọc theo các cạnh
Cuối cùng, các điểm quan tâm còn lại được định hướng dựa trên các đỉnhtrong biểu đồ của các đường định hướng gradient trong một khu vực nhỏ xungquanh điểm đề xuất Máy dò SIFT tạo ra một số điểm quan tâm lớn hơn so với cácmáy dò điểm quan tâm khác Điều này là do thực tế các điểm quan tâm ở các quy
mô khác nhau và độ phân giải khác nhau (hình chóp) được tích trữ Theo kinhnghiệm SIFT tốt hơn hầu hết các điểm dò và linh hoạt hơn cho các biến dạng hìnhảnh
Sự khác biệt khung của các khung liền kề đã được nghiên cứu kỹ lưỡng từcuối những năm 70 Tuy nhiên, phép trừ nền đã trở nên phổ biến theo sau công trìnhcủa Wren et al Để tìm hiểu sự thay đổi dần dần về thời gian, Wren et al đề xuất môhình hoá màu sắc của mỗi điểm ảnh, � (�, �) của một nền tĩnh cố định với một không gian màu 3D (Y, U, và V) Gaussian, �(�, �) ~ �(� (�, �) , ∑(
�, �)) Các
thông số mô hình, trung bình (x, y) và hiệp phương sai £(x, y), được học từ các quan sát màu sắc trong một số khung liên tiếp Khi mô hình nền được tạo ra, đối vớimỗi điểm ảnh (�, �) trong khung đầu vào, tính khả năng màu của nó đến từ
�(�(�, �), ∑(�, �)) được tính toán, và các điểm ảnh đi chệch hướng mô hình nền
Trang 18được dán nhãn là các điểm ảnh nổi Tuy nhiên, một Gaussian không phải là một môhình tốt cho những cảnh ngoài trời vì nhiều màu sắc có thể được quan sát ở một vịtrí nhất định do chuyển động đối tượng lặp đi lặp lại, bóng hoặc phản xạ.
Một cải tiến đáng kể trong mô hình nền đã đạt được bằng cách sử dụng môhình thống kê đa phương thức để mô tả màu nền cho mỗi điểm ảnh Ví dụ, Stauffer
và Grimson sử dụng một hỗn hợp của Gaussians để mô hình màu điểm ảnh Trongphương pháp này, một điểm ảnh trong khung hiện tại được kiểm tra đối với mô hìnhnền bằng cách so sánh nó với mọi Gaussian trong mô hình cho đến khi tìm thấy mộtGaussian phù hợp Nếu so khớp được tìm thấy, giá trị trung bình và phương sai củaGaussian phù hợp được cập nhật, nếu không Gaussian mới có nghĩa là bằng vớimàu điểm ảnh hiện tại và một số phương sai ban đầu được đưa vào hỗn hợp Mỗiđiểm ảnh được phân loại dựa trên việc phân phối phù hợp có phải là quá trình nềnhay không Di chuyển các khu vực, được phát hiện bằng cách sử dụng phương phápnày, cùng với các mô hình nền được thể hiện trong hình 1.2 (a) Hình ảnh từ mộtdãy trong đó một người đang đi ngang qua hiện trường (b) Giá trị trung bình củacác Gaussian có trọng số cao nhất ở mỗi vị trí điểm ảnh Các phương tiện này đạidiện cho màu sắc cho mỗi điểm ảnh tạm thời nhất và do đó phải đại diện cho nềntĩnh (c) Các phương tiện của Gauss với trọng lượng cao thứ hai; những phương tiệnnày đại diện cho màu sắc được quan sát ít thường xuyên hơn (d) Kết quả trừ nền.Các tiền cảnh bao gồm các điểm ảnh trong khung hiện tại mà phù hợp với một trọng
số thấp Gaussian
Hình 1.2: Hỗn hợp mô hinh Gaussian cho phép trừ nền.
Cách tiếp cận khác là kết hợp thông tin cảnh dựa trên vùng (không gian) thay
vì chỉ sử dụng thông tin dựa trên màu Elgammal và Davis sử dụng ước lượng mật
độ hạt nhân không tham số để mô hình nền cho mỗi điểm ảnh Trong quá trình trừ,
Trang 19điểm ảnh hiện tại không chỉ khớp với điểm ảnh tương ứng trong mô hình nền, màcòn đến vị trí điểm ảnh gần đó Do đó, phương pháp này có thể xử lý sự chập chờncủa ảnh hoặc các chuyển động nhỏ trong nền Li và Leung kết hợp các tính năng kếtcấu và màu để thực hiện phép trừ nền trên khối 5 x 5 điểm ảnh Do cấu trúc khôngthay đổi nhiều với sự thay đổi độ chiếu sáng, nên phương pháp này ít bị ảnh hưởngbởi ánh sáng Toyama và cộng sự đề xuất một thuật toán ba cấp để giải quyết vấn đềtrừ nền Ngoài phép trừ cấp điểm ảnh, họ sử dụng miền và thông tin mức khung Ởcấp điểm ảnh, họ đề xuất sử dụng bộ lọc Wiener để dự đoán có tính xác suất về màunền dự kiến Ở cấp vùng, các vùng tiền cảnh bao gồm màu đồng nhất được điềnvào Ở cấp khung, nếu hầu hết các điểm ảnh trong khung hiển thị đột ngột thay đổi,giả sử rằng các mô hình nền màu điểm ảnh dựa trên không còn hợp lệ Vào thờiđiểm này, mô hình nền dựa trên điểm ảnh được lưu trữ trước đó được hoán đổi,hoặc mô hình được khởi tạo lại.
Cách tiếp cận thay thế cho phép trừ nền là đại diện cho các biến thể cường độcủa một điểm ảnh trong một chuỗi ảnh như các trạng thái rời rạc tương ứng với các
sự kiện trong môi trường Rittscher et al sử dụng mô hình Markov ẩn (HMM) đểphân loại các khối nhỏ của một hình ảnh giống như một trong ba trạng thái này.Trong bối cảnh phát hiện ánh sáng trong và ngoài sự kiện trong một căn phòng,Stenger et al sử dụng HMM cho phép trừ nền Ưu điểm của việc sử dụng HMM làcác sự kiện nhất định, khó có thể mô hình chính xác bằng cách sử dụng các phươngpháp mô hình nền không giám sát, có thể được học bằng các mẫu huấn luyện
Thay vì mô phỏng các biến thể của từng điểm ảnh, Oliver et al đề xuất mộtcách tiếp cận toàn diện bằng cách sử dụng phân tích eigenspace Đối với các khungđầu vào �, �2 : � = 1 … �, có kích thước � × �, ma trận nền B có kíchthước � × � được tạo thành bởi các phân tầng m trong mỗi khung, sau đó là � =(� × �), và sự phân hủy giá trị riêng đến hiệp phương sai của �, � = �� �.Sau đó nền được đại diện bởi các vector riêng mô tả hầu hết n, �� , trong đó � <
� < �, bao gồm tất cả
những ánh sáng có thể có trong vùng quan sát (FOV) Do đó, phương pháp tiếp cậnnày ít nhạy cảm với ánh sáng Các đối tượng nền được phát hiện bằng cách chiếu
Trang 20hình ảnh hiện tại lên vùng không gian và tìm ra sự khác biệt giữa hình ảnh được táitạo và thực tế Hình 1.3 hiển thị các vùng đối tượng phát hiện được sử dụngphương pháp tiếp cận eigenspace ): (a) một hình ảnh đầu vào với các đối tượng, (b)tái tạo hình ảnh sau khi chiếu hình ảnh đầu vào lên không gian eigenspace, (c) Lưu
ý rằng các đối tượng nền được xác định rõ ràng
Hinh 1.3: Tách hình nền dựa trên phân hủy Eigenspace (không gian được xây dựng với
các vật thể trong FOV của máy ảnh
Một hạn chế của các phương pháp tiếp cận nói trên là cần nền tĩnh Hạn chếnày được giải quyết bởi Monnet et al., và Zhong và Sclaroff Cả hai phương phápnày đều có thể xử lý được nền thời gian khác nhau (ví dụ: sóng trên mặt nước, cácđám mây di chuyển…) Các phương pháp này mô hình các vùng hình ảnh như cácquá trình tự động hồi quy trung bình (ARMA) cung cấp cách để tìm hiểu và dựđoán mô hình chuyển động trong một cảnh Quy trình ARMA là một mô hình chuỗithời gian, được tạo thành từ các thành phần tự hồi quy và di chuyển trung bình,trong đó quá trình tự hồi quy có thể được mô tả như là một tổng trọng số của các giátrị trước đó và một lỗi tiếng ồn trắng
Hinh 1.4: Phân chia hình ảnh trong (a), sử dụng phân đoạn dịch chuyển trung bình (b)
và vết cắt binh thường (c).
Tóm lại, hầu hết các phương pháp theo dõi cho những camera cố định, ví dụ,Haritaoglu et al và Collins et al sử dụng phương pháp trừ nền để phát hiện các vùng
Trang 21quan tâm Bởi vì các phương pháp trừ gần đây có khả năng mô hình hoá độ sáng,tiếng ồn và chuyển động định kỳ của vùng nền, do đó có thể phát hiện chính xác cácđối tượng trong nhiều trường hợp Trong thực tế, phép trừ nền cho ta các vùng đốitượng không đầy đủ trong nhiều trường hợp, nghĩa là các đối tượng có thể tràn vàomột số vùng, hoặc có thể có lỗ bên trong đối tượng vì không bảo đảm rằng các đốitượng không khác biệt so với nền.
đại diện cho
vị trí không gian Với hình ảnh, thuật toán được khởi tạo với số lượng lớn các trungtâm cụm giả thuyết được chọn ngẫu nhiên từ dữ liệu Sau đó, mỗi trung tâm cụmđược di chuyển đến mức trung bình của dữ liệu nằm bên trong ellip đa chiều tậptrung vào trung tâm cụm Vectơ được xác định bởi các trung tâm cụm cũ và mớiđược gọi là vector thay đổi trung bình Vectơ thay đổi trung bình được tính toán lặp
đi lặp lại cho đến khi các trung tâm cụm không thay đổi vị trí của chúng Lưu ý rằngtrong quá trình dịch lặp lại có nghĩa là một số cụm có thể được hợp nhất Hiển thịphân đoạn sử dụng phương pháp chuyển dịch trung bình Trong hình 1.4 (b), sửdụng mã nguồn có sẵn tại MeanShiftSegmentSrc
Khả năng phân cụm trung bình thay đổi có thể mở rộng cho nhiều ứng dụngkhác như phát hiện cạnh, điều chỉnh hình ảnh, và theo dõi
Sự phân đoạn dựa trên chuyển đổi trung bình đòi hỏi phải tinh chỉnh các tham
số khác nhau để có được sự phân đoạn tốt hơn, ví dụ như lựa chọn màu sắc và
Trang 22�=1 �
� �
không gian trung tâm, ngưỡng cho kích thước nhỏ nhất của vùng có ảnh hưởngđáng kể tới kết quả phân đoạn
1.3.2 Phân đoạn Hinh ảnh Sử dụng Đồ thị-Cuts.
Phân chia hình ảnh cũng có thể được xây dựng như là một vấn đề phân vùng
đồ thị, trong đó các đỉnh (các điểm ảnh), V = {�, �, }, của một đồ thị (hìnhảnh)
G, được phân chia thành � đồ thị phụ rời rạc (vùng) �� ,∪� � = V, �
Shi và Malik đề xuất cắt giảm bình thường để vượt qua vấn đề phân đoạn trên.Trong cách tiếp cận của họ, việc cắt giảm không chỉ phụ thuộc vào tổng trọng sốcủa trọng số cắt, mà còn dựa trên tỷ lệ tổng trọng số kết nối của các nút trong mỗiphân vùng cho tất cả các nút của đồ thị Đối với phân đoạn dựa trên hình ảnh, trọng
số giữa các nút được xác định bởi sản phẩm có độ tương tự màu và không gian gầnnhau Một khi các trọng số giữa mỗi cặp nút được tính toán, ma trận trọng số �và
Trang 23Trong phân đoạn dựa trên cắt bình thường, giải pháp cho hệ thống tổng quátcho các hình ảnh lớn có thể tốn kém về mặt xử lý và yêu cầu về bộ nhớ Tuy nhiên,phương pháp này yêu cầu các tham số được chọn bằng tay ít hơn, so với phân đoạn
Trang 24�(Γ) = ∫0 ���� (v)+��� (v)+���� (v)��
(2)Trong đó s là chiều dài cung của đường viền Γ , ���� gồm có các ràng buộc
quy định, ��� bao gồm năng lượng dựa trên sự xuất hiện, và ���� chỉ rõ các hạnchế
bổ sung ���� thường có độ cong, thứ tự đầu tiên (∇v) hoặc thứ hai (∇2 v) để tìm
đường viền ngắn nhất Năng lượng hình ảnh, ��� , có thể được tính toán cục bộ hoặc
tổng thể Thông tin cục bộ thường ở dạng hình ảnh gradient và được đánh giá xungquanh đường viền Ngược lại, các tính năng tổng thể được tính toán bên trong và bên ngoài của vùng đối tượng Các tính năng tổng thể bao gồm màu sắc và kết cấu.Các nhà nghiên cứu khác nhau đã sử dụng thuật ngữ năng lượng khác nhautrong phương trình (2) Năm 1995, Caselles et al loại trừ ���� và chỉ sử dụng ảnh gradient như là năng lượng ảnh ��� = g(|∇�|) , trong đó g là hàm sigma.
So với gradient, một hàm của gradient xác định đường viền đối tượng như mộtđường cong đo đạc trong không gian Riemannian Tuy nhiên, hình ảnh gradientcung cấp thông tin rất cục bộ và nhạy cảm với cục bộ nhỏ nhất Để khắc phục vấn
đề này, các nhà nghiên cứu đã giới thiệu các thuật ngữ về năng lượng hình ảnh theokhu vực Năm 1996, Zhu và Yuille đã đề xuất sử dụng thông tin vùng thay vìgradient hình ảnh Tuy nhiên, việc sử dụng thuật ngữ khu vực trong chức năng nănglượng không đưa đến cục bộ tốt của đường viền đối tượng
Gần đây, các phương pháp kết hợp cả năng lượng ảnh dựa trên vùng vàgradient dựa trên đã trở nên phổ biến Paragios và Deriche đề xuất sử dụng một sự
Trang 25kết hợp lồi của gradient và các nguồn năng lượng vùng, ������ =
���������� +
Trang 26(1 − �)������� Đặc biệt, các tác giả mô hình sự xuất hiện ở ������� .bằng hỗn hợp
Gaussians Sự biến đổi đường viền được thực hiện đầu tiên trên tổng thể, sau đóbằng cách thay đổi 𝛼 từ 0 đến 1 tại mỗi lần lặp
Một vấn đề quan trọng trong phương pháp đường viền là khởi tạo đường viền.Trong phương pháp tiếp cận dựa trên gradient hình ảnh, một đường viền thườngđược đặt bên ngoài vùng đối tượng và bị co lại cho đến khi gặp ranh giới đối tượng.Hạn chế này được khắc phục trong các phương pháp dựa trên vùng sao cho đườngviền có thể được khởi tạo bên trong hoặc bên ngoài đối tượng sao cho đường viền
có thể mở rộng hoặc thu nhỏ tương ứng để phù hợp với ranh giới đối tượng Nhữngcách tiếp cận này đòi hỏi phải có đối tượng hoặc kiến thức nền trước Sử dụng nhiềukhung hoặc một khung tham chiếu, khởi tạo có thể được thực hiện mà không cầnxây dựng khu vực priors Ví dụ, trong Paragios và Deriche, các tác giả sử dụngphép trừ nền để khởi tạo đường viền
Bên cạnh việc lựa chọn các chức năng năng lượng và khởi tạo, một vấn đềquan trọng khác là lựa chọn đường viền phải đại diện Vẽ đối tượng Γ có thể được
biểu diễn một cách rõ ràng (control points, v) hoặc hoàn toàn (level sets, ��) Trong
biểu diễn rõ ràng, mối quan hệ giữa các control points được xác định bởi phươngtrình spline Trong biểu thức cấp đại diện, đường viền được biểu diễn trên lướikhông gian mã hóa khoảng cách đã ký của lưới từ đường viền với các dấu hiệungược đối với đối tượng và vùng nền Đường viền được định nghĩa ngầm như là cácđường giao cắt không trong lưới thiết lập mức Sự tiến triển của đường viền đượcđiều chỉnh bằng cách thay đổi giá trị lưới theo công thức tính bằng phương trình (2),đánh giá tại mỗi vị trí lưới Sự thay đổi trong các giá trị lưới tạo ra các đường giaocắt mới bằng 0, do đó, các vị trí đường viền mới
1.4 Học có giám sát
Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm
(function) từ dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các cặp gồm đối
tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn Đầu ra của một hàm có
Trang 27thể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loạicho một đối tượng đầu vào (gọi là phân loại) Nhiệm vụ của chương trình học cógiám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, saukhi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tươngứng) Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn
có để dự đoán được những tình huống chưa gặp phải theo một cách “hợp lý”
Học có giám sát có thể tạo ra hai loại mô hình Phổ biến nhất, học có giám sát
tạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến đầu ra
mong muốn Tuy nhiên, trong một số trường hợp, việc ánh xạ được thực hiện dướidạng một tập các mô hình cục bộ (như trong phương pháp lập luận theo tình
huống(case-based reasoning) hay giải thuật láng giềng gần nhất).
Để có thể giải quyết một bài toán nào đó của học có giám sát (ví dụ: học
để phát hiện mặt người) người ta phải xem xét nhiều bước khác nhau:
- Xác định loại của các ví dụ huấn luyện Trước khi làm bất cứ điều gì, người
kĩ sư nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ Chẳng hạn, đó cóthể là một ảnh đơn, đoạn video…
- Thu thập tập huấn luyện Tập huấn luyện cần đặc trưng cho thực tế sử dụngcủa hàm chức năng Vì thế, một tập các đối tượng đầu vào được thu thập và đầu ratương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việc đo đạc tính toán
- Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức năng cần tìm
Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối tượng đầu vàođược biểu diễn Thông thường, đối tượng đầu vào được chuyển đổi thành một vec-
tơ đặc trưng, chứa một số các đặc trưng nhằm mô tả cho đối tượng đó Số lượng các
đặc trưng không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality); nhưng
phải đủ lớn để dự đoán chính xác đầu ra
- Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng
Ví dụ, chúng ta có thể lựa chọn việc sử dụng mạng nơ-ron nhân tạo hay cây quyếtđịnh
Trang 28- Hoàn thiện thiết kế chúng ta sẽ chạy giải thuật học từ tập huấn luyện thu thậpđược Các tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưu hóa
hiệu năng trên một tập con (gọi là tập kiểm chứng -validation set) của tập huấn luyện, hay thông qua kiểm chứng chéo (cross-validation) Sau khi học và điều chỉnh
tham số, hiệu năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lậpvới tập huấn luyện
1.5 Thuật toán Viola–Johns và các vấn đề liên quan.
1.5.1 Thuật toán Viola–Johns
Đây là thuật toán của Paul Viola và Michael Jones đề xuất vào năm 2001.Phương pháp sử dụng đặc trưng Haar-Like kết hợp với máy phân lớp Ada Boostgiúp tăng tốc độ của chương trình [2]
Các đặc trưng Haar-like là các hình chữ nhật đen trắng để xác định khuôn mặtngười Gồm 4 đặc trưng cơ bản:
Hinh 1.5: Đặc trưng Haar - Like
Để tăng tốc độ tính toán và xử lí, Viola-Jones đề xuất một khái niệm mới làIntergral Image (tích phân ảnh) Intergral Image là một mảng hai chiều có kíchthước bằng kích thước của ảnh đang xét Khi đó, tổng mức xám của 1 vùng đượctính như sau:
Hinh 1.6: Tính tích phân ảnh
D = A + B + C + D – (A+B) – (A+C) + A
= P1(x1, y1) + P2(x2, y2) + P3(x3, y3) + P4(x4, y4) – (P1(x1, y1)+P2(x2,y2)) – (P1(x1, y1)+P3(x3, y3)) + P1(x1, y1)
Trang 29Trong đó, P(x, y) được tính như Hình 1.7:
Hinh 1.7: Cách tính P(x, y)
Sau khi tính được tích phân ảnh từ vùng ảnh cần xét, thuật toán Viola-Jones sửdụng bộ phân lớp AdaBoost để loại bỏ các đặc trưng không cần thiết
1.5.2 Đánh Giá Thuật Toán Viola-Jones
Để đánh giá hiệu quả phương pháp phát hiện khuôn mặt, chúng tôi sử dụnghàm Viola-Jones được cài đặt sẵn trong bộ thư viện OpenCV và kiểm tra trên các
bộ dữ liệu chuẩn sau: Bao là bộ dữ liệu gồm 100 ảnh màu Mỗi ảnh chứa một khuônmặt người ở các vị trí khác nhau như nghiêng đầu, xoay mặt về trái, về phải baogồm cả ảnh chứa nhiễu như bị mờ, nhòe, đội mũ, đeo kính, các biểu cảm khác nhautrên khuôn mặt, có cả ngoại cảnh và người đứng phía sau Đối tượng trong bộ dữliệu chủ yếu là người Châu Á với các độ tuổi khác nhau AT&T là bộ dữ liệu củaĐại Học Cambrigde gồm 100 ảnh xám của 10 người khác nhau Cứ mỗi 10 ảnh làkhuôn mặt của một người ở các góc độ, biểu cảm khác nhau Đối tượng trong bộ dữliệu là người châu âu độ tuổi từ thanh niên đến cao niên, có một số đối tượng đeokính Các ảnh trong bộ dữ liệu này chỉ chứa khuôn mặt, không có ngoại cảnh và cácyếu tố gây nhiễu, chụp ở độ sáng cố định JAFFE là bộ dữ liệu của PsychologyDepartment, Kyushu University Gồm 100 ảnh xám khuôn mặt chính diện của 6 côgái người Nhật với các biểu cảm khác nhau, được chụp trong nhiều điều kiện chiếusáng khác nhau Ảnh được chụp với nền tĩnh và đơn sắc Việc so khớp được thựchiện như sau:
Trang 30Hinh 1.8: Kiểm tra kết quả chương trinh so với bộ dữ liệu test
Theo Hình 1.8, hình chữ nhật viền đậm là hình chữ nhật có chứa khuôn mặtđược vẽ bằng tay Hình chữ nhật viền mảnh là hình chữ nhật kết quả của chươngtrình vẽ ra Ta tính vùng giao A của 2 hình chữ nhật này Sau đó tính tổng vùngkhông giao của hai hình B + C rồi lấy tỉ lệ A/(B+C) Tỉ lệ này càng lớn chứng tỏ kếtquả của chương trình càng chính xác Các trạng thái của kết quả phát hiện khuônmặt dựa trên tỉ lệ này như sau:
𝛼 Nếu tỉ lệ này < 1 thì kết quả của chương trình là 1 false face
𝛼 Nếu tỉ lệ này >= 1 thì kết quả của chương trình là 1 correct face
𝛼 Miss face được xác định bằng độ chệnh lệch giữa số lượng khuôn mặt pháthiện được bằng chương trình với số lượng khuôn mặt được xác định bằng tay trướcđó
Bảng 1.1 đánh giá xác định 3 trạng thái của kết quả phát hiện khuôn mặt: Correct face (phát hiện đúng khuôn mặt), Miss face (không phát hiện ra khuôn mặt),False face (phát hiện ra vùng ảnh không chứa khuôn mặt)
Bảng 1.1: Bảng đánh giá thuật toán Viola - Jones
Thuật toán hoạt động khá ổn định trên 2 bộ dữ liệu khác nhau Tuy nhiên, trong quá trình test, trạng thái miss face xuất hiện tập trung ở các khuôn mặt
Trang 31nghiêng và đeo kính như Hình 1.9 Dễ thấy rằng, vì bộ huấn luyện sử dụng huấnluyện chủ yếu với các ảnh khuôn mặt chính diện và không đeo kính nên ảnh hưởngtới độ chính xác khi làm việc với các khuôn mặt loại này Để khắc phục tình trạngtrên, có thể tăng số ảnh huấn luyện bằng việc thêm vào các bộ ảnh khuôn mặtnghiêng và đeo kính.
Hinh 1.9: Kết quả phát hiện khuôn mặt bị sai lệch với khuôn mặt đeo kính
1.6 Adaboost
Adaboost (Adaptive Boost) [3] là một bộ phân loại mạnh phi tuyến phức dựatrên hướng tiếp cận Boosting được Freund và Schapire đưa ra vào năm 1995.Adaboost hoạt động dựa trên nguyên tắc kết kết hợp tuyến tính các Weak Classifierdựa trên đặc trưng Haar-Like để hình thành một Classifier
Tư tưởng của thuật toán Adaboost đấy là kết hợp các bộ phân loại yếu thànhmột bộ phân loại mạnh Trong quá trình xây dựng, bộ phân loại yếu tiếp theo sẽđược xây dựng dựa trên các đánh giá về các bộ phân loại yếu trước, cuối cùng các
bộ phân loại yếu sẽ được kết hợp để trở thành bộ phân loại mạnh
Để có thể kết hợp các bộ phân loại yếu, Adaboost sử dụng một trọng số(weight) để đánh dấu các mẫu khó nhận dạng Trong quá trình huấn luyện, cứ mỗiweak classifier được xây dựng, thuật toán sẽ tiến hành cập nhật lại trọng số đểchuẩn bị cho việc xây dựng weak classifier tiếp theo: tăng trọng số của các mẫu bịnhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi weakclassifier vừa xây dựng Bằng cách này, các weak classifier sau có thể tập trung vàocác mẫu mà các weak classifier trước đó chưa thực hiện tốt Sau cùng các weak
Trang 32classifier sẽ được kết hợp tùy theo mức độ ‘tốt’ của chúng để tạo nên một strongclassifier.
Viola và Jones dùng AdaBoost kết hợp các bộ phân loại yếu sử dụng các đặc trưng Haar-like theo mô hình phân tầng (cascade) như sau:
Hinh 1.10: Mô hinh phân tầng kết hợp các bộ phân loại yếu để xác định khuôn mặt
Các Weak Classifiers hk(x) là các bộ phận loại yếu, được biểu diễn như sau:
- �� : giá trị của đặc trưng Haar-like
- �k : hệ số quyết định chiều của phương trình
Y nghĩa của công thức (3):
Nếu giá trị đặc trưng của mẫu cho bởi hàm đánh giá của bộ phân loại vượt qua
một ngưỡng cho trước thì mẫu đấy là khuôn mặt (gọi là object: đối tượng cần nhận dạng), ngược lại thì mẫu là background (không phải là đối tượng).
Trang 33Adaboost sẽ kết hợp các bộ phận loại yếu thành bộ phân loại mạnh như sau:
H(x) = sign(α1h1(x) +α2h2(x) + + αnhn(x))
Với: αt >= 0 là hệ số chuẩn hóa cho các bộ phận loại yếu
Hinh 1.11: Kết hợp các bộ phận loại yếu thành bộ phận loại mạnh
Sơ đồ khối:
Trang 34Tập các mẫu Tập các mẫu và
trọng số
Bắt đầu huấn luyện
Khởi tạo tập đặc trưng ban đầu Mẫu
sai
Mẫu
trưng trong từng mẫu, xây dựng các
bộ phân loại yếu tương ứng
Đặc trưng haar-like
Cập nhật lại trọng số Tính toán giá trị lỗi
cho mỗi đặc trưng
lỗi bé nhất
Lưu weak classifier được chọn
Hinh 1.12: Sơ đồ khối thuật toán Adaboost
Quá trình huấn luyện bộ phân loại được thực hiện bằng một vòng lặp mà ở mỗi bước lặp, thuật toán sẽ chọn ra weak classifier ht thực hiện việc phân loại với
Trang 35lỗi εt nhỏ nhất (do đó sẽ là bộ phân loại tốt nhất) để bổ sung vào strong classifier.Mỗi khi chọn được 1 bộ phân loại ht, Adaboost sẽ tính giá trị 𝛼� theo công thức ởtrên 𝛼� cũng được chọn trên nguyên tắc làm giảm thiểu giá trị lỗi εt.
Hệ số 𝛼� nói lên mức độ quan trọng của ℎ� :
o Trong công thức của bộ phân loại H(x):
Trang 36Vòng lặp xây dựng strong classifier sẽ dừng lại sau T lần lặp Trong thực tếcài đặt (thư viện OpenCV của Intel), người ta ít sử dụng giá trị T vì không có côngthức nào đảm bảo tính được giá trị T tối ưu cho quá trình huấn luyện Thay vào đó,
người ta sử dụng giá trị max false positive hay max false alarm (tỉ lệ nhận dạng sai
tối đa các mẫu background) Tỉ lệ này của bộ phân loại cần xây dựng không được
phép vượt quá giá trị này Khi đó, qua các lần lặp, false alarm của strong classifier
Ht(x) xây dựng được (tại lần lặp thứ t) sẽ giảm dần, và vòng lặp kết thúc khi tỉ lệ
này thấp hơn max false alarm.
Trang 371.7 Đặc trưng Haar wavelet
Một trong những phương pháp phát hiện mặt người hiệu quả hiện nay là pháthiện mặt người sử dụng đặc trưng Haar dựa trên bộ phân loại tầng được để xuất bởiPaul Viola và Michael Jones [4] Đây là một phương pháp học máy dựa trên cáchtiếp cận sử dụng chức năng tầng được huấn luyện bởi cách ảnh đúng (Positive) vàảnh sai (Negative) và sau đó dùng để phát hiện các đối tượng ở các ảnh khác
Ở giai đoạn đầu tiên, thuật toán cần một số lượng lớn các ảnh đúng (các ảnhkhuôn mặt người) và các ảnh sai (ảnh không có khuôn mặt người) để huấn luyệncho việc phân loại Sau đó trích chọn các đặc trưng từ tập đặc điểm rất lớn Để làmđiều này, các đặc trưng Haar được sử dụng Mỗi đặc trưng là một giá trị đơn đượctính toán bằng cách đem tổng các điểm ảnh trong vùng đen trừ tổng các điểm ảnh ởvùng trắng
Bây giờ tất cả các kích thước và vị trí có thể của từng nhân sẽ được dùng đểtính toán các đặc trưng Với mỗi đặc trưng, chúng ta tính tổng của các điểm ảnhvùng đen và vùng trắng Để giải quyết điều này chúng ta tạo ra các ảnh tích phân.Điều này làm đơn giản hóa việc tính tổng các điểm ảnh và làm gia tăng tốc độ tínhtoán
Trong số tất cả các đặc trưng được tính toán, hầu hết chúng là không thíchhợp Dòng đầu tiên đưa ra 2 đặc trưng tốt Đặc trưng đầu tiên được lựa chọn tậptrung vào thuộc tính của vùng mắt thường tối hơn vùng mũi và má Đặc trưng thứ 2được lựa chọn lại dựa trên thuộc tính vùng mắt thường tối hơn vùng sống mũi.Nhưng các cửa sổ tương tự được áp dụng trên má hay bất cứ chỗ nào khác đều làkhông thích hợp Vậy làm sao các đặc trưng tốt nhất trong hơn 160.000 đặc trưngđược lựa chọn ra một cách hiệu quả Để cải thiện điều này chúng ta sử dụngAdaBoost
Với việc này, chúng ta áp dụng từng đặc trưng và mọi đặc trưng lên tất cả cácảnh huấn luyện Với mỗi đặc trưng, chúng ta sẽ tìm ra ngưỡng tốt nhất để phân loạikhuôn mặt là đúng hay sai Nhưng rõ ràng, sẽ có lỗi hoặc phân loại sai, do đó chúng
ta chọn các đặc trưng với tỷ lệ lỗi nhỏ nhất, điều đó có nghĩa đó là sự phân loại tốt