đề xuất phương pháp truy tìm ảnh mặt người trên video

Trang 1

Lời cám ơn



Xin chân thành cám ơn các thầy, các cô thuộc khoa Công Nghệ Thông Tin trường Đại Học Khoa Học Tự Nhiên đã tận tình dạy dỗ, truyền đạt cho chúng em nhiều kiến thức quý báu

Chúng em xin gửi lời cám ơn sâu sắc đến Thầy Lê Hoàng Thái, Thầy đã tận tình hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện đề tài

Xin chân thành cảm ơn các bạn trong chuyên ngành Khoa Học Máy Tính khoa Công Nghệ Thông Tin đã giúp đỡ chúng tôi rất nhiều trong quá trình thực hiện đề tài

Cuối cùng, lời cám ơn sâu sắc nhất xin gởi đến cha mẹ vì ơn sinh thành và giáo dưỡng

Xin cám ơn!

Thành phố Hồ Chí Minh, tháng 7/2007Nhóm sinh viên thực hiện

Đỗ Thanh Toàn – Đoàn Ngọc Khiêm

Trang 2

Trình bày luận văn

Nội dung của luận văn được tổ chức và trình bày trong 6 chương:

Chương 0: Mở đầu: Giới thiệu về đề tài

Chương 1: Tổng quan về bài toán nhận dạng mặt người và các cách tiệp cận.Chương 2:Dò tìm khuôn mặt trong ảnh

Chương 3: Trích chọn đặc trưng cho ảnh khuôn mặt

Chương 4:Nhận dạng ảnh khuôn mặt

Chương 5: Ứng dụng thử nghiệm

Chương 6: Đánh giá và hướng phát triển

Trang 3

Mục lục

Danh sách các hình

Hình 1.3.1 – 1 : Mô hình tổng quát của bài toán nhận dạng mặt người 18

Hình 2.2.1 – 1 : Sơ đồ hệ dò tìm khuôn mặt bằng AdaBoost – NN 23

Hình 2.2.2 – 1 : Minh hoạ hệ dò tìm khuôn mặt bằng AdaBoost-Adaboost 24

Hình 2.3.1 – 1 : Một số ảnh có mặt người trong tập mẫu huấn luyện 24

Hình 2.3.1 – 2 : Một số ảnh không chứa mặt người trong tập mẫu huấn luyện 25

Hình 2.3.1 – 3 : Ví dụ về ảnh ngược sáng 25

Hình 2.3.1 – 4: Ví dụ về ảnh bị che khuất thành phần quan trọng 26

Hình 2.3.1 – 5 : Ví dụ về ảnh có cảm xúc đặc biệt 26

Bảng 2.3.2 – 1 : So sánh các phương pháp phát hiện + chứng thực khuôn mặt 26

Hình 2.3.2 – 1 : So sánh các phương pháp detect + chứng thực khuôn mặt 27

Hình 3.2.1 – 1 : Hướng của véc tơ riêng 28

Hình 3.2.1 – 2 : Minh hoạ phát hiện vị trí mắt, miệng trên khuôn mặt 29

Hình 3.2.1 – 3 : Minh hoạ kiểu kết hợp toàn cục và bộ phận 30

Hình 3.2.2 – 1 : Sự phân phối dữ liệu trong không gian 3 chiều và các trục tương ứng của PCA và ICA Mỗi trục là một cột của ma trận nghịch đảo của ma trận trộn W-1 tìm thấy bới PCA và ICA Các trục của PCA trực giao trong khi ICA thì không, do đó khoảng cách các điểm dữ liệu sẽ thay đổi khi chiếu xuống không gian mới này 33

Hình 3.2.2 – 2 : véctơ đặc trưng cho mỗi kĩ thuật Hàng đầu chứa 8 véctơ riêng với 8 trị riêng lớn nhất trong PCA Hàng 2 chứa các vectơ đặc trưng trong ICA với kiến trúc I, hàng 3 chỉ ra 8 véctơ đặc trưng trong ICA với kiến trúc 2 34

Hình 3.2.2 – 3 :minh họa kiến trúc 1 trong mô hình ICA 35

Trang 4

Hình 3.2.2 – 5 :Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA 36

Hình 3.2.2 -6 :Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA trên pixel 37

Bảng 3.3.2 – 1 : Kết quả so sánh PCA và ICA trên bộ dữ liệu CalTech 39

Hình 3.3.2 – 1 :Biểu đồ kết quả thử nghiệm hai phương pháp rút trích đặc trưng PCA – ICA trên bộ dữ liệu CalTech: thống kê trên bộ test 40

Hình 3.3.2 – 2: Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu nước ngoài 41

Hình 3.3.2 – 3 : Các ảnh với phương pháp rút trích ICA bị nhận dạng sai với bộ dữ liệu nước ngoài 42

Hình 3.3.3 – 1 : Một số ảnh quay phải, trái, quá tối hoặc độ sáng không đồng đều trên khuôn mặt trong tập ảnh tự tạo 43

Bảng 3.3.4 – 1 : Kết quả so sánh PCA và ICA trên bộ dữ liệu trong nước 44

Hình 3.3.4 – 1 :Biểu đồ kết quả thử nghiệm hai phương pháp rút trích đặc trưng PCA – ICA trên bộ dữ liệu tự tạo: thống kê trên bộ test 44

Hình 3.3.4 – 2 : Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu tự tạo .45

Hình 4.2.1 – 1 :Sơ đồ hệ thống nhận dạng mặt người dùng SVM 46

Hình 4.2.2 – 1 :Sơ đồ hệ thống nhận dạng mặt người dùng mạng Nơron 48

Bảng4.3.2 – 1 : Thời gian huấn luyện SVM và NN bộ dữ liệu nước ngoài 50

Bảng 4.3.2 – 2 : Thời gian nhận dạng thư mục test nước ngoài bằng SVM và NN 51

Bảng 4.3.2 – 3 : Kết quả so sánh nhận dạng SVM và NN trên bộ dữ liệu nước ngoài 52

Hình 4.3.2 – 1 : Biểu đồ kết quả thử nghiệm hai phương pháp nhận dạng SVM và NN trên .52

bộ dữ liệu nước ngoài: thống kê trên bộ test 52

Bảng 4.3.4 - 1: Thời gian huấn luyện SVM và NN bộ dữ liệu trong nước 52

Bảng 4.3.4 - 2: Thời gian nhận dạng thư mục test trong nước bằng SVM và NN 53

Bảng 4.3.4 - 3: Kết quả so sánh SVM và NN trên bộ dữ liệu trong nước 53

Hình 4.3.4 - 1 :Biểu đồ kết quả thử nghiệm hai phương pháp nhận dạng SVM và NN 54

trên bộ dữ liệu trong nước: thống kê trên bộ test 54

Trang 5

Hình 5.2.1 – 1 : Một số ảnh train trong ứng dụng 55

Hình 5.2.1 – 2 : Một số ảnh test trong ứng dụng 56

Hình 5.2.1 – 3 : 1 đoạn Video trong ứng dụng 56

Hình 5.2.3 – 1 : Sơ đồ quá trình tách frame từ video 58

Bảng 5.3-1 : Kết quả nhận dạng trên ảnh tĩnh 59

Hình A.2.2 – 1 : Strong classifier H(x) được xây dựng bằng AdaBoost 70

Hình A.2.2 - 2: Ví dụ minh hoạ sự kết hợp của 3 phân lớp tuyến tính 71

Bảng A.2.2 – 1 : Thuật toán AdaBoost 72

Bảng A.2.2 – 2 : Một phiên bản khác của thuật toán AdaBoost 75

Hình A.2.3 - 1 : Các đặc trưng Haar-like cơ sở 76

Hình A.2.3 - 2: Các miền hình học đặc trưng Haar – like 76

Hình A.2.3 - 3: Ý nghĩa hình học của đạo hàm ảnh 77

Hình A.2.3 - 4: Cách tính giá trị một ô đặc trưng 77

Hình A.2.3 - 5: Dò tìm bàn tay bằng đặc trưng Haar – like 78

Hình A.2.3 - 6: Dò tìm khuôn mặt bằng đặc trưng haar – like 78

79

Hình A.2.4 - 1: Cascade Classifier 79

Hình A.3.3 - 1 Hướng của véc tơ riêng 82

Hình A.4.2 - 1: Hai tín hiệu nguồn ( không quan sát trực tiếp được, tức các tính hiệu ẩn là s1(t) và s2(t)), hai tín hiệu trộn (quan sát được là x1(t) và x2(t) ) 87

Hình A.4.3 - 1: Các kí hiệu trong ICA 89

Hình A.4.6 - 1: Phân bố kết hợp của hai thành phần độc lập s1, s2 có phân bố đồng nhất (trục ngang: s1, trục đứng s2) 92

Hình A.4.6 - 2: Phân bố kết hợp của các trộn lẫn x1, x2 (trục ngang x1, trục đứng x2) 92

Hình A.4.6 - 3: Phân phối kết hợp của hai biến Gauss 93

Hình A.4.7.2.1 - 1: Hàm mật độ của phân phối Laplace, một điển hình của phân phối siêu Gauss, so với phân phối Gauss ở đường gạch nét, cả hai mật độ được chuẩn hóa phương sai đơn vị 95

Hình A.4.10.2 - 1:Minh họa kiến trúc 1 trong mô hình ICA 104

Trang 6

Hình A.4.10.2 - 2: véctơ đặc trưng cho mỗi kĩ thuật Hàng đầu chứa 8 véctơ riêng với 8 trị riêng lớn nhất trong PCA Hàng 2 chứa các vectơ đặc trưng trong ICA với kiến trúc I, hàng 3

chỉ ra 8 véctơ đặc trưng trong ICA với kiến trúc 2 105

Hình A.4.10.2 - 3:Mô hình tổng hợp ảnh cho kiến trúc 1 của ICA 106

Hình A.4.10.3 - 1:minh họa kiến trúc 2 trong mô hình ICA 107

Hình A.4.10.3 - 3:Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA trên pixel 108

Hình A.4.11.1- 2 Sự phân phối dữ liệu trong không gian 3 chiều và các trục tương ứng của PCA và ICA Mỗi trục là một cột của ma trận nghịch đảo của ma trận trộn W-1 tìm thấy bới PCA và ICA Các trục của PCA trực giao trong khi ICA thì không, do đó khoảng cách các điểm dữ liệu sẽ thay đổi khi chiếu xuống không gian mới này 110

Hình A.5.1 - 1 : Siêu mặt phân cách tuyến tính cho trường hợp phân cách được và 111

kí hiệu các support véc tơr chính là các điểm được bao bằng viền tròn 111

Hình A.6.1-1: Mô hình một Nơron thần kinh 117

Hình A.6.2.1 - 1: Mô hình Nơron nhân tạo 118

Hình A.6.2.1.1 - 1: Mô hình toán học tổng quát của một Nơron 119

Hình A.6.2.1.3 - 1: Các xử lý tương đương trong một Nơron 120

Hình A.6.2.1.4 - 1: Hoạt động tính toán của Nơron 122

Hình A.6.2.2 - 1: Năm sơ đồ liên kết cơ bản của mạng Nơron: (a) mô hình mạngtruyền thẳng một lớp; (b) mô hình mạng truyền thẳng đa lớp; (c) mô hình: một Nơron đơn với liên kết phản hồi đến chính nó; (d) mô hình: mạng lặp một lớp; (e) mô hình: mạng lặp đa lớp 125

Hình A.6.2.2 - 2: Liên kết bên trong của phản hồi 126

Hình A.6.2.3 - 1: Ma trận trọng số nối kết 127

Hình A.6.2.3 - 2 : Học có giám sát 128

Hình A.6.2.3 - 3 : Học tăng cường 128

Hình A.6.2.3 - 4: Học không giám sát 129

Hình A.6.2.3 - 5: Luật học phát sinh trọng số (di không được cung cấp trong trường hợp học không giám sát) 131

Hình A.6.2.4 - 1: Một số dạng hàm dùng trong ánh xạ từ đầu vào -> đầu ra 133

Trang 7

Bảng A.6.2.4 – 1 : Một số hàm truyền thông dụng trong mạng Nơron 134

Hình A.6.2.5 – 1 : Các loại liên kết của Nơron 135

Hình A.6.3.1 - 1 : Cấu hình mạng RBF tiêu biểu 136

Hình A.6.3.1 - 2 : Những tập phân lớp trong không gian 2 chiều 138

HìnhA.6.3.1 - 3 : Ánh xạ các tập phân lớp lên neuron RBF 139

Hình A.6.4.1-1: Minh họa mạng lan truyền thẳng ba lớp 141

Hình B.3.1 – 1: Giao diện chính của chương trình 150

Hình B.3.2 -1: Màn hình minh họa chức năng test trên video 151

Hình B.3.2 – 2 : Giao diện của chương trình khi hoạt động 152

Hình B.3.3 – 1 : Màn hình tham số huấn luyện cho mạng nơron 153

Hình B.3.4 -1 : Màn hình đọc dữ liệu đã huấn luyện 154

Hình B.3.5 – 1: Màn hình test thư mục 155

Hình B.3.6 – 1 : Màn hình nhận dạng trên ảnh tĩnh 156

Trang 8

Danh sách các bảng

Hình 1.3.1 – 1 : Mô hình tổng quát của bài toán nhận dạng mặt người 18

Hình 2.2.1 – 1 : Sơ đồ hệ dò tìm khuôn mặt bằng AdaBoost – NN 23

Hình 2.2.2 – 1 : Minh hoạ hệ dò tìm khuôn mặt bằng AdaBoost-Adaboost 24

Hình 2.3.1 – 1 : Một số ảnh có mặt người trong tập mẫu huấn luyện 24

Hình 2.3.1 – 2 : Một số ảnh không chứa mặt người trong tập mẫu huấn luyện 25

Hình 2.3.1 – 3 : Ví dụ về ảnh ngược sáng 25

Hình 2.3.1 – 4: Ví dụ về ảnh bị che khuất thành phần quan trọng 26

Hình 2.3.1 – 5 : Ví dụ về ảnh có cảm xúc đặc biệt 26

Bảng 2.3.2 – 1 : So sánh các phương pháp phát hiện + chứng thực khuôn mặt 26

Hình 2.3.2 – 1 : So sánh các phương pháp detect + chứng thực khuôn mặt 27

Hình 3.2.1 – 1 : Hướng của véc tơ riêng 28

Hình 3.2.1 – 2 : Minh hoạ phát hiện vị trí mắt, miệng trên khuôn mặt 29

Hình 3.2.1 – 3 : Minh hoạ kiểu kết hợp toàn cục và bộ phận 30

Hình 3.2.2 – 1 : Sự phân phối dữ liệu trong không gian 3 chiều và các trục tương ứng của PCA và ICA Mỗi trục là một cột của ma trận nghịch đảo của ma trận trộn W-1 tìm thấy bới PCA và ICA Các trục của PCA trực giao trong khi ICA thì không, do đó khoảng cách các điểm dữ liệu sẽ thay đổi khi chiếu xuống không gian mới này 33 Hình 3.2.2 – 2 : véctơ đặc trưng cho mỗi kĩ thuật Hàng đầu chứa 8 véctơ riêng với 8 trị riêng lớn nhất trong PCA Hàng 2 chứa các vectơ đặc trưng trong ICA với kiến trúc I, hàng 3 chỉ ra

Trang 9