1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng mặt người dùng giải thuật whitening LDA

116 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 116
Dung lượng 2,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

HCM, ngày 17 tháng 12 năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: HUỲNH THIỆN KHIÊM Phái: Nam Ngày, tháng, năm sinh: 10/02/1981 Nơi sinh: Phú Yên Chuyên ngành: Kỹ thuật điện t

Trang 1

Đại học Quốc gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

HUỲNH THIỆN KHIÊM

NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT

WHITENING LDA

Chuyên ngành: KỸ THUẬT ĐIỆN TỬ

Mã ngành: 2.07.01

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH, tháng12 năm 2007

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học: PGS TSKH Nguyễn Kim Sách

Cán bộ chấm nhận xét 1: PGS.TS Vũ Đình Thành

Cán bộ chấm nhận xét 2: ThS Hồ Trung Mỹ

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬNVĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 03 tháng 01 năm 2008

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA

PHÒNG ĐÀO TẠO SĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC

Tp HCM, ngày 17 tháng 12 năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: HUỲNH THIỆN KHIÊM Phái: Nam

Ngày, tháng, năm sinh: 10/02/1981 Nơi sinh: Phú Yên

Chuyên ngành: Kỹ thuật điện tử MSHV: 01405311

I- TÊN ĐỀ TÀI:

NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT WHITENING LDA

II- NHIỆM VỤ VÀ NỘI DUNG

- Tìm hiểu các phương pháp nhận dạng mặt người tiêu biểu

- Đánh giá ưu khuyết điểm của một số phương pháp nhận dạng chính

- Trình bày phương pháp Whitening LDA trong phân tích dữ liệu

- Xây dựng giải thuật nhận dạng mặt người dựa trên Whitening LDA

- Viết chương trình nhận dạng mặt người bằng ngôn ngữ Matlab

III- NGÀY GIAO NHIỆM VỤ:

IV- NGÀY HOÀN THÀNH NHIỆM VỤ: 17/12/2007

V- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN:

PGS TSKH NGUYỄN KIM SÁCH

(Học hàm, học vị, họ tên và chữ ký) QL CHUYÊN NGÀNH

Nội dung và đề cương luận văn thạc sĩ đã được Hội đồng chuyên ngành thông qua

Ngày……tháng 12 năm 2007

Trang 4

LỜI CẢM ƠN

Tôi trân trọng gởi đến Phó Giáo sư, Tiến sỹ Khoa học Nguyễn Kim Sách lời cảm

ơn chân thành và lòng biết ơn sâu sắc nhất vì những động viên và đóng góp ý kiến của Giáo sư trong suốt thời gian qua

Xin chân thành cảm ơn các thầy cô trong khoa Điện –Điện Tử, đặc biệt là các thầy cô trong bộ môn Viễn Thông, Trường Đại học Bách Khoa TP HCM đã tận tình giảng dạy, hướng dẫn và giúp đỡ tôi trong quá trình học tập và hoàn thành Luận văn này

Sau cùng, tôi xin được bày tỏ tình cảm đến các đồng nghiệp và những người bạn thân thiết của tôi Họ luôn luôn bên cạnh để ủng hộ, động viên và giúp đỡ tôi trong suốt quãng thời gian học Cao học

TP Hồ Chí Minh, tháng 12 năm 2007

Kỹ sư HUỲNH THIỆN KHIÊM

Trang 5

MỤC LỤC

DANH SÁCH CÁC HÌNH

DANH SÁCH CÁC BẢNG

ABSTRACT

TỪ VIẾT TẮT

GIỚI THIỆU

CHƯƠNG 1:TỔNG QUAN NHẬN DẠNG MẶT NGƯỜI 1

1.1 NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG LÀ GÌ? 1

1.2 TẠI SAO PHẢI NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG? 2

1.3 LỊCH SỬ KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI 3

1.3.1 Các phương pháp nhận dạng thời kỳ trước khi xuất hiện máy tính 3

1.3.2 Các phương pháp nhận dạng mặt người thời đại máy tính 4

1.4 Giới thiệu chung về hệ thống nhận dạng mặt người 8

1.4.1 Thu ảnh chứa đối tượng cần nhận dạng 8

1.4.2 Dò tìm ảnh mặt (face localization) 9

1.4.3 Tiền xử lý 9

1.4.4 Khối trích xuất đặc trưng (biểu diễn mặt) 14

1.4.5 Nhận dạng (so khớp) 16

1.4.6 Cơ sở dữ liệu ảnh mặt 19

CHƯƠNG 2:MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI TIÊU BIỂU 20

2.1 Phương pháp Eigenfaces 20

2.1.1 Giới thiệu 20

Trang 6

2.1.2 Cơ sở lý thuyết và thuật toán 20

2.1.3 Nhận dạng 23

2.1.4 Thí nghiệm và kết quả 24

2.1.5 Các kỹ thuật nhận dạng dựa trên phân tích PCA khác 26

2.2 Phương pháp Fisherfaces 27

2.2.1 Giới thiệu 27

2.2.2 Cơ sở lý thuyết và thuật toán nhận dạng 27

2.2.3 Nhận dạng 28

2.2.4 Thí nghiệm và kết quả 29

2.2.5 Một số phương pháp nhận dạng dựa trên phép phân tích biệt số khác .30

2.3 Phương pháp nhận dạng mặt người dùng phép phân tích các thành phần độc lập (ICA) 31

2.3.1 Giới thiệu phương pháp ICA trong nhận dạng mặt người 31

2.3.2 Cơ sở lý thuyết và thuật toán 31

2.3.3 Nhận dạng 36

2.3.4 Thí nghiệm và kết quả 37

2.4 Phương pháp nhận dạng dựa trên đặc trưng – Nhận dạng dùng biến đổi Gabor Wavelets 38

2.4.1 Biến đổi Gabor Wavelets 38

2.4.2 Biểu diễn ảnh mặt bằng biến đổi Gabor Wavelets 39

2.4.3 Trích xuất đặc trưng 41

2.4.4 So khớp (nhận dạng) 42

2.4.5 Kết quả nhận dạng trên tập ORL 44

2.5 Đánh giá khả năng nhận dạng của các giải thuật nhận dạng mặt người45 2.5.1 Eigenfaces và các giải thuật kế thừa của nó 45

Trang 7

2.5.2 Fisherfaces và các giải thuật kế thừa của nó 45

2.5.3 Eigenfaces và Fisherfaces 46

2.5.4 ICA và PCA 46

2.5.5 Gabor Wavelets và các thuật toán dựa trên kỹ thuật thống kê 47

CHƯƠNG 3NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT WLDA 48

3.1 Phương pháp subspace trong nhận dạng mặt người 48

3.1.1 Giới thiệu 48

3.1.2 Cơ sở kỹ thuật phương pháp subspace trong nhận dạng đối tượng 48 3.1.3 Không gian đặc trưng của phép phân tích PCA và LDA 49

3.1.4 Ý nghĩa nhận dạng mặt người của hai phương pháp PCA và LDA51 3.1.5 Vấn đề 3S trong giải thuật LDA và cách giải quyết 51

3.2 Data Whitening và Whitening LDA 52

3.2.1 Biến đổi Whitening 52

3.2.2 Whitening LDA 54

3.3 Nhận dạng mặt người dùng giải thuật WLDA 58

3.3.1 Các bước tiền xử lý 58

3.3.2 Tìm ma trận ánh xạ tối ưu và huấn luyện WLDA 58

3.3.3 Biến đổi WLDA cho ảnh mặt kiểm tra 61

3.3.4 Phân lớp bằng khoảng cách Euclidean 61

CHƯƠNG 4:CHƯƠNG TRÌNH MÔ PHỎNG - KẾT QUẢ VÀ ĐÁNH GIÁ 62

4.1 Chương trình mô phỏng 62

4.1.1 Mục đích thiết kế chương trình 62

4.1.2 Thuyết minh chương trình 64

4.1.3 Các lưu đồ mô tả hệ thống nhận dạng và giải thuật 65

4.2 Cơ sở dữ liệu ảnh 70

4.2.1 Tập ảnh NEW1 70

Trang 8

4.2.2 Tập ảnh NEW2 71

4.2.3 Tập ảnh huấn luyện và tập ảnh kiểm tra 72

4.3 Kết quả nhận dạng và đánh giá 73

4.3.1 Không gian đặc trưng WLDA 73

4.3.2 Kết quả nhận dạng trên tập ORL 74

4.3.3 Kết quả nhận dạng trên tập Yale 77

4.3.4 Kết quả trên tập dữ liệu NEW1 và NEW2 82

4.3.5 Đánh giá chung hệ thống nhận dạng mặt người dùng giải thuật WLDA .91

4.3.6 WLDA và ICA 92

CHƯƠNG 5:KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 96

5.1 Kết luận 96

5.1.1 Về giải thuật 96

5.1.2 Về chương trình nhận dạng 96

5.1.3 Về kết quả đạt được 96

5.2 Hướng phát triển 97

TÀI LIỆU THAM KHẢO 98

LÝ LỊCH TRÍCH NGANG 100

Trang 9

DANH SÁCH CÁC HÌNH

Hình 1.1 Sơ đồ đơn giản của hệ thống nhận dạng mặt người tự động

Hình 1.2 Minh họa phần xử lý bên trong Module nhận dạng

Hình 1.3 Các khối chức năng trong một hệ thống nhận dạng mặt người

Hình 1.4: Quá trình dò tìm ảnh mặt và loại bỏ phần pixel thừa

Hình 1.5: Mô hình quay ảnh mặt dựa vào đường thẳng nối hai mắt

Hình 1.7: Đồ thị histogram của một ảnh gốc (a) và sau khi cân bằng histogram (b) Hình 1.8: Một mặt nạ chuẩn hóa với phần thông tin ở các góc ảnh bị che lại Hình 1.9: Đồ thị hàm số 2D DoG (ảnh trích từ tài liệu tham khảo [5])

Hình 1.10: (a) Ảnh gốc; (b) ảnh đã hiệu chỉnh gamma; (c) ảnh qua bộ lọc DoG Hình 2.1: (a) Một số cá nhận từ tập ảnh ORL; (b) ảnh trung bình tập ảnh ORL Hình 2.2: Các eigenfaces đầu tiên tương ứng với 4 giá trị riêng lớn nhất

Hình 2.3: Phổ trị riêng qua phép phân tích PCA trên tập ảnh ORL

Hình 2.4 Tập ảnh mặt của hai cá nhân trong cơ sở dữ liệu ORL

Hình 2.5: Các ảnh mặt khác nhau của cùng một người trong tập Yale

Hình 2.6: Mô hình tổng hợp ảnh dùng ICA cấu trúc 1

Hình 2.7: Ảnh mặt được phân tích thành các ảnh cơ sở độc lập với các hệ số b Hình 2.8: Các ảnh khác nhau của một cá nhân trong cơ sở dữ liệu

Hình 2.9: Đồ thị phần trăm kết quả nhận dạng dùng phân tích ICA sử dụng 200

ICs, PCA sử dụng 200 PCs và PCA sử dụng 20 PCs

Hình 2.10: Bộ lọc Gabor tương ứng với 5 tần số và 8 hướng

Hình 2.11: (a) ảnh mặt gốc; (b) đáp ứng của ảnh mặt qua bộ lọc Gabor

Hình 2.12: Các điểm đặc trưng được định vị trên ảnh mặt qua đáp ứng Gabor Hình 3.1: Các hướng tán xạ lớn nhất của PCA và LDA trong không gian dữ liệu

Trang 10

Hình 4.1: Giao diện màn hình đăng nhập vào hệ thống

Hình 4.2: Giao diện chính của chương trình nhận dạng

Hình 4.3: Sơ đồ tổng quát của hệ thống nhận dạng WLDA

Hình 4.4: Quy trình huấn luyện và đánh giá thuật toán trên tập ảnh ORL

Hình 4.5: Giải thuật đánh giá thuật toán nhận dạng WLDA

Hình 4.6: Giải thuật nhận dạng một ảnh mới theo phương pháp WLDA

Hình 4.7: Một ảnh mặt kích thước 120x100 điển hình trong tập dữ liệu NEW1 Hình 4.8: Một số ảnh khác nhau của cùng một cá nhân trong tập dữ liệu NEW1 Hình 4.9: Toàn bộ 120 ảnh mặt của 10 người khác nhau trong tập ảnh NEW1 Hình 4.10: Toàn bộ 120 ảnh mặt của 10 người khác nhau trong tập ảnh NEW2 Hình 4.11: Ảnh mặt gốc và các thành phần đầu tiên của không gian WLDA Hình 4.12: Kết quả nhận dạng trung bình sau 5 lần lặp ứng với các giá trị của K Hình 4.13: Biểu đồ phần trăm nhận dạng đúng trung bình sau 10 lần lặp (ORL) Hình 4.14: Đồ thị các trường hợp nhận dạng sai trên tập ORL (Random = 3) Hình 4.15(1)(2)(3)(4): Các biểu đồ kết quả nhận dạng trên tập Yale (random =3) Hình 4.16: Biểu đồ các trường hợp bị nhận dạng sai trên tập Yale

Hình 4.17: Đồ thị phần trăm nhận dạng đúng trên tập NEW1 (Random = 1) Hình 4.18: Đồ thị phần trăm nhận dạng đúng trên tập NEW1 (Random = 5) Hình 4.19: Đồ thị phần trăm nhận dạng đúng trên tập NEW1 (Random = 10) Hình 4.20: Biểu đồ minh họa số trường hợp bị nhận dạng sai trên tập NEW1 Hình 4.21: Đồ thị phần trăm nhận dạng đúng trên tập NEW2 (Random = 1) Hình 4.22: Đồ thị phần trăm nhận dạng đúng trên tập NEW2 (Random = 5) Hình 4.23: Đồ thị phần trăm nhận dạng đúng trên tập NEW2 (Random = 10) Hình 4.24: Biểu đồ minh họa số trường hợp bị nhận dạng sai trên tập NEW2 Hình 4.25: Sơ đồ thuật toán huấn luyện ICA

Hình 4.26: Phần trăm kết quả nhận dạng của hai thuật toán ICA và WLDA

Trang 11

DANH SÁCH CÁC BẢNG

Bảng 2.1: Bảng kết quả nhận dạng đúng trên các ảnh mặt đã biết theo phương pháp Eigenface

Bảng 2.2: Kết quả nhận dạng trên tập ORL của các giải thuật dựa trên PCA khác Bảng 2.3: Kết quả nhận dạng của phương pháp Fisherfaces trên tập ảnh Yale Bảng 2.4: Kết quả nhận dạng của một số thuật toán nhận dạng khác dựa trên phép phân tích LDA

Bảng 2.5: Các tập ảnh huấn luyện và kiểm tra thuật toán nhận dạng ICA

Bảng 4.1: Bảng kết quả nhận dạng đúng trung bình trên tập ORL

Bảng 4.2: Kết quả nhận dạng đúng trung bình trên tập ORL sau 10 lần lặp tương ứng với số vector đặc trưng giữ lại

Bảng 4.3: Kết quả nhận dạng trung bình tốt nhất của một số lần chạy chương trình với 3 lần lặp ngẫu nhiên trên tập dữ liệu Yale

Bảng 4.4: Bảng phần trăm kết quả nhận dạng đúng trung bình trên tập NEW1 Bảng 4.5: Bảng phần trăm kết quả nhận dạng đúng trung bình trên tập NEW2

Trang 12

TÓM TẮT LUẬN VĂN THẠC SĨ

Toàn bộ luận văn được chia làm 5 chương:

CHƯƠNG 1: TỔNG QUAN NHẬN DẠNG MẶT NGƯỜI

Chương 1 tập trung giới thiệu một số vấn đề như: nhận dạng mặt người là gì; tại sao phải cần hệ thống nhận dạng mặt người tự động; lịch sử nhận dạng mặt người; các khối chức năng trong một hệ thống nhận dạng mặt người

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI TIÊU BIỂU

Chương 2 giới thiệu tóm tắt các phương pháp nhận dạng dựa trên kỹ thuật làm giảm chiều dữ liệu rất phổ biến là Eigenfaces, Fisherface, ICA, một phương pháp nhận dạng dựa trên đặc trưng dùng biến đổi Gabor Wavelets Chương 2 cũng đề cập đến những cải tiến của các phương pháp này trong thời gian gần đây và thành tựu đạt được Cuối cùng, những nhận xét về ưu điểm và những tồn tại của mỗi phương pháp được thảo luận và đánh giá

CHƯƠNG 3: NHẬN DẠNG MẶT NGƯỜI DÙNG GIẢI THUẬT WHITENING LDA

Chương 3 đặt vấn đề cho việc lựa chọn biến đổi LDA trong nhận dạng mặt người, giới thiệu giải thuật Whitening LDA và ứng dụng giải thuật WLDA trong nhận dạng mặt người

CHƯƠNG 4: CHƯƠNG TRÌNH MÔ PHỎNG – KẾT QUẢ VÀ ĐÁNH GIÁ Chương 4 trình bày yêu cầu thiết kế hệ thống nhận dạng, các thí nghiệm trên tập dữ liệu ORL, Yale và tập dữ liệu mới tự xây dựng Nhận xét và đánh giá kết quả đạt được, so sánh với kết quả nhận dạng dùng thuật toán ICA

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Các ưu điểm và tồn tại của chương trình, đề xuất hướng phát triển tiếp theo

Trang 13

ABSTRACT

Over the last ten years, face recognition has become a specialized application area within the field of computer vision Sophisticated commercial systems have been developed that achieve high recognition rates Although elaborate, many of these systems include a subspace projection step and a nearest neighbor classifier The favorite subspace methods for face recognition are based on Linear Discriminant Analysis (LDA) and Principal Component Analysis (PCA) LDA has been shown to be superior to PCA in the face recognition systems which have a large number of training samples per class Standard LDA defined an optimization problem involving covariance matrices that represent the scatter within and between cluster The requirement that one of these matrices be nonsingular restricts its application to datasets in which the dimension of the data does not exceed the sample size For face recogniton, however, the dimension typically exceeds the number of images in the database resulting in what is referred to as the small sample size problem (3S problem) In recent years, there were many researchs for 3S problem In this thesis, the best 3S solution is applied

in the face recognition system and named WLDA face recognition The experiments are done on the ORL database, Yale database and NEW database

Trang 14

TỪ VIẾT TẮT

NKFDA Null Kernel-based Fisher Discriminant Analysis

Trang 15

GIỚI THIỆU

Hệ thống nhận dạng mặt người là một ứng dụng dựa trên máy tính để tự động xác định một người từ một ảnh số Để làm được điều này, chương trình nhận dạng sẽ so sánh các đặc trưng được lựa chọn trên ảnh đầu vào với ảnh trong cơ sở dữ liệu Trong những năm qua, nhu cầu áp dụng các hệ thống nhận dạng tự động ngày càng tăng đặc biệt là trong lĩnh vực nhận dạng mặt người, các nghiên cứu về nhận dạng mặt người rất được quan tâm trong đó có những cải tiến các phương pháp nhận dạng dựa trên kỹ thuật thống kê vốân đã rất nổi tiếng và được sử dụng rộng rãi trong lĩnh vực thương mại Các phương pháp nhận dạng dựa trên kỹ thuật thống kê biểu diễn dữ liệu dưới dạng các vector n chiều trước khi áp dụng các kỹ thuật xử lý dữ liệu khác Tuy nhiên, trong nhiều ứng dụng thực tế, kích thước của dữ liệu 1D chứa trong các vector là rất lớn so với số mẫu dữ liệu Đây chính là trở ngại chính trong các ứng dụng nhận dạng đối tượng nói chung Trong lĩnh vực nhận dạng mặt người, phép phân tích các thành phần chủ yếu PCA và phép phân tích biệt số tuyến tính LDA là các kỹ thuật phân tích không gian con phổ biến nhất PCA là kỹ thuật ánh xạ trên không gian con được sử dụng rộng rãi trong lĩnh vực nhận dạng mặt người PCA tìm tập hợp các vector để các mẫu sau khi chiếu lên các vector đó sẽ được giữ lại những thông tin chủ yếu nhất về các mẫu ban đầu Các vector nói trên gọi là các vector riêng tương ứng với các trị riêng lớn nhất của ma trận Khác với PCA, LDA đi tìm một tập vector làm cực đại tiêu chuẩn biệt số Fisher, phép phân tích LDA làm cực đại sự tán xạ giữa các lớp và làm cực tiểu sự tán xạ bên trong lớp Phương pháp nhận dạng dựa trên phân tích LDA là kỹ thuật nhận dạng học có giám sát vì nó cần được biết thông tin lớp cho mỗi ảnh trong tập huấn luyện Phương pháp nhận

Trang 16

dạng dùng phân tích LDA khắc phục những hạn chế của phương pháp Eigenfaces bằng cách áp dụng tiêu chuẩn biệt số Fisher Tiêu chuẩn biệt số Fisher là phép phân tích làm cực đại tỉ số sau:

T b T w

w S w

Trong đó, Sb là ma trận tán xạ giữa các lớp, Sw là ma trận tán xạ bên trong lớp Giải phương trình (*) đồng nghĩa với việc tìm ra các hướng chiếu làm cực đại khoảng cách Euclidean giữa các ảnh mặt của các lớp khác nhau, đồng thời làm tối thiểu khoảng cách giữa các ảnh mặt trong cùng một lớp ảnh Tỉ số trong (*) cực đại khi các vector cột của ma trận ánh xạ W là các vector riêng của ma trận

Sw-1Sb Trong các ứng dụng nhận dạng mặt, phương pháp này không thể áp dụng trực tiếp vì kích thước của không gian mẫu thông thường lớn hơn nhiều so với số lượng mẫu có trong tập huấn luyện Kết quả Sw bị đơn trị hay không khả đảo Đây là vấn để 3S “small sample size problem” Những năm gần đây, nhiều phương pháp đã được đưa ra để giải quyết vấn đề này như: Fisherfaces, Direct-LDA, Null-LDA, Orthogonal LDA, 2D-LDA…Tuy nhiên, các phương pháp trên chưa giải quyết một cách tối ưu vấn đề 3S, một số phương pháp làm mất đi các thông tin biệt số quan trọng, một số thuật toán lại có chi phí tính toán cao Luận văn này thiết kế hệ thống nhận dạng dựa theo phương pháp Whitening LDA, trong đó vấn đề 3S được giải quyết một cách tối ưu nhờ áp dụng phép biến đổi whitening cho dữ liệu trước khi thực hiện thuật toán LDA cổ điển Dữ liệu sau phép biến đổi Whitening sẽ được giữ lại toàn bộ thông tin biệt số với chi phí tính toán rất thấp Hệ thống nhận dạng dùng kỹ thuật phân lớp lân cận gần nhất vì tính đơn giản và hiệu quả nhận dạng trong các phương pháp phân tích dữ liệu dựa trên kỹ thuật thống kê

Trang 17

-1-

CHƯƠNG 1:

TỔNG QUAN NHẬN DẠNG MẶT NGƯỜI

1.1 NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG LÀ GÌ?

Bằng thị giác và hệ thần kinh trung ương, con người có thể dễ dàng nhận dạng được các đối tượng đã gặp trong tự nhiên trong đó có khuôn mặt của người quen Có được điều này là nhờ những phép xử lý rất phức tạp trong bộ não con người Nhận dạng mặt người tự động là một quá trình tự động nhận dạng hoặc xác minh một cá nhân bằng các thuật toán nào đó Hệ thống phải có khả năng phân biệt và gán nhãn cho đối tượng tự động dựa trên những đặc trưng riêng của đối tượng đó

Hệ thống nhận dạng mặt người tự động được mô tả sơ bộ như sau:

Image

Output Labeled

Input

Unknown

Detection Module

Hình 1.1 Sơ đồ đơn giản của hệ thống nhận dạng mặt người tự động

- Phần đầu tiên của hệ thống (Detection Module) được gọi là phần dò tìm và định vị khuôn mặt người (face detection and localization) từ ảnh của một cá nhân, ảnh của một nhóm người hoặc một đoạn video Ngõ ra của của module này là các ảnh mặt trích ra được từ ngõ vào

Trang 18

-2-

- Module nhận dạng là phần quan trọng nhất của hệ thống, chứa thuật toán xử lý chính Module này gồm hai bước xử lý chính: trích xuất đặc trưng (feature extraction) và so khớp (matching) Trong đó phần quan trọng nhất là trích xuất đặc trưng hay còn gọi là mô tả mặt Có thể nói khả năng nhận dạng của một hệ thống phụ thuộc chủ yếu vào thuật toán trích xuất đặc trưng Sự phân loại các phương pháp nhận dạng mặt người chủ yếu dựa trên loại thuật toán nào được sử dụng ở giai đoạn này Phần so khớp (matching) sẽ tính toán sự tương đồng (similarity) giữa ảnh cần nhận dạng với một ảnh mặt đã biết trong cơ sở dữ liệu để gán nhãn cho đối tượng

Feature Extraction Matching

Hình 1.2 Minh họa phần xử lý bên trong Module nhận dạng

1.2 TẠI SAO PHẢI NHẬN DẠNG MẶT NGƯỜI TỰ ĐỘNG?

Một người bình thường có thể nhận diện mặt người một cách dễ dàng và chính xác, trong khi hệ thống nhận dạng bằng máy đòi hỏi phải thực hiện việc dò tìm và định vị ảnh mặt sau đó mới nhận diện được Nếu môi trường chứa ảnh mặt phức tạp không đồng nhất, hoặc ảnh mặt thay đổi do tuổi tác, khuyết tật…thì việc nhận dạng có thể phân lớp sai Có được như vậy là vì hệ thống nhận dạng của con người sử dụng thông tin từ tất cả các giác quan trong khi hệ thống nhận dạng bằng máy chỉ đơn giản xử lý trên dữ liệu 2D Tuy nhiên, bộ nhớ của con người có giới hạn nên không thể nhớ một số lượng mặt lớn, đây lại là ưu điểm của hệ thống nhận dạng mặt người bằng máy, đặc biệt, khi mà các bộ vi xử lý ngày nay đã đạt đến tốc độ nano và các bộ nhớ lên đến hàng trăm GB Khả năng tự động xử lý trên tập dữ liệu lớn với độ tin cậy ngày càng cao của các hệ thống nhận

Trang 19

-3-

dạng mặt tự động được ứng dụng rộng rãi trong các hệ thống giám sát, theo dõi và điều tra trong lĩnh vực an ninh cũng thương mại

1.3 LỊCH SỬ KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI

1.3.1 Các phương pháp nhận dạng thời kỳ trước khi xuất hiện máy tính

Cùng với phát minh ra máy chụp hình giữa thế kỷ 19, ngành cảnh sát đã bắt đầu xây dựng những bộ sưu tập ảnh của các đối tượng tình nghi Lúc đầu, việc điều tra các tên tội phạm bị truy nã dựa vào ảnh trên thẻ căn cước cùng với các thông tin liên quan, ngày nay gọi là sinh trắc mềm Việc truy lùng tội phạm được thực hiện bởi cảnh sát địa phương hoặc dịch vụ thám tử tư như Cơ quan thám tử Quốc gia Pinkerton (Hoa Kỳ)

Alphonse Bertillon (1853 – 1914) được xem là người tiên phong trong lĩnh vực sinh trắc học, người đã khẳng định các đặc tính nhân trắc học con người như những thông số về cơ thể là duy nhất và chúng có thể đo lường được Mối liên quan đặc biệt giữa nhân trắc học và tội phạm học cũng được giải thích thông qua não tướng học (môn khoa học chuyên nghiên cứu sự liên quan giữa kích thước hộp sọ, các bướu tự nhiên trên đầu với khả năng và tính cách của người đó) Bertillon đã đo những đặc trưng khác nhau như chiều cao, chiều dài cánh tay, chiều dài và bề rộng của hộp sọ Ngoài các số đo trên, hệ thống của Bertillon cũng bao gồm những mô tả hình thái học của các bộâ phận trên cơ thể như tai, các dấu vết để lại do bệnh, tai nạn hoặc những dấu hiệu riêng của từng người như vết xăm…Với hệ thống gồm 7336 thông số, Bertillon có thể nhận dạng 49 tội phạm vào năm 1883 và 241 tội phạm vào năm sau đó Hệ thống này được áp dụng trong nhiều nhà tù và cơ quan điều tra ở thời kỳ đó Các nguyên tắc phân loại cũng được đưa ra, Bertillon đề xuất phương pháp fiche signaletique mà nội dung cơ bản của nó tương tự với các hệ thống nhận dạng ngày nay: trước tiên phân tích ảnh mặt thành các đặc trưng của nó, sau đó tái chế lại để nhận dạng

Trang 20

-4-

Tuy cũng có những thành công nhất định nhưng phương pháp của Bertillon là cách tiếp cận phụ thuộc nền văn hóa, nhận thức quyết định hơn tri thức, do đó đôi khi có những quyết định mang tính cảm tính

Năm 1898, Sir Francis Galton, người đã phát minh ra phương pháp nhận dạng người dựa vào dấu vân tay, dưới sự ủng hộ của Uỷ ban Hoàng gia đã cho rằng cách lý giải thống kê của Bertillon là một sai lầm và “ sự sai lầm ở chỗ xem các thông số khác nhau của cùng một người là các biến độc lập, thực sự không phải vậy Ví dụ, một người cao thì có sẽ có cánh tay, bàn chân và ngón tay dài hơn người thấp”

Đầu năm 1888, Galton đề xuất phương pháp phân loại mặt bằng cách liệt kê các ảnh mặt khác nhau, tìm ra các quy luật, các giới hạn của khuôn mặt và phân loại những ảnh mặt mới dựa trên các chỉ tiêu này, 5 điểm quan trọng nhất được sử dụng để so khớp Các điểm được sử dụng là: khoảng giữa chân mày và mũi, chóp mũi, khoảng giữa mũi và môi trên, khoảng giữa môi và đỉnh cằm

Nhận dạng mặt người hiện đại bắt đầu bằng nghiên cứu của Bledsoe (1964) với phương pháp trích xuất đặc trưng cục bộ Bằng trực quan, Bledsoe nhìn vào những đặc trưng chính của mặt và so sánh chúng với các ảnh mặt có sẵn Các đặc trưng chính là những mốc chuẩn trên ảnh mặt được định vị và chú thích bằng tay, ví dụ như là các góc mắt, tai, mũi, miệng…Khoảng cách và tỉ lệ chuẩn hóa được tính toán từ những mốc chuẩn này đến các điểm tham chiếu, sau đó được

so sánh với dữ liệu có sẵn của các ảnh đã biết Các phương pháp nhận dạng khác tiếp tục được nghiên cứu và đề xuất bởi Preston (1965), Ilya Prokopoff vào những năm của thập niên 1960, Kaya và Kobayashi (1972)

1.3.2 Các phương pháp nhận dạng mặt người thời đại máy tính

Năm 1969, Sakai et al là người đầu tiên lập trình trên máy tính để định vị ảnh mặt trong một bức ảnh Năm 1970, Kelly bảo vệ luận án tiến sĩ với phương pháp

Trang 21

-5-

trích xuất tự động ảnh người và ảnh mặt, định vị tự động các điểm đặc trưng chính như những thông số về độ rộng vai, bề rộng đầu, khoảng cách giữa hai mắt được sử dụng để nhận dạng 10 người Tiếp theo Leon Harmon nghiên cứu các ảnh hưởng về độ phân giải, ảnh hưởng của tần số lên khả năng nhận dạng mặt bằng máy tính Các nghiên cứu của Harmon đã đi đến kết luận: việc phân tích tần số đóng một vai trò quan trọng trong nhận dạng mặt người Harmon cũng xây dựng một tập hợp các đặc trưng và các giá trị dùng để mô tả và nhận dạng mặt Các đặc trưng của Harmon cũng dựa trên các điểm chuẩn đã được Galton xây dựng gần 100 năm trước đó và gần hơn là của Bledsoe Các đặc trưng bao gồm: tóc (chiều dài, hình dáng ), trán, lông mày, mắt tai, gò má, mũi, miệng, môi và cằm Các giá trị của đặc trưng bao gồm: độ thẳng, độ gợn sóng, độ xoắn của tóc, độ đầy đặn của gò má Sự khớp nhau giữa hai ảnh mặt chính là sự tương đồng giữa hai vector đặc trưng và được xác định thông qua khoảng cách Euclidean

Năm 1973, Kanade là người đầu tiên lập trình nhận dạng mặt người tự động trên máy tính sử dụng phương pháp dựa trên đặc trưng Kanade dùng các thủ tục riêng cho từng phần của ảnh mặt và có thể nhận dạng 15 trong tổng số 20 người Phương pháp nhận dạng tiếp theo được Baron nghiên cứu năm 1981 là kỹ thuật nhận dạng dựa trên khuôn mẫu (template) và phương pháp kết hợp cả hai kỹ thuật trên (hybrid) Trong kỹ thuật nhận dạng dựa trên khuôn mẫu, ảnh mặt được mã hóa toàn bộ (global) và sau đó được nhận dạng bằng cách so khớp mẫu hoặc tính tương quan Theo Baron việc đi tìm những đặc trưng để tối ưu việc nhận dạng là một công việc quá khó khăn, có nhiều đặc trưng rất khó xác định trên những ảnh chất lượng kém do nhiễu hoặc bị che khuất Nhược điểm của phương pháp dựa trên khuôn mẫu là việc khó mở rộng tập huấn luyện và khó thêm vào các ảnh tương tự

Trang 22

-6-

Lĩnh vực nhận dạng mặt người đạt được bước phát triển mới với các nghiên cứu của Kirby và Sirovich năm 1990 Kirby và Sirovich đã đề xuất phương pháp phân tích các thành phần chủ yếu (PCA) cho kỹ thuật nhận dang dựa trên khuôn mẫu Phép phân tích PCA tương tự như phép biến đổi Karhunen Loeve (KL), đó là mô hình biến đổi tuyến tính (không giám sát) dưới giả thiết dữ liệu phân bố kiểu Gaussian PCA rút ra các đặc trưng toàn cục và trực giao, các đặc trưng mà sau này được gọi là các eigenfaces PCA thiếu thông tin về pha và chỉ xem xét các đặc trưng toàn bộ trên ảnh mặt Mỗi eigenface đại diện cho một thành phần hay một chiều dọc theo ảnh mặt được mã hóa Eigenface là một trong những kỹ thuật đầu tiên đề xuất khái niệm không gian mặt và nén dữ liệu ảnh mặt vào trong một hệ tọa độ đặc trưng mới nhỏ gọn hơn phục vụ như những khuôn mẫu để nhận dạng Aûnh mặt được khôi phục nhờ sự kết hợp có trọng số của các eigenface, các trọng số có được bằng cách chiếu ảnh mặt lên không gian mặt Phương pháp nhận dạng dựa trên phân tích PCA chỉ sử dụng một số ít các eigenface để nhận dạng nên nó giảm lượng dữ liệu cần lưu trữ để nhận dạng Kirby và Sirovich đã mã hóa 115 ảnh mặt và chỉ sử dụng 40 eigenfaces

Năm 1992, Turk và Pentland đã cải tiến phương pháp của Kirby và Sirovich Các không gian riêng (eigenspaces) như mắt, miệng, mũi cũng được định nghĩa như là các đặc trưng riêng Chính vì vậy, các eigenspaces và các đặc trưng riêng chứa đựng các đặc điểm chung và cục bộ của ảnh mặt

Tiếp theo, hàng loạt các phương pháp nhận dạng khác ra đời như phép phân tích biệt số tuyến tính LDA (Linear Discriminant Analysis) do Etemad và Chellappa đề xuất năm 1997, Fisherface (một sự kết hợp giữa phép biến đổi PCA và LDA) của Belhumeuer et al năm 1997, phép phân tích các thành phân độc lập ICA (Independent Component Analysis), giải thuật tiến hóa của Liu và Weshler năm

2000 (Evolutionary Pursuit), một phương pháp nhận dạng sử dụng thuật toán

Trang 23

-7-

Genetic (GA) Phương pháp nhận dạng dụng mạng tế bào thần kinh (Neural Networks) và lý thuyết học thống kê (Statistical Learning Theory) cũng là các kỹ thuật nhận dạng dựa trên khuôn mẫu

Một cách tiếp cận khác là phương pháp nhận dạng dựa trên cấu trúc còn gọi là phương pháp nhận dạng từng phần Đó là cấu trúc liên kết động DLA (Dynamic Link Architecture) của Lades et al năm 1993, giãn đồ bó đàn hồi EBGM (Elastic Bunch Graph Matching) của Wiskott năm 1997 sử dụng biến đổi Gabor Wavelets để tìm các đặc trưng cục bộ Các đặc trưng cục bộ kết nối với nhau trong một giản đồ với những liên kết co giãn hình thành kiến trúc ảnh mặt Việc so khớp sẽ tiến hành đối chiếu giữa hai giản đồ của ảnh mặt mẫu và ảnh mặt kiểm tra Theo báo cáo của Yuille năm 1989, EBGM nhóm các đặc trưng thành những bó với những hình dáng khác nhau Sự tương tự của hai ảnh mặt tương ứng với chi phí phân tích lưới đàn hồi Một cấu trúc khác liên kết các đặc trưng 2D để nhận dạng ảnh mặt là mô hình Markov (Hidden Markov Model) do Samaria và Young đề xuất năm 1994

Ngoài ra, có một số phương pháp kết hợp cả hai kỹ thuật nhận dạng trên còn gọi là các phương pháp nhận dạng hybrid như ICA, LFA…Phương pháp phân tích các thành phần độc lập ICA (Independent Component Analysis) do Draper đề xuất năm 2003 là phương pháp phân tích đặc trưng phù thuộc vào cấu trúc, thực hiện trên các mô hình chung và cả trích xuất các đặc trưng không gian cục bộ Trước đó, năm 1996, Penev và Atick đã phát triển một phương pháp mới gọi là phép phân tích đặc trưng cục bộ LFA (Local Feature Analysis) dựa trên phép biến đổi PCA truyền thống và một số cấu trúc cơ sở LFA trích xuất các đặc trưng riêng của mặt từ không gian PCA, giản đồ lưới liệt kê nhân LFA cũng tương tự như giản đồ được sử dụng bởi DLA và EBGM

Trang 24

-8-

Ngày nay, phạm vi nhận dạng đối tượng nói chung và nhận dạng mặt người nói riêng trở nên rộng hơn nhiều vì việc huấn luyện và/ hoặc kiểm tra có thể được tiến hành trên các đối tượng không hoàn chỉnh, bị che đậy một phần hoặc từ một ảnh đơn, hoặc từ nhiều tập ảnh, nhận dạng 3D, nhận ra người di chuyển và ảnh mặt qua Video (Video tracking)

1.4 Giới thiệu chung về hệ thống nhận dạng mặt người

Hình 1.3 Các khối chức năng trong một hệ thống nhận dạng mặt người

1.4.1 Thu ảnh chứa đối tượng cần nhận dạng

Một hệ thống nhận dạng mặt người đầy đủ được bắt đầu từ bước thu ảnh có chứa mặt người Đối tượng bên ngoài sẽ được ghi lại và lưu trữ bằng các thiết bị kỹ thuật số, ngõ ra là ảnh tĩnh hoặc video Tuỳ vào thiết bị ghi hình kỹ thuật số mà ảnh hoặc video thu được có các kiểu định dạng và mức chất lượng khác nhau Các yếu tố tác động đến từ thiết bị là:

- Độ phân giải quang: số lượng pixel/inch

- Kích thước ảnh

- Hàm mã hóa cường độ sử dụng mức thang xám/màu

- Chất lượng thiết bị quét ảnh

- Tiêu chuẩn nén

- Độ tương phản

- Khả năng tự cân bằng trắng

Thu ảnh

(Camera)

Tiền xử lý

Phần mềm nhận dạng

CSDL

Dò tìm mặt

Trích xuất đặc trưng

Trang 25

-9-

Ngoài ra, chất lượng một bức ảnh kỹ thuật số còn phụ thuốc vào các yếu tố khách quan bên ngoài như cường độ chiếu sáng, góc chụp, ….Tất cả các yếu tố trên làm cho ảnh thu được rất đa dạng cần phải tiền xử lý như chuẩn hoá ảnh mặt, triệt nhiễu, tăng độ tương phản… trước khi thực hiện các bước kế tiếp

1.4.2 Dò tìm ảnh mặt (face localization)

Việc dò tìm mặt là quét cửa sổ kích thước cho trước từng pixel một lên ảnh đầu vào, sử dụng các thuật toán đánh giá khác nhau để phân biệt ảnh mặt với ảnh vật thể Nếu cửa sổ chứa ảnh mặt chuẩn để nhận dạng thì sẽ được giữ lại

Ví dụ: Tiêu chuẩn đáp ứng đơn trong dò tìm ảnh mặt sẽ dịch chuyển cửa sổ kích thước cho trước lên ảnh đầu vào theo hướng từ trên xuống dưới, từ trái qua phải Sử dụng pixel trên cùng phía bên trái đại diện cho một ảnh con thu được

Hình 1.4 (a) minh hoạ trường hợp dò tìm ảnh mặt bằng tiêu chuẩn đáp ứng đơn với kích thước cửa sổ 16x16 Giả sử ảnh mặt được phát hiện tại p, thuật toán dò tìm mặt sẽ kiểm tra trên tất cả 7x7 pixel lân cận để xác định một ảnh mặt nằm gần không gian mặt nhất Nhờ các lần dịch trước nên tả chỉ việc kiểm tra trên 24 pixel trong vùng A, giả sử tại pixel q ta tìm được ảnh mặt phù hợp nhất, lúc đó ta không cần đi kiểm tra cho 542 pixel trong vùng B, vì bất kỳ sự phát hiện nào trong vùng này đều trùng với ảnh mặt đã phát hiện ở q Ở hình b, nếu ảnh mặt được phát hiện với tỉ lệ a x a, khi dò tìm ảnh mặt ở tỉ lệ b x b, vùng pixel R sẽ không được kiểm tra nữa

1.4.3 Tiền xử lý

Mục đích của bước tiền xử lý là biểu diễn ảnh mặt một cách cô đọng nhất, làm giảm tối đa sự khác biệt giữa các ảnh do điều kiện chiếu sáng, hướng chụp, nhiễu…Có nhiều phương pháp tiền xử lý khác nhau như hiệu chỉnh kích thước, xoay, cắt khung hình, cân bằng histogram, dùng mặt nạ, lọc nhiễu, … Tuy nhiên,

Trang 26

-10-

việc sử dụng phương pháp tiền xử lý nào còn tuỳ thuộc vào đặc điểm dữ liệu ngõ vào và thuật toán dùng để nhận dạng

Hình 1.4: Quá trình dò tìm ảnh mặt và loại bỏ phần pixel thừa

(ảnh trích từ tài liệu tham khảo [10]) 1.4.3.1 Quay ảnh (rotation)

Trang 27

-11-

Việc quay ảnh có thể làm bằng tay hoặc tự động nếu vị trí hai mắt được xác định trước Trong tập ảnh FERET, các vị trí của mắt, mũi, miệng được cung cấp để tiền xử lý tự động, một số tập dữ liệu ảnh khác như ORL, Yale…các ảnh đã được chuẩn hóa và không cần phải quay nữa

Hình 1.5: Mô hình quay ảnh mặt dựa vào đường thẳng nối hai mắt

(ảnh trích từ tài liệu tham khảo [9]) 1.4.3.2 Cắt khung ảnh (cropping)

Khi khung ảnh lớn hơn nhiều so với ảnh mặt thì ảnh mặt cần phải được chứa trong khung ảnh mới vừa vặn với kích thước mặt hơn, chỉ giữ lại những thông tin có ích cho việc nhận dạng

Hình 1.6: Cắt khung ảnh mặt dựa vào khoảng cách giữa hai mắt, giữa mắt và miệng (ảnh trích từ tài liệu tham khảo [9])

Trang 28

-12-

1.4.3.3 Cân bằng histogram

Cân bằng histogram để nâng cao độ tương phản của ảnh mặt Đồ thị histogram của một ảnh có độ tương phản cao sẽ trải dài trên một thang rộng các mức xám

Hình 1.7: Đồ thị histogram của một ảnh gốc (a) và sau khi cân bằng histogram

(b) 1.4.3.4 Dùng mặt nạ

Mặt nạ chính là một khung hình học được chuẩn hóa, nhằm làm giảm thiểu sự sai khác giữa các ảnh do không gian nền (background)

Hình 1.8: Một mặt nạ chuẩn hóa với phần thông tin ở các góc ảnh bị che lại

(ảnh trích từ tài liệu tham khảo [9]) 1.4.3.5 Hiệu chỉnh Gamma

Đây là bước hiệu chỉnh cường độ mức xám, thay mức xám I bằng giá trị mới

Iγ(với γ>0) hoặc log(I) (với γ=0), γ∈[ ]0,1 là thông số do người sử dụng quy định Hiệu chỉnh Gamma giúp cân bằng cải thiện các vùng tối trong ảnh

Trang 29

-13-

1.4.3.6 Sử dụng vi phân của bộ lọc Gaussian

Hiệu chỉnh Gamma không làm mất ảnh hưởng của gradient mức xám như các hiệu ứng bóng Để làm giảm hiệu ứng này, cần loại bỏ một số thành phần tần số thấp Nhưng nếu dùng các bộ lọc thông cao, cả thông tin có ích ở tần số thấp cũng sẽ bị mất Do vậy, sử dụng các bộ lọc Gaussian là một giải pháùp hợp lý, bộ lọc Gaussian là một loại bộ lọc thông dải, độ lệâch chuẩn của dải thông trung tâm là σ0, độ lệch chuẩn của hai dải biên là σ1

Hình 1.10: (a) Ảnh gốc; (b) ảnh đã hiệu chỉnh gamma; (c) ảnh qua bộ lọc DoG

(ảnh trích từ tài liệu tham khảo [9])

Trang 30

-14-

1.4.3.7 Cân bằng độ tương phản

Ảnh số thường có sự trộn lẫn của nhiều pixel có giá trị cường độ mức xám đột biến ở những chỗ nổi bậc hoặc những vùng bị nhiễu tại các biên ảnh và những pixel có cường độ thấp tại các vùng tối Để cân bằng độ tương phản, ta có thể lần lượt áp dụng các công thức sau:

( , ) ( , )

- α là cơ số mũ để làm giảm ảnh hưởng của các giá trị cường độ cao

- τ là ngưỡng để lọc các giá trị cường độ cao sau bước thứ nhất

- τtanhlà hàm hyperbolic tangent

1.4.4 Khối trích xuất đặc trưng (biểu diễn mặt)

Phần trích xuất đặc trưng còn gọi là mô tả mặt (Face Representation) Có nhiều phương pháp mô tả mặt và việc sử dụng thuật toán nào ở khâu này sẽ quyết định đặc điểm và khả năng nhận dạng của toàn hệ thống

Biến đổi Karhunen – Loeve (KL): Ban đầu, phép biến đổi KL dùng để nén ảnh nhưng không được sử dụng nhiều vì tính toán phức tạp, sau đó biến đổi KL được dùng để mô tả mặt người và Sirovich và Kirby là người đầu tiên áp dụng biến đổi KL để mô tả ảnh mặt Khả năng nhận dạng dựa trên biến đổi KL dựa trên nguyên lý “bất cứ một một ảnh nào cũng có thể được tái tạo lại nhờ sự kết hợp có trọng số của các vector riêng (eigenvector hoặc eigenpicture) Càng sử dụng nhiều eigenpicture thì ảnh thu được càng chính xác

Trang 31

-15-

Reisfeld và Yeshurun sử dụng toán tử đối xứng tổng hợp để tìm vị trí mắt và miệng trên khuôn mặt dựa trên bản chất đối xứng của mặt qua đường thẳng dọc theo sống mũi Toán tử đối xứng định vị những điểm đặc trưng trên mặt tương ứng với những vị trí có giá trị đối xứng cao Phương pháp này được cho là có nhiều ưu điểm hơn các phương pháp dựa trên phân tích tương quan dưới khía cạnh khả năng độc lập với tỉ lệ và hướng ảnh Tuy nhiên, nhược điểm của phương pháp này là phải biết trước vị trí của mặt trong ảnh, nếu không chi phí tính toán sẽ rất lớn

Hallinan sử dụng cách cách tiếp cận thống kê phát hiện và nhận dạng mắt người trong các ảnh cường độ xám với một ảnh mặt trực diện được mô tả Phương pháp của Hallinan dựa trên khuôn mẫu với hai vùng đồng nhất: vùng thứ nhất là tròng đen của mắt và vùng thứ hai là tròng trắng của mắt Một mắt nguyên bản và các mô hình phân phối khác nhau mô tả sự khác biệt được xây dựng Trong con mắt

“lý tưởng”, cường độ xám đống nhất cho cả tròng đen và tròng trắng Trong con mắt thật, những sai khác so với mắt lý tưởng được mô hình hóa như những thành phần nhiễu chèn vào ảnh lý tưởng

Chellappa và Rosenfeld đề xuất phương pháp dựa trên đường biên để phát hiện ảnh mặt Cơ sở lý thuyết của phương pháp này dựa trên hai lý do sau:

• Các cấu trúc hai chiều trong đó có khuôn mặt có thể được xấp xỉ bằng những đường thẳng và tam giác

• Trong thực tế, việc mô hình hóa các giá trị cường độ xám của một đối tượng và ảnh nền của nó thì khó hơn việc tận dụng sự sai khác về cường độ mức xám dọc theo đường bao của đối tượng

Các biên ảnh được trích xuất trực tiếp từ một ảnh dựa trên một hình dạng được mô tả trước Độ phức tạp trong thuật toán có thể được giảm bớt nếu sử dụng xử lý đa phân giải

Trang 32

-16-

Manjunath và Chellappa đưa ra phương pháp trích xuất những điểm đặc trưng thiết yếu trên ảnh mặt, sử dụng phép biến đổi Gabor Wavelets và sự tương tác tỉ lệ cục bộ để trích xuất đặc trưng tại những vị trí uốn cong lớn nhất trong ảnh Các đặc trưng này được lưu trong cơ sở dữ liệu và so sánh với các đặc trưng của ảnh mục tiêu bằng kỹ thuật so khớp giản đồ

1.4.5 Nhận dạng (so khớp)

Các đặc trưng thu được sau bước trích xuất đặc trưng sẽ làm dữ liệu ngõ vào của các bộ phân lớp đối tượng còn gọi là phần nhận dạng Có ba kỹ thuật nhận dạng chính

• Các kỹ thuật nhận dạng dựa trên kỹ thuật thống kê: dựa trên mô hình xác suất không đánh giá mặt cấu trúc của đối tượng

• Nhận dạng cú pháp: Tập trung vào mối tương quan giữa các ảnh gốc để xây dựng toàn bộ đối tượng

• Nhận dạng dựa vào mạng neuron: Bắt chước hệ thống thần kinh của con người

Các phương pháp nhận dạng dựa trên kỹ thuật thống kê được sử dụng nhiều nhất Trong nhận dạng thống kê, mỗi đối tượng được mô tả bằng d đặc trưng hoặc thông số và có thể xem như một điểm trong không gian d chiều Mục đích của hệ thống nhận dạng dựa trên kỹ thuật thống kê là chọn ra những đặc trưng sao cho các đối tượng khác nhau sẽ chiếm một vùng khác nhau trong không gian đặc trưng d chiều Không gian mô tả hay không gian đặc trưng được xem là hiệu quả nếu các đối tượng từ những lớp khác nhau được phân biệt rõ ràng và không gian đặc trưng đó biểu diễn nhiều những đặc điểm chung của đối tượng ngõ vào Đường biên quyết định sẽ chia đối tượng vào các lớp khác nhau dựa trên phân phối xác suất của các đối tượng thuộc mỗi lớp

Trang 33

-17-

Một hệ thống nhận dạng phức tạp có khả năng nhận dạng tốt các đối tượng được huấn luyện trước những gặp khó khăn đối với những đối tượng mới Trong trường hợp các mẫu huấn luyện dùng để thiết kế một bộ phân lớp được gán nhãn thì ta gọi là quá trình nhận dạng có giám sát (supervised), ngược lại nếu các mẫu huấn luyện không được gán nhãn trước thì ta gọi là quá trình nhận dạng không giám sát (unsupervised)

1.4.5.1 Phân lớp Bayesian

Bộ phân lớp Bayesian được sử dụng rộng rãi nhất trong các tiếp cận dựa trên kỹ thuật thống kê với các giá trị xác suất liên quan được biết Qui trình nhận dạng dựa trên kỹ thuật thốâng kê có thể tóm tắt như sau:

• Cho một đối tượng biễu diễn bằng vector đặc trưng x = (x1, x2, ……, xd) và được gán vào một trong C lớp (w1, w2,…….wC) tương ứng với một trong a các khả năng α α1, 2, α Giả sử mỗi đặc trưng có một mật độ xác suất a(p(.)) hoặc hàm phân bố tính luỹ P(.), vector đối tượng x thuộc lớp wi được xem như một quan sát ngẫu nhiên từ hàm xác suất có điều kiện p x w i

• Hàm tổn thất λ αi w j định nghĩa mất mát do quyết định sai đối tượng lớp

wi (trong khi lớp đối tượng đúng phải là lớp wj):

0, 1,

i j

i j w

i j

• Luật quyết định Bayesian làm tối thiểu hàm rủi ro có điều kiện R αi x

khi quyết định đối tượng x thuộc lớp wi

Trang 34

j j j

1 1

2

1/ 2 /2

1.4.5.2 Phân lớp lân cận gần nhất (NN)

Phân lớp lân cận gần nhất sử dụng khoảng cách để đo sự tương đồng giữa ảnh kiểm tra và ảnh mẫu Quyết định dựa trên khoảng cách lân cận nhỏ nhất Có nhiều hàm đánh giá khoảng cách và hiệu quả phân lớp cũng khác nhau Với hai vector n chiều X, Y, các loại khoảng cách độ tương đồng d như sau:

Trang 35

T Mah

X Y

− +

λ+

• ∑ là ma trận Covariance của dữ liệu huấn luyện

• λi: Trị riêng của vector riêng thứ i

Phần nhận dạng chính là thuật toán so khớp dựa trên sự tương đồng giữa ảnh cần nhận dạng với ảnh lưu trong cơ sở dữ liệu Có thể dùng thuật toán phân lớp lân cận gần nhất với các loại khoảng cách độ tương đồng d (d 1, d 2, dcos…), khoảng cách Mahalanobis, hoặc dùng kết hợp các loại khoảng cách; nhận dạng bằng mạng Neural, máy vector phụ SVM…

1.4.6 Cơ sở dữ liệu ảnh mặt

Bất cứ hệ thống nhận dạng nào cũng yêu cầu một cơ sở dữ liệu ảnh, đó là các ảnh mặt đã biết được chuẩn hóa, trích xuất đặc trưng và lưu trữ trong cơ sở dữ liệu để làm cơ sở cho việc so khớp Các cơ sở dữ liệu ảnh phổ biến thường xuyên được sử dụng để đánh giá khả năng của thuật toán nhận dạng như: CMU PIE, Cohn-Kanade, AR, Yale, ORL, FERET

Trang 36

-20-

CHƯƠNG 2:

MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI TIÊU BIỂU

2.1 Phương pháp Eigenfaces

2.1.2 Cơ sở lý thuyết và thuật toán

2.1.4.1 Cơ sở lý thuyết

Phương pháp Eigenfaces dựa trên việc tính trị riêng và vectơ riêng của không gian vectơ các ảnh đầu vào Mỗi vectơ riêng chính là một eigenfaces Eigenfaces phản ánh những đặc trưng của hình đầu vào là ảnh cần nhận dạng Nếu sử dụng tất cả các eigenfaces thì ta có thể xây dựng lại ảnh ban đầu một cách chính xác từ những eigenfaces có được Nhưng chúng ta cũng có thể sử dụng một phần những eigenfaces đó để xây dựng lại hình ban đầu một cách gần đúng Điều này xảy ra bởi việc chọn những đặc trưng quan trọng và cần thiết nhất, tránh lấy những thành phần không nằm trong đặc trưng chung

2.1.4.2 Thuật toán trích xuất đặc trưng

Trang 37

i i

M

n

T n n

1

= AAT ( C là ma trận HW×HW ) (2.3) với A = [Φ1 Φ2 … ΦM ] ( A là ma trận HW×M )

• Tính vector riêng ui của AAT :

Xét ma trận ATA ( ma trận M×M ), tính vector riêng vi của ma trận ATA

Ta có:

ATA vi = µI vi =>AAT A vi = µIAvi

=>CAvi = µIAvi hay Cui = µI ui với ui = Avi

Vì vậy, AAT và ATA có những trị riêng giống nhau, và vector riêng có quan hệ như sau: ui = Avi

• Giữ lại K vector riêng ( tương ứng với K trị riêng lớn nhất )

• Tính vector trọng số của tập huấn luyện Ωi ( i=1,2, … ,M )

i K

i i i

i

w

w w w

3 2 1

, i = 1,2,…,M (2.5)

Trang 38

-22-

với w i = uT

j Φi , j = 1,2,…,K

Hình 2.1: (a) Một số cá nhân từ tập ảnh ORL; (b) ảnh trung bình tập ảnh ORL

(ảnh trích từ tài liệu tham khảo [7])

Hình 2.2: Các eigenfaces đầu tiên tương ứng với 4 giá trị riêng lớn nhất

(ảnh trích từ tài liệu tham khảo [7]) Các vector riêng được xem như những vector chỉ ra hướng làm cực đại sự sai khác của dữ liệu, và vector riêng tương ứng giá trị riêng càng lớn thì mô tả sự sai khác càng lớn Các vector riêng được sắp xếp theo tương ứng với các giá trị riêng tương ứng từ cao xuống thấp Thí nghiệm cho thấy, khoảng 40% vector riêng đầu tiên đã chiếm xấp xỉ 90% giá trị công suất toàn bộ

Trang 39

-23-

Hình 2.3: Phổ trị riêng qua phép phân tích PCA trên tập ảnh ORL

(ảnh trích từ tài liệu tham khảo [7])

K i i

K

w

w w w

3 2 1

(2.8)

• Tính khoảng cách Euclidean

Trang 40

Trong đó:

• Φ là ảnh đã hiệu chỉnh trung bình tính ở công thức (2.6)

• Φf là ảnh kiểm tra chiếu lên không gian mặt

Nhận dạng một ảnh mặt dựa trên 2 thông số Tγ và ε có các trường hợp sau:

• Nếu ε > Tγ ⇒ ảnh kiểm tra không phải là ảnh mặt

• Nếu ε < Tγ và er > Tγ ⇒ ảnh kiểm tra là ảnh mặt mới

• Nếu ε < Tγ và er < Tγ ⇒ ảnh kiểm tra thuộc lớp thứ i

2.1.4 Thí nghiệm và kết quả

2.1.4.1 Cơ sở dữ liệu ảnh ORL

Tập ảnh mặt ORL được xây dựng từ tháng 4 năm 1992 đến tháng 4 năm 1994 tại phòng thí nghiệm nghiên cứu Olivetti đại học Cambridge, Anh

Tập ảnh gồm 400 ảnh của 10 người khác nhau, mỗi người 10 ảnh được chụp trong các điều kiện khác nhau về thời gian, điều kiện chiếu sáng, cỡ ảnh, hướng

Ngày đăng: 04/04/2021, 00:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] Vo Dinh Minh Nhat, SungYoung Lee, Hee Yong Youn, Whitening LDA for Face Recognition, CIVR’07, July 2007, Amsterdam, the Netherlands [4] Harrry Wechsler, Reliable Face Recognition Methods: System Design,implementation and Evalation, Springer 2006 Sách, tạp chí
Tiêu đề: Reliable Face Recognition Methods: System Design, implementation and Evalation
Tác giả: Harrry Wechsler
Nhà XB: Springer
Năm: 2006
[5] Aleix M. Martinez and Avinash C. Kak, PCA versus LDA, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.23, No.2, pp. 228-233, 2001 Sách, tạp chí
Tiêu đề: PCA versus LDA
Tác giả: Aleix M. Martinez, Avinash C. Kak
Nhà XB: IEEE Transactions on Pattern Analysis and Machine Intelligence
Năm: 2001
[6] W. Zhao, Face Recognition: A Literature Survey, Technical Report, University of Maryland, 2000 Sách, tạp chí
Tiêu đề: Face Recognition: A Literature Survey
Tác giả: W. Zhao
Nhà XB: University of Maryland
Năm: 2000
[10] Peichung Shih, Chengjun Liu, Face detection using discriminating feature analysis and Support Vector Machine, pattern Recognition 39 (2006), pages 260-276 Sách, tạp chí
Tiêu đề: Face detection using discriminating feature analysis and Support Vector Machine
Tác giả: Peichung Shih, Chengjun Liu
Nhà XB: Pattern Recognition
Năm: 2006
[11] Hui Kong, Xuchun Li, Lei Wang, Eam Khwang Teoh, Jian-Gang Wang, Ronda Venkateswarlu, Generalized 2D Principal Component Analysis Sách, tạp chí
Tiêu đề: Generalized 2D Principal Component Analysis
Tác giả: Hui Kong, Xuchun Li, Lei Wang, Eam Khwang Teoh, Jian-Gang Wang, Ronda Venkateswarlu
[13] Wei Liu, Yunhong Wang, Stan Z. Li, Tieniu Tan1, Null Space Approach of Fisher Discriminant Analysis for Face Recognition Sách, tạp chí
Tiêu đề: Null Space Approach of Fisher Discriminant Analysis for Face Recognition
Tác giả: Wei Liu, Yunhong Wang, Stan Z. Li, Tieniu Tan
[14] Marian Stewart Barlett, Javier R. Movellan, Terrence J. Sejnowski, Face Recognition by Independent Components Analysis, IEEE Transactions on Neural Networks, Vol. 13, No. 6, November 2002 Sách, tạp chí
Tiêu đề: Face Recognition by Independent Components Analysis
Tác giả: Marian Stewart Barlett, Javier R. Movellan, Terrence J. Sejnowski
Nhà XB: IEEE Transactions on Neural Networks
Năm: 2002
[15] Hoàng Tùng Linh, Trần Lý Nhân, Kết hợp các phương pháp trích xuất đặc trưng trong nhận dạng mặt người dùng mạng Neuron, Luận văn tốt nghiệp Đại học Bách khoa, 2006 Sách, tạp chí
Tiêu đề: Kết hợp các phương pháp trích xuất đặc trưng trong nhận dạng mặt người dùng mạng Neuron
Tác giả: Hoàng Tùng Linh, Trần Lý Nhân
Nhà XB: Đại học Bách khoa
Năm: 2006
[1] Matthew Turk and Alex Pentland, Eigenfaces for Recognition, The Media Laboratory, Massachusetts Institute of Technology,1991 Khác
[2] Kamran Etemad and Rama Chellappa, Discriminant analysis for recognition of human face images, J. Opt. Soc. Am. A/Vol. 14, No.8/August 1997 Khác
[9] Xiaoyang Tan and Bill Triggs, Preprocessing and Feature Sets for Robust Face Recognition, draft originally submitted to CVPR’07 Khác
[12] WU Xiao-Jun, Josef Kittler, YANG Jing-Yu, Kieron Messer, Wang Shi- Tong, A New Kernel Direct Discriminant Analysis (KDDA) Algorithm for Face Recognition Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w