1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân cho ứng dụng trên thiết bị di động

84 207 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 3,62 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mẫu nhị phân cục bộ xem xét các điểm xung quanh điểm trung tâm trong vùng nhị phân cục bộ để tính toán các đặc trưng và đặc điểm riêng biệt trên khuôn mặt, nhưng bị ảnh hưởng bởi nhiễu,

Trang 3

Cán bộ hướng dẫn khoa học: TS VĂN THIÊN HOÀNG

(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn Thạc sĩ được bảo vệ tại t r ư ờ n g Đại học Công nghệ TP HCM ngày 17 tháng 06 năm 2018

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

4 TS Nguyễn Thị Thúy Loan Ủy viên

5 TS Lê Thị Ngọc Thơ Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được sửa chữa (nếu có)

Chủ tịch Hội đồng đánh giá luận văn

Trang 4

NHIỆM VỤ LUẬN VĂN THẠC

Họ tên học viên: Võ Anh Tiến Giới tính: Nam

Ngày, tháng, năm sinh: 25/11/1982 Nơi sinh: TP.HCM

Chuyên ngành: Công nghệ thông tin MSHV: 1541860043

I- Tên đề tài:

Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân cho ứng dụng trên thiết bị di động

II- Nhiệm vụ và nội dung:

Nhiệm vụ tổng quát của đề tài là: Đề xuất

trên cơ sở nghiên cứu các hướng tiếp cận mẫu nhị phân liên quan nhằm đạt độ chính xác

nhận dạng khuôn mặt cao (so với phương pháp của Kra'l và các đồng sự)

III- Ngày giao nhiệm vụ: 15/03/2017

IV- Ngày hoàn thành nhiệm vụ: 30/12/2017

V- Cán bộ dẫn: TS Văn Thiên Hoàng

CÁN BỘ DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký) (Họ tên và chữ

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

Học viên thực hiện Luận văn

Võ Anh Tiến

Trang 6

LỜI CẢM ƠN

Để hoàn thành luận văn này, tôi xin tỏ lòng biết ơn sâu sắc nhất đến TS

Văn Thiên Hoàng, người đã tận tình hướng dẫn trong suốt quá trình viết luận

văn

Tôi cũng xin chân thành cảm ơn quý Thầy, Cô trong khoa Công nghệ

thông tin, trường Đại học Công Nghệ TP Hồ Chí Minh đã tận tình truyền đạt

kiến thức trong những năm tháng học tập Với vốn kiến thức được tiếp thu

trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu mà còn là

hành trang quý báu để tôi có thể bước vào đời một cách vững chắc và tự tin

Cuối cùng, tôi xin kính chúc quý Thầy, Cô dồi dào sức khỏe và thành

công trong sự nghiệp, đạt được nhiều thành công tốt đẹp trong công việc và

cuộc sống

Học viên thực hiện Luận văn

Võ Anh Tiến

Trang 7

TÓM TẮT

Nghiên cứu này trình bày phương pháp mới cho nhận dạng khuôn mặt dựa vào mẫu

nhị phân cục bộ (LBP) Mẫu nhị phân cục bộ xem xét các điểm xung quanh điểm trung

tâm trong vùng nhị phân cục bộ để tính toán các đặc trưng và đặc điểm riêng biệt trên

khuôn mặt, nhưng bị ảnh hưởng bởi nhiễu, độ lệch và điều kiện ánh sáng Trong

nghiên cứu này, đề xuất phương pháp mẫu nhị phân bền vững (RLBP) nhằm mở rộng,

xem xét nhiều điểm ảnh khác nhau để tính vector đặc trưng, đồng thời xét thêm điểm

trung tâm so với trung bình các điểm trong vùng cục bộ Nhờ việc giảm cường độ điểm

ảnh và xem xét giá trị điểm trung tâm nên phương pháp được đề xuất loại bỏ nhiễu tốt,

không bị ảnh hưởng bởi điều kiện ánh sáng Phương pháp đề xuất được thử nghiệm

trên ba bộ dữ liệu: ORL [1], YaleB [2] và cơ sở dữ liệu được thu nhận trực tiếp từ sinh

viên HUTECH bằng thiết bị di động Qua thực nghiệm cho thấy, phương pháp đề xuất

trong luận văn này đạt độ đo chính xác tốt hơn các phương pháp khác

Trang 8

ABSTRACT

This paper presents a new method for face recognition based on local binary pattern (LBP) Local binary samples look at points around the central point in the binary locality to calculate specific facial features and characteristics, but are affected by noise, deviation, and light conditions In this study, a robust binary sample (RLBP) model was proposed to expand, considering various pixels for vector specificity, while adding a central point to the average of points in the lump area By reducing the pixel intensity and considering the center point value, the proposed method eliminates interference, which is not affected by lighting conditions The proposed method was tested on three sets of data: ORL [1], YaleB [2] and the database was obtained directly from HUTECH students by mobile device Experimental results show that the method proposed in this thesis has better accuracy than other methods

Trang 9

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT iii

ABSTRACT iv

MỤC LỤC v

DANH MỤC TỪ VIẾT TẮT VÀ TỪ KHÓA vii

DANH MỤC BẢNG viii

DANH MỤC HÌNH VẼ ix

CHƯƠNG 1 TỔNG QUAN 1

1.1 Giới thiệu 1

1.2 Hệ thống nhận dạng khuôn mặt 4

1.3 Mục tiêu của đề tài 7

1.4 Bố cục luận văn 7

CHƯƠNG 2.CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 9

2.1 Các hướng tiếp cận rút trích đặc trưng mặt người 9

2.1.1 Hướng tiếp cận biểu diễn đặc trưng không gian 9

2.1.2 Biểu diễn đặc trưng dựa vào không gian – thời gian 15

2.1.3 Hướng tiếp cận rút trích đặc trưng dựa vào giảm chiều 22

2.2 Các hướng tiếp cận liên quan đến phương pháp nghiên cứu của đề tài 23

2.2.1 Đặc trưng mẫu nhị phân cục bộ 23

2.2.2 Đặc trưng mẫu nhị phân phương sai 26

2.2.3 Đặc trưng mẫu nhị phân cải tiến 27

2.2.4 Đặc trưng mẫu tam phân cục bộ 28

2.2.5 Đặc trưng mẫu nhị phân cục bộ chuẩn hóa 29

2.2.6 Đặc trưng mẫu nhị phân tăng cường 30

2.3 Nhận xét 31

CHƯƠNG 3.PHƯƠNG PHÁP RÚT TRÍCH ĐẶC TRƯNG ĐỀ XUẤT 32

3.1 Ý tưởng thuật toán 32

Trang 10

3.2 Ví dụ minh họa 35

3.3 Nhận xét 36

CHƯƠNG 4.KẾT QUẢ THỰC NGHIỆM 37

4.1 Môi trường và cơ sở dữ liệu thực nghiệm 37

4.2 Kết quả thực nghiệm trên cơ sở dữ liệu ORL 37

4.2.1 Thống kê vét lân cận cạn 39

4.2.2 Thống kê vét lân cận sâu 43

4.2.3 Phương pháp thống kê 43

4.2.4 Nhận xét 44

4.3 Kết quả thực nghiệm trên cơ sở dữ liệu yaleB 44

4.3.1 Thống kê lân cận cạn 47

4.3.2 Thống kê lân cận sâu 49

4.3.3 Phương pháp thống kê 50

4.3.4 Nhận xét 51

4.4 Kết quả thực nghiệm trên cơ sở dữ liệu thu nhận từ sinh viên Hutech bằng thiết bị di động 51

4.4.1 Thống kê lân cận cạn 53

4.4.2 Thống kê lân cận sâu 56

4.4.3 Phương pháp thống kê 57

4.4.4 Nhận xét 58

4.5 Thời gian thực hiện 58

CHƯƠNG 5.KẾT LUẬN 60

5.1 Kết quả làm được 60

5.2 Hướng phát triển 60

TÀI LIỆU THAM KHẢO 61

Trang 11

DANH MỤC TỪ VIẾT TẮT VÀ TỪ KHÓA STT Từ viết tắt Tiếng Anh Ý nghĩa tiếng Việt

1 LBP Local binary patterns Mẫu nhị phân cục bộ

2 PCA Principal Components Analysis Phân tích thành phần chính

3 LDA Linear Discriminant Analysis Phân tích tách lớp tuyến

tính

4 DFD Discriminant face descriptor Phân biệt bộ mô tả khuôn

mặt

6 LQP Local quantized pattern Mẫu lượng tử cục bộ

7 HOG Histogram of Oriented Gradient Biểu đồ mật độ lệch mức

xám theo hướng

8 LPQ Local Phase Quantization Định lượng đoạn cục bộ

9 NMF Nonnegative Matrix Factorization Hệ số ma trận không âm

10 SIFT Scale Invariant Feature Transform Phép biến đổi đặc trưng

bất biến về tỉ lệ

12 2D-PCA

Two-dimensional Principle Component Analysis

Kỹ thuật phân tích thành phần chính hai chiều

13 2DLDA

Two-dimensional Linear Discriminant Analysis

Kỹ thuật phân tích tách lớp tuyến tính hai chiều

14 VAR-LBP Variance Local Binary Patterns Mẫu nhị phân phương sai

15 ILBP Improve Local Binary Patterns Cải tiến mẫu nhị phân cục

bộ

16 NILBP Neighbors Local Binary Patterns Mẫu nhị phân láng giềng

17 EN-LBP Enhanced Local Binary Patterns Mẫu nhị phân tăng cường

18 LTP Local Ternary Patterns Mẫu tam phân cục bộ

19 RLBP Robust Local Binary Patterns Mẫu nhị phân bền vững

Trang 12

DANH MỤC BẢNG

Bảng 4.1: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL 40Bảng 4.2: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL 41Bảng 4.3: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn 41Bảng 4.4: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL 43Bảng 4.5: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB 47Bảng 4.6: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB 48Bảng 4.7: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn 49Bảng 4.8: Liệt kê độ đo phần trăm đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB 50Bảng 4.9: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu sinh viên Hutech 54Bảng 4.10: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu sinh viên Hutech 55Bảng 4.11: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn 55Bảng 4.12: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu sinh viên Hutech 57Bảng 4.13 : So sánh thời gian thực hiện rút trích đặc trưng của các phương pháp trên tổng số ảnh mẫu của một người cho từng cơ sở dữ liệu được tính bằng ( mini giây) 58

Trang 13

DANH MỤC HÌNH VẼ

Hình 1.1: Các dạng sinh trắc học phổ biến 1

Hình 1.2: Hệ thống nhận dạng khuôn mặt 5

Hình 1.3: Minh họa bài toán định danh (a) và xác thực (b) 6

Hình 2.1: Đặc trưng hình học [29] 9

Hình 2.2: Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [29] 10

Hình 2.3: Biễu diển đặc trưng dựa vào bộ lọc Gabor [29] 12

Hình 2.4: Biểu diễn đặc trưng túi từ BoW [29] 13

Hình 2.5: Đặc trưng GP-NMF [29] 13

Hình 2.6: Đặc trưng mã hóa phân rã [29] 14

Hình 2.7: Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [29] 15

Hình 2.8: Đặc trưng không gian-thời gian sử dụng đặc trưng hình học từ các điểm mặt [29] 16

Hình 2.9: Đặc trưng không gian thời-gian (a) LBP-TOP và (b) LPQ-TOP [29] 17

Hình 2.10: Bộ lọc làm trơn IC [29] 18

Hình 2.11: Đặc trưng Haar động (a), và đặc trưng tương tự (b) [29] 19

Hình 2.12: Biểu diễn biến đổi tự do [29] 20

Hình 2.13: Đặc trưng BoW theo thời gian [29] 21

Hình 2.14: Ví dụ LBP và độ tương phản cục bộ C 24

Hình 2.15: Tập hợp các điểm xung quang Ptt. 24

Hình 2.16: Các biến thể của LBP 25

Hình 2.17: Bảng thống kê các mẫu của uniform LBP 26

Hình 2.18: Thể hiện trọng số của ILBP8,1 và ILBP4,1 28

Hình 2.19: Ví dụ minh họa LTP cơ bản 29

Hình 2.20: Biểu đồ thể hiện thủ tục EN_LBP 30

Hình 3.1: Minh họa ý tưởng thuật toán đề xuất 32

Hình 3.2: Biểu đồ thể hiện thủ tục 33

Hình 3.3: Ví dụ RLBP 36

Hình 4.1: Minh họa các tư thế khuôn mặt một người trong cơ sở dữ liệu ORL 37

Trang 14

Hình 4.2: Minh họa hình ảnh đặc trưng khuôn mặt với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu ORL 38Hình 4.3: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên

cơ sở dữ liệu ORL 40Hình 4.4: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên

cơ sở dữ liệu ORL 41Hình 4.5: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu ORL 42Hình 4.6: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên

cơ sở dữ liệu ORL 43Hình 4.7: Minh họa các kiểu biểu hiện khuôn mặt trong cơ sở dữ liệu YaleB 45Hình 4.8: Minh họa hình ảnh đặc trưng với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu YaleB 46Hình 4.9: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên

cơ sở dữ liệu YaleB 47Hình 4.10: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB 48Hình 4.11: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu YaleB 49Hình 4.12: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB 50Hình 4.13: Minh họa các biểu cảm của một sinh viên Hutech 52Hình 4.14: Minh họa hình ảnh đặc trưng khuôn mặt với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu sinh viên Hutech 52Hình 4.15 : Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên

cơ sở dữ liệu sinh viên Hutech 54Hình 4.16: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu sinh viên Hutech 55Hình 4.17: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu sinh

Trang 15

viên Hutech 56Hình 4.18: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu sinh viên Hutech 57

Trang 16

CHƯƠNG 1 TỔNG QUAN 1.1 Giới thiệu

Sinh trắc học hay còn gọi là Công nghệ sinh trắc học (Biometric) là công nghệ sử dụng những thuộc tính vật lý, đặc điểm sinh học đặc trưng riêng của mỗi cá nhân như vân tay, mống mắt, khuôn mặt, giọng nói, dáng đi, để nhận dạng Sinh trắc học được xem là công cụ xác thực cá nhân hữu hiệu nhất hiện nay

Sinh trắc học được phát triển lâu dài, đã được nghiên cứu và ứng dụng trong các lĩnh vực anh ninh, quốc phòng, thương mại Trong những năm gần đây, công nghệ này đã đáp ứng được những yếu tố và nhu cầu cần thiết về chi phí, sự vận hành và khả năng xác thực cho độ chính xác cao Vì vậy trong tương lai sinh trắc học sẽ hiện hữu và được ứng dụng mạnh mẽ hơn

Một số loại sinh trắc học phổ biến hiện nay như: Dấu vân tay ( Finger print), lồng bàn tay ( Palm print), khuôn mặt ( Face), hành vi ( Behavioral), nhịp tim ( Cardiac Rhythm), võng mạc ( Retiane), Những đáp ứng nhu cầu thực tế vô cùng hữu hiệu của các loại sinh trắc học trên, đã thôi thúc các nhà nghiên cứu không ngừng tìm hiểu và phát triển ngành công nghệ này lên tầm cao mới Và nhận dạng khuôn mặt trở thành chủ đề tiềm năng trong nghiên cứu thị giác máy tính [3]

Hình 1.1: Các dạng sinh trắc học phổ biến

Nhận dạng khuôn mặt là một vấn đề nghiên cứu từ máy tính khá lâu đời, nhưng được xem là khá mới mẻ khi một số phương pháp nhận dạng khuôn mặt đã được đề

Trang 17

xuất trong hai thập kỷ qua [4], [5], [17], [18], [22], [25] Có bốn giai đoạn trong một

hệ thống nhận dạng khuôn mặt thông thường: Phát hiện khuôn mặt, canh chỉnh khuôn mặt, đặc trưng khuôn mặt, và so khớp khuôn mặt Giai đoạn rút trích đặc trưng khuôn mặt và so khớp là hai giai đoạn quan trọng trong một hệ thống nhận dạng khuôn mặt Đối với đặc trưng khuôn mặt ( mắt, mũi, miệng, cằm ), mục tiêu

là để rút trích các đặc điểm phân biệt để làm cho hình ảnh khuôn mặt được phân tách nhiều hơn Giai đoạn so khớp khuôn mặt có mục tiêu là thiết kế thuật toán phân lớp hiệu quả để phân biệt các khuôn mặt khác nhau

So khớp khuôn mặt đóng vai trò quan trọng, ảnh hưởng đến độ đo chính xác (%) của một hệ thống nhận dạng khuôn mặt vì hình ảnh khuôn mặt bị chụp trong các môi trường thế giới thực thường bị ảnh hưởng bởi nhiều biến thể như tư thế khác nhau, biểu hiện, độ sáng, sự bịt kín, độ phân giải, và nguồn gốc.Những biến thể làm giảm sự giống nhau của các mẫu khuôn mặt từ cùng một người và làm tăng sự giống nhau của các mẫu khuôn mặt từ những người khác nhau, đó là một trong những thách thức quan trọng trong nhận dạng khuôn mặt.Trong những năm gần đây, một số phương pháp đặc trưng khuôn mặt đã được đề xuất [4], [5], và chủ yếu được phân thành hai loại: Đặc trưng toàn cục [5], [22] và Đặc trưng cục bộ [4], [17].Đặc trưng toàn cục bao gồm phân tích chính thành phần (PCA) [22] và phân tích tách lớp tuyến tính (LDA) [5], và các đặc trưng cục bộ là mô hình mẫu nhị phân cục bộ (LBP) [13] và biến đổi sóng wavelets (Gabor Wavelets) [17].Các phương pháp nhận dạng khuôn mặt trong môi trường có kiểm soát đã được phát triển nhiều, nhưng độ đo chính xác (%) của chúng vẫn còn chưa hiệu quả trong môi trường không bị giới hạn. Do đó, làm thế nào để rút trích các đặc trưng bền vững với nhiễu và phân biệt là bài toán quan trọng và thách thức trong nhận dạng khuôn mặt

Có 3 vấn đề liên quan đến nhận dạng khuôn mặt mà chúng ta cần chú ý:

 Đặc trưng khuôn mặt

Làm việc với đặc trưng khuôn mặt trong kho tàng khoa học rộng lớn, các phương pháp này có thể được chia thành hai loại: Đặc trưng toàn cục [5], [22] và Đặc trưng

Trang 18

cục bộ [13], [17].Đặc trưng toàn cục chuyển đổi từng hình ảnh khuôn mặt vào một vector đặc trưng và một không gian con đòi hỏi sự đặc trưng để bảo vệ thông tin thống kê của hình ảnh khuôn mặt.Phương pháp đặc trưng khuôn mặt trong không gian con dựa trên các đại diện bao gồm PCA [22] và LDA [5].Không giống như các đặc trưng toàn cục, đặc trưng cục bộ đầu tiên mô tả mô hình cấu trúc của mỗi bản

vá lỗi cục bộ và sau đó kết hợp số liệu thống kê của tất cả các bản vá lỗi vào một bản vá các đặc trưng vector Đặc trưng cục bộ điển hình là LBP [13] và Gabor wavelets [17].Tuy nhiên, các đặc trưng cục bộ được làm thủ công và thường đòi hỏi kiến thức rộng để thiết kế chúng bằng tay.Hơn nữa, một số trong số chúng khá là đắt tiền, mà có thể hạn chế các ứng dụng thực tế

 Đặc trưng học thống kê

Đã có một số phương pháp học thống kê được đề xuất trong những năm gần đây [6], [9], [10], [12], [14], [20].Tiêu biểu là phương pháp đặc trưng học thống kê bao gồm bộ mẫu hóa tự động thưa thớt [6], giảm nhiễu mẫu hóa tự động [20], máy Boltzmann [9], mạng nơron xoắn [10], phân tích không gian con độc lập [12], và xây dựng lại phân tích thành phần độc lập [14].Gần đây, cũng đã có một số công trình về đặc trưng học tập dựa trên đặc trưng khuôn mặt, và một số trong số đó đã đạt được độ đo chính xác (%) khá tốt trong nhận dạng khuôn mặt.Ví dụ, Lei và đồng sự[15] đề xuất một phương pháp biệt số mô tả khuôn mặt (DFD) bằng cách lọc ảnh sử dụng LDA tạo ra tiêu chí để có được đặc trưng như LBP.Cao và các đồng sự[7] trình bày một phương pháp biểu diễn đặc trưng học tập bằng cách áp dụng các khuôn khổ bag-of-word(Bow).Hussain và các đồng sự[11] đề xuất một

phương pháp mô hình lượng tử (LQP) bằng cách thay đổi phương pháp LBP với một chiến lược mẫu hóa.So với các mô tả đặc trưng bằng tay, các phương pháp biểu diễn đặc trưng học thống kê dựa trên độ đo chính xác (%) hiển thị được công nhận tốt hơn bởi vì các thông tin dữ liệu thích nghi hơn có thể được khai thác dựa vào các đặc trưng đã học

 Mẫu nhị phận

Trang 19

So với các mô tả đặc trưng giá trị thực, có ba lợi thế cho mẫu nhị phân:

đa hóa sự giống nhau của cặp lân cận và giảm thiểu sự giống nhau của cặp phi lân cận để thu hồi hình ảnh.Trzcinski và Lepetit [21] mô tả mẫu nhị phân từ các bản vá lỗi bằng cách duyệt qua một vài đối chiếu tuyến tính dựa trên bộ lọc giả định quá trình huấn luyện.Tuy nhiên, hầu hết các phương pháp học thống kê mẫu nhị phân hiện đang được phát triển cho tìm kiếm tương tự [8], [21] và theo dõi trực quan [16].Trong khi đặc trưng nhị phân như LBP và Haar-like được sử dụng trong nhận dạng khuôn mặt và đạt được hiệu quả đáng khích lệ, hầu hết trong số đó là làm thủ công.

Hơn thế, ngày nay công nghệ phát triển mạnh mẽ, thiết bị di động đã trở nên đa năng và được tích hợp nhiều ứng dụng mạnh mẽ giúp cho con người trong việc bảo mật hoặc ghi nhớ thông tin đặc biệt là các hệ thống xác thực người dùng trên thiết

bị di động đã và đang ngày càng tiến bộ

Vì những nhu cầu thực tế đó, tôi đã chọn đề tài nghiên cứu “ Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân cục bộ cho ứng dụng trên thiết bị di động”

1.2 Hệ thống nhận dạng khuôn mặt

Hệ thống nhận dạng khuôn mặt là tự động xử lý thông tin từ các ảnh mặt người với một cơ sở dữ liệu để tìm ra sự tương đồng và từ đó đưa ra kết quả đồng nhất

Trang 20

Một hệ thống nhận dạng mặt người gồm các bước sau:

trước để phân lớp khuôn mặt Sau khi phân lớp sẽ nhận dạng khuôn mặt đó là ai, là

đối tượng nào Ở bước rút trích đặc trưng này, một phương pháp trích rút đặc trưng được chọn để xử lý như: mẫu nhị phân cục bộ (LBP) [13], hoặc phân tích thành phần chính (PCA) [22], hoặc phân tích tách lớp tuyến tính (LDA) [5], hoặc biến đổi sóng wavelets (Gabor Wavelets) [17] để trích xuất các thông tin đặc trưng trên khuôn mặt và sau đó mỗi đặc trưng ảnh đó sẽ được biễu diễn dưới dạng một vector Trong luận văn này, sẽ chọn phương pháp LBP [13] để thực hiện cải tiến và trình bày trong quá trình nghiên cứu

Ngoài ra có 2 phương pháp định danh và xác thực [26] tương quan trong hệ thống nhận dạng khuôn mặt :

Trang 21

Hình 1.3: Minh họa bài toán định danh (a) và xác thực (b)

 Định danh

Người dùng cung cấp định danh của mình cho hệ thống với mục đích là tìm kiếm

sự tồn tại và quyền hạn của người dùng đó

Có 2 phương pháp định danh:

Người dùng tự nhập thông tin về định danh là phương pháp phổ biến hiện nay (

ví dụ: username, số tài khoản ) Bởi đối với các hacker khi muốn xâm nhập vào hệ thống là thu thập danh sách những người hợp lệ của hệ thống

Định danh số hóa là sử dụng công nghệ sinh trắc học ( nhận dạng khuôn mặt, quét tròng mắt, nhận dạng vân tay, hình học lồng bàn tay, ), hoặc định danh trên máy tính ( tên máy tính, địa chỉ ip, ), hay định danh số ( chứng nhận số, thẻ thông minh, )

 Xác thực

Người dùng chứng minh định danh đó là đúng, nhằm xác thực sự hợp lệ và phù hợp với người dùng đó, đưa ra quyết định cho phép người dùng đó có quyền truy

Trang 22

cập vào tài nguyên của hệ thống hay không

Các phương pháp xác thực có thể nói đến như: Chỉ những gì người dùng biết( password, số pin, ), những gì người dùng có ( thẻ thông minh, địa chỉ ip, ), những

gì là của chính người dùng ( trong đó bao gồm các yếu tố sinh trắc học: khuôn mặt, vân tay, lồng bàn tay, tròng mắt)

1.3 Mục tiêu của đề tài

Trên nền tảng nghiên cứu nhận dạng khuôn mặt, đề tài hướng đến mục tiêu nghiên cứu cải tiến phương pháp nhận dạng khuôn mặt dựa vào LBP [13] để áp dụng phát triển ứng dụng điểm danh trên thiết bị di động qua chứng thực quét khuôn mặt

Theo phương pháp điểm danh truyền thống, giáo viên tốn khá nhiều thời gian

để điểm danh sinh viên vào mỗi buổi học và cũng làm giảm năng lượng cũng như sức lực của mỗi giáo viên

Thay vì phải gọi tên từng sinh viên, nay tôi nghiên cứu phương pháp nhận dạng khuôn mặt cho ứng dụng trên thiết bị di động có tích hợp camera, mà đa phần mỗi chúng ta ai cũng sở hữu để điểm danh sinh viên Với ưu điểm: Điểm danh nhanh gọn, tiện lợi, tiết kiệm thời gian và công sức chỉ “cần quét” khuôn mặt các sinh viên qua một lần

Tuy nhiên tài nguyên của thiết bị di động thấp, vì vậy cần phát triển kỹ thuật nhận dạng khuôn mặt dựa vào mẫu nhị phân để tốn ít bộ nhớ và so khớp nhanh

Trình bày các hướng tiếp cận rút trích đặc trưng mặt người và các hướng tiếp cận nghiên cứu liên quan đến mẫu nhị phân cục bộ Đề ra phương pháp tiếp cận

để thực hiện nghiên cứu trong luận văn này

Trang 23

Chương 3: Phương pháp rút trích đặc trưng đề xuất

Minh họa và mô tả mô hình ý tưởng thuật toán Phương pháp thực hiện thuật toán đề xuất và ví dụ minh họa

Chương 4: Kết quả thực nghiệm

Chương này đưa ra dẫn chứng những kết quả độ so khớp được thực hiện trên

ba bộ cơ sở dữ liệu ORL [1], YaleB [2] và cơ sở dữ liệu được thu nhận trực tiếp

từ sinh viên Hutech bằng thiết bị di động

Chương 5: Kết luận

Đưa ra kết luận nghiên cứu trong luận văn này đã thực hiện và đóng góp cho bài toán nhận dạng khuôn mặt, đồng thời đề ra hướng phát triển trong tương lai

Trang 24

CHƯƠNG 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN

QUAN 2.1 Các hướng tiếp cận rút trích đặc trưng mặt người

2.1.1 Hướng tiếp cận biểu diễn đặc trưng không gian

Hướng tiếp cận này có nhiều phương pháp khác nhau để khai thác đặc trưng khuôn mặt từ cấp thấp đến cấp cao như sau:

(1) Đặc trưng hình dạng

(2) Đặc trưng biểu đồ mật độ mức thấp

(3) Đặc trưng dựa vào bộ lọc Gabor

(4) Đặc trưng túi từ BoW

Hình 2.1: Đặc trưng hình học [29]

Đặc trưng này không bị ảnh hưởng bởi ánh sáng vì cường độ ánh sáng của các điểm ảnh bị bỏ qua Tuy nhiên, sự biến đổi của ánh sáng có thể làm giảm độ chính xác trong việc xác định các điểm mặt Người ta có thể sử dụng khoảng cách giữa mốc trên khuôn mặt chứ không sử dụng khoảng cách giữa các điểm mặt [27] Khi

đó, bộ miêu tả có thể là khoảng cách giữa các thành phần trên khuôn mặt như

Trang 25

khoảng cách và góc độ mô tả việc đóng hay mở mắt và miệng, và các nhóm điểm

mô tả trạng thái của má Cách làm này sử dụng nhiều hơn để nhận biết sự thay đổi

về trạng thái của khuôn mặt như là sự nhận dạng cảm xúc [28]

2.1.1.2 Đặc trưng biểu đồ mật độ mức thấp

Phương pháp này sẽ tính toán đặc trưng cục bộ và mã hóa thành ảnh mới Sau đó, phân ảnh thành từng khối Mỗi khối sẽ tính mật độ của từng đoạn giá trị mã Đặc trưng kết quả là nối tất cả các vector mật độ của tất cả các khối

Hình 2.2: Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [29] Đặc trưng cấp thấp là bền vững với sự biến đổi của ánh sáng bởi vì nó tính dựa vào độ lệch mức xám trong vùng nhỏ Thêm vào đó, biểu đồ mật độ được chuẩn hóa [30] nên bền vững với nhiều trường hợp thay đổi độ sáng khác nhau Cách biểu diễn này bền vững với việc huấn luyện ảnh lỗi vì biểu đồ mật độ có thể phủ nhiều trường hợp ảnh được thu nhận với tư thế dịch chuyển, xoay và tỉ lệ Biểu đồ mật độ ở mức

độ thấp không đánh giá được thay đổi biểu hiện trạng thái khuôn mặt bởi sự thiên lệch về nhận dạng, vì phương pháp biểu diễn này kiểm tra các tín hiệu liên quan đến nhận dạng hơn là biểu hiện trên khuôn mặt [31], [32] Cách biểu diễn này mã hóa

Trang 26

thông tin mỗi thành phần bằng biểu đồ mật độ từng vùng độc lập với các vùng khác của khuôn mặt Đặc trưng biểu đồ mật độ ở mức thấp tính toán đơn giản và cho phép hoạt động trong thời gian thực [33], [34]

Hướng tiếp cận biểu diễn biểu đồ mật độ mức độ thấp có 2 phương pháp được sử dụng phổ biến và được đánh giá cao là : (1) Mô hình mẫu nhị phân cục bộ (LBP) và (2) Mô hình lượng tử hóa cục bộ (LPQ)

 Đặc trưng LBP biểu diễn sự biến đổi mức xám trong một vùng tròn bằng một

số nguyên Biểu đồ mật độ LBP đơn giản là đếm số lượng từng loại số nguyên nên kích thước đặc trưng phụ thuộc vào phạm vi các số nguyên Phạm vi phổ biến của LBP là [0; 255] Ahonen et al [31] cho thấy rằng có thể sử dụng kích thước để biểu diễn các mẫu, nó hoạt như bộ phát hiện cạnh [35]

 Bộ mô tả LPQ đã được đề xuất để làm mờ các điểm ảnh nhạy cảm thông qua sự chuyển đổi Fourier cục bộ [36] Tương tự như LBP, LPQ mô tả một nhóm biểu

đồ mật độ cục bộ với một số nguyên dao động trong [0; 255] Biểu đồ cục bộ chỉ đơn giản đếm các mẫu LPQ, và kích thước của mỗi biểu đồ là 256 [36]

 LBP và LPQ được so sánh về hiệu quả nhận dạng trong một số nghiên cứu, và LPQ thường tốt hơn LBP [37], [38] Điều này có thể do kích thước của mô tả cục bộ, vì LBP thường được chiết xuất từ các vùng nhỏ hơn có đường kính 3 pixel, trong khi LPQ được trích xuất từ các vùng lớn hơn 7 x 7 pixel [37], [38] LBP gây mất thông tin khi trích xuất từ các vùng lớn hơn khi chúng bỏ qua những điểm ảnh nằm trong vùng tròn Ngược lại, các số nguyên LPQ mô tả các vùng một cách tổng thể

2.1.1.3 Biểu diễn đặc trưng bằng bộ lọc Gabor

Một biểu diễn khác dựa trên các đặc trưng cấp thấp là biểu diễn Gabor Đặc trưng Gabor thu được bằng cách tích hợp ảnh đầu vào với các bộ lọc Gabor có tỉ lệ và hướng khác nhau (hình 2.3) [39] Bộ lọc Gabor mã hóa thông tin kết cấu mẫu cục

bộ trong từng vùng ảnh Kích thước của đầu ra là lớn do vậy bước giảm số chiều là

Trang 27

cần thiết Vì các điểm ảnh được lọc bằng Gabor chứa thông tin liên quan đến các điểm ảnh gần nó nên kỹ thuật giảm thiểu kích thước đơn giản là sử dụng giá trị tối thiểu, tối đa và tổng hợp giữa các kết quả của các bộ lọc Bộ lọc Gabor tính toán sự khác biệt mức xám trong một vùng cục bộ nên nó bền vững với nhiễu ánh sáng [39], [40]

Hình 2.3: Biễu diển đặc trưng dựa vào bộ lọc Gabor [29]

Tương tự như biểu đồ mật độ mức thấp, đặc trưng Gabor chứa thông tin phục vụ cho việc nhận dạng phân biệt cá nhân hơn là phân biệt biểu hiện trạng thái khuôn mặt [39] Đặc trưng này bền vững với lỗi mẫu đăng ký bởi vì bộ lọc làm trơn và giá trị kết quả lọc bền vững với dịch chuyển và xoay trong một vùng nhỏ [41] Bền vững với lỗi đăng ký ít mẫu có thể được tăng thêm bằng cách kết hợp với hướng tiếp cận chiếu không gian con Bộ lọc Gabor có nhược điểm là độ phức tạp tính toán cao vì áp dụng bộ lọc nhiều lần, theo nhiều hướng và tỉ lệ khác nhau [39]

2.1.1.4 Biểu diễn đặc trưng túi từ BoW

Đặc trưng BoW miêu tả các vùng cục bộ bằng các rút trích đặc trưng cục bộ (ví

dụ SIFT) tại các vị trí cố định, sau đó so sánh các đặc trưng này với các mẫu đặc trưng có sẵn trong cơ sở dữ liệu (túi từ) để nhận biết các từ tưng ứng [42] Biểu diễn đặc trưng này kế thừa ưu điểm của đặc trưng SIFT là bền vững với sự biến đổi ánh sáng và lỗi đăng ký nhỏ Đặc trưng này sử dụng phép so khớp theo hình tháp [43], một kỹ thuật thực hiện kết hợp biểu đồ mật độ và tăng khả năng chịu lỗi huấn luyện ảnh Biểu đồ so khớp này mã hóa thông tin với nhiều tỉ lệ và nhiều lớp khác nhau Đặc trưng này có kích thước rất cao và do đó khái quát hóa các đặc trưng cần thiết

để giảm kích thước Mặc dù tính toán đặc trưng SIFT đơn giản, nhưng chi phí tính

Trang 28

toán các từ dựa vào việc tìm kiếm nên phụ thuộc vào kích thước cơ sở dữ liệu từ và thuật toán tìm

Hình 2.4: Biểu diễn đặc trưng túi từ BoW [29]

2.1.1.5 Biểu diễn cấp cao dẫn xuất từ dữ liệu

Tất cả các biểu diễn đặc trưng nêu trên đều mô tả kết cấu cục bộ (xem hình 2.1, 2.2, 2.3 và 2.4) Nói một cách khác, các đặc trưng này mã hóa thông tin các cạnh Mục đích hướng tiếp cận này là nhận được đặc trưng cấp cao hơn từ thông tin ngữ nghĩa của các đặc trưng mã hóa Hai phương pháp tạo ra các biểu diễn như vậy

là NMF [44], [45] và mã hóa phân rã [46], [47]

Hình 2.5: Đặc trưng GP-NMF [29]

Phương pháp NMF phân rã một ma trận thành hai ma trận không âm Sự phân rã không phải là duy nhất và nó có thể được thiết kế để có các ngữ nghĩa khác nhau Một kỹ thuật dựa trên NMF là kỹ thuật bảo toàn đồ thị GP-NMF [46], nó phân chia các mặt thành các thành phần không gian độc lập thông qua ràng buộc phân rã không gian [48] Sự phân chia thành các thành phần độc lập để mã hóa thông tin cấu thành, và có thể là thông tin cấu hình (Hình 2.5) NMF tạo ra một số hình ảnh

cơ sở và đặc trưng chính là các hệ số ứng với mỗi hình ảnh cơ bản (Hình 2.6) Phương pháp này thực hiện tối thiểu hóa để tính toán các hệ số, do đó độ phức tạp tính toán của nó thay đổi dựa trên thuật toán tối ưu, số lượng và kích thước của

Trang 29

các hình ảnh cơ bản Vì NMF dựa vào tập dữ liệu huấn luyện nên phương pháp này

có thể chống lại nhiễu chiếu sáng và lỗi đăng ký

Lý thuyết về mã hoá phân rã được dựa trên ý tưởng rằng bất kỳ hình ảnh nào cũng có thể phân rã trong một số miền nào đó [49] Sự chuyển đổi có thể là chuyển đổi thích nghi (ví dụ dẫn ra từ dữ liệu) hoặc chuyển đổi không thích nghi (ví dụ như biến đổi Fourier) và dựa vào từ điển [49] Tính linh hoạt của định nghĩa từ điển cho phép các nhà nghiên cứu tự do định nghĩa từ điển Các phần tử trong từ điển có thể diễn giải theo ngữ nghĩa Biểu diễn được hình thành bằng cách nối các hệ số của các phần tử từ điển (Hình 2.6) Độ phức tạp của thuật toán phụ thuộc vào thuật toán tối

ưu và kích cỡ từ điển

Hình 2.6: Đặc trưng mã hóa phân rã [29]

2.1.1.6 Các biểu diễn đặc trưng phân cấp

Biểu diễn cấp thấp rất tốt để tránh ảnh hưởng bởi ánh sáng và lỗi đăng ký Mặt khác, các biểu diễn cấp cao có thể tạo ra các đặc trưng có khả năng diễn giải theo ngữ nghĩa Các biểu diễn phân cấp mã hóa thông tin một cách từ thấp đến cao Mô hình được xây dựng tốt nhất cho các mô hình phân cấp là học sâu [44], [15] Các

mô hình phân cấp có thể được thiết kế một cách đơn giản bởi các biểu diễn cấp thấp

và cấp cao được thiết lập tốt như các bộ lọc Gabor và biểu diễn mã hóa phân rã [50] Học sâu là một mô hình học phân tầng đa lớp đặc trưng từ dữ liệu [44] Nói chung tổng thể chứa ít nhất hai lớp cấp thấp Lớp đầu tiên thu hẹp hình ảnh đầu vào với một số bộ lọc cục bộ đã đọc từ dữ liệu và lớp thứ hai tập hợp đầu ra thông ra các hoạt động chung Các lớp ở cấp cao có thể được thiết kế cho các mục đích khác nhau như giải quyết ảnh có vật che khuất Các bộ lọc ở mức thấp thường là các bộ lọc làm trơn để tính toán sự khác biệt cục bộ, do đó chúng bền vũng những biến đổi

Trang 30

ánh sáng và lỗi đăng ký tốt hơn Sử dụng nhiều ảnh huấn luyện cải thiện các lỗi đăng ký

2.1.1.7 Biểu diễn dựa vào các bộ phận

Hình 2.7: Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [29] Hướng tiếp cận này phân tích khuôn mặt thành các thành phần độc lập rồi mã hóa thông tin từng thành phần Đặc trưng này loại bỏ thông tin mối quan hệ giữa các bộ phận (Hình 2.7) Bỏ qua các mối quan hệ không gian giữa các bộ phận làm giảm ảnh hưởng đối với sự thay đổi tư thế của đầu Phương pháp này đã được chứng minh đạt hiệu quả nhận dạng khi sự biến đổi tư thế đầu xuất hiện nhiều [51], [52] Hai phương pháp tiêu biểu cho hướng tiếp cận này là: (1) Biểu diễn thành phần dựa vào đặc trưng SIFT (Hình 2.7a) và Biểu diễn đặc trưng thành phần dựa vào NMF [51] (Hình 2.7 b)

2.1.2 Biểu diễn đặc trưng dựa vào không gian – thời gian

Đặc trưng không gian – thời gian quan tâm đến 1 loạt khung hình trong 1 cửa sổ thời gian như một thực thể duy nhất, và cho phép mô hình hóa sự thay đổi theo thời gian để biểu diễn đặc trưng chi tiết, hiệu quả hơn Đặc trưng này có thể phân biệt các biểu hiện trông giống nhau trong không gian (ví dụ như nhắm mắt so với nhấp nháy mắt [53] [54]), và thuận tiện cho kết hợp kiến thức về tâm lý học Kiến thức miền này liên quan đến cấp cao hơn, ch ng hạn như phân biệt giữa phản xạ tình cảm có điều kiện hoặc không điều kiện hoặc nhận biết hành vi [55]

Trang 31

2.1.2.1 Đặc trưng hình học từ c c điể tr n hu n ặt

Mục đích của đặc trưng này là kết hợp các kiến thức từ khoa học nhận thức để phân tích sự biến đổi theo thời gian và các hoạt động của cơ tương ứng Nó được sử dụng để nhận dạng nụ cười và sự thay đổi trên trán [56] Đặc trưng này mô tả hình dạng khuôn mặt và hoạt động của các điểm mặt [57] Các đặc điểm như: vị trí ban đầu (thô) của mỗi điểm, chiều dài và góc của các đường là đặc trưng để nhận dạng Các đặc trưng này được thu thập theo thời gian Cửa sổ thời gian được điều chỉnh theo tỉ lệ khung hình như phát hiện của khoa học nhận thức về hoạt động của cơ mặt [57] Đặc trưng này nhạy cảm với lỗi đăng ký bời vì nó được rút trích từ tọa độ các điểm thô Mặc dù, đặc trưng này miêu tả sự thay đổi theo thời gian, nhưng nó không nắm bắt được biểu hiện chi tiết vì nó chỉ sử dụng các điểm mặt

Hình 2.8: Đặc trưng không gian-thời gian sử dụng đặc trưng hình học từ các điểm

mặt [29]

2.1.2.2 Đặc trưng cấp thấp từ ặt ph ng trực gi

Rút trích đặc trưng từ 3 mặt ph ng trực quan (TOP) là một cách tiếp cận phổ biến

để mở rộng các đặc trưng không gian cấp thấp vào miền không gian thời gian (Hình 2.9)

Trang 32

Hình 2.9: Đặc trưng không gian thời-gian (a) LBP-TOP và (b) LPQ-TOP [29] Phương pháp này là mở rộng từ LBP sang LBP-TOP [58] LBP-TOP được áp dụng cho nhận diện cảm xúc cơ bản [58] (Hình 2.9 a) Sau phương pháp này, LPQ được mở rộng đến LPQ-TOP được sử dụng cho nhận dạng hành động khuôn mặc và phân đoạn thời gian [59] (Hình 2.9 b)

Như minh họa trong hình 2.9, mô hình TOP chiết xuất đặc trưng từ các điểm lân cận trong 3 mặt ph ng sau: mặt ph ng không gian (x,y) tương tự như LBP thường, mặt ph ng dọc theo không gian và thời gian (y,t) và mặt ph ng ngang theo không gian và thời gian (x,t) Tương tự như đặc trưng hình học, phương pháp này sẽ rút trích đặc trưng dạng vector cho từng vùng nhỏ của khuôn mặt (theo không gian – thời gian)

LBP-TOP và LPQ-TOP kế thừa tính bền vững của chúng đối với các biến đổi chiếu sáng, tuy nhiên chúng nhạy cảm hơn đối với các lỗi đăng ký Sự thay đổi kết cấu của chúng gây ra bởi chuyển động trên khuôn mặt Do đó, có thể giải thích các lỗi đăng ký tạm thời như hoạt động trên khuôn mặt Chiều của đặc trưng biểu diễn này cao hơn so với đặc trưng tĩnh của chúng Cả 2 đặc trưng được tập trung vào việc nhận dạng hành động của khuôn mặt

Trang 33

2.1.2.3 Đặc trưng dựa vào tích chập với bộ lọc là trơn

Một phương pháp để biểu diễn sự biến thiên theo thời gian trong kết cấu của đặc trưng cấp thấp là tích chập với bộ lọc làm trơn theo không gian và thời gian (hình 2.10)

Hình 2.10: Bộ lọc làm trơn IC [29]

Hai cách tiếp cận như vậy là sử dụng bộ lọc Gabor theo không gian - thời gian [60] và bộ lọc thành phần độc lập theo không gian – thời gian (IC) [61] Sự khác biệt chính giữa bộ lọc Gabor và IC là các tham số của bộ lọc Gabor được điều chỉnh bằng tay [60], trong khi bộ lọc IC thu được tự động trong quá trình phân tích thành phần độc lập có giám sát [61] Cả hai phương pháp đều bao gồm các bộ lọc với các cửa sổ thời gian khác nhau Hướng tiếp cận này không nhạy cảm với sự thay đổi chiếu sáng Tuy nhiên bộ lọc Gabor và IC theo không gian và thời gian nhạy cảm hơn với các lỗi đăng ký Các chi phí tính toán của hai phương pháp rất cao vì chúng thực hiện tích chập trên ba chiều với nhiều bộ lọc khác nhau (ví dụ 240 bộ lọc [61], [60]) Đặc trưng Gabor và IC được sử dụng để nhận biết cảm xúc cơ bản Bộ lọc Gabor không gian-thời gian làm tốt hơn so với các phương pháp khác cùng hướng tiếp cận [60]

2.1.2.4 Đặc trưng Haar theo không gian-thời gian

Hai biểu diễn mà sử dụng tốt đặc trưng Haar cho biểu diễn không gian - thời gian

là đặc trưng Haar động [62] và đặc trưng tương tự [63], [64]

Như minh họa trong Hình 2-11a, mỗi đặc trưng Haar mã hóa sự biến đổi theo thời gian trong dãy hình ảnh với mẫu các giá trị nhị phân, ở đây mỗi giá trị nhị phân thu được bởi ngưỡng đầu ra của đặc trưng Haar trong khung hình tương ứng Cửa

Trang 34

sổ thời gian của tất cả các tính năng thì được cố định và xác định từ thực nghiệm Các chiều của tập hợp tất cả các tính năng Haar là rất lớn (vd: 160,000) Vì thế, biểu

đồ lựa chọn đặc trưng là cần thiết cho việc giảm số chiều [64], [65] Đặc trưng Haar

là nhạy cảm tới sự chiếu sáng và lỗi đăng ký Độ nhạy phụ thuộc thuật toán chọn đặc trưng và bộ dữ liệu huấn luyện

Hình 2.11: Đặc trưng Haar động (a), và đặc trưng tương tự (b) [29]

Đặc trưng biểu diễn tương tự ( Hình 2.11 b) lấy cảm hứng từ phương pháp hạt nhân được sử dụng trong máy học [50], trong đó dự đoán đầu ra bằng trung bình các mẫu huấn luyện Đặc trưng tương tự đơn giản được rút trích như sau: 1) Áp dụng bộ lọc Haar cho mỗi khung của một chuỗi ảnh, 2) đầu ra của mỗi khung được

mã hoá thành một vector thông qua hàm tương tự mà nó đo độ giống nhau giữa đầu

ra của hàm Haar và các mẫu tham khảo ( Hình 2.11 b) Biểu đồ mật độ mã hóa toàn

bọ vector đầu ra của chuỗi ảnh Kích thước của biểu đồ mật độ độc lập với kích thước chuổi ảnh Các biểu diễn được thiết kế để phù hợp với độ phân giải thời gian khác nhau Điều này đạt được bằng cách chuẩn hóa biểu đồ mật độ với kích thước chuỗi ảnh Các tính năng không gian Haar có thể được xử lý theo thời gian thực [65], do đó tùy thuộc vào số lượng các đặc trưng được lựa chọn và cửa sổ thời gian, đặc trưng năng lượng Haar cũng có thể đạt tốc độ thời gian thực

Trang 35

2.1.2.5 Biểu diễn đặc trưng biến dạng dạng tự do

Hình 2.12: Biểu diễn biến đổi tự do [29]

Biểu diễn đặc trưng biến dạng dạng tự do [35] là một kỹ thuật đăng ký quan trọng mà nó tính toán sự dịch chuyển thời gian và không gian pixel (Hình 2.12) Biểu diễn đặc trưng này được sử dụng trong nhận dạng hành động với phân đoạn thời gian Không giống các hướng tiếp cận rút trích đặc trưng từ các tiểu vùng đồng nhất, sự phân chia này thể hiện các khối lượng thành tiểu vùng không thống nhất thông qua phân rã bậc bốn [35] Phân vùng này nhấn mạnh các vùng có hoạt động cao trên khuôn mặt bằng cách cho nó số lượng hơn các vùng còn vùng nhỏ hơn Biểu diễn này thu được bằng cách rút trích tập hợp các đặc trưng không gian và thời gian Các tính năng này được trích xuất độc lập cho mỗi tiểu vùng, do đó chúng có thể được xem như là một hình thức tổng hợp làm cho biểu diễn mạnh mẽ chống lại các lỗi đăng ký nhỏ

Các đặc trưng không gian thời gian cần có sự nhất quán về đăng ký thời gian Biểu diễn biến dạng hình thức tự do thỏa mãn sự nhất quán thời gian với sự biến dạng bên trong bản thân của nó Tuy nhiên, hình thức biến dạng tự do giả định rằng các biến thể của chủ thể bị giới hạn trong suốt chuỗi ảnh [35] Ngoài ra, hình thức biến dạng tự do hoạt động với cường độ điểm ảnh thô, do đó các biến đổi độ sáng

có thể là vấn đề Các tính năng như biểu đồ mật độ hướng hoặc chuyển động trung bình rất mạnh mẽ đối với các lỗi đăng kí đến một mức độ Các đặc trưng này biểu diễn đơn giản, tuy nhiên, hình thức biến dạng tự do được tính qua một quá trình lặp

có thể giữ cho biểu diễn đạt được tốc độ xử lý thời gian thực

Trang 36

2.1.2.6 Biểu diễn đặc trưng túi từ BoW theo thời gian

Các biểu diễn thời gian BoW là cụ thể để phát hiện hành động (AU) [66] và có thể được giải thích tốt nhất bằng cách mô tả vấn đề được được xây dựng bởi tác giả của nó như thế nào Simon và cộng sự giả sử rằng một AU là một sự kiện tồn tại trong một trình tự ảnh nhất định Vấn đề này sau đó được xây dựng như là xác định ranh giới của sự kiện AU hiện có Cách tiếp cận này cũng được khái quát hóa cho nhiều AU [66]

Hình 2.13: Đặc trưng BoW theo thời gian [29]

Thời gian BoW biểu diễn cho một tập con tùy ý của chuỗi hình ảnh với một biểu

đồ duy nhất được tính như hình 2.13: 1) Mỗi khung trong tập hợp con được biểu diễn bằng đặc trưng SIFT và được nén với các phép phân tích thành phần chính để

có được một vector khung, 2) Mỗi vector khung được mã hóa bằng cách sử dụng

mô hình BoW để đo lường sự tương tự bằng các vector đa điểm thông qua phân nhóm mềm [66] và 3) Tất cả các vector đã mã hóa được thu thập trong một biểu đồ mật độ

Độ nhạy của biễu diễn đối với các ảnh hưởng ánh sáng, lỗi đăng ký, sự thay đổi

tư thế đầu tương tự như các biểu diễn SIFT Không giống như biểu diễn dựa trên phần (SIFT), thời gian BoW không mã hóa thông tin thành phần một cách rõ ràng Không giống như các biểu diễn đặc trưng không gian thời gian khác, đặc trung BoW theo thời gian không mã hóa biến đổi thời gian Kích thước phụ thuộc vào kích thước của từ vựng BoW Sự phức tạp tính toán của biểu diễn chủ yếu phụ thuộc vào việc tìm kiếm được thực hiện trên từ vựng trực quan, đặc biệt là kích

Trang 37

thước của từ vựng và sự phức tạp của thuật toán tìm kiếm

2.1.3 Hướng tiếp cận rút trích đặc trưng dựa vào giảm chiều

Giảm chiều có thể được sử dụng để giải quyết một số thách thức ảnh hưởng đến việc nhận dạng như lỗi đăng ký, biến đổi ánh sáng Các thành phần làm giảm chiều

có thể hoạt động trên nhiều lớp, ch ng hạn như giai đoạn tiền xử lý (ví dụ: giảm kích thước ảnh đầu vào, áp dụng mặt nạ) và các lớp đặc trưng bên trong Trong phần này, chúng tôi phân các kỹ thuật này thành 3 nhóm: phương pháp tổng hợp đặc trưng, phương pháp lựa chọn đặc trưng và phương pháp rút trích đặc trưng

2.1.3.1 Phương ph p tổng hợp đặc trưng

Tổng hợp đặc trưng là một phương pháp giảm số chiều đặc trưng của các khối cục bộ bằng cách biểu diễn đặc trưng các khối trong mối liên kết với nhau Tổng hợp thường được áp dụng trên nhiều khu nhỏ giao nhau trên ảnh Có nhiều kỹ thuật tổng hợp khác nhau, ch ng hạn như gắn kết các đặc trưng thông qua biểu đồ mật độ cục bộ, lấy mẫu giá trị tối thiểu hoặc tối đa trong một vùng lân cận hoặc tính tổng, trung bình đặc trung trong vùng lân cận [67], [68] Ảnh hưởng của sự thay dổi ánh sáng thường được giải quyết bằng cách chuẩn hóa giá trị được tổng hợp

2.1.3.2 Phương ph p lựa chọn đặc trưng

Phương pháp này chọn ra một tập hợp con các đặc trưng và đánh trọng số cho những đặc trưng được chọn Quá trình xử lý này được thiết kế để có một ngữ nghĩa nhất định, ch ng hạn như khám phá không gian [13], [69] hoặc không gian – thời gian [70] khu vực quan tâm Lựa chọn tính năng có thể áp dụng với một nhóm kỹ thuật Một hình thức đơn giản là chọn và đánh trọng số thủ công cho một số vùng [13] Hầu hết hệ thống lựa chọn dựa vào kỹ thuật boosting AdaBoost và GentleBoost [71] là các kỹ thuật boosting phổ biến nhất

2.1.3.3 Phương ph p rút trích đặc trưng

Các phương pháp rút trích đặc trưng trích chọn các đặc trưng tìm năng bằng cách chiếu dữ liệu sang không gian với số chiều nhỏ hơn để khai thác cấu trúc tìm ẩn cho việc biểu diễn Các phương pháp phổ biến của hướng tiếp cận này là DCT, PCA,

Trang 38

LDA Phép biến đổi PCA tìm cách tối đa khoảng cách các mẫu sau khi chiếu LDA tìm cách tối đa khoảng cách giữa các lớp sau khi chiếu và tối tiểu khoảng cách của các mẫu trong cùng một nhóm Nhìn chung, LDA cho kết quả nhận dạng mặt người đạt hiệu quả cao hơn so với phương pháp PCA Gần đây, một số biến thể của LDA [72-75] đã được đưa ra, chủ yếu để giải quyết vấn đề kích thước nhỏ (kích thước của không gian hình ảnh lớn hơn nhiều so với số lượng mẫu huấn luyện) Tất cả các phương pháp được mô tả ở trên yêu cầu các mẫu đầu vào phải được định hình dưới dạng vector Điều này dẫn đến một không gian vector lớn và tốn nhiều thời gian để tính các vector riêng của một ma trận hiệp phương sai lớn Các nghiên cứu gần đây đang tìm cách trích xuất các đặc trưng trực tiếp trên các mẫu ảnh, tức là sự đại diện của một mẫu ảnh được giữ lại dưới dạng ma trận Dựa vào ý tưởng này, một số thuật toán nổi tiếng được phát triển, bao gồm phân tích thành phần chính hai chiều (2D-PCA) [76] [77], phân tích tách lớp tuyến tính hai chiều (2D-LDA) [78], và phân tích tách lớp tuyến tính hai chiều theo dòng và theo cột ((2D)2LDA) [79-80] Trong các hướng tiếp cận này, hướng tiếp cận (2D)2LDA cho đặc trưng có kích thước nhỏ và có tính tách lớp cao do vậy đạt hiệu năng nhận dạng cao

2.2 Các hướng tiếp cận liên quan đến phương pháp nghiên cứu của đề tài

2.2.1 Đặc trưng mẫu nhị phân cục bộ

Mẫu nhị phân cục bộ ( Local Binary Pattern viết tắt là LBP) được Ojala [81] trình bày vào năm 1996 như là một đơn vị đo độ tương phản cục bộ của ảnh Phiên bản đầu tiên của LBP được dùng với 8 điểm xung quanh và sử dụng giá trị của điểm ảnh trung tâm làm ngưỡng Giá trị LBP được tính bằng cách nhân các giá trị ngưỡng với trọng số ứng với mỗi điểm ảnh sau đó cộng tổng lại với nhau

Kể từ khi được đưa ra, theo định nghĩa là bất biến với những thay đổi đơn điệu trong ảnh trắng đen Để cải tiến phương pháp, bổ sung thêm phương pháp tương phản trực giao cục bộ Hình ảnh dưới đây sẽ minh họa cách tính độ tương phản trực giao (C) là ký hiệu cấp độ xám trung bình của các điểm ảnh lớn hơn hoặc bằng ngưỡng với các điểm ảnh thấp hơn ngưỡng Phân phối hai chiều của mẫu LBP và độ

Trang 39

tương phản cục bộ được lấy làm đặc trưng gọi là LBP/C, hình 2.14

Hình 2.15: Tập hợp các điểm xung quang Ptt

Không mất thông tin, có thể trừ gp đi một lượng là gc

T = t(gc,g0 - gc ,…,gP - gc) Giả sử sự sai số giữa gp và gc là độc lập với gc, ta có thể nhân tử hóa gc như sau:

T = t(gc)t(g0- gc,…,gP-1- gc) t(gc) biểu thị xu hướng độ sáng tối của cả bức ảnh nên khô liên quan đến kết cấu của ảnh cục bộ do đó có thể bỏ qua

T~t((g0 - gc),…,(gP-1 - gc)) P=8, R=1.0 P=12, R=2.5 P=16, R=4.0

Trang 40

Mặc dù tính bất biến ngược với độ thay đổi tỷ lệ xám của điểm ảnh, sự khác biệt ảnh hưởng bởi tỷ lệ Để thu được đặc điểm bất biến với bất kỳ một sự thay đổi nào của ảnh đen trắng (gray scale) chỉ quan tâm đến dấu của độ lệch:

T~t(s(g0 - gc),…,s(gP-1 - gc)) Với s là hàm dấu, công thức điều kiện (2.1):

Ngày đăng: 30/12/2018, 23:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm