1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp biểu diễn đặc trưng mặt người dựa vào bộ lọc gabor cong và (2D) 2LDA cho nhận dạng cá nhân trong ứng dụng điểm danh lớp học

60 111 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 1,88 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để thực hiện mục tiêu này, đề tài đã giải quyết các vấn đề chính là: 1 Đề xuất phương pháp kết hợp hàm lọc Gabor cong thích nghi với 2D2LDA để rút trích đặc trưng có tính phân biệt cao

Trang 1

TRONG ỨNG DỤNG ĐIỂM DANH LỚP HỌC

LĨNH VỰC NGHIÊN CỨU: Công nghệ Thông tin

CHUYÊN NGÀNH : Công nghệ phần mềm

Mã số công trình : ………

Trang 2

quả cho việc nhận dạng cá nhân trong ứng dụng điểm danh lớp học với ảnh mặt người nhìn thẳng được thu nhận từ thiết bị di động Để thực hiện mục tiêu này, đề tài đã giải quyết các vấn đề chính là: (1) Đề xuất phương pháp kết hợp hàm lọc Gabor cong thích nghi với (2D)2LDA để rút trích đặc trưng có tính phân biệt cao và bền vững với nhiễu; (2) Phát triển ứng dụng điểm danh lớp học dựa vào định danh

cá nhân sử dụng ảnh mặt người được thu nhận từ thiết bị di động Các kết quả thực nghiệm minh chứng thuật toán đề xuất cho hiệu năng thực hiện cao, cả về độ chính xác và thời gian xử lý, đồng thời áp dụng được cho phần mềm điểm danh lớp học dựa vào định danh mặt người

Trang 3

MỤC LỤC

DANH MỤC CÁC BẢNG iii

DANH MỤC HÌNH VẼ iv

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT vi

Chương 1 MỞ ĐẦU 1

-1.1 Đặt vấn đề 1

-1.1.1 Yêu cầu thực tế 1

-1.1.2 Đặc trưng mặt người và các thách thức 2

-1.1.3 Hệ thống nhận dạng mặt người 3

-1.2 Mục tiêu và phạm vi nghiên cứu 5

-1.3 Cấu trúc đề tài 5

-Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 6

-2.1 Hướng tiếp cận biểu diễn đặc trưng không gian 6

-2.1.1 Đặc trưng hình dạng 6

-2.1.2 Đặc trưng biểu đồ mật độ mức độ thấp 7

-2.1.3 Biểu diễn đặc trưng bằng bộ lọc Gabor 8

-2.1.4 Biểu diễn đặc trưng túi từ BoW 9

-2.1.5 Biểu diễn cấp cao dẫn xuất từ dữ liệu 10

-2.1.6 Các biểu diễn đặc trưng phân cấp 11

-2.1.7 Biểu diễn dựa vào các bộ phận 12

-2.2 Biểu diễn đặc trưng dựa vào không gianthời Gian 12

-2.2.1 Đặc trưng hình học từ các điểm trên khuôn mă ̣t 13

-2.2.2 Đặc trưng cấp thấp từ mă ̣t phẳng trực giao 14

-2.2.3 Đặc trưng dựa vào tích chập với bộ lọc làm trơn 15

-2.2.4 Đặc trưng Haar theo không gianthời gian 15

Trang 4

-2.2.5 Biểu diễn đặc trưng biến dạng dạng tự do 17

-2.2.6 Biểu diễn đặc trưng túi từ BoW theo thời gian 18

-2.3 Hướng tiếp cận rút trích đặc trưng dựa vào giảm chiều 19

-2.3.1 Phương pháp tổng hợp đặc trưng 19

-2.3.2 Phương pháp lựa chọn đặc trưng 19

-2.3.3 Phương pháp rút trích đặc trưng 20

-2.4 Bàn luận 20

-Chương 3 PHƯƠNG PHÁP ĐỀ XUẤT 22

-3.1 Ý tưởng thuật toán 22

-3.2 Bộ lọc Gabor 23

-3.2.1 Bộ lọc Gabor truyền thống 23

-3.2.2 Bộ lọc Gabor cong 24

-3.3 Kỹ thuật phân tích tách lớp tuyến tính (2D)2LDA 28

-3.4 Các bước thực hiện của thuật toán đề xuất 30

-3.5 Kết luận 32

-Chương 4 KẾT QUẢ THỰC NGHIỆM 33

-4.1 Kết quả trên cơ sở dữ liệu ORL 33

-4.2 Kết quả trên cơ sở dữ liệu Yale 35

-4.3 Minh họa sử dụng ứng dụng 37

-4.3.1 Mô tả ứng dụng 37

-4.3.2 Kết quả sử dụng 38

-Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42

-5.1 Kết luận 42

-5.2 Hướng phát triển 42

CÁC TÀI LIỆU THAM KHẢO 43

Trang 5

-DANH MỤC CÁC BẢNG

Bảng 41 So sánh năm phương pháp trên cơ sở dữ liệu ORL 34 Bảng 4-2 So sánh các phương pháp tiếp cận khác nhau về độ chính xác công nhận trên cơ sở dữ liệu ORL - 34 -Bảng 4-3: So sánh năm phương pháp trên cơ sở dữ liệu YALE - 36 -Bảng 4-4: So sánh các phương pháp tiếp cận khác nhau về độ chính xác công nhận trên cơ sở dữ liệu YALE - 36 -

Trang 6

-DANH MỤC HÌNH VẼ

Hình 11 Hình ảnh gương mặt bị nhiễu [1] 2

Hình 12 So sánh bài toán định danh (a) và xác thực (b) khuôn mặt 4

Hình 13 Các giai đoạn xử lý nhận dạng mặt người 5

Hình 21 Đặc trưng hình học (tập các điểm mặt) [8] 6

Hình 22 Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [8] 7

Hình 23 Biểu diễn dựa vào bộ lọc Gabor [8] 9

Hình 24 Đặc trưng túi từ BoW [8] 10

Hình 25 Đặc trưng GPNMF [8] 10

Hình 26 Đặc trưng mã hóa phân rã [8] 11

Hình 27 Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [8] 12

-Hình 2-8 Đặc trưng không gian thời gian sử dụng đặc trưng hình học từ các điểm mặt [8] 13

Hình 29 Đặc trưng không gian thờigian (a) LBPTOP và (b) LBQTOP [8] 14

Hình 210 Bộ lọc làm trơn IC [8] 15

Hình 211 Đặc trưng Haar động (a), và đặc trưng tương tự (b) [8] 16

Hình 212 Biểu diễn biến đổi tự do[8] 17

Hình 213 Đặc trưng BoW theo thời gian [8] 18

Hình 31 Sơ đồ thuật toán đề xuất 22

Hình 32 Bộ lọc Gabor với kích thước 11 × 11 (a) và 7 × 7 (b) 24

Hình 33 Minh họa kết quả áp lọc Gabor 24

-Hình 3-4 Ví dụ Gabor cong kernels được thể hiện với thông số: σ = л và c = 0.1 [67] 25

Hình 35: Ví dụ thực tế của 12 Gabor cong được đề xuất hiển thị [67] 25

Hình 36 Hàm lọc gabor cong với c=0.1 26

Hình 37 Hàm lọc Gabor cong với c=0.0001 27

Hình 38 Minh họa kết quả lọc Gabor cong 27

Trang 7

-Hình 3-9 Minh họa giảm số chiều của (2D)2LDA: (a) Ảnh gốc với kích thước là 100×100, (b)-(h) các ảnh tái tạo với d bằng q lần lượt là 1, 5, 10, 20, 40, 80,

90, (i) d=40, q=100, và (j) d=100, q=40 30 Hình 3-10 Minh họa giảm số chiều của phương pháp đề xuất CGabor-(2D)2LDA: (a) Ảnh gốc với kích thước là 100×100, (b) là ảnh kết quả lọc Gabor cong thích nghi, (c)-(h) các ảnh tái tạo với d bằng q lần lượt là 5, 10, 20, 40, 80, 90, (i) d=40, q=100, và (j) d=100, q=40 - 32 -Hình 4-1 Minh họa các ảnh tư thế của một người trong cơ sở dữ liệu ORL - 33 -Hình 4-2 Một số hình ảnh cơ sở dữ liệu Yale - 35 -

Trang 8

-DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT

1 2DLDA Two-dimensional Linear

Discriminant Analysis

Kỹ thuật phân tích tách lớp tuyến tính hai chiều

2 2DPCA Two-dimensional Principle

Component Analysis

Kỹ thuật phân tích thành phần chính hai chiều

4 BDOC Block Dominant Orientation

Code

Mã hướng thống trị của khối

Block-based Histogram of Oriented Gradient

Biểu đồ mật độ độ lệch mức xám theo hướng của khối

OrientendGradients Biểu đồ mật độ hướng

13 HOG Histogram of Oriented Gradient Biểu đồ mật độ độ lệch

Trang 9

Analysis phần độc lập

16 KDA Kernel Discriminant Analysis Phân tích phân biệt dựa

vào nhân

19 LBP Local Binary Patterns Mẫu nhị phân cục bộ

20 LBQ Local Phase Quantisation Đặc trưng lượng tử hóa

24 ORL Olivetti Research Laboratory Phòng nghiên cứu

Trang 10

Linear Discriminant Analysis lớp tuyến tính hai chiều

Trang 11

Chương 1 MỞ ĐẦU

1.1 Đặt vấn đề

1.1.1 Yêu cầu thực tế

Ngày nay, các thiết bị di động có tích hợp sẵn camera rất phổ biến Điều này

đã mở ra nhiều hướng nghiên cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trò không nhỏ Dưới đây là một số ứng dụng trong công nghệ nhận dạng mặt người:

- Các ứng dụng chuyên biệt cho ngành hàng không: Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhânviên Kiểm soát an ninh tại các khu vực ra vào

- Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc: Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ em ra ngoài và trao tận tay cho bố mẹ đón về Nhờ công nghệ nhận dạng mặt người có thể kiểm soát được việc này

- Nhận dạng khuôn mặt được sử dụng kèm với thẻ truy cập

- Ngăn chặn việc xuất/nhập cảnh bất hợp pháp: Một số người không được xuất/nhập cảnh vào nước, song họ cố tình khai gian giấy tờ để xuất/nhập cảnh bất hợp pháp Ứng dụng nhận dạng mặt người giúp để ngăn chặn được

sự gian lận này

- Lần dấu vết đi tìm kẻ khủng bố: Từ những bức ảnh số hay những đoạn video

số đã được ghi lại tự động về hiện trường trước khi vụ khủng bố xảy ra Cần nhận dạng những đối tượng khả nghi của vụ khủng bố này

- Hệ thống giám sát công nhân và chấm công tự động: Ở các công ty sản xuất lớn có hàng ngàn công nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào công ty cũng như công việc chấm công rất phức tạp Dựa vào công nghệ nhận dạng để nhận ra từng nhân viên của công ty

Trang 12

- Hệ thống điểm danh lớp học: Nhằm đảm bảo nền nếp trong học tập, việc điểm danh sinh viên, học sinh đi học là cần thiết Một trường học có rất nhiều lớp, việc điểm danh tự động sinh viên, học sinh dựa vào nhận dạng mặt người sẽ vừa an ninh, khách quan vừa thuận tiện cho giáo viên phụ trách

Tóm lại, nhu cầu phát triển các thuật toán nhận dạng mặt người là cần thiết cho các ứng dụng hiện hiện nay và trong tương lai

1.1.2 Đặc trưng mặt người và các thách thức

Có nhiều lĩnh vực khác nhau như sinh học, tâm lý học, khoa học thần kinh,

xã hội học và khoa học máy tính đã phân tích đặc trưng biểu hiện khuôn mặt người Mặc dù đã có nhiều nghiên cứu để biểu diễn khuôn mặt người, nhưng bài toán rút trích đặc trưng khuôn mặt người vẫn là bài toán mở Nhìn chung có ba kiểu biểu diễn đặc trưng khuôn mặt người: đặc trưng tổng thể, đặc trưng thành phần và đặc trưng cấu trúc mối quan hệ giữa các thành phần Đặc trưng tổng thể là xem khuôn mặt là một thực thể duy nhất để phân biệt Đặc trưng thành phần là xem xét các thành phần (mắt, mũi, miệng) riêng lẻ Đặc trưng cấu trúc mối quan hệ giữa các thành phần là xem xét mối quan hệ không gian hình học giữa các thành phần khuôn mặt Khi xem xét đặc trưng tổng thể hay đặc trưng từng thành phần thì đặc trưng kết cấu mẫu vẫn thường được sử dụng [1], [2], [3]

Hình 1-1 Hình ảnh gương mặt bị nhiễu [1]

Trang 13

Khuôn mặt người là nơi biễn diễn sắc thái và tình cảm của con người rõ ràng nhất, vì vậy bài toán nhận dạng mặt người gặp không ít những thách thức về biểu hiện cảm xúc cũng như các yếu tố tác nhân bên ngoài như:

- Có nhiều hướng của khuôn mặt cùng một người như: nhìn thẳng, nhìn nghiêng trái hoặc nhìn nghiêng phải, cuối xuống, ngước lên

- Xét dữ liệu video: thông tin mặt người trong dữ liệu video là vô cùng nhiều, tuy vậy các phương pháp nhận dạng vẫn làm việc với ảnh tĩnh là ảnh được trích xuất từ video, nhưng các phương pháp nhận dạng không thể tận dụng hết ưu thế của ảnh với dữ liệu là video

- Có những chi tiết không phải là đặc trưng riêng của khuôn mặt như người có râu quai nón, người đeo kính cận hay khuôn mặt của đối tượng được xét bị che khuất bởi đối tượng khác

- Tại các thời điểm khác nhau thì biểu hiện cảm xúc khuôn mặt cũng khác nhau như: vui, buồn, ngạc nhiên, ngơ ngác ảnh hưởng rất nhiều trong việc nhận dạng

- Chịu sự tác động điều kiện về độ sáng tối cũng cho ta có kết quả khác nhau của khuôn mặt cũng như màu sắc môi trường ở nhiều nơi là khác nhau hay màu sắc của quần áo cũng ảnh hướng đến quá trình nhận dạng mặt người

- Kích thước khác nhau của khuôn mặt cũng là yếu tố tác động đến quá trình nhận dạng mặt người

1.1.3 Hệ thống nhận dạng mặt người

Một hệ thống sinh trắc học là hệ nhận dạng dựa trên hành vi, thuộc tính vật

lý của người được nhận dạng Hệ sinh trắc học được phân thành hai loại chính: hệ xác thực và hệ định danh

Hệ xác thực: đầu vào gồm có ảnh truy vấn và định danh Hệ thống đối sánh 1-1 giữa mẫu mặt người đã thu nhận được với mẫu mặt người trong hệ thống ứng với định danh đầu vào Hệ thống xác thực trả lời kết quả phải hay không phải mặt người ứng với định danh đó (Xem hình 1-2b)

Trang 14

Hệ định danh: đầu vào chỉ có mẫu truy vấn Hệ thống so sánh mẫu truy vấn với các mẫu huấn luyện (1-n) Hệ thống sẽ cho biết định danh ứng với mẫu truy vấn

đó nếu có, ngoài ra thì trả lời là không biết (Xem hình 1-2a)

Hình 1-2 So sánh bài toán định danh (a) và xác thực (b) khuôn mặt

Nhận dạng mặt người gồm các giai đoạn xử lý sau:

- Phát hiện mặt người: nhận dạng đâu là vùng mặt có trong ảnh đầu vào và

phân đoạn vùng ảnh mặt để nhận dạng

- Canh chỉnh ảnh: chuẩn hóa mẫu ảnh về tư thế chuẩn như chuẩn hóa kích cỡ

ảnh, vị trí và tư thế ảnh để so khớp hiệu quả hơn

- Trích chọn đặc trưng: giai đoạn này sẽ trích chọn ra nhưng đặc trưng có

tính phân biệt cao giữa các đối tượng, ít chịu sự tác động của nhiễu

- So khớp: thực hiện so sánh giữa vectơ đặc trưng để chọn ra độ tương tự của

mẫu ảnh cần tìm và mẫu ảnh chứa trong cơ sở dữ liệu

Trang 15

Hình 1-3 Các giai đoạn xử lý nhận dạng mặt người

1.2 Mục tiêu và phạm vi nghiên cứu

Mục tiêu và phạm vi nghiên cứu của đề tài là phát triển thuật toán rút trích đặc trưng mặt người nhìn thẳng dựa vào bộ lọc Gabor cong và phương pháp phân tích tách lớp tuyến tính (2D)2LDA, từ đó, áp dụng cho nhận dạng cá nhân trong ứng dụng điểm danh lớp học sử dụng thiết bị di động

1.3 Cấu trúc đề tài

Luận án được trình bày gồm có: 5 chương, và tài liệu tham khảo

 Chương 1 trình bày tổng quan về bài toán nhận dạng mặt người, động cơ, mục tiêu, phạm vi nghiên cứu, và cấu trúc trình bày luận án

 Chương 2 trình bày một số khảo sát về các công trình trong nước và quốc tế, cũng như phương pháp nghiên cứu định hướng của đề tài

 Chương 3 trình bày phương pháp đề xuất cho việc rút trích đặc trưng mặt người và ứng dụng minh họa

 Chương 4 trình bày các kết quả thực nghiệm minh chứng hiệu quả thuật toán

và minh họa kết quả ứng dụng điểm danh lớp học

 Chương 5 trình bày tổng kết các nội dung đã làm được của đề tài và kiến nghị hướng phát triển

Trang 16

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Chương này trình bày tổng quan các hướng tiếp cận rút trích đặc trưng mặt người

và hướng tiếp cận của đề tài

2.1 Hướng tiếp cận biểu diễn đặc trưng không gian

Hướng tiếp cận này có nhiều phương pháp khác nhau khai thác đặc trưng cấp thấp lẫn cấp cao của khuôn mặt như: (1) Đặc trưng hình dạng, (2) Đặc trưng mật độ mức thấp, (3) Đặc trưng dựa vào bộ lọc Gabor, (4) Đặc trưng túi từ, (5) đặc trưng cấp cao, (6) Đặc trưng phân cấp, và (7) đặc trưng bộ phận

2.1.1 Đặc trưng hình dạng

Đặc trưng hình dạng được sử dụng thường xuyên nhất tập các điểm mặt Các điểm này biểu diễn hình dạng chính của khuôn mặt như đường biên khuôn mặt, chân mày, sống mũi, miệng và mắt Đặt trưng được biễu diễn thông qua việc kết nối các tọa độ này với nhau [5] (Hình 2-1)

Hình 2-1 Đặc trưng hình học (tập các điểm mặt) [8]

Đặc trưng này không bị ảnh hưởng bởi ánh sáng vì cường độ ánh sáng của các điểm ảnh bị bỏ qua Tuy nhiên, sự biến đổi của ánh sáng có thể làm giảm độ chính xác trong việc xác định các điểm mặt Người ta có thể sử dụng khoảng cách giữa mốc trên khuôn mặt chứ không sử dụng khoảng cách giữa các điểm mặt [6] Khi đó, bộ miêu tả có thể là khoảng cách giữa các thành phần trên khuôn mặt như khoảng cách và góc độ mô tả việc đóng/mở mắt và miệng, và các nhóm điểm

Trang 17

mô tả trạng thái của má Cách làm này sử dụng nhiều hơn để nhận biết sự thay đổi

về trạng thái của khuôn mặt (Nhận dạng cảm xúc) [7]

2.1.2 Đặc trưng biểu đồ mật độ mức độ thấp

Phương pháp này sẽ tính toán đặc trưng cục bộ và mã hóa thành ảnh mới Sau đó, phân ảnh thành từng khối Mỗi khối sẽ tính mật độ của từng đoạn giá trị mã Đặc trưng kết quả là nối tất cả các vector mật độ của tất cả các khối

Hình 2-2 Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [8]

Đặc trưng cấp thấp là bền vững với sự biến đổi của ánh sáng bởi vì nó tính dựa vào độ lệch mức xám trong vùng nhỏ Thêm vào đó, biểu đồ mật độ được chuẩn hóa [9] nên bền vững với nhiều trường hợp thay đổi độ sáng khác nhau Cách biểu diễn này bền vững với việc huấn luyện ảnh lỗi vì biểu đồ mật độ có thể phủ nhiều trường hợp ảnh được thu nhận với tư thế dịch chuyển, xoay và tỉ lệ Biểu đồ mật độ ở mức độ thấp không đánh giá được thay đổi biểu hiện trạng thái khuôn mặt bởi sự thiên lệch về nhận dạng, vì phương pháp biểu diễn này kiểm tra các tín hiệu liên quan đến nhận dạng hơn là biểu hiện trên khuôn mặt [10], [11] Cách biểu diễn này mã hóa thông tin mỗi thành phần bằng biểu đồ mật độ từng vùng độc lập với

Trang 18

các vùng khác của khuôn mặt Đặc trưng biểu đồ mật độ ở mức thấp tính toán đơn giản và cho phép hoạt động thời gian thực [12], [13]

Hướng tiếp cận biểu diễn biểu đồ mật độ mức độ thấp có 2 phương pháp sử dụng phổ biến và được đánh giá cao là: (1) Mô hình mẫu nhị phân cục bộ (LBP) và (2) Mô hình lượng tử hóa cục bộ (LPQ)

Đặc trưng LBP biểu diễn sự biến đổi mức xám trong một vùng tròn bằng một

số nguyên Biểu đồ mật độ LBP đơn giản là đếm số lượng từng loại số nguyên nên kích thước đặc trưng phụ thuộc vào phạm vi các số nguyên Phạm vi phổ biến của LBP là [0; 255] Ahonen et al [10] cho thấy rằng có thể sử dụng kích thước 59 để biểu diễn các mẫu, nó hoạt như bộ phát hiện cạnh [14]

sự chuyển đổi Fourier cục bộ [15] Tương tự như LBP, LPQ mô tả một nhóm biểu

đồ mật độ cục bộ với một số nguyên dao động trong [0; 255] Biểu đồ cục bộ chỉ đơn giản đếm các mẫu LPQ, và kích thước của mỗi biểu đồ là 256 [15]

LBP và LPQ được so sánh về hiệu quả nhận dạng trong một số nghiên cứu,

và LPQ thường tốt hơn LBP [16], [17] Điều này có thể do kích thước của mô tả cục

bộ, vì LBP thường được chiết xuất từ các vùng nhỏ hơn có đường kính 3 pixel, trong khi LPQ được trích xuất từ các vùng lớn hơn 7*7 pixel [16], [17] LBP gây mất thông tin khi trích xuất từ các vùng lớn hơn khi chúng bỏ qua những điểm ảnh nằm trong vùng tròn Ngược lại, các số nguyên LPQ mô tả các vùng một cách tổng thể

2.1.3 Biểu diễn đặc trưng bằng bộ lọc Gabor

Một biểu diễn khác dựa trên các đặc trưng cấp thấp là biểu diễn Gabor Đặc trưng Gabor thu được bằng cách tích chập ảnh đầu vào với các bộ lọc Gabor có tỉ lệ

và hướng khác nhau (Hình 2-3) [18] Bộ lọc Gabor mã hóa thông tin kết cấu mẫu vân cục bộ trong từng vùng ảnh Kích thước của đầu ra là lớn, do vậy bước giảm số chiều là cần thiết Vì các điểm ảnh được lọc bằng Gabor chứa thông tin liên quan đến các điểm ảnh gần nó nên kỹ thuật giảm thiểu kích thước đơn giản là sử dụng giá trị tối thiểu, tối đa và tổng hợp giữa các kết quả của các bộ lọc Bộ lọc Gabor tính

Trang 19

toán sự khác biệt mức xám trong một vùng cục bộ nên nó bền vững với nhiễu ánh sáng [18], [19]

Hình 2-3 Biểu diễn dựa vào bộ lọc Gabor [8]

Tương tự như biểu đồ mật độ mức thấp, đặc trưng Gabor chứa thông tin phục

vụ cho việc nhận dạng phân biệt cá nhân hơn là phân biệt biểu hiện trạng thái khuôn mặt [18] Đặc trưng này bền vững với lỗi mẫu đăng ký bởi vì bộ lọc làm trơn và giá trị kết quả lọc bền vững với dịch chuyển và xoay trong một vùng nhỏ [20] Bền vững với lỗi đăng ký ít mẫu có thể được tăng thêm bằng cách kết hợp với hướng tiếp cận chiếu không gian con Bộ lọc Gabor có nhược điểm là độ phức tạp tính toán cao vì áp dụng bộ lọc nhiều lần, theo nhiều hướng và tỉ lệ khác nhau [18]

2.1.4 Biểu diễn đặc trưng túi từ BoW

Đặc trưng BoW miêu tả các vùng cục bộ bằng các rút trích đặc trưng cục bộ (ví dụ SIFT) tại các vị trí cố định, sau đó so sánh các đặc trưng này với các mẫu đặc trưng có sẵn trong cơ sở dữ liệu (túi từ) để nhận biết các từ tưng ứng [21] Biểu diễn đặc trưng này kế thừa ưu điểm của đặc trưng SIFT là bền vững với sự biến đổi ánh sáng và lỗi đăng ký nhỏ Đặc trưng này sử dụng phép so khớp theo hình tháp [22], một kỹ thuật thực hiện kết hợp biểu đồ mật độ và tăng khả năng chịu lỗi huấn luyện ảnh Lược đồ so khớp này mã hóa thông tin với nhiều tỉ lệ và nhiều lớp khác nhau Đặc trưng này có kích thước rất cao và do đó khái quát hóa các đặc trưng cần thiết

để giảm kích thước Mặc dù tính toán đặc trưng SIFT đơn giản, nhưng chi phí tính toán các từ dựa vào việc tìm kiếm nên phụ thuộc vào kích thước cơ sở dữ liệu từ và thuật toán tìm

Trang 20

Hình 2-4 Đặc trưng túi từ BoW [8]

2.1.5 Biểu diễn cấp cao dẫn xuất từ dữ liệu

Tất cả các biểu diễn đặc trưng nêu trên đều mô tả kết cấu cục bộ (xem hình 2-1, -2, -3 và -4) Nói một cách khác, các đặc trưng này mã hóa thông tin các cạnh Mục đích hướng tiếp cận này là nhận được đặc trưng cấp cao hơn từ thông tin ngữ nghĩa của các đặc trưng mã hóa Hai phương pháp tạo ra các biểu diễn như vậy

là NMF [23], [24] và mã hóa phân rã [25], [26]

Hình 2-5 Đặc trưng GP-NMF [8]

Phương pháp NMF phân rã một ma trận thành hai ma trận không âm Sự phân rã không phải là duy nhất và nó có thể được thiết kế để có các ngữ nghĩa khác nhau Một kỹ thuật dựa trên NMF là kỹ thuật bảo toàn đồ thị GP-NMF [25], nó phân chia các mặt thành các thành phần không gian độc lập thông qua ràng buộc phân rã không gian [27] Sự phân chia thành các thành phần độc lập để mã hóa thông tin cấu thành, và có thể là thông tin cấu hình (Hình 2-5) NMF tạo ra một số hình ảnh cơ sở và đặc trưng chính là các hệ số ứng với mỗi hình ảnh cơ bản (Hình 2-5) Phương pháp này thực hiện tối thiểu hóa để tính toán các hệ số, do đó độ phức tạp tính toán của nó thay đổi dựa trên thuật toán tối ưu, số lượng và kích thước của các hình ảnh cơ bản Vì NMF dựa vào tập dữ liệu huấn luyện nên phương pháp này

có thể chống lại nhiễu chiếu sáng và lỗi đăng ký

Trang 21

Lý thuyết về mã hoá phân rã được dựa trên ý tưởng rằng bất kỳ hình ảnh nào cũng có thể phân rã trong một số miền nào đó [28] Sự chuyển đổi có thể là chuyển đổi thích nghi (ví dụ dẫn ra từ dữ liệu) hoặc chuyển đổi không thích nghi (ví dụ như biến đổi Fourier) và dựa vào từ điển [28] Tính linh hoạt của định nghĩa từ điển cho phép các nhà nghiên cứu tự do định nghĩa từ điển Các phần tử trong từ điển có thể diễn giải theo ngữ nghĩa Biểu diễn được hình thành bằng cách nối các hệ số của các phần tử từ điển (Hình 2-6) Độ phức tạp của thuật toán phụ thuộc vào thuật toán tối

ưu và kích cỡ từ điển

Hình 2-6 Đặc trưng mã hóa phân rã [8]

2.1.6 Các biểu diễn đặc trưng phân cấp

Biểu diễn cấp thấp rất tốt để tránh ảnh hưởng bởi ánh sáng và lỗi đăng ký Mặt khác, các biểu diễn cấp cao có thể tạo ra các đặc trưng có khả năng diễn giải theo ngữ nghĩa Các biểu diễn phân cấp mã hóa thông tin một cách từ thấp đến cao

Mô hình được xây dựng tốt nhất cho các mô hình phân cấp là học sâu [29], [30] Các mô hình phân cấp có thể được thiết kế một cách đơn giản bởi các biểu diễn cấp thấp và cấp cao được thiết lập tốt như các bộ lọc Gabor và biểu diễn mã hóa phân rã [31] Học sâu là một mô hình học phân tầng đa lớp đặc trưng từ dữ liệu [29] Nói chung tổng thể chứa ít nhất hai lớp cấp thấp Lớp đầu tiên thu hẹp hình ảnh đầu vào với một số bộ lọc cục bộ đã đọc từ dữ liệu và lớp thứ hai tập hợp đầu ra thông qua các hoạt động chung Các lớp ở cấp cao có thể được thiết kế cho các mục đích khác nhau như giải quyết ảnh có vật che khuất Các bộ lọc ở mức thấp thường là các bộ lọc làm trơn để tính toán sự khác biệt cục bộ, do đó chúng bền vũng những biến đổi

Trang 22

ánh sáng và lỗi đăng kí tốt hơn Sử dụng nhiều ảnh huấn luyện cải thiện các lỗi đăng kí

2.1.7 Biểu diễn dựa vào các bộ phận

Hình 2-7 Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [8]

Hướng tiếp cận này phân tích khuôn mặt thành các thành phần độc lập rồi

mã hóa thông tin từng thành phần Đặc trưng này loại bỏ thông tin mối quan hệ giữa các bộ phận (Hình 2-7) Bỏ qua các mối quan hệ không gian giữa các bộ phận làm giảm ảnh hưởng đối với sự thay đổi tư thế của đầu Phương pháp này đã được chứng minh đạt hiệu quả nhận dạng khi sự biến đổi thư thế đầu xuất hiện nhiều [32], [33]

Hai phương pháp tiêu biểu cho hướng tiếp cận này là: (1) Biểu diễn thành phần dựa vào đặc trưng SIFT [191] (Hình 2-7a) và Biểu diễn đặc trưng thành phần dựa vào NMF [32] (Hình 2-7b)

2.2 Biểu diễn đặc trưng dựa vào không gian-thời Gian

Đă ̣c trưng không gian – thời gian quan tâm đến mô ̣t loa ̣t khung hình trong

mô ̣t cửa sổ thời gian như mô ̣t thực thể duy nhất, và cho phép mô hình hóa sự thay đổi theo thời gian để biểu thức đặc trưng chi tiết, hiệu quả hơn Đặc trưng này có

Trang 23

thể phân biệt các biểu hiện trông giống nhau trong không gian (ví du ̣ như nhắm mắt

so với nhấp nháy mắt [34] [35]), và thuận tiện cho kết hợp kiến thức về tâm lý học Kiến thức miền này liên quan đến việc cấp cao hơn, chẳng ha ̣n như phân biê ̣t giữa phản xa ̣ tình cảm có điều kiê ̣n hoă ̣c không điều kiê ̣n hoă ̣c nhâ ̣n biết hành vi [36]

2.2.1 Đặc trưng hình học từ ca ́ c điểm trên khuôn mă ̣t

Hình 2-8 Đặc trưng không gian thời gian

sử dụng đặc trưng hình học từ các điểm mặt [8]

Mục đích của đặc trưng này là kết hợp các kiến thức từ khoa học nhận thức để phân tích sự biến đổi theo thời gian và các hoa ̣t đô ̣ng của cơ tương ứng Nó được sử du ̣ng để nhận dạng nu ̣ cười và sự thay đổi trên trán [37] Đặc trưng này mô tả hình da ̣ng khuôn mă ̣t và hoa ̣t đô ̣ng của các điểm mặt [38] Các đặc điểm như: vi ̣ trí ban đầu (thô) của mỗi điểm, chiều dài và góc của các đường là đặc trưng để nhận dạng Các đặc trưng này được thu thập theo thời gian Cửa sổ thời gian được điều chỉnh theo tỉ lệ khung hình và những phát hiện của khoa học nhận thức về hoạt động của cơ mặt [38] Đặc trưng này nhạy cảm với lỗi đăng ký bời vì nó được rút trích từ tọa độ các điểm thô Mă ̣c dù, đặc trưng này miêu tả sự thay đổi theo thời gian, nhưng nó không nắm bắt được biểu hiện chi tiết vì nó chỉ sử dụng các điểm mặt

Trang 24

2.2.2 Đặc trưng cấp thấp tư ̀ mă ̣t phẳng trực giao

Rút trích đặc trưng từ 3 mă ̣t phẳng trực quan (TOP) là mô ̣t cách tiếp câ ̣n phổ biến để mở rô ̣ng các đă ̣c trưng không gian cấp thấp vào miền không gian - thời gian (Hình 2-9)

Hình 2-9 Đặc trưng không gian thời-gian (a) LBP-TOP và (b) LBQ-TOP [8]

Phương pháp này là mở rô ̣ng từ LBP sang LBP-TOP [185] LBP-TOP được áp du ̣ng cho nhâ ̣n diê ̣n cảm xúc cơ bản [39] (Hình 2-9a) Sau phương pháp này, LPQ được mở rô ̣ng đến LPQ-TOP được sử du ̣ng cho nhâ ̣n da ̣ng hành động khuôn mặt và phân đoa ̣n thời gian [40] (Hình 2-9b)

Như minh ho ̣a trong Hình 2-9, mô hình TOP chiết xuất đă ̣c trưng từ các điểm lân câ ̣n trong 3 mă ̣t phẳng sau: mă ̣t phẳng không gian (x,y) tương tự như LBP thường, mă ̣t phẳng do ̣c theo không gian và thời gian (y,t) và mă ̣t phẳng ngang theo không gian và thời gian (x,t) Tương tự như đặc trưng hình học, phương pháp này sẽ rút trích đặc trưng dạng vector cho từng vùng nhỏ của khuôn mặt (theo không gian – thời gian)

LBP-TOP và LPQ-TOP kế thừa tính bền vững của chúng đối với các biến đổi chiếu sáng, tuy nhiên, chúng nha ̣y cảm hơn đối với các lỗi đăng ký Sự thay đổi kết cấu của chúng gây ra chỉ bởi chuyển đô ̣ng trên khuôn mă ̣t Do đó, có thể giải

Trang 25

thích các lỗi đăng ký ta ̣m thời như hoa ̣t đô ̣ng trên khuôn mă ̣t Chiều của đă ̣c trưng biểu diễn này cao hơn so với đă ̣c trưng tĩnh của chúng Cả hai đă ̣c trưng được tâ ̣p trung vào viê ̣c nhâ ̣n da ̣ng hành động của khuôn mặt

2.2.3 Đặc trưng dựa vào tích chập với bộ lọc làm trơn

Mô ̣t phương pháp để biểu diễn sự biến thiên theo thời gian trong kết cấu của đặc trưng cấp thấp là tích chập với bộ lọc làm trơn theo không gian và thời gian (Hình 2-10)

Hình 2-10 Bộ lọc làm trơn IC [8]

Hai cách tiếp câ ̣n như vâ ̣y là sử du ̣ng bô ̣ lo ̣c Gabor theo không gian - thời gian [41] và bộ lọc thành phần độc lập theo không gian – thời gian (IC) [79] Sự khác biê ̣t chính giữa bô ̣ lo ̣c Gabor và IC là các tham số của bô ̣ lo ̣c Gabor được điều chỉnh bằng tay [41], trong khi bô ̣ lo ̣c IC thu được tự đô ̣ng trong quá trình phân tích thành phần đô ̣c lâ ̣p có giám sát [42] Cả hai phương pháp đều bao gồm các bô ̣ lo ̣c với các cửa sổ thời gian khác nhau Hướng tiếp cận này không nhạy cảm với sự thay đổi chiếu sáng Tuy nhiên bô ̣ lo ̣c Gabor và IC theo không gian và thời gian nha ̣y cảm hơn với các lỗi đăng ký Các chi phí tính toán của hai phương pháp rất cao vì chúng thực hiện tích chập trên ba chiều với nhiều bộ lọc khác nhau (ví dụ

240 bộ lọc [42], [41]) Đặc trưng Gabor và IC được sử dụng để nhận biết cảm xúc

cơ bản Bô ̣ lo ̣c Gabor không gian-thời gian làm tốt hơn so với các phương pháp cùng hướng tiếp cận khác [41]

2.2.4 Đặc trưng Haar theo không gian-thời gian

Hai biểu diễn mà sử dụng tốt đặc trưng Haar cho biểu diễn không gian-thời gian là đặc trưng Haar động [43] và đặc trưng tương tự [44], [45]

Trang 26

Như minh họa trong Hình 2-11a, mỗi đặc trưng Haar mã hóa sự biến đổi theo thời gian trong dãy hình ảnh với mẫu các giá trị nhị phân, ở đây mỗi giá trị nhị phân thu được bởi ngưỡng đầu ra của đặc trưng Haar trong khung hình tương ứng Cửa sổ thời gian của tất cả các tính năng thì được cố định và xác định từ thực nghiệm Các chiều của tập hợp tất cả các tính năng Haar là rất lớn (vd: 160,000 [161]) Vì thế, lược đồ lựa chọn đặc trưng là cần thiết cho việc giảm số chiều [45], [46] Đặc trưng Haar là nhạy cảm tới sự chiếu sáng và lỗi đăng ký Độ nhạy phụ thuộc thuật toán chọn đặc trưng và bộ dữ liệu huấn luyện

Hình 2-11 Đặc trưng Haar động (a), và đặc trưng tương tự (b) [8]

Đặc trưng biểu diễn tương tự (Hình 2-11b) lấy cảm hứng từ phương pháp hạt nhân được sử dụng trong máy học [31], trong đó dự đoán đầu ra bằng trung bình các mẫu huấn luyện Đặc trưng tương tự đơn giản được rút trích như sau: 1) Áp dụng bộ lọc Haar cho mỗi khung của một chuỗi ảnh, 2) đầu ra của mỗi khung được

mã hoá thành một vector thông qua hàm tương tự mà nó đo độ giống nhau giữa đầu

ra của hàm Haar và các mẫu tham khảo (Hình 2-11b) Biểu đồ mật độ mã hóa toàn

bộ vector đầu ra của chuỗi ảnh Kích thước của biểu đồ mật độ độc lập với kích thước chuổi ảnh Các biểu diễn được thiết kế để phù hợp với độ phân giải thời gian khác nhau Điều này đạt được bằng cách chuẩn hóa biểu đồ mật độ với kích thước

Trang 27

chuỗi ảnh Các tính năng không gian Haar có thể được xử lý theo thời gian thực [46], do đó, tùy thuộc vào số lượng các đặc trưng được lựa chọn và cửa sổ thời gian, đặc trưng năng lượng Haar cũng có thể đạt tốc độ thời gian thực

2.2.5 Biểu diễn đặc trưng biến dạng dạng tự do

Hình 2-12 Biểu diễn biến đổi tự do[8]

Biểu diễn đặc trưng biến dạng dạng tự do [47] là một kỹ thuật đăng kí thành quan trọng mà nó tính toán sự dịch chuyển thời gian và không gian pixel (Hình 2-12) Biểu diễn đặc trưng này được sử dụng trong nhận dạng hành động với phân đoạn thời gian Không giống các hướng tiếp cận rút trích đặc trưng từ các tiểu vùng đồng nhất, sự phân chia này thể hiện các khối lượng thành tiểu vùng không thống nhất thông qua phân rã bậc bốn [47] Phân vùng này nhấn mạnh các vùng có hoạt động cao trên khuôn mặt bằng cấp cho nó số lương hơn các vùng còn vùng nhỏ hơn Biểu diễn này thu được bằng cách rút trích tập hợp các đặc trưng không gian

và không gian thời gian Các tính năng này được trích xuất độc lập cho mỗi tiểu vùng, do đó chúng có thể được xem như là một hình thức tổng hợp làm cho biểu diễn mạnh mẽ chống lại các lỗi đăng kí nhỏ

Các đặc trưng không gian thời gian cần có sự nhất quán về đăng kí thời gian Biểu diễn biến dạng hình thức tự do thỏa mãn sự nhất quán thời gian với sự biến dạng bên trong bản thân của nó Tuy nhiên, hình thức biến dạng tự do giả định rằng các biến thể của chủ thể bị giới hạn trong suốt chuỗi ảnh [47] Ngoài ra, hình thức biến dạng tự do hoạt động với cường độ điểm ảnh thô, do đó các biến đổi độ sáng

có thể là vấn đề Các tính năng như biểu đồ mật độ hướng hoặc chuyển động trung bình rất mạnh mẽ đối với các lỗi đăng kí đến một mức độ Các đặc trưng này biểu

Trang 28

diễn đơn giản, tuy nhiên, hình thức biến dạng tự do được tính qua một quá trình lặp

có thể giữ cho biểu diễn đạt được tốc độ xử lý thời gian thực

2.2.6 Biểu diễn đặc trưng túi từ BoW theo thời gian

Các biểu diễn thời gian BoW là cụ thể để phát hiện hành động (AU) [48] và

có thể được giải thích tốt nhất bằng cách mô tả vấn đề được được xây dựng bởi tác giả của nó như thế nào Simon và cộng sự giả sử rằng một AU là một sự kiện tồn tại trong một trình tự ảnh nhất định Vấn đề này sau đó được xây dựng như là xác định ranh giới của sự kiện AU hiện có Cách tiếp cận này cũng được khái quát hóa cho nhiều AU [48]

Hình 2-13 Đặc trưng BoW theo thời gian [8]

Thời gian BoW biểu diễn cho một tập con tùy ý của chuỗi hình ảnh với một biểu đồ duy nhất được tính như sau (Hình 2-13): 1) Mỗi khung trong tập hợp con được biểu diễn bằng đặc trưng SIFT và được nén với các phép phân tích thành phần chính để có được một vector khung, 2) Mỗi vector khung được mã hóa bằng cách

sử dụng mô hình BoW để đo lường sự tương tự bằng các vector đa điểm thông qua phân nhóm mềm [48] và 3) Tất cả các vector đã mã hóa được thu thập trong một biểu đồ mật độ

Độ nhạy của biễu diễn đối với các ảnh hưởng ánh sáng, lỗi đăng kí, sự thay đổi tư thế đầu tương tự như các biểu diễn SIFT Không giống như biểu diễn dựa trên phần (SIFT), thời gian BoW không mã hóa thông tin thành phần một cách rõ ràng Không giống như các biểu diễn đặc trưng không gian thời gian khác, đặc trung BoW theo thời gian không mã hóa biến đổi thời gian Kích thước phụ thuộc vào kích thước của từ vựng BoW Sự phức tạp tính toán của biểu diễn chủ yếu phụ

Trang 29

thuộc vào việc tìm kiếm được thực hiện trên từ vựng trực quan, đặc biệt là kích thước của từ vựng và sự phức tạp của thuật toán tìm kiếm

2.3 Hướng tiếp cận rút trích đặc trưng dựa vào gia ̉ m chiều

Giảm chiều có thể được sử dụng để giải quyết một số thách thức ảnh hưởng đến việc nhận dạng như lỗi đăng ký, biến ánh sáng Các thành phần làm giảm chiều có thể hoa ̣t đô ̣ng trên nhiều lớp, chẳng ha ̣n như giai đoa ̣n tiền xử lý (ví du ̣: giảm kích thước ảnh đầu vào, áp du ̣ng mă ̣t na ̣) và các lớp đă ̣c trưng bên trong Trong phần này, chúng tôi phân các kỹ thuật này thành 3 nhóm: phương pháp tổng hợp đặc trưng, phương pháp lựa cho ̣n đặc trưng và phương pháp rút trích đặc trưng

2.3.1 Phương pháp tổng hợp đặc trưng

Tổng hợp đặc trưng là một phương pháp giảm số chiều đặc trưng của các khối cục bộ bằng cách biểu diễn đặc trưng các khối trong mối liên kết với nhau Tổng hợp thường được áp du ̣ng trên nhiều khu nhỏ giao nhau trên ảnh Có nhiều kỹ thuâ ̣t tổng hợp khác nhau, chẳng ha ̣n như gắn kết các đặc trưng thông qua biểu đồ mật độ cục bộ, lấy mẫu giá trị tối thiểu hoă ̣c tối đa trong mô ̣t vùng lân cận hoă ̣c tính tổng, trung bình đặc trung trong vùng lân cận [49], [50] Ảnh hưởng của sự thay đổi ánh sáng thường được giải quyết bằng cách chuẩn hóa giá tri ̣ được tổng hợp

2.3.2 Phương pháp lựa chọn đặc trưng

Phương pháp này chọn ra mô ̣t tâ ̣p hợp con các đặc trưng và đánh trọng số cho những đặc trưng được chọn Quá trình xử lý này được thiết kế để có mô ̣t ngữ nghĩa nhất định, chẳng ha ̣n như khám phá không gian [51], [52] hoă ̣c không gian – thời gian [53] khu vực quan tâm Lựa cho ̣n tính năng có thể áp dụng với một nhóm

kỹ thuật Một hình thức đơn giản là cho ̣n và đánh trọng số thủ công cho một số vùng [51] Hầu hết hê ̣ thống lựa chọn dựa vào kỹ thuật boosting AdaBoost và GentleBoost [54] là các kỹ thuật boosting phổ biến nhất

Trang 30

cả các phương pháp được mô tả ở trên yêu cầu các mẫu đầu vào phải được định hình dưới dạng vector Điều này dẫn đến một không gian vector lớn và tốn nhiều thời gian để tính các vector riêng của một ma trận hiệp phương sai lớn Các nghiên cứu gần đây đang tìm cách trích xuất các đặc trưng trực tiếp trên các mẫu ảnh, tức

là sự đại diện của một mẫu ảnh được giữ lại dưới dạng ma trận Dựa vào ý tưởng này, một số thuật toán nổi tiếng được phát triển, bao gồm phân tích thành phần chính hai chiều (2D-PCA) [59] [60], phân tích tách lớp tuyến tính hai chiều (2D-LDA) [61], và phân tích tách lớp tuyến tính hai chiều theo dòng và theo cột ((2D)2LDA) [62-63] Trong các hướng tiếp cận này, hướng tiếp cận (2D)2LDA cho đặc trưng có kích thước nhỏ và có tính tách lớp cao do vậy đạt hiệu năng nhận dạng cao

2.4 Bàn luận

Như vậy, thông qua việc khảo sát các công trình nghiên cứu liên quan, chúng tôi nhận thấy rằng: (1) Hướng tiếp cận dựa vào bộ lọc Gabor cho đặc trưng bền vững với sự biến đổi ánh sáng và đặc trưng này thường được sử dụng cho việc nhận dạng mặt người (2) Hướng tiếp cận giảm số chiều dựa vào chiếu không gian con (2D)2LDA cho đặc trưng thống kê có tính phân biệt cao giữa các lớp đối tượng Do vậy, phương pháp nghiên cứu của đề tài là kết hợp hai hướng tiếp cận này để rút

Ngày đăng: 10/02/2020, 07:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w