Đánh giá hiệu năng máy vector hỗ trợ sử dụng hàm nhân radial basic trong hệ thống nhận dạng khuôn mặt sử dụng khối trích xuất PCA-LDA

Bài viết trình bày phương pháp hiệu quả để nhận dạng khuôn mặt được trình bày để giải quyết tốt sự biến đổi về biểu cảm khuôn mặt, tư thế mặt, và điều kiện chiếu sáng. Phương pháp này được dựa trên sự kết hợp giữa Phân tích thành phần chính (PCA), Phân tích sự khác biệt tuyến tính (LDA) và máy vector hỗ trợ (SVM) sử dụng hàm Radial Basic (RBF). Mời các bạn cùng tham khảo!

Trang 1

Đánh Giá Hiệu Năng Máy Vector Hỗ Trợ Sử Dụng Hàm Nhân Radial Basic trong Hệ Thống Nhận Dạng Khuôn Mặt Sử Dụng Khối Trích

Xuất PCA-LDA

Phạm Văn Tuấn∗, Hà Xuân Cường∗, Hồ Đức Trung∗

∗ Trung tâm Xuất Sắc Đại học Bách Khoa Đà Nẵng

Đà Nẵng, Việt Nam Email: pvtuan@dut.udn.vn, haxuancuong187@gmail.com, trunghoduc_1992@yahoo.com.vn

Tóm tắt—Trong bài báo này, một phương pháp hiệu quả

để nhận dạng khuôn mặt được trình bày để giải quyết tốt

sự biến đổi về biểu cảm khuôn mặt, tư thế mặt, và điều kiện

chiếu sáng Phương pháp này được dựa trên sự kết hợp giữa

Phân tích thành phần chính (PCA), Phân tích sự khác biệt

tuyến tính (LDA) và máy vector hỗ trợ (SVM) sử dụng hàm

Radial Basic (RBF) Các thử nghiệm đã được tiến hành trên

tập cơ sở dữ liệu hình ảnh: Grimace, Sheffield, và Yale B

mở rộng (Extended Yale B) Hiệu năng của phương pháp

được đề xuất cũng được so sánh với ba phương pháp khác,

đó là: PCA và RBF SVM, PCA và Linear SVM, PCA-LDA

và Linear SVM Kết quả đã chỉ ra rằng, phương pháp sử

dụng PCA-LDA và RBF SVM cho kết quả nhận dạng cao

và đáng tin cậy đối với sự thay đổi về biểu cảm khuôn mặt,

tư thế mặt, và điều kiện chiếu sáng.

Từ khóa—Phân tích thành phần chính, Phân tích sự khác

biệt tuyến tính, Máy vector hỗ trợ, Hàm Radial Basic, Máy

vector hỗ trợ tuyến tính.

I ĐẶT VẤN ĐỀ Nhận dạng khuôn mặt là một trong lĩnh vực nghiên cứu

tiên phong có nhiều ứng dụng trong thực tiễn, thí dụ: hệ

thống tương tác giữa người và máy, cỗ máy tìm kiếm, hệ

thống theo dõi, hệ thống đăng nhập, Một hệ thống nhận

dạng khuôn mặt tốt phải đạt được các yêu cầu sau: độ

chính xác cao, đáp ứng thời gian thực, ít bị ảnh hưởng bởi

các điều kiện bên ngoài (biểu cảm khuôn mặt, tư thế mặt,

điều kiện chiếu sáng, )

Trong những năm gần đây, SVM nổi lên như một

phương pháp đầy hứa hẹn cho việc phân loại khuôn

mặt [1], [2] Trong số các thuật toán trích xuất thuộc tính,

wavelet Gabor đã được thừa nhận là một phương pháp rất

mạnh khi phải đối mặt với sự thay đổi độ sáng, tư thế mặt

và biểu cảm khuôn mặt, theo nguồn từ [3] Nghiên cứu

ở [4] chỉ ra rằng sự kết hợp giữa Linear SVM và bộ lọc

Gabor đáp ứng tốt khi cần giải quyết nhiều mặt của việc

nhận dạng khuôn mặt Tuy vậy, wavelet Gabor yêu cầu

một lượng tính toán cực lớn Do đó, các hệ thống nhận

dạng khuôn mặt sử dụng wavelet Gabor thường rất chậm

Mặt khác, PCA và LDA là các phương pháp trích xuất thuộc tính cơ bản Hai hướng tiếp cận này có thể giúp giảm bớt đáng kể khối lượng tính toán cho hệ thống nhận dạng,

từ đó rút ngắn thời gian hoạt động Chỉ riêng PCA hoặc LDA cũng tạo ra hiệu năng tốt khi kết hợp với SVM [5], [6], [7]

Hình 1 Sơ đồ khối của hệ thống nhận dạng

Trong bài báo này, một nghiên cứu đối sánh được thực hiện để đánh giá hiệu năng của hệ thống nhận dạng sử dụng các phương pháp trích xuất thuộc tính cơ bản (PCA, LDA) cùng với SVM Sau khi tiến hành việc so sánh, hệ thống tốt nhất được đề xuất Hệ thống này phải có hiệu năng cao và đáng tin cậy khi phải đối mặt với sự thay đổi

về biểu cảm khuôn mặt, tư thế mặt, và điều kiện chiếu sáng Sơ đồ khối tổng quát của quy trình nhận dạng được

mô tả ở hình 1 PCA và sự kết hợp PCA-LDA được sử dụng làm phương pháp trích xuất thuộc tính Trong khối phân loại, có hai tùy chọn đó là Linear SVM và RBF SVM

Cấu trúc của bài báo như sau: Phần II trình bày các bước tiền xử lí ảnh, tiếp đó, PhầnIIImô tả các thuật toán trích xuất thuộc tính (PCA, và PCA-LDA) PhầnIVtrình bày kiến thức về SVM cũng như cách xây dựng một SVM nhiều lớp Kết quả thí nghiệm và phân tích được trình bày

ở Phần V Cuối cùng, kết luận và hướng phát triển được thảo luận ở PhầnVI

II TIỀN XỬ LÍ Các bước tiền xử lí ảnh được áp dụng trong nghiên cứu này được trình bày như sau:

• Cắt từ ảnh chụp gốc để lấy ảnh khuôn mặt

Trang 2

• Thay đổi kích thước ảnh thành 64x64

• Đổi ảnh màu sang ảnh xám

• Đổi ảnh xám sang vector ảnh

• Thường hóa các vector ảnh sao cho chúng có trung

bình 0 và độ lệch chuẩn 1

• Giãn cường độ sáng

III TRÍCH XUẤT THUỘC TÍNH

Phần này mô tả cách thức hoạt động của các phương

pháp trích xuất thuộc tính (PCA và LDA)

A Không gian PCA

Cho trước một ma trận dữ liệu X trong không gian

N-chiều trong đó mỗi vector cộtxi, i = 1, 2, , M biểu

diễn một ảnh (nói cách khác, cơ sở dữ liệu ảnh có M ảnh,

mỗi ảnh có N điểm ảnh), Phân Tích Thành Phần Chính

(PCA) có thể được sử dụng để tìm một không gian con

mà các vector cơ bản của nó tương ứng với các hướng

phương sai tối đa trong không gian ban đầu Để giai đoạn

nhận dạng theo sau giai đoạn trích xuất thuộc tính mạnh

hơn, chúng tôi đã thực hiện một số thay đổi sau:

• Thứ nhất, vector ảnh xi được chuẩn hoá sao cho

||x i || = 1 để đảm bảo hệ thống không bị ảnh hưởng

bởi cường độ ánh sáng chiếu vào

• Thứ hai, các ảnh đã được chuẩn hoá sẽ bị trừ đi trung

bình của tất cả các vector được chuẩn hoá để đảm

bảo rằng các eigenvectors ứng với các eigenvalues

lớn nhất biểu diễn các hướng trong eigenspace cùng

với phương sai của tất cả vector là tối đa về phương

diện tương quan, xi :=xi − ¯x, trong đó ¯x là vector

ảnh trung bình

Khi triển khai thuật toán PCA, chúng tôi rút ra một vài

nhận xét sau:

• Tập trung vào việc biểu diễn thông tin hơn là phân

loại, do đó nó tối ưu hơn cho việc biểu diễn

• Nhạy với các thay đổi về tư thế của đầu, vị trí, và

biểu cảm của mặt

• Kết quả nhận dạng khuôn mặt được tối ưu khi ba

eigenvector đầu tiên không được sử dụng (dường

như chúng được dùng để biểu diễn sự thay đổi độ

sáng) [9], nhưng nếu xoá chúng đi, kết quả nhìn chung

là giảm

B Không gian PCA-LDA

LDA tìm các vector trong không gian mà phân chia rõ

nhất các lớp (chứ không phải là mô tả dữ liệu tốt nhất

giống như của PCA)

Định nghĩa 1 Với một dữ liệu X cho trước, ma trận phân

tán cùng-lớp, kí hiệu là S w, được định nghĩa như sau:

c

j=1

N j

i=1

(x j

i − µ j)(x j

i − µ j)T

trong đó x j

i là mẫu thứ i trong lớp thứ j, µj là trung bình của lớp j, c là số các lớp, và Nj là số các mẫu trong lớp j.

Định nghĩa 2 Ma trận phân tán liên-lớp, kí hiệu là S b, được định nghĩa bởi:

Sb=

c

j=1 (µ j − µ)(µ j − µ) T trong đó µ biểu diễn trung bình của tất cả các lớp.

Mục tiêu của LDA là tìm các hướng mà tối đa giá trị phân tán liên-lớp đồng thời tối thiểu giá trị phân tán

cùng-lớp Tức là, tìm W mà tối thiểu được ||W S b W T ||

||W S w W T || Cần lưu

ý rằng:

• Cần ít nhất N + c mẫu để đảm bảo rằng ma trận S w không là ma trận đơn Tuy nhiên vì N rất lớn (với cỡ ảnh 64×64 trong hệ thống của chúng tôi, N = 4096)

nên điều này trở nên không khả thi đối với các ứng dụng thời gian thực

• Một hệ thống LDA thuần thường thể hiện không tốt lắm khi thử các mẫu thử không có trong cơ sở huấn luyện

Một vài kĩ thuật đã được đề xuất để giải quyết vấn đề này Trong [10], PCA được dùng làm không gian trung

gian Không gian N-chiều ban đầu trước tiên được chiếu xuống không gian I-chiều của PCA Kĩ thuật này do đó

được gọi là Phân Tích Khác Biệt của Thành Phần Cơ Bản trong nhận diện khuôn mặt Ý tưởng kết hợp PCA và LDA

là để tận dụng tính chất lưu giữ đặc trưng dữ liệu của PCA

và tính chất phân biệt dữ liệu của LDA

IV NHẬN DẠNG SỬ DỤNG SVM Trong đề tài này, SVM dựa trên hàm nhân Linear và hàm nhân RBF được xây dựng và được tiến hành thực nghiệm dựa trên bộ công cụ LIBSVM [11] Trước tiên, khái lược lý thuyết cơ bản về SVM trong bài toán phân loại nhị phân được trình bày [12] Sau đó, kỹ thuật này được mở rộng để giải quyết bài toán phân loại nhiều lớp

và áp dụng vào nhận diện khuôn mặt

A SVM trong bài toán phân loại nhị phân

SVM là một giải thuật máy học dựa trên lý thuyết học thống kê do Vapnik và Chervonenkis xây dựng Bài toán

cơ bản của SVM là bài toán phân loại nhị phân Cho tập mẫu xi, yi, i = 1, 2, , N trong đó xi ∈ R D và y i ∈ {1, −1} N, mục tiêu của thuật toán SVM là tìm một siêu phẳng phân cách sao cho khoảng cách lề giữa hai lớp đạt

cực đại Tức là chúng ta cần tìm siêu phẳng H : w·x+b =

0và hai siêu phẳng hỗ trợ H1, H2song song với H và có cùng khoảng cách đến H Với điều kiện không có phần

tử nào của tập mẫu nằm giữa H1 và H2, khi đó:

w · x i + b ≥ +1 với y i = +1

w · x i + b ≤ −1 với y i =−1

Trang 3

Hình 2 Minh hoạ thuật toán SVM

Khoảng cách lề giữa hai lớp là 2

||w|| Ta cần tìm siêu

phẳng H với lề lớn nhất, tức là giải bài toán tối ưu tìm

minw,b ||w|| với điều kiện y i(w · x i + b) ≥ 1 Tuy nhiên

cách làm như trên (được gọi là tìm lề cứng) chỉ thực hiện

được khi tập mẫu hoàn toàn phân tách tuyến tính được

Đối với những tập dữ liệu nhiễu, sẽ trường hợp có một

vài mẫu không phân lớp được nếu vẫn sử dụng lề cứng

Trong trường hợp này, lề mềm nên được tìm thay lề cứng

Sử dụng toán tử Lagrange cùng với một vài phép biến đổi,

vector pháp tuyếnw được biểu diễn như sau:

w =

N

i=1 yiαixi

Thuật toán SVM có thể được mở rộng cho trường hợp

tập mẫu không thể phân tách tuyến tính bằng cách ánh

xạ tập mẫu lên một không gian có số chiều lớn hơn bằng

cách sử dụng một hàm nhân K Một số hàm nhân hay

được sử dụng đó là:

Linear

K(xi,xj) =xT

i xj

Polynomial

K(xi,xj ) = (γxT

ixj + r) d , γ > 0

Radial Basic Function (RBF)

K(xi,xj) = exp(−γ||x i − x j ||2), γ > 0

Sigmoid

K(xi,xj ) = tanh(γxT

ixj + r)

B SVM trong bài toán phân loại nhiều lớp

Có vài phương pháp giúp mở rộng SVM cho bài toán

phân loại nhiều lớp Hai trong số đó là One-Against-One

(OAO) và One-Against-All (OAA) Đối với OAA, để giải

quyết một bài toán phân loại q-lớp với SVM, q SVM sẽ

được huấn luyện Mỗi SVM sẽ phân chia một lớp với tất

cả các lớp còn lại [12], [13] Đối với OAO, q(q −1)

sẽ được huấn luyện khi ta cần phân loại q lớp Mỗi SVM

sẽ lần lượt phân chia một cặp hai lớp

Trong công trình nghiên cứu này, OAO SVM được chọn

để phân loại khuôn mặt người vì phương pháp OAO dường

như tốn nhiều thời gian hơn phương pháp OAA nhưng lại

cho độ chính xác cao hơn [14], [15]

C Tối ưu hóa tham số của SVM

Trong phạm vi của bài báo này, tham số cần cho hàm

nhân Linear là C Đối với hàm nhân RBF, hai tham số cần được tối ưu là C và γ Quy trình cross-validation

được sử dụng để tìm các thông số tối ưu bởi vì nó có

thể ngăn cản vấn đề overfitting Trong quy trình k-fold cross-validation, tập huấn luyện sẽ được chia thành k

tập con có cùng kích thước Lần lượt, từng tập con sẽ được thử với máy phân loại đã được huấn luyện dựa trên

k − 1 tập con còn lại Do đó, mỗi mẫu trong tập huấn

luyện đều sẽ được kiểm tra một lần nên độ chính xác của cross-validation chính là phần trăm của dữ liệu được

phân loại đúng Trong thực tế, k được chọn là 5, còn

C và γ được chọn bằng thuật toán đơn giản tìm lưới

(grid search), cụ thể là log2C ∈ {−5, −4, , 15} và

log2γ ∈ {−15, −14, , 3} [16], [17], [18]

V ĐÁNH GIÁ Trong bài báo này, hệ thống nhận diện khuôn mặt được đánh giá dựa trên ba tập cơ sở dữ liệu, với hai mô hình huấn luyện và ba kịch bản kiểm tra Cuối cùng hiệu suất nhân dạng và độ tin cậy của hệ thống được so sánh theo các trường hợp sau:

• Sự kết hợp giữa PCA và Linear SVM

• Sự kết hợp giữa PCA và RBF SVM

• Sự kết hợp giữa PCA-LDA và Linear SVM

• Sự kết hợp giữa PCA-LDA và RBF SVM

A Cơ sở dữ liệu

• Grimace [19]: từ 18 người, mỗi người gồm 20 ảnh với góc chụp cố định là nhìn thẳng Các bức ảnh mô

tả mức độ tăng dần về cảm xúc và biểu cảm khuôn mặt Các sự thay đổi khác là không đáng kể

• Sheffield [20]: có tổng cộng 573 ảnh được chụp từ 20 người (đa dạng về chủng tộc/giới tính/vẻ bề ngoài) Tập ảnh của mỗi người có sự thay đổi chủ yếu về góc lệch giữa khuôn mặt và máy chụp theo phương ngang

• Extended YaleB (YaleB+) [21]: bài báo này chỉ sử dụng 1538/5760 ảnh của 10 đối tượng với sự khác biệt đáng kể về điều kiện chiếu sáng, tư thế mặt thay đổi rất ít

B Mô hình huấn luyện và kịch bản kiểm tra

Hệ thống được huấn luyện dưới hai mô hình được gọi là Clean model (CM) và Noisy model (NM) CM bao gồm các ảnh khuôn mặt nhìn thẳng và khuôn mặt không có biểu cảm NM bao gồm các ảnh khuôn mặt có sự thay đổi

về góc nhìn so với máy chụp và các khuôn mặt có sự biểu cảm Với mỗi mô hình huấn luyện, hệ thống được kiểm tra dưới ba kịch bản: Well-Matched (WM), Medium-Matched (MM) and Highly-Mismatched (HM) Dữ liệu kiểm tra

WM là một tập các ảnh tương tự với các ảnh huấn luyện

Dữ liệu kiểm tra MM bao gồm các ảnh có sự khác biệt một phần về biểu cảm và tư thế khuôn mặt so với các ảnh

Trang 4

Bảng I

Trạng thái Cho phép Từ chối Loại đối tượng Không thẩm quyền (N) False (F) True (T)

Có thẩm quyền (P) True (T) False (F)

huấn luyện Với trường hợp HM, tập ảnh kiểm tra bao gồm

các ảnh về biểu cảm và tư thế có sự khác biệt rất lớn so

với tập ảnh huấn luyện

C Tiêu chí đánh giá

Để đánh giá sự hiệu quả của hệ thống, ba đại lượng

được sử dụng đó là : Recall, Equal Error Rate (EER) và

Accuracy (ACC)

1) Recall: đại lượng này được sử dụng khi một phần

của cơ sở dữ liệu được dùng cho việc huấn luyện, phần

còn lại được dùng cho việc kiểm tra Tập ảnh kiểm tra sẽ

không có sự hiện diện của các bức ảnh chứa khuôn mặt

của những người lạ Recall = Số lần nhận diện đúngTổng số lần nhận diện

2) EER: : Với sự xuất hiện của người lạ, hệ thống sẽ

sử dụng một chỉ số gọi là ngưỡng (threshold) để quyết

định người đó có được chấp nhận hay không Bảng I là

ma trận phân loại cho hai loại đối tượng với P đại diện

cho người không có thẩm quyền và N đại diện cho người

có thẩm quyền Dựa vào bảngI, số lần người không có

thẩm quyền được hệ thống cho qua là FN Tương tự, ta

rút ra định nghĩa của TN, TP, và FP Tỉ lệ chấp nhận sai

(FAR - False Acceptance Rate) là tỉ lệ một người không

có thẩm quyền bị chấp nhận sai bởi hệ thống Tỉ lệ từ

chối sai (FRR - False Rejection Rate) là tỉ lệ một người

có thẩm quyền bị từ chối bởi hệ thống FAR và FRR được

tính theo công thức:

T P + F P , F AR =

F N

T N + F N

Với các ngưỡng khác nhau, FAR và FRR sẽ cho các giá

trị tương ứng EER được định nghĩa là giao điểm của hai

đường FAR và FRR

3) ACC: ACC là tỉ lệ mà hệ thống nhận diện đúng các

đối tượng Nó được tính theo công thức:

T P + F P + T N + F N

D Kết quả và phân tích

1) Với mục đích nhận dạng: Đầu tiên, mức độ hiệu quả

của bốn hệ thống được xem xét khi nhu cầu của người

dùng là để xác định đúng danh tính của những đối tượng

có trong cơ sở dữ liệu (không có sự tấn công của người

lạ) BảngII trình bày tỉ lệ nhận dạng đúng khi hệ thống

được thử trên ba tập cơ sở dữ liệu với độ khó tăng dần

Bảng II

Cơ sở dữ liệu

Kịch bản kiểm tra

Hệ thống PCA kết

hợp RBF SVM

PCA kết hợp Linear SVM

PCA-LDA kết hợp RBF SVM

PCA-LDA kết hợp Linear SVM

Gri-mace WMMM 9697 4082 100 10097 100 100 10097 100 100 10097 100

Shef-field MMHM 8664 100100 8364 100100 7931 10090 9574 100100

YaleB-ext

WM 100 18 100 18 100 93 100 100

a) Sự phụ thuộc vào thuật toán trích xuất thuộc tính:

Đối với tập cơ sở dữ liệu đơn giản nhất là Grimace, PCA

và PCA-LDA cho hiệu quả cao và gần như tương đương Đối với tập dữ liệu có sự thay đổi đáng kể về góc khuôn mặt (Sheffield), PCA vẫn cho kết quả cao nhưng PCA-LDA cho kết quả tốt hơn Đối với tập cơ sở dữ liệu phức tạp nhất (Extended Yale B), khi có sự thay đổi khắc nghiệt

về điều kiện chiếu sáng, PCA-LDA cho thấy sự vượt trội hoàn toàn so với PCA Kết quả kiểm tra của PCA-LDA với NM là rất cao trong khi kết quả của PCA là rất thấp

b) Sự phụ thuộc vào hàm nhân: Dựa vào các kết

quả thể hiện trên bảngII, rõ ràng rằng Linear SVM cho

độ chính xác cao hơn so với RBF SVM trong hầu hết các trường hợp Đặc biệt, sự kết hợp giữa PCA-LDA và Linear SVM tạo ra hệ thống tốt nhất bởi vì nó cho kết cả cao nhất gần như trong tất cả các trường hợp

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 PCA, linear, grimace, Noisy Model, WM, 1, 0, 0.98095, 0.016667

Threshold

FAR

Hình 3 EER của PCA-Linear SVM được kiểm tra với Grimace-NM-WM (số cuối cùng, EER = 0.016)

c) Sự phụ thuộc vào mô hình huấn luyện: Trong bài

báo này, sự hiệu quả của bốn hệ thống được nghiên cứu

Trang 5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 PCA−LDA, linear, grimace, Noisy Model, WM, 1, 0.11667, 1, 0

Threshold

FAR

Hình 4 EER của PCA-LDA-Linear SVM được kiểm tra với

Grimace-NM-WM (số cuối cùng, EER = 0)

dựa trên hai mô hình huấn luyện là CM và NM Các kết

quả thu được cho thấy rằng tỉ lệ nhận dạng của NM tốt

hơn so với tỉ lệ nhận dạng của CM Điều này là hợp lý

bởi vì với NM, hệ thống được học với các ảnh huấn luyện

có sự thay đổi đa dạng Tuy nhiên, cần lưu ý rằng PCA

dường như hoạt động rất tốt với CM Khi được kiểm tra

với tập cơ sở dữ liệu khó nhất là Extended Yale B, PCA

luôn mang lại hiệu suất nhận dạng cao hơn đối với trường

hợp sử dụng CM Trong một vài trường hợp, cụ thể là khi

các ảnh kiểm tra thuộc tập WM và MM được sử dụng

để kiểm tra CM của tập cơ sở dữ liệu Extended Yale B,

PCA thậm chí vượt trội so với PCA-LDA Sau khi xem

xét các phân tích trên, một đề xuất được nêu ra đó là PCA

thích hợp cho các tập cơ sở dữ liệu đơn giản: không có

sự thay đổi khắc nghiệt về điều kiện chiếu sáng và có số

lượng ít các ảnh của mỗi đối tượng Công trình nghiên

cứu trong [22] có thể phần nào chứng minh được đề xuất

này

2) Với mục đích bảo mật: Mức độ hiệu quả mà hệ

thống có thể mang lại được xem xét khi có sự hiện diện

của những đối tượng lạ không có trong cơ sở dữ liệu

EER và ACC được dùng để đánh giá độ tin cậy của các

hệ thống

a) Sự phụ thuộc vào thuật toán trích xuất thuộc tính:

Các hệ thống sử dụng PCA hoạt động khá tốt với tập

Grimace và Sheffield Chúng cho kết quả EER thấp và

hiệu suất nhận dạng cao khi được thử với NM Với cơ sở

dữ liệu lớn có sự thay đổi khắc nghiệt về điều kiện chiếu

sáng (Extended YaleB), PCA tỏ ra không đáng tin cậy

Các hệ thống sử dụng PCA chỉ cho kết quả EER thấp và

hiệu suất nhận dạng cao khi tập ảnh kiểm tra WM và MM

được thử với CM Kết quả trong bảngIIIvà bảngIVmột

lần nữa củng cố đề xuất rằng PCA chỉ nên được sử dụng

cho các tập dữ liệu không có những sự thay đổi lớn và

những tập dữ liệu có số lượng ảnh nhỏ Ngược lại, các

hệ thống sử dụng PCA-LDA thì ổn định và đáng tin cậy

Chúng hoạt động tốt với cả ba tập cơ sở dữ liệu Trong

Bảng III

hợp RBF SVM

Gri-mace WMMM 0.13 0.510.10 0.26 0.02 0.020.05 0.03 0.00 0.000.04 0.00 0.05 0.000.17 0.01

Shef-field MMHM 0.27 0.160.36 0.16 0.25 0.110.40 0.16 0.28 0.000.50 0.08 0.25 0.220.55 0.25

YaleB-ext

WM 0.02 0.57 0.00 0.55 0.00 0.09 0.02 0.05

MM 0.12 0.66 0.13 0.66 0.33 0.12 0.23 0.16

HM 0.58 0.60 0.59 0.60 0.55 0.18 0.33 0.18

Bảng IV

hợp RBF SVM

Gri-mace WMMM 8891 3782 9895 9895 100 10097 100 9683 10099

Shef-field MMHM 7463 8584 7459 8886 8353 10095 7742 8076

YaleB-ext

WM 98 42 100 46 100 94 98 95

hầu hết các trường hợp, PCA-LDA cho kết quả EER và

độ chính xác tốt hơn so với PCA Hình3và hình 4minh họa cho các kết quả này

b) Sự phụ thuộc vào hàm nhân: Linear SVM cho

thấy hiệu quả tốt hơn so với RBF SVM khi chúng được kết hợp với PCA Tuy nhiên, RBF SVM lại cho kết quả EER và độ chính xác tốt hơn so với Linear SVM khi chúng kết hợp với PCA-LDA Hệ thống sử dụng PCA-LDA và RBF SVM cũng là hệ thống đáng tin cậy nhất trong tất cả bốn hệ thống Với yêu cầu về tính bảo mật, PCA-LDA và RBF SVM vượt trội hơn so với hệ thống sử dụng PCA-LDA và Linear SVM

c) Sự phụ thuộc vào mô hình huấn luyện: Tương tự,

các kết quả trong bảng III và bảng IV một lần nữa cho thấy NM nổi trội hơn so với CM khi độ tin cậy của các

hệ thống được xét đến

Trang 6

VI KẾT LUẬN Một vài hệ thống nhận dạng khuôn mặt đã được xây

dựng bằng việc kết hợp các phương pháp trích xuất thuộc

tính và các hàm nhân trong khối nhận dạng Các hệ thống

này được kiểm tra với nhiều cơ sở dữ liệu ảnh dưới nhiều

mức độ khác nhau của yêu cầu an ninh Khi hiệu suất nhận

dạng được ưu tiên, sự kết hợp PCA-LDA và Linear SVM

là hệ thống tốt nhất, theo sau là PCA-LDA và RBF SVM

Tuy nhiên, khi sự tin cậy của hệ thống được ưu tiên, hệ

thống sử dụng PCA-LDA và RBF SVM vượt trội hệ thống

sử dụng PCA-LDA và Linear SVM Trong ứng dụng thời

gian thực, mục đích và môi trường sử dụng của hệ thống

nhận dạng khuôn mặt cần được xem xét kĩ lưỡng Tuy

nhiên, trong thí nghiệm này, hệ thống sử dụng PCA-LDA

và RBF SVM được đề xuất, với những điều kiện về cơ sở

dữ liệu và yêu cầu cho trước Về mặt tính chất của hình

ảnh, hệ thống đã nêu có thể xử lí được những thay đổi về

điều kiện chiếu sáng, tư thế mặt, và biểu cảm khuôn mặt

Thời gian kiểm tra là rất ngắn trên máy tính cá nhân, do

đó hệ thống có thể đáp ứng được yêu cầu của một ứng

dụng thời gian thực

Mục tiêu cuối cùng của bài báo này là xây dựng được

một hệ thống nhận dạng khuôn mặt hiệu quả và đáng tin

cậy với thành phần cốt lõi là SVM Một vài khó khăn cần

phải vượt qua là: a) nghiên cứu thêm về các phương pháp

trích xuất thuộc tính khác: PCA-LDA hoạt động có hiệu

quả, nhưng nó là phương pháp cơ bản b) nghiên cứu bản

chất của SVM: trong bài báo này, SVM được dùng như

một công cụ với các tham số Trong tương lai, cần xem

xét việc sử dụng các hàm nhân mới

TÀI LIỆU THAM KHẢO

[1] Juneja, Komal, An improvement on face recognition rate using local

tetra patterns with support vector machine under varying

illumina-tion condiillumina-tions, IEEE Computing, 2015 Internaillumina-tional Conference

on Communication & Automation (ICCCA), India, pp 1079 –

1084, May 2015.

[2] Jia Jun Zhang, Yu Ting Shi, Face recognition systems based on

independent component analysis and support vector machine,

IEEE 2014 International Conference on Audio, Language and

Image Processing (ICALIP), Shanghai, pp 296 – 300, July 2014.

[3] F.Ahmad Bhat, M Arif Wani, Gabor wavelet based face recognition

under varying lighting, pose and expression conditions, IEEE

2015 2nd International Conference on Computing for Sustainable

Global Development (INDIACom), New Delhi, pp 1314 – 1318,

March 2015.

[4] G Majumder, M K Bhowmik, Gabor-Fast ICA Feature Extraction for Thermal Face Recognition Using Linear Kernel Support Vector Machine, IEEE 2015 International Conference on Computational

Intelligence and Networks (CINE), Bhubaneshwar, pp 21 – 25, Jan 2015.

[5] Chengliang Wang, Libin Lan, Yuwei Zhang, and Minjie Gu, Face Recognition Based on Principal Component Analysis and Sup-port Vector Machine, IEEE 2011 3rd International Workshop on

Intelligent Systems and Applications (ISA), Wuhan, pp 1 – 4, May 2011.

[6] S L Happy, A Routray, Robust facial expression classification using shape and appearance features, IEEE 2015 Eighth

Interna-tional Conference on Advances in Pattern Recognition (ICAPR), Kolkata, pp 1 – 5, Jan 2015.

[7] Abdulrahman, Muzammil, Eleyan, and Alaa, Facial expression recog-nition using Support Vector Machines, IEEE Signal Processing

and Communications Applications Conference (SIU), 2015 23th, Malatya, Turkey, pp 276 – 279, May 2015.

[8] M Turk and A Pentland, Eigenface for Recognition, Journal of

Cognitive Neuroscience, vol 3, no 1, pp 71-86, 1991 [9] A Pentland, T Starner, N Etcoff, N Masoiu, O Oliyide, and M Turk,

Experiments with Eigenfaces, Proc Looking at People Workshop

Int’l Joint Conf Artificial Intelligence, Aug 1993.

[10] P N Belhumeror, J.P Hespanha, and D.J Kriegman, Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection,

IEEE Trans Pattern Analysis and Machine Intelligence, vol 19,

no 7, pp 711-720, 1997.

[11] LIBSVM – A Library for Support Vector Machines, [online] Avail-able: http://www.csie.ntu.edu.tw/~cjlin/libsvm/

[12] C Cortes and V Vapnik, “Support vector networks,” Machine Learning, 1995

[13] B Scholkopf, C Burges, and V Vapnik Extracting support data for a given task in U Fayyad and R Uthurusamy, editors, Proceedings

of the First International Conference on Knowledge Discovery and Data Mining, Menlo Park, CA, 1995 AAAI Press.

[14] Ben Aisen, A Comparison of Multiclass SVM Methods, December 15,

2006.

[15] R Kyle Eichelberger, Victor S Sheng, Does Against-All or One-Against-One Improve the Performance of Multiclass Classifica-tions?, Proceedings of the Twenty-Seventh AAAI Conference on

Artificial Intelligence.

[16] Carl Staelin, Parameter selection for support vector machines, HP

Laboratories Israel, November 2003.

[17] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, A practical guide to support vector classification, April 2010.

[18] Zhigang Yan, Yuanxuan Yang and Yunjing Ding, An experimental study of the hyper-parameters distribution region and its optimiza-tion method for support vector machine with Gaussian Kernel,

International Journal of Signal Processing, Image Processing and Pattern Recognition, Vol.6, No.5 (2013), pp.437-446, 2013 [19] Essex Grimace Database, [Online] Available: http://cswww.essex.ac uk/mv/allfaces/grimace.html

[20] Sheffield Face Database, [Online] Available: http://www.sheffield.ac uk/eee/research/iel/research/face

[21] Extended Yale B Database, [Online] Available: http://www.vision ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

[22] Aleix M MartoAnez and Avinash C Kak, PCA versus LDA, IEEE

Transactions on Pattern Analysis and Machine Intelligence, vol.

23, no 2, pp 228-233, February 2001.

Định dạng
Số trang	6
Dung lượng	353,31 KB