Bài viết trình bày phương pháp hiệu quả để nhận dạng khuôn mặt được trình bày để giải quyết tốt sự biến đổi về biểu cảm khuôn mặt, tư thế mặt, và điều kiện chiếu sáng. Phương pháp này được dựa trên sự kết hợp giữa Phân tích thành phần chính (PCA), Phân tích sự khác biệt tuyến tính (LDA) và máy vector hỗ trợ (SVM) sử dụng hàm Radial Basic (RBF). Mời các bạn cùng tham khảo!
Trang 1Đánh Giá Hiệu Năng Máy Vector Hỗ Trợ Sử Dụng Hàm Nhân Radial Basic trong Hệ Thống Nhận Dạng Khuôn Mặt Sử Dụng Khối Trích
Xuất PCA-LDA
Phạm Văn Tuấn∗, Hà Xuân Cường∗, Hồ Đức Trung∗
∗ Trung tâm Xuất Sắc Đại học Bách Khoa Đà Nẵng
Đà Nẵng, Việt Nam Email: pvtuan@dut.udn.vn, haxuancuong187@gmail.com, trunghoduc_1992@yahoo.com.vn
Tóm tắt—Trong bài báo này, một phương pháp hiệu quả
để nhận dạng khuôn mặt được trình bày để giải quyết tốt
sự biến đổi về biểu cảm khuôn mặt, tư thế mặt, và điều kiện
chiếu sáng Phương pháp này được dựa trên sự kết hợp giữa
Phân tích thành phần chính (PCA), Phân tích sự khác biệt
tuyến tính (LDA) và máy vector hỗ trợ (SVM) sử dụng hàm
Radial Basic (RBF) Các thử nghiệm đã được tiến hành trên
tập cơ sở dữ liệu hình ảnh: Grimace, Sheffield, và Yale B
mở rộng (Extended Yale B) Hiệu năng của phương pháp
được đề xuất cũng được so sánh với ba phương pháp khác,
đó là: PCA và RBF SVM, PCA và Linear SVM, PCA-LDA
và Linear SVM Kết quả đã chỉ ra rằng, phương pháp sử
dụng PCA-LDA và RBF SVM cho kết quả nhận dạng cao
và đáng tin cậy đối với sự thay đổi về biểu cảm khuôn mặt,
tư thế mặt, và điều kiện chiếu sáng.
Từ khóa—Phân tích thành phần chính, Phân tích sự khác
biệt tuyến tính, Máy vector hỗ trợ, Hàm Radial Basic, Máy
vector hỗ trợ tuyến tính.
I ĐẶT VẤN ĐỀ Nhận dạng khuôn mặt là một trong lĩnh vực nghiên cứu
tiên phong có nhiều ứng dụng trong thực tiễn, thí dụ: hệ
thống tương tác giữa người và máy, cỗ máy tìm kiếm, hệ
thống theo dõi, hệ thống đăng nhập, Một hệ thống nhận
dạng khuôn mặt tốt phải đạt được các yêu cầu sau: độ
chính xác cao, đáp ứng thời gian thực, ít bị ảnh hưởng bởi
các điều kiện bên ngoài (biểu cảm khuôn mặt, tư thế mặt,
điều kiện chiếu sáng, )
Trong những năm gần đây, SVM nổi lên như một
phương pháp đầy hứa hẹn cho việc phân loại khuôn
mặt [1], [2] Trong số các thuật toán trích xuất thuộc tính,
wavelet Gabor đã được thừa nhận là một phương pháp rất
mạnh khi phải đối mặt với sự thay đổi độ sáng, tư thế mặt
và biểu cảm khuôn mặt, theo nguồn từ [3] Nghiên cứu
ở [4] chỉ ra rằng sự kết hợp giữa Linear SVM và bộ lọc
Gabor đáp ứng tốt khi cần giải quyết nhiều mặt của việc
nhận dạng khuôn mặt Tuy vậy, wavelet Gabor yêu cầu
một lượng tính toán cực lớn Do đó, các hệ thống nhận
dạng khuôn mặt sử dụng wavelet Gabor thường rất chậm
Mặt khác, PCA và LDA là các phương pháp trích xuất thuộc tính cơ bản Hai hướng tiếp cận này có thể giúp giảm bớt đáng kể khối lượng tính toán cho hệ thống nhận dạng,
từ đó rút ngắn thời gian hoạt động Chỉ riêng PCA hoặc LDA cũng tạo ra hiệu năng tốt khi kết hợp với SVM [5], [6], [7]
Hình 1 Sơ đồ khối của hệ thống nhận dạng
Trong bài báo này, một nghiên cứu đối sánh được thực hiện để đánh giá hiệu năng của hệ thống nhận dạng sử dụng các phương pháp trích xuất thuộc tính cơ bản (PCA, LDA) cùng với SVM Sau khi tiến hành việc so sánh, hệ thống tốt nhất được đề xuất Hệ thống này phải có hiệu năng cao và đáng tin cậy khi phải đối mặt với sự thay đổi
về biểu cảm khuôn mặt, tư thế mặt, và điều kiện chiếu sáng Sơ đồ khối tổng quát của quy trình nhận dạng được
mô tả ở hình 1 PCA và sự kết hợp PCA-LDA được sử dụng làm phương pháp trích xuất thuộc tính Trong khối phân loại, có hai tùy chọn đó là Linear SVM và RBF SVM
Cấu trúc của bài báo như sau: Phần II trình bày các bước tiền xử lí ảnh, tiếp đó, PhầnIIImô tả các thuật toán trích xuất thuộc tính (PCA, và PCA-LDA) PhầnIVtrình bày kiến thức về SVM cũng như cách xây dựng một SVM nhiều lớp Kết quả thí nghiệm và phân tích được trình bày
ở Phần V Cuối cùng, kết luận và hướng phát triển được thảo luận ở PhầnVI
II TIỀN XỬ LÍ Các bước tiền xử lí ảnh được áp dụng trong nghiên cứu này được trình bày như sau:
• Cắt từ ảnh chụp gốc để lấy ảnh khuôn mặt
Trang 2• Thay đổi kích thước ảnh thành 64x64
• Đổi ảnh màu sang ảnh xám
• Đổi ảnh xám sang vector ảnh
• Thường hóa các vector ảnh sao cho chúng có trung
bình 0 và độ lệch chuẩn 1
• Giãn cường độ sáng
III TRÍCH XUẤT THUỘC TÍNH
Phần này mô tả cách thức hoạt động của các phương
pháp trích xuất thuộc tính (PCA và LDA)
A Không gian PCA
Cho trước một ma trận dữ liệu X trong không gian
N-chiều trong đó mỗi vector cộtxi, i = 1, 2, , M biểu
diễn một ảnh (nói cách khác, cơ sở dữ liệu ảnh có M ảnh,
mỗi ảnh có N điểm ảnh), Phân Tích Thành Phần Chính
(PCA) có thể được sử dụng để tìm một không gian con
mà các vector cơ bản của nó tương ứng với các hướng
phương sai tối đa trong không gian ban đầu Để giai đoạn
nhận dạng theo sau giai đoạn trích xuất thuộc tính mạnh
hơn, chúng tôi đã thực hiện một số thay đổi sau:
• Thứ nhất, vector ảnh xi được chuẩn hoá sao cho
||x i || = 1 để đảm bảo hệ thống không bị ảnh hưởng
bởi cường độ ánh sáng chiếu vào
• Thứ hai, các ảnh đã được chuẩn hoá sẽ bị trừ đi trung
bình của tất cả các vector được chuẩn hoá để đảm
bảo rằng các eigenvectors ứng với các eigenvalues
lớn nhất biểu diễn các hướng trong eigenspace cùng
với phương sai của tất cả vector là tối đa về phương
diện tương quan, xi :=xi − ¯x, trong đó ¯x là vector
ảnh trung bình
Khi triển khai thuật toán PCA, chúng tôi rút ra một vài
nhận xét sau:
• Tập trung vào việc biểu diễn thông tin hơn là phân
loại, do đó nó tối ưu hơn cho việc biểu diễn
• Nhạy với các thay đổi về tư thế của đầu, vị trí, và
biểu cảm của mặt
• Kết quả nhận dạng khuôn mặt được tối ưu khi ba
eigenvector đầu tiên không được sử dụng (dường
như chúng được dùng để biểu diễn sự thay đổi độ
sáng) [9], nhưng nếu xoá chúng đi, kết quả nhìn chung
là giảm
B Không gian PCA-LDA
LDA tìm các vector trong không gian mà phân chia rõ
nhất các lớp (chứ không phải là mô tả dữ liệu tốt nhất
giống như của PCA)
Định nghĩa 1 Với một dữ liệu X cho trước, ma trận phân
tán cùng-lớp, kí hiệu là S w, được định nghĩa như sau:
c
j=1
N j
i=1
(x j
i − µ j)(x j
i − µ j)T
trong đó x j
i là mẫu thứ i trong lớp thứ j, µj là trung bình của lớp j, c là số các lớp, và Nj là số các mẫu trong lớp j.
Định nghĩa 2 Ma trận phân tán liên-lớp, kí hiệu là S b, được định nghĩa bởi:
Sb=
c
j=1 (µ j − µ)(µ j − µ) T trong đó µ biểu diễn trung bình của tất cả các lớp.
Mục tiêu của LDA là tìm các hướng mà tối đa giá trị phân tán liên-lớp đồng thời tối thiểu giá trị phân tán
cùng-lớp Tức là, tìm W mà tối thiểu được ||W S b W T ||
||W S w W T || Cần lưu
ý rằng:
• Cần ít nhất N + c mẫu để đảm bảo rằng ma trận S w không là ma trận đơn Tuy nhiên vì N rất lớn (với cỡ ảnh 64×64 trong hệ thống của chúng tôi, N = 4096)
nên điều này trở nên không khả thi đối với các ứng dụng thời gian thực
• Một hệ thống LDA thuần thường thể hiện không tốt lắm khi thử các mẫu thử không có trong cơ sở huấn luyện
Một vài kĩ thuật đã được đề xuất để giải quyết vấn đề này Trong [10], PCA được dùng làm không gian trung
gian Không gian N-chiều ban đầu trước tiên được chiếu xuống không gian I-chiều của PCA Kĩ thuật này do đó
được gọi là Phân Tích Khác Biệt của Thành Phần Cơ Bản trong nhận diện khuôn mặt Ý tưởng kết hợp PCA và LDA
là để tận dụng tính chất lưu giữ đặc trưng dữ liệu của PCA
và tính chất phân biệt dữ liệu của LDA
IV NHẬN DẠNG SỬ DỤNG SVM Trong đề tài này, SVM dựa trên hàm nhân Linear và hàm nhân RBF được xây dựng và được tiến hành thực nghiệm dựa trên bộ công cụ LIBSVM [11] Trước tiên, khái lược lý thuyết cơ bản về SVM trong bài toán phân loại nhị phân được trình bày [12] Sau đó, kỹ thuật này được mở rộng để giải quyết bài toán phân loại nhiều lớp
và áp dụng vào nhận diện khuôn mặt
A SVM trong bài toán phân loại nhị phân
SVM là một giải thuật máy học dựa trên lý thuyết học thống kê do Vapnik và Chervonenkis xây dựng Bài toán
cơ bản của SVM là bài toán phân loại nhị phân Cho tập mẫu xi, yi, i = 1, 2, , N trong đó xi ∈ R D và y i ∈ {1, −1} N, mục tiêu của thuật toán SVM là tìm một siêu phẳng phân cách sao cho khoảng cách lề giữa hai lớp đạt
cực đại Tức là chúng ta cần tìm siêu phẳng H : w·x+b =
0và hai siêu phẳng hỗ trợ H1, H2song song với H và có cùng khoảng cách đến H Với điều kiện không có phần
tử nào của tập mẫu nằm giữa H1 và H2, khi đó:
w · x i + b ≥ +1 với y i = +1
w · x i + b ≤ −1 với y i =−1
Trang 3Hình 2 Minh hoạ thuật toán SVM
Khoảng cách lề giữa hai lớp là 2
||w|| Ta cần tìm siêu
phẳng H với lề lớn nhất, tức là giải bài toán tối ưu tìm
minw,b ||w|| với điều kiện y i(w · x i + b) ≥ 1 Tuy nhiên
cách làm như trên (được gọi là tìm lề cứng) chỉ thực hiện
được khi tập mẫu hoàn toàn phân tách tuyến tính được
Đối với những tập dữ liệu nhiễu, sẽ trường hợp có một
vài mẫu không phân lớp được nếu vẫn sử dụng lề cứng
Trong trường hợp này, lề mềm nên được tìm thay lề cứng
Sử dụng toán tử Lagrange cùng với một vài phép biến đổi,
vector pháp tuyếnw được biểu diễn như sau:
w =
N
i=1 yiαixi
Thuật toán SVM có thể được mở rộng cho trường hợp
tập mẫu không thể phân tách tuyến tính bằng cách ánh
xạ tập mẫu lên một không gian có số chiều lớn hơn bằng
cách sử dụng một hàm nhân K Một số hàm nhân hay
được sử dụng đó là:
Linear
K(xi,xj) =xT
i xj
Polynomial
K(xi,xj ) = (γxT
ixj + r) d , γ > 0
Radial Basic Function (RBF)
K(xi,xj) = exp(−γ||x i − x j ||2), γ > 0
Sigmoid
K(xi,xj ) = tanh(γxT
ixj + r)
B SVM trong bài toán phân loại nhiều lớp
Có vài phương pháp giúp mở rộng SVM cho bài toán
phân loại nhiều lớp Hai trong số đó là One-Against-One
(OAO) và One-Against-All (OAA) Đối với OAA, để giải
quyết một bài toán phân loại q-lớp với SVM, q SVM sẽ
được huấn luyện Mỗi SVM sẽ phân chia một lớp với tất
cả các lớp còn lại [12], [13] Đối với OAO, q(q −1)
sẽ được huấn luyện khi ta cần phân loại q lớp Mỗi SVM
sẽ lần lượt phân chia một cặp hai lớp
Trong công trình nghiên cứu này, OAO SVM được chọn
để phân loại khuôn mặt người vì phương pháp OAO dường
như tốn nhiều thời gian hơn phương pháp OAA nhưng lại
cho độ chính xác cao hơn [14], [15]
C Tối ưu hóa tham số của SVM
Trong phạm vi của bài báo này, tham số cần cho hàm
nhân Linear là C Đối với hàm nhân RBF, hai tham số cần được tối ưu là C và γ Quy trình cross-validation
được sử dụng để tìm các thông số tối ưu bởi vì nó có
thể ngăn cản vấn đề overfitting Trong quy trình k-fold cross-validation, tập huấn luyện sẽ được chia thành k
tập con có cùng kích thước Lần lượt, từng tập con sẽ được thử với máy phân loại đã được huấn luyện dựa trên
k − 1 tập con còn lại Do đó, mỗi mẫu trong tập huấn
luyện đều sẽ được kiểm tra một lần nên độ chính xác của cross-validation chính là phần trăm của dữ liệu được
phân loại đúng Trong thực tế, k được chọn là 5, còn
C và γ được chọn bằng thuật toán đơn giản tìm lưới
(grid search), cụ thể là log2C ∈ {−5, −4, , 15} và
log2γ ∈ {−15, −14, , 3} [16], [17], [18]
V ĐÁNH GIÁ Trong bài báo này, hệ thống nhận diện khuôn mặt được đánh giá dựa trên ba tập cơ sở dữ liệu, với hai mô hình huấn luyện và ba kịch bản kiểm tra Cuối cùng hiệu suất nhân dạng và độ tin cậy của hệ thống được so sánh theo các trường hợp sau:
• Sự kết hợp giữa PCA và Linear SVM
• Sự kết hợp giữa PCA và RBF SVM
• Sự kết hợp giữa PCA-LDA và Linear SVM
• Sự kết hợp giữa PCA-LDA và RBF SVM
A Cơ sở dữ liệu
• Grimace [19]: từ 18 người, mỗi người gồm 20 ảnh với góc chụp cố định là nhìn thẳng Các bức ảnh mô
tả mức độ tăng dần về cảm xúc và biểu cảm khuôn mặt Các sự thay đổi khác là không đáng kể
• Sheffield [20]: có tổng cộng 573 ảnh được chụp từ 20 người (đa dạng về chủng tộc/giới tính/vẻ bề ngoài) Tập ảnh của mỗi người có sự thay đổi chủ yếu về góc lệch giữa khuôn mặt và máy chụp theo phương ngang
• Extended YaleB (YaleB+) [21]: bài báo này chỉ sử dụng 1538/5760 ảnh của 10 đối tượng với sự khác biệt đáng kể về điều kiện chiếu sáng, tư thế mặt thay đổi rất ít
B Mô hình huấn luyện và kịch bản kiểm tra
Hệ thống được huấn luyện dưới hai mô hình được gọi là Clean model (CM) và Noisy model (NM) CM bao gồm các ảnh khuôn mặt nhìn thẳng và khuôn mặt không có biểu cảm NM bao gồm các ảnh khuôn mặt có sự thay đổi
về góc nhìn so với máy chụp và các khuôn mặt có sự biểu cảm Với mỗi mô hình huấn luyện, hệ thống được kiểm tra dưới ba kịch bản: Well-Matched (WM), Medium-Matched (MM) and Highly-Mismatched (HM) Dữ liệu kiểm tra
WM là một tập các ảnh tương tự với các ảnh huấn luyện
Dữ liệu kiểm tra MM bao gồm các ảnh có sự khác biệt một phần về biểu cảm và tư thế khuôn mặt so với các ảnh
Trang 4Bảng I
Trạng thái Cho phép Từ chối Loại đối tượng Không thẩm quyền (N) False (F) True (T)
Có thẩm quyền (P) True (T) False (F)
huấn luyện Với trường hợp HM, tập ảnh kiểm tra bao gồm
các ảnh về biểu cảm và tư thế có sự khác biệt rất lớn so
với tập ảnh huấn luyện
C Tiêu chí đánh giá
Để đánh giá sự hiệu quả của hệ thống, ba đại lượng
được sử dụng đó là : Recall, Equal Error Rate (EER) và
Accuracy (ACC)
1) Recall: đại lượng này được sử dụng khi một phần
của cơ sở dữ liệu được dùng cho việc huấn luyện, phần
còn lại được dùng cho việc kiểm tra Tập ảnh kiểm tra sẽ
không có sự hiện diện của các bức ảnh chứa khuôn mặt
của những người lạ Recall = Số lần nhận diện đúngTổng số lần nhận diện
2) EER: : Với sự xuất hiện của người lạ, hệ thống sẽ
sử dụng một chỉ số gọi là ngưỡng (threshold) để quyết
định người đó có được chấp nhận hay không Bảng I là
ma trận phân loại cho hai loại đối tượng với P đại diện
cho người không có thẩm quyền và N đại diện cho người
có thẩm quyền Dựa vào bảngI, số lần người không có
thẩm quyền được hệ thống cho qua là FN Tương tự, ta
rút ra định nghĩa của TN, TP, và FP Tỉ lệ chấp nhận sai
(FAR - False Acceptance Rate) là tỉ lệ một người không
có thẩm quyền bị chấp nhận sai bởi hệ thống Tỉ lệ từ
chối sai (FRR - False Rejection Rate) là tỉ lệ một người
có thẩm quyền bị từ chối bởi hệ thống FAR và FRR được
tính theo công thức:
T P + F P , F AR =
F N
T N + F N
Với các ngưỡng khác nhau, FAR và FRR sẽ cho các giá
trị tương ứng EER được định nghĩa là giao điểm của hai
đường FAR và FRR
3) ACC: ACC là tỉ lệ mà hệ thống nhận diện đúng các
đối tượng Nó được tính theo công thức:
T P + F P + T N + F N
D Kết quả và phân tích
1) Với mục đích nhận dạng: Đầu tiên, mức độ hiệu quả
của bốn hệ thống được xem xét khi nhu cầu của người
dùng là để xác định đúng danh tính của những đối tượng
có trong cơ sở dữ liệu (không có sự tấn công của người
lạ) BảngII trình bày tỉ lệ nhận dạng đúng khi hệ thống
được thử trên ba tập cơ sở dữ liệu với độ khó tăng dần
Bảng II
Cơ sở dữ liệu
Kịch bản kiểm tra
Hệ thống PCA kết
hợp RBF SVM
PCA kết hợp Linear SVM
PCA-LDA kết hợp RBF SVM
PCA-LDA kết hợp Linear SVM
Gri-mace WMMM 9697 4082 100 10097 100 100 10097 100 100 10097 100
Shef-field MMHM 8664 100100 8364 100100 7931 10090 9574 100100
YaleB-ext
WM 100 18 100 18 100 93 100 100
a) Sự phụ thuộc vào thuật toán trích xuất thuộc tính:
Đối với tập cơ sở dữ liệu đơn giản nhất là Grimace, PCA
và PCA-LDA cho hiệu quả cao và gần như tương đương Đối với tập dữ liệu có sự thay đổi đáng kể về góc khuôn mặt (Sheffield), PCA vẫn cho kết quả cao nhưng PCA-LDA cho kết quả tốt hơn Đối với tập cơ sở dữ liệu phức tạp nhất (Extended Yale B), khi có sự thay đổi khắc nghiệt
về điều kiện chiếu sáng, PCA-LDA cho thấy sự vượt trội hoàn toàn so với PCA Kết quả kiểm tra của PCA-LDA với NM là rất cao trong khi kết quả của PCA là rất thấp
b) Sự phụ thuộc vào hàm nhân: Dựa vào các kết
quả thể hiện trên bảngII, rõ ràng rằng Linear SVM cho
độ chính xác cao hơn so với RBF SVM trong hầu hết các trường hợp Đặc biệt, sự kết hợp giữa PCA-LDA và Linear SVM tạo ra hệ thống tốt nhất bởi vì nó cho kết cả cao nhất gần như trong tất cả các trường hợp
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 PCA, linear, grimace, Noisy Model, WM, 1, 0, 0.98095, 0.016667
Threshold
FAR
Hình 3 EER của PCA-Linear SVM được kiểm tra với Grimace-NM-WM (số cuối cùng, EER = 0.016)
c) Sự phụ thuộc vào mô hình huấn luyện: Trong bài
báo này, sự hiệu quả của bốn hệ thống được nghiên cứu
Trang 50 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 PCA−LDA, linear, grimace, Noisy Model, WM, 1, 0.11667, 1, 0
Threshold
FAR
Hình 4 EER của PCA-LDA-Linear SVM được kiểm tra với
Grimace-NM-WM (số cuối cùng, EER = 0)
dựa trên hai mô hình huấn luyện là CM và NM Các kết
quả thu được cho thấy rằng tỉ lệ nhận dạng của NM tốt
hơn so với tỉ lệ nhận dạng của CM Điều này là hợp lý
bởi vì với NM, hệ thống được học với các ảnh huấn luyện
có sự thay đổi đa dạng Tuy nhiên, cần lưu ý rằng PCA
dường như hoạt động rất tốt với CM Khi được kiểm tra
với tập cơ sở dữ liệu khó nhất là Extended Yale B, PCA
luôn mang lại hiệu suất nhận dạng cao hơn đối với trường
hợp sử dụng CM Trong một vài trường hợp, cụ thể là khi
các ảnh kiểm tra thuộc tập WM và MM được sử dụng
để kiểm tra CM của tập cơ sở dữ liệu Extended Yale B,
PCA thậm chí vượt trội so với PCA-LDA Sau khi xem
xét các phân tích trên, một đề xuất được nêu ra đó là PCA
thích hợp cho các tập cơ sở dữ liệu đơn giản: không có
sự thay đổi khắc nghiệt về điều kiện chiếu sáng và có số
lượng ít các ảnh của mỗi đối tượng Công trình nghiên
cứu trong [22] có thể phần nào chứng minh được đề xuất
này
2) Với mục đích bảo mật: Mức độ hiệu quả mà hệ
thống có thể mang lại được xem xét khi có sự hiện diện
của những đối tượng lạ không có trong cơ sở dữ liệu
EER và ACC được dùng để đánh giá độ tin cậy của các
hệ thống
a) Sự phụ thuộc vào thuật toán trích xuất thuộc tính:
Các hệ thống sử dụng PCA hoạt động khá tốt với tập
Grimace và Sheffield Chúng cho kết quả EER thấp và
hiệu suất nhận dạng cao khi được thử với NM Với cơ sở
dữ liệu lớn có sự thay đổi khắc nghiệt về điều kiện chiếu
sáng (Extended YaleB), PCA tỏ ra không đáng tin cậy
Các hệ thống sử dụng PCA chỉ cho kết quả EER thấp và
hiệu suất nhận dạng cao khi tập ảnh kiểm tra WM và MM
được thử với CM Kết quả trong bảngIIIvà bảngIVmột
lần nữa củng cố đề xuất rằng PCA chỉ nên được sử dụng
cho các tập dữ liệu không có những sự thay đổi lớn và
những tập dữ liệu có số lượng ảnh nhỏ Ngược lại, các
hệ thống sử dụng PCA-LDA thì ổn định và đáng tin cậy
Chúng hoạt động tốt với cả ba tập cơ sở dữ liệu Trong
Bảng III
Cơ sở dữ liệu
Kịch bản kiểm tra
Hệ thống PCA kết
hợp RBF SVM
PCA kết hợp Linear SVM
PCA-LDA kết hợp RBF SVM
PCA-LDA kết hợp Linear SVM
Gri-mace WMMM 0.13 0.510.10 0.26 0.02 0.020.05 0.03 0.00 0.000.04 0.00 0.05 0.000.17 0.01
Shef-field MMHM 0.27 0.160.36 0.16 0.25 0.110.40 0.16 0.28 0.000.50 0.08 0.25 0.220.55 0.25
YaleB-ext
WM 0.02 0.57 0.00 0.55 0.00 0.09 0.02 0.05
MM 0.12 0.66 0.13 0.66 0.33 0.12 0.23 0.16
HM 0.58 0.60 0.59 0.60 0.55 0.18 0.33 0.18
Bảng IV
Cơ sở dữ liệu
Kịch bản kiểm tra
Hệ thống PCA kết
hợp RBF SVM
PCA kết hợp Linear SVM
PCA-LDA kết hợp RBF SVM
PCA-LDA kết hợp Linear SVM
Gri-mace WMMM 8891 3782 9895 9895 100 10097 100 9683 10099
Shef-field MMHM 7463 8584 7459 8886 8353 10095 7742 8076
YaleB-ext
WM 98 42 100 46 100 94 98 95
hầu hết các trường hợp, PCA-LDA cho kết quả EER và
độ chính xác tốt hơn so với PCA Hình3và hình 4minh họa cho các kết quả này
b) Sự phụ thuộc vào hàm nhân: Linear SVM cho
thấy hiệu quả tốt hơn so với RBF SVM khi chúng được kết hợp với PCA Tuy nhiên, RBF SVM lại cho kết quả EER và độ chính xác tốt hơn so với Linear SVM khi chúng kết hợp với PCA-LDA Hệ thống sử dụng PCA-LDA và RBF SVM cũng là hệ thống đáng tin cậy nhất trong tất cả bốn hệ thống Với yêu cầu về tính bảo mật, PCA-LDA và RBF SVM vượt trội hơn so với hệ thống sử dụng PCA-LDA và Linear SVM
c) Sự phụ thuộc vào mô hình huấn luyện: Tương tự,
các kết quả trong bảng III và bảng IV một lần nữa cho thấy NM nổi trội hơn so với CM khi độ tin cậy của các
hệ thống được xét đến
Trang 6VI KẾT LUẬN Một vài hệ thống nhận dạng khuôn mặt đã được xây
dựng bằng việc kết hợp các phương pháp trích xuất thuộc
tính và các hàm nhân trong khối nhận dạng Các hệ thống
này được kiểm tra với nhiều cơ sở dữ liệu ảnh dưới nhiều
mức độ khác nhau của yêu cầu an ninh Khi hiệu suất nhận
dạng được ưu tiên, sự kết hợp PCA-LDA và Linear SVM
là hệ thống tốt nhất, theo sau là PCA-LDA và RBF SVM
Tuy nhiên, khi sự tin cậy của hệ thống được ưu tiên, hệ
thống sử dụng PCA-LDA và RBF SVM vượt trội hệ thống
sử dụng PCA-LDA và Linear SVM Trong ứng dụng thời
gian thực, mục đích và môi trường sử dụng của hệ thống
nhận dạng khuôn mặt cần được xem xét kĩ lưỡng Tuy
nhiên, trong thí nghiệm này, hệ thống sử dụng PCA-LDA
và RBF SVM được đề xuất, với những điều kiện về cơ sở
dữ liệu và yêu cầu cho trước Về mặt tính chất của hình
ảnh, hệ thống đã nêu có thể xử lí được những thay đổi về
điều kiện chiếu sáng, tư thế mặt, và biểu cảm khuôn mặt
Thời gian kiểm tra là rất ngắn trên máy tính cá nhân, do
đó hệ thống có thể đáp ứng được yêu cầu của một ứng
dụng thời gian thực
Mục tiêu cuối cùng của bài báo này là xây dựng được
một hệ thống nhận dạng khuôn mặt hiệu quả và đáng tin
cậy với thành phần cốt lõi là SVM Một vài khó khăn cần
phải vượt qua là: a) nghiên cứu thêm về các phương pháp
trích xuất thuộc tính khác: PCA-LDA hoạt động có hiệu
quả, nhưng nó là phương pháp cơ bản b) nghiên cứu bản
chất của SVM: trong bài báo này, SVM được dùng như
một công cụ với các tham số Trong tương lai, cần xem
xét việc sử dụng các hàm nhân mới
TÀI LIỆU THAM KHẢO
[1] Juneja, Komal, An improvement on face recognition rate using local
tetra patterns with support vector machine under varying
illumina-tion condiillumina-tions, IEEE Computing, 2015 Internaillumina-tional Conference
on Communication & Automation (ICCCA), India, pp 1079 –
1084, May 2015.
[2] Jia Jun Zhang, Yu Ting Shi, Face recognition systems based on
independent component analysis and support vector machine,
IEEE 2014 International Conference on Audio, Language and
Image Processing (ICALIP), Shanghai, pp 296 – 300, July 2014.
[3] F.Ahmad Bhat, M Arif Wani, Gabor wavelet based face recognition
under varying lighting, pose and expression conditions, IEEE
2015 2nd International Conference on Computing for Sustainable
Global Development (INDIACom), New Delhi, pp 1314 – 1318,
March 2015.
[4] G Majumder, M K Bhowmik, Gabor-Fast ICA Feature Extraction for Thermal Face Recognition Using Linear Kernel Support Vector Machine, IEEE 2015 International Conference on Computational
Intelligence and Networks (CINE), Bhubaneshwar, pp 21 – 25, Jan 2015.
[5] Chengliang Wang, Libin Lan, Yuwei Zhang, and Minjie Gu, Face Recognition Based on Principal Component Analysis and Sup-port Vector Machine, IEEE 2011 3rd International Workshop on
Intelligent Systems and Applications (ISA), Wuhan, pp 1 – 4, May 2011.
[6] S L Happy, A Routray, Robust facial expression classification using shape and appearance features, IEEE 2015 Eighth
Interna-tional Conference on Advances in Pattern Recognition (ICAPR), Kolkata, pp 1 – 5, Jan 2015.
[7] Abdulrahman, Muzammil, Eleyan, and Alaa, Facial expression recog-nition using Support Vector Machines, IEEE Signal Processing
and Communications Applications Conference (SIU), 2015 23th, Malatya, Turkey, pp 276 – 279, May 2015.
[8] M Turk and A Pentland, Eigenface for Recognition, Journal of
Cognitive Neuroscience, vol 3, no 1, pp 71-86, 1991 [9] A Pentland, T Starner, N Etcoff, N Masoiu, O Oliyide, and M Turk,
Experiments with Eigenfaces, Proc Looking at People Workshop
Int’l Joint Conf Artificial Intelligence, Aug 1993.
[10] P N Belhumeror, J.P Hespanha, and D.J Kriegman, Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection,
IEEE Trans Pattern Analysis and Machine Intelligence, vol 19,
no 7, pp 711-720, 1997.
[11] LIBSVM – A Library for Support Vector Machines, [online] Avail-able: http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[12] C Cortes and V Vapnik, “Support vector networks,” Machine Learning, 1995
[13] B Scholkopf, C Burges, and V Vapnik Extracting support data for a given task in U Fayyad and R Uthurusamy, editors, Proceedings
of the First International Conference on Knowledge Discovery and Data Mining, Menlo Park, CA, 1995 AAAI Press.
[14] Ben Aisen, A Comparison of Multiclass SVM Methods, December 15,
2006.
[15] R Kyle Eichelberger, Victor S Sheng, Does Against-All or One-Against-One Improve the Performance of Multiclass Classifica-tions?, Proceedings of the Twenty-Seventh AAAI Conference on
Artificial Intelligence.
[16] Carl Staelin, Parameter selection for support vector machines, HP
Laboratories Israel, November 2003.
[17] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, A practical guide to support vector classification, April 2010.
[18] Zhigang Yan, Yuanxuan Yang and Yunjing Ding, An experimental study of the hyper-parameters distribution region and its optimiza-tion method for support vector machine with Gaussian Kernel,
International Journal of Signal Processing, Image Processing and Pattern Recognition, Vol.6, No.5 (2013), pp.437-446, 2013 [19] Essex Grimace Database, [Online] Available: http://cswww.essex.ac uk/mv/allfaces/grimace.html
[20] Sheffield Face Database, [Online] Available: http://www.sheffield.ac uk/eee/research/iel/research/face
[21] Extended Yale B Database, [Online] Available: http://www.vision ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
[22] Aleix M MartoAnez and Avinash C Kak, PCA versus LDA, IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol.
23, no 2, pp 228-233, February 2001.