1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ khoa học máy tính: Xác định khuôn mặt người trong ảnh bằng logic mờ

147 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 147
Dung lượng 4,99 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài toán xác định khuôn mặt người hay bài toán phát hiện khuôn mặt người Face Detection là bài toán dùng kỹ thuật máy tính để xác định các vị trí và các kích thước của các khuôn mặt ngườ

Trang 1

PHẠM THẾ BẢO

XÁC ĐỊNH KHUÔN MẶT NGƯỜI TRONG ẢNH MÀU BẰNG LOGIC MỜØ

Chuyên ngành: Khoa học máy tính

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS TS TRẦN THỊ LỆ

TS TRẦN NAM DŨNG

TP HỒ CHÍ MINH - 2009

Trang 2

trong luận văn, kết quả hoàn toàn là của chúng tôi, không trùng lắp với các công trình khác

Tôi xin hoàn toàn chịu trách nhiệm về lời cam đoan của mình

Người thực hiện Phạm Thế Bảo

Trang 3

đỡ của gia đình, thầy cô, bạn bè, đồng nghiệp và cả các bạn sinh viên của chúng tôi Gia đình đã giúp đỡ động viên tôi những lúc khó khăn, tạo điều kiện cho tôi nghiên cứu, hỗ trợ cho tôi yên tâm làm việc và đăng bài báo, và hai cô bé nhỏ của tôi đã cho tôi nhiều niềm vui, vợ tôi đã cùng tôi vượt qua nhiều khó khăn Quí thầy cô trong trường Đại học Khoa học Tự nhiên và trường ngoài đã có rất nhiều hướng dẫn, truyền đạt kiến thức cho tôi

Tôi chân thành cảm ơn PGS.TS Trần Thị Lệ, giáo viên hướng dẫn trực tiếp cho tôi, cô đã giúp đỡ tôi rất nhiều về kiến thức, phong cách làm việc, tinh thần làm việc Và đặc biệt, khi tôi gặp bất cứ khó khăn nào đều có được sự giúp đỡ tận tình của cô

TS Trần Nam Dũng, vừa là người thầy vừa là người bạn hỗ trợ nhiều về mặt tinh thần

PGS.TS Dương Anh Đức, người thầy của tôi từ khi học đại học cho đến nay Thầy đã sửa từng lỗi trong những ngày đầu tiên viết đề cương nghiên cứu, cho chúng tôi nhiều ý kiến quý báu trong nghiên cứu và hoàn thiện luận án này

PGS.TS Lê Hoài Bắc, người thầy đã hỗ trợ giúp đỡ chúng tôi những ý kiến chuyên môn cùng những lời khuyên hữu ích cho nghiên cứu của chúng tôi để hoàn chỉnh luận án này

Trang 4

TS Hoàng Lê Minh, người dẫn dắt tôi những bước chập chững đầu tiên trong nghiên cứu khoa học

GS Jin Young Kim đại học quốc gia Chonnam, Hàn Quốc, người đã có một thời gian giúp tôi giải quyết một số ý tưởng của mình

Các bạn đồng nghiệp trong bộ môn như Nguyễn Hiền Lương, Võ Đức Cẩm Hải, Nguyễn Thị Thanh Nhàn, …, giúp đỡ tôi khi cần thiết Bạn bè của tôi như Đào Minh Sơn, Lê Đình Duy, Nguyễn Thanh Sơn, Trần Đan Thu, Huỳnh Trung Hiếu, …, cho tôi nhiều ý kiến quý báu cũng như giúp tôi có được những tài liệu cần thiết trong quá trình nghiên cứu của mình Các bạn sinh viên đã giúp tôi tìm kiếm, đóng góp, chọn lọc, và xây dựng cơ sở dữ liệu ảnh của tôi, mà nhiều nhất là khóa 2000 và 2001 Đặc biệt tôi cảm ơn các bạn Nguyễn Thành Nhựt, Cao Minh Thịnh, Trần Anh Tuấn và Phan Phúc Doãn hỗ trợ nhiều cho tôi khi cài đặt và chuyển thể một số ý tưởng ban đầu của tôi

Mặc dù chúng tôi đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, rất mong sự thông cảm và tận tình đóng góp của quý Thầy Cô và bạn bè đồng nghiệp

Người thực hiện Phạm Thế Bảo

Trang 5

xã hội loài người, từ ứng dụng trong thường ngày cho đến các ứng dụng chuyên sâu trong xã hội, an ninh, quân sự, … Đây chính là một trong những động lực chính để số lượng đề tài, công trình khoa học ngày càng được đầu

tư nghiên cứu

Bài toán xác định khuôn mặt người trong ảnh là một bài toán được rất nhiều người quan tâm và nghiên cứu, bởi vì tầm ảnh hưởng của bài toán này khá rộng, từ hệ thống giao tiếp người và máy, camera quan sát, theo dõi, lưu trữ ảnh, biểu lộ cảm xúc, nhận dạng con người, …, cho đến công nghệ robot Bài toán này đem lại nhiều ứng dụng tiện ích cho loài người

Việc nghiên cứu một phương pháp xác định khuôn mặt người trong ảnh mới là mục tiêu của đề tài này

Luận văn này gồm các phần sau:

• Chương 1 Chúng tôi sẽ trình bày một số phương pháp chính xác định

khuôn mặt người và mô hình màu da người trên thế giới Chúng tôi đã cố gắng phân loại, để những người đi sau sẽ có một cái nhìn tổng quan, nắm được các phương pháp và từ đây sẽ có hướng đi mới cho mình, cũng như các khó khăn, thách thức để giải quyết bài toán, và mục tiêu cần phải đạt được của đề tài

• Chương 2 Chương này trình bày một cách tổng quan cơ sở toán học

của logic mờ, để làm nền tảng xây dựng hệ thống xác định khuôn mặt người trong chương 3

• Chương 3 Chúng tôi xây dựng một điều kiện để tìm ứng viên khuôn

mặt Đồng thời xây dựng hai loại quyết định mờ dựa trên những tính chất về hình dáng bên ngoài và tính chất quan hệ bên trong của các

Trang 6

các đánh giá phương pháp xác định

• Phụ lục A Không gian màu: phần này trình bày một số không gian

màu thông dụïng và nguyên lý xây dựng không gian màu

• Phụ lục B Phương pháp Fast Marching: phần này giới thiệu sơ lược

phương pháp Fast Marching Chúng tôi trình bày từ phương trình toán cho đến cài đặt cụ thể, cũng như cấu trúc dữ liệu thích hợp

Trang 7

2 Khó khăn và thách thức của bài toán 3

3 Mô hình màu da người 4

4 Phương pháp xác định khuôn mặt người 9

5 Mục tiêu của đề tài 27

5.1 Xây dựng ngưỡng phân đoạn 27

5.2 Dùng logic mờ để xác định khuôn mặt 28

5.3 Điều kiện của bài toán 29

Chương 2 Logic mờ và cơ sở toán học 30 1 Khái niệm về logic mờ 30

2 Tập mờ 31

3 Luật mờ Nếu-thì 37

4 Suy diễn mờ 38

5 Giải mờ 40

6 Logic mờ và lý thuyết xác suất 42

Chương 3 Xây dựng mô hình xác định khuôn mặt người bằng logic mờ 53 1 Xây dựng và phân tích mô hình da người 54

1.1 Xác định vùng ảnh ứng viên dựa trên mô hình màu da 54

1.2 Phân tích quan các hệ của giá trị trung bình 58

1.3 Nhiễu 62

2 Tiền xử lý 66

2.1 Phân đoạn 66

2.2 Lọc nhiễu 67

2.3 Tìm biên 69

3 Xây dựng logic mờ dựa trên quan hệ bên ngoài 71

3.1 Kích thước của vùng da 72

3.2 Khi các khuôn mặt bị dính nhiễu 72

3.3 Thông số chu vi 73

3.4 Thông số diện tích 74

3.5 Độ tròn của khuôn mặt 75

3.6 Xây dựng luật mờ 75

4 Xây dựng logic mờ dựa trên quan hệ giữa mắt và miệng 77

4.1 Tiêu chuẩn một điểm là các thành phần mắt miệng trong một vùng da 77

4.2 Xác định thành phần mắt-miệng 78

Trang 8

5.3 Xác định mức độ loang 90

Chương 4 Cài đặt, kết quả, và kết luận 95 1 Cài đặt 95

2 Kết quả 99

3 Kết luận và hướng phát triển 107

TÀI LIỆU THAM KHẢO i

DANH SÁCH CÁC CÔNG TRÌNH x

Phụ lục A Không gian màu xii

Phụ lục B Phương pháp Fast Marching xviii

Trang 9

HMM Hidden Markov Model

pdf probability density function

GMM Gaussian Mixture Model

EM Expectation Maximization

SVM Support Vector Machine

PCA Principal Component Analysis

LLE Locally Linear Embedding

LE Lipschitz Embedding

DoG a Difference of Gauss

PDM Point Distribution Model

ASM Active Shape Model

MLP Multilayer Perceptron Network

FA Factor Analysis

MFA Mixture of Factor Analyzer

FLD Fisher’s Linear Discriminant

SOM Kohonen’s Self Organizing Map

PDBNN Probabilistic Decision-based Neural Network SNoW Sparse Network of Winnows

KLT Karhunen Lòeve Tranform

HOS Higher Order Statistic

MRF Markov Random Field

MIP Most Informative Pixel

Trang 10

BDF Block Difference Feature MRC Maximal Rejection Classifier

NEFCAR Neuro-Fuzzy Classifier

KSVC Kernel Support Vector Classifier

DS Dempster-Shafer

Trang 11

Chương 1 Bài toán xác định khuôn mặt người

1 Giới thiệu

Hơn một thập kỷ qua có nhiều công trình nghiên cứu về bài toán xác định khuôn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay Từ bài toán đơn giản, mỗi ảnh chỉ có một khuôn mặt người nhìn thẳng vào thiết bị thu hình và tư thế đầu thẳng đứng trong ảnh đen trắng Đến bài toán cho ảnh màu, có nhiều khuôn mặt trong cùng một ảnh, có nhiều tư thế thay đổi trong ảnh ngày nay Không những vậy, còn mở rộng cả phạm vi từ môi trường xung quanh khá đơn giản (trong phòng thí nghiệm) cho đến môi trường xung quanh rất phức tạp (như trong tự nhiên) nhằm đáp ứng nhu cầu thật sự và nhiều của con người Bài toán xác định khuôn mặt người hay bài toán phát hiện khuôn mặt người (Face Detection) là bài toán dùng kỹ thuật máy tính để xác định các vị trí và các kích thước của các khuôn mặt người trong ảnh kỹ thuật số [69], đầu vào là một ảnh có thể có hay không có khuôn mặt người, đầu ra là những vị trí nào được xác định có khuôn mặt người sẽ được đóng khung hình chữ nhật trong ảnh

Bài toán xác định khuôn mặt người được quy về hai bài toán cơ bản: Bài toán xác định vùng chứa khuôn mặt và Bài toán phân lớp vùng ảnh Bài toán xác định vùng chứa khuôn mặt lại được quy về bài toán xác định điểm thuộc vùng chứa khuôn mặt và cơ chế loang vùng và bài toán tìm chu tuyến của vùng

Đây là bài toán được các nhà khoa học nghiên cứu nhiều từ nửa cuối thế kỷ hai mươi vì bài toán này có nhiều ứng thực tế như:

 Hệ thống tương tác giữa người và máy: giúp những người khiếm khuyết có thể trao đổi Những người bị bại liệt thông qua một số ký hiệu nháy mắt có thể biểu lộ những gì họ muốn, … Phân tích cảm xúc trên khuôn mặt

Trang 12

 Hệ thống quan sát, theo dõi và bảo vệ Các hệ thống camera sẽ xác định đâu là con người và theo dõi con người đó xem họ có vi phạm gì không, ví dụ xâm phạm khu vực không được vào, …

 Hiện nay có tình trạng người dùng bị mất thẻ ATM hay mất mã số PIN và mất tiền trong tài khoản, hoặc chủ thẻ rút tiền nhưng lại báo cho ngân hàng là mất thẻ và mất tiền Các ngân hàng có nhu cầu khi có giao dịch sẽ kiểm tra và lưu trữ khuôn mặt người rút tiền để sau đó đối chứng và xử lý

 Tìm kiếm và tổ chức dữ liệu liên quan đến con người thông qua khuôn mặt người trên dữ liệu lưu trữ thật lớn như: internet, dữ liệu truyền hình, … Ví dụ: tìm các đoạn video có tổng thống Bush phát biểu, tìm các phim có diễn viên Lý Liên Kiệt đóng, tìm các trận bóng đá có Ronaldo thi đấu, … Ứng dụng trong video phone Phân loại và lưu trữ hình ảnh trong điện thoại di động dựa trên khuôn mặt của từng cá thể, giúp người sử dụng dễ dàng truy tìm khi cần thiết

 Kiểm tra trạng thái người lái xe có ngủ gật, mất tập trung hay không và hỗ trợ thông báo khi cần thiết Trong lãnh vực thiết kế điều khiển robot

 Các hãng máy chụp hình ứng dụng bài toán xác định khuôn mặt người vào máy chụp hình để cho kết quả hình ảnh đẹp hơn, nhất là khuôn mặt người

 Nhận dạng người tội phạm giúp cơ quan an ninh quản lý tốt con người Nhận dạng trong môi trường bình thường cũng như trong bóng tối (sử dụng camera hồng ngoại) Thẻ căn cước, chứng minh nhân dân (Face Identification) An ninh sân bay, xuất nhập cảnh (hiện nay cơ quan xuất nhập cảnh Mỹ đã áp dụng)

 Cho phép nhân viên được ra vào nơi cần thiết, hay đăng nhập máy tính cá nhân của mình mà không cần nhớ tên đăng nhập cũng như mật khẩu mà chỉ cần xác thực thông qua khuôn mặt

Trang 13

 Tương lai sẽ phát triển thẻ thông minh có tích hợp sẵn đặc trưng của người dùng trên đó, khi sử dụng sẽ được yêu cầu xác thực dựa trên khuôn mặt Mặc dù đã có nhiều kết quả khả quan nhưng đây là bài toán phức tạp nên vẫn còn khó khăn và là thách thức cho những người nghiên cứu kế tiếp

2 Khó khăn và thách thức của bài toán

Việc xác định khuôn mặt người có những khó khăn và thách thức, hình 1.1, nhất định như sau:

 Hướng của khuôn mặt đối với máy ảnh: nhìn thẳng, nhìn nghiêng hay nhìn từ trên xuống Cùng trong một ảnh có thể có nhiều khuôn mặt ở những tư thế khác nhau Trục toạ độ của máy ảnh so với ảnh

 Xuất hiện chi tiết không phải là đặc trưng riêng của khuôn mặt: râu quai nón, mắt kính, … Mặt người bị che khuất bởi các đối tượng khác trong ảnh Các nét mặt khác nhau trên khuôn mặt, như: vui, buồn, ngạc nhiên, … Không xuất hiện thành phần khuôn mặt

 Điều kiện ảnh, đặc biệt là về độ sáng và chất lượng ảnh, chất lượng thiết bị thu hình Kích thước khác nhau của các khuôn mặt người và đặc biệt là trong cùng một ảnh Nhiều khuôn mặt có vùng da dính lẫn nhau

 Màu sắc của môi trường xung quanh, hay màu sắc quần áo của người được chụp lấy ảnh cũng tác động đến màu sắc của ảnh

Các khó khăn trên chứng tỏ rằng bất cứ phương pháp giải quyết (thuật toán) bài toán xác định khuôn mặt người sẽ không thể tránh khỏi một số khiếm khuyết nhất định Để đánh giá và so sánh các phương pháp xác định mặt người, người ta thường dựa trên các tiêu chí sau:

Trang 14

 Tỷ lệ xác định chính xác là tỷ lệ số lượng các khuôn mặt người được xác

định đúng từ hệ thống khi sử dụng một phương pháp để xây dựng so với số

lượng khuôn mặt người thật sự có trong các ảnh

 Số lượng xác định nhầm là số lượng vùng trong ảnh không phải là khuôn

mặt người mà hệ thống xác định nhầm là khuôn mặt người

Với những khó khăn đã nêu ra, ta thấy rằng việc giải quyết bài toán xác định

khuôn mặt người không đơn giản Hiện nay có nhiều phương pháp giải quyết bài

toán trên Tất cả các nghiên cứu bài toán xác định khuôn mặt người đều sử dụng

ảnh xám hay ảnh màu làm dữ liệu đầu vào Aûnh xám cho phép giảm thiểu tác

động của ánh sáng đến đối tượng, nhưng không gian tìm kiếm lớn – trên tòan bộ

ảnh – làm thời gian xử lý cao và sẽ gặp vấn đề chọn lựa kích thước cửa sổ để dò

tìm các khuôn mặt người Với ảnh màu, các phương pháp nghiên cứu hiện nay

dựa trên các đặc trưng màu da người để tìm ứng viên vì thế không giam tìm

kiếm sẽ thu hẹp đáng kể, điều này dẫn đến thời gian xử lý sẽ giảm rất nhiều và

kích thước các ứng viên có sẵn nên không gặp vấn đề chọn lựa kích thước cửa sổ,

nhưng nếu chọn ảnh màu để xử lý thì sẽ gặp tác động của ánh sáng hoặc môi

trường xung quanh tác động đến màu sắc của các đối tượng Vì vậy, trước khi

trình bày tổng quan về các phương pháp xác định khuôn mặt người và các kết

quả nghiên cứu của các nhà khoa học trên lãnh vực này, chúng tôi trình bày một

số khái niệm cơ bản về các mô hình phân bố màu da người

3 Mô hình màu da người

Mục đích chính của bài toán xác định màu da người là xây dựng luật để

quyết định điểm ảnh nào có màu là da người và ngược lại Thông thường để giải

quyết được vấn đề trên, chúng ta phải xây dựng một độ đo để quyết định xem

một điểm ảnh cĩ màu phù hợp với mơ hình màu da người hay khơng

Trang 15

(a) (b) (c)

(d) (e)

(f) (g)

Hình 1.1 Các khó khăn của việc xác định mặt người:

(a) hướng mặt nghiêng; (b) mắt kính đen và nón; (c) ảnh bị chói bởi ánh đèn;

(d) máy ảnh đặt phía trên và sau lưng người bị chụp;

(e) vùng da các khuôn mặt dính nhau;

(f) màu ở môi trường xung quanh gần với màu da người;

(g) chất lượng ảnh kém

Trang 16

Độ đo đơn giản chính là điều kiện biên để kiểm tra một điểm ảnh có có thể là da người hay không [27], [49], [68] như công thức 1.1 Với R, G, B là ba kênh màu trong không gian màu RGB (xem phụ lục A) Có nhiều nghiên cứu theo hướng này, cho nhiều kết quả khả quan như công thức 1.2 hay 1.3; với Y, Cb, Cr

là ba giá trị trong khơng gian màu YcbCr (xem phụ lục A) Gần đây Filipe Tomaz [18] và các cộng sự nghiên cứu cho điều kiện tốt hơn công thức 1.1, công thức 1.2 Tuy nhiên, điều kiện biên không hoàn toàn chính xác, mà còn phụ thuộc rất nhiều vào thiết bị, điều kiện môi trường như: ánh sáng, khung cảnh xung quanh, người được lấy mẫu thuộc chủng tộc gì, quần áo đang mặc, … Nếu muốn độ chính xác cao thì phải càng nhiều điều kiện, nếu càng nhiều điều kiện thì càng phức tạp khi tính toán, cũng như dữ liệu để tìm điều kiện phải càng nhiều càng tốt nên không gian lưu trữ sẽ tăng nhiều

(B>160 và R<180 và G<180) hay (G>160 và R<180 và B<180) hay

(B<100 và R<100 và G<100) hay (G>200) hay (R+G>400) hay

(G>150 và B<90) hay (B/(R+G+B)>.40) hay (G/(R+G+B)>.40) hay

(R<102 và G>100 và B>110 và G<140 và B<160)

da có tham số và mô hình hỗn hợp

Đối với mô hình phân bố màu da không tham số, ý tưởng chính là ước lượng phân bố màu da từ dữ liệu thu thập được Kết quả đôi khi xem như xây dựng ánh

Trang 17

xạ xác suất màu da (Skin Probability Map - SPM) [35], [36], [68] Với mô hình

này, có thể sử dụng dạng bảng tra cứu đã được chuẩn hóa [37] như công thức 1.4,

𝑃𝑠𝑘𝑖𝑛 𝑐 =𝑠𝑘𝑖𝑛 [𝑐]𝑁𝑜𝑟𝑚 (1.4) với skin[c] là biểu đồ của từng kênh màu của không gian màu cần xem xét,

tương ứng vector màu c và Norm là các giá trị được chuẩn hóa [41]; phân loại

Bayes [47] dựa trên xác suất điều kiện P(skin|c) theo luật Bayes (công thức 1.5)

từ giá trị Pskin(c) đã có trước [14], [37], [41] Hay còn ở dạng khác như công thức

K sẽ được chọn để phù hợp với ; mô hình ẩn (Hidden Markov Model –

HMM) được Leonid [37] sử dụng để điều chỉnh các tham số qua quá trình học;

hay ánh xạ tự tổ chức (Self-Organizing Map - SOM) do Kohonen đề xuất vào

thập niên 80, phương pháp SOM dùng ít dữ liệu nhưng vẫn rất hiệu quả [68]

Mô hình phân bố màu da có tham số được xây dựng để khắc phục nhược

điểm về không gian lưu trữ lớn và hình thái của dữ liệu của mô hình phân bố

màu da không có tham số [18], [26] Mô hình Gauss với hàm mật độ xác suất

(probability density function – pdf) được dùng để mô hình hóa phân bố màu da

người dựa trên giả thiết phân bố màu da người gần giống phân bố Gauss, công

thức 1.8 [11], [35], [47], [68] Với c là vector màu, s và s là tham số phân bố

Các tham số được ước lượng từ dữ liệu huấn luyện bằng công thức 1.9, để xác

định màu c có phải là màu da người hay không dựa trên ma trận hiệp phương sai,

Trang 18

công thức 1.10 Để tăng độ chính xác, mô hình Gauss hỗn hợp (Gaussian Mixture Model - GMM) được dùng, mô hình này được tổng quát hóa từ mô hình Gauss như công thức 1.11, trong đó k là số lượng các thành phần hỗn hợp, i là các tham số hỗn hợp được chuẩn hóa 𝑘 𝜋𝑖

𝑖=1 = 1 và Pi(c|skin) là các pdf, với mỗi mô hình Gauss có một giá trị trung bình và ma trận hiệp phương sai của chính nó, thông thường k có giá trị từ 2 cho đến 16 [68], như Phung [52], [63] và Qiang Zhu [53]

 𝑐 = 𝑐 − ∅ 𝑇−1 𝑐 − ∅ (1.12) Tiến trình huấn luyện cho hệ thống gồm hai bước: đầu tiên, loại bỏ các mẫu huấn luyện có tần số thấp để loại bỏ bớt nhiễu và dữ liệu không phù hợp Sau đó các tham số của mô hình ( và ) được tính theo công thức 1.13

Trang 19

Với n là tổng số các vector màu riêng biệt ci của tập điểm ảnh có màu da người dùng để huấn luyện và fi là số lượng các mẫu có màu da người dùng huấn luyện cùng màu với vector màu ci, N chính là tổng số mẫu dùng để huấn luyện Đối với mô hình hỗn hợp, các chuyên gia kết hợp nhiều phương pháp hay công cụ khác nhau để giải quyết Theo [68], Kakumanu kết hợp hai mạng nơron có hai lớp ẩn, Mohamed Hammami dùng phương pháp khai khoáng dữ liệu tìm luật rồi xây dựng cây quyết định để phân loại, Huicheng Zheng sử dụng mô hình entropy cực đại dựa trên phân bố ở biên kết hợp HMM Moon Hwan Kim, Jin Bae Park và Young Hoon Joo xây dựng bộ gom nhóm mờ và điều khiển mờ xác định vùng màu da người dựa trên logic mờ [44] M Ben Hmid [38] sử dụng bộ phân loại mờ để phân loại điểm ảnh nào là da người và không phải da người nhằm hoàn chỉnh các ứng sau giai đoạn phân đoạn thô ban đầu Nhóm tác giả Chia-Feng Juang [30] xây dựng mạng nơron mờ có sáu tầng để phân đoạn màu

da người Wong [62] dùng cây tứ phân để phân tích màu da và xây dựng mô hình màu da

Trong thực tế, phân bố màu da người có thể thay đổi do tác động điều kiện ánh sáng, camera, môi trường, … Nhiều tác giả đã xây dựng mô hình màu da có thể điều chỉnh tự động bằng cách cập nhật liên tục không chỉ trong quá trình huấn luyện mà cả trong quá trình thực hiện – học tăng cường Do phải cập nhật liên tục nên các mô hình màu da phải có tham số đơn giản, xử lý nhanh và không gian lưu trữ ít

4 Phương pháp xác định khuôn mặt người

Có nhiều phương pháp xác định khuôn mặt người, từ ảnh xám đến ảnh màu Cũng có nhiều cách phân loại các phương pháp ([42]), song vẫn chưa có một sự phân loại nào thật chính xác, vì các phương pháp không hoàn toàn riêng biệt

Trang 20

Chúng tôi sẽ trình bày một cách tổng quát nhất những hướng giải quyết chính, không trình bày những phương pháp kết hợp gần đây

Dựa vào đặc điểm của mỗi phương pháp, chúng tôi sẽ trình bày các phương pháp theo hai hướng tiếp cận: hướng tiếp cận dựa trên tri thức dưới dạng luật và hướng tiếp cận dựa trên học dữ liệu mẫu

Hướng tiếp cận dựa trên tri thức dưới dạng luật: trong hướng tiếp cận này

các chuyên gia sẽ mã hóa những hiểu biết của con người về khuôn mặt thành luật Các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài toán xác định khuôn mặt người Đây là hướng tiếp cận dạng top-down Trong hướng này, có những đặc trưng về khuôn mặt mà chúng ta có sẵn từ nghiên cứu y khoa hay nhận xét trực quan của con người, như một khuôn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng ở giữa khuôn mặt, có một mũi, một miệng, chúng tôi gọi là những tri thức có sẵn Và một loại đặc trưng khác đó là những đặc trưng do các tác giả nghiên cứu đề ra dựa trên các phân tích ảnh

Hướng tiếp cận dựa trên học dữ liệu mẫu: có những hiểu biết của con

người không thể mã hóa thành luật rõ ràng hay có thể mã hóa nhưng không chính xác vì thế các chuyên gia xây dựng tập mẫu để huấn luyện hệ thống biết chỗ nào có khuôn mặt người trong ảnh như cách một con người có thể nhận biết thế giới xung quanh

Khi tiếp cận theo hướng thứ nhất chúng ta sẽ gặp một vấn đề khá phức tạp là làm sao chuyển từ tri thức con người sang luật hiệu quả Nếu luật quá chi tiết (chặt chẽ) dẫn đến có thể xác định thiếu các khuôn mặt trong ảnh, vì những khuôn mặt này không thể thỏa mãn tất cả luật đưa ra Nhưng nếu luật tổng quát quá thì có thể chúng ta sẽ xác định sai một vùng không phải là khuôn mặt mà lại xác định là khuôn mặt Và cũng khó khăn khi mở rộng từ bài toán xác định

Trang 21

khuôn mặt được lấy hình thẳng sang bài toán xác định khuôn mặt ở nhiều tư thế khác nhau Theo [42], Graf dùng bộ lọc để làm nổi các biên kết hợp phép toán morphology làm nổi bật các vùng có cường độ cao và hình dáng chắc chắn (như mắt) rồi chuyển ảnh xám thành ảnh nhị phân với các ngưỡng có được từ phân tích histogram, Sobottka và Pitas tìm ứng viên khớp hình dạng ellipse rồi xem xét trên cơ sở vùng mắt miệng tối hơn các vùng khác để phân loại Nhóm Sato [24] lại dùng phương pháp GA để trích các đặc trưng khuôn mặt, từ các đặc trưng xem xét các vùng giống ellipse để xác định khuôn mặt trong ảnh màu, phương pháp này cho phép giải quyết trong điều kiện ánh sáng khác nhau và tư thế khuôn mặt khác nhau Fred [19] dựa trên tính đối xứng của khuôn mặt để xem xét phân bố trên histogram để quyết định ứng viên có phải là khuôn mặt chụp thẳng trong ảnh xám đơn Rodrigues và Buf [28] quan tâm các điểm quan trọng theo đa tỷ lệ, đặc biệt tác giả chỉ dùng các điểm quan trọng dựa trên đa phân giải kết hợp quan hệ hình học của các thành phần khuôn mặt để xác định khuôn mặt người Hsu [59] khá thành công khi xác định khuôn mặt người trong ảnh màu Ông xây dựng bộ phân loại để xác định vị trí của ứng viên mắt và miệng dựa trên sắc màu đặc trưng của mắt và miệng Kết hợp quan hệ về khoảng cách hai mắt và miệng và hình dáng gần giống dạng ellipse nhất để xác định

Ngoài những tri thức mà chúng ta đã có từ nhận xét trực quan sơ lược và phân tích y khoa, các chuyên gia cố gắng xây dựng những đặc trưng mới từ những phân tích ảnh về khuôn mặt người Theo [42], Yang và Huang sử dụng hệ thống

đa phân giải – hình 1.2 – rồi dựa trên luật ở mức cao nhất để tìm ứng viên như:

“vùng trung tâm khuôn mặt (phần tối hơn, hình 1.3) có bốn phần”, “phần xung quanh bên trên của khuôn mặt (phần sáng hơn, hình 1.3)” và “mức độ khác nhau giữa giá trị xám trung bình của phần trung tâm và phần bao bên trên”, hai ông đã dùng chiến lược “từ thô đến mịn” hay “làm rõ dần” để giảm số lượng tính

Trang 22

toán Mặc dù tỷ lệ chính xác chưa cao, nhưng đây là tiền đề cho nhiều nghiên cứu sau này Theo [42], Kotropoulos và Pitas đưa một phương pháp tương tự Kanade và Yang, các tác giả dựa trên biểu đồ chiếu ngang và dọc rồi xem xét các cực tiểu địa phương để biết cạnh bên trái và phải của hai bên đầu và vị trí miệng, đỉnh mũi và hai mắt, hình 1.4.a Phương pháp này khó xác định khi hình nền phức tạp và không xác định được khi có nhiều khuôn mặt xuất hiện trong ảnh, hình 1.4.b và 1.4.c Tương tự Mateos và cộng sự [21] cũng dùng phương pháp chiếu, nhưng đầu tiên hai ông tìm ứng viên trong ảnh màu rồi chiếu tìm thành phần khuôn mặt để xác định khuôn mặt, hình 1.5 Theo [42], có nhiều chuyên gia sử dụng phương pháp tìm cạnh rồi xây dựng phương pháp xác định khuôn mặt dựa trên cạnh như: Amit sau khi trích cạnh sẽ đánh số các mảnh cạnh rồi xây dựng cây phân loại để xác định, Sirohey loại bỏ các cạnh để còn lại duy nhất một đường bao xung quanh khuôn mặt và nếu đường bao này có hình dáng epplise thì đây là khuôn mặt, còn Chetverikov và Lerch dùng phương pháp dựa trên blob và streak (hình dạng giọt nước và sọc xen kẽ) để xác định theo hướng các cạnh với hai blob tối và ba blob sáng để mô tả hai mắt, hai bên gò mávà mũi và các treak để mô tả hình dáng ngoài của khuôn mặt, lông mày và môi Nhóm tác giả Mohamed A Berbar [43] kết hợp phân đoạn và tách cạnh để tìm ứng viên sau đó chiếu lên trục ngang và đứng để xác định các thành phần khuôn mặt

Hình 1.2 (a) Ảnh ban đầu có độ phân giải n=1;

(b), (c) và (d) Ảnh có độ phân giải n=4, 8 và 16

Theo [42], Leung dùng mô hình xác suất để xác định khuôn mặt trong ảnh có nền phức tạp dựa trên bộ xác định đặc trưng cục bộ và so khớp đồ thị ngẫu nhiên

Trang 23

Ông xem bài toán xác định khuôn mặt như bài toán tìm kiếm với năm đặc trưng (hai mắt, hai lỗ mũi, phần nối giữa mũi và miệng) để mô tả một khuôn mặt Giống như xây dựng một đồ thị quan hệ, mỗi node của đồ thị tương ứng như đặc trưng của một khuôn mặt có xác suất để xác định

Hình 1.3 Một loại tri trức của người nghiên cứu phân tích trên khuôn mặt Christian và Jonh [10] xây dựng một loại đặc trưng mới, đó là đặc trưng độ cong của các đường trên khuôn mặt để giải quyết vấn đề ánh sáng Hai ông dùng PCA (phân tích thành phần chính – Principal Component Analysis - PCA) với đặc trưng cong để xác định khuôn mặt

Hình 1.4 Phương pháp chiếu: (a) Ảnh chỉ có một khuôn mặt và hình nền đơn giản;

(b) Ảnh chỉ có một khuôn mặt và hình nền phức tạp;

(c) Ảnh có nhiều khuôn mặt

Theo [42], Yachida dùng hai mô hình mờ để mô tả phân bố màu da người và màu tóc trong không gian màu CIE XYZ Năm mô hình hình dạng của đầu (một thẳng và bốn xoay xung quanh) để mô tả hình dáng của mặt trong ảnh Hai thuộc tính được gán cho mỗi ô là: tỷ lệ màu da và tỷ lệ tóc, cho tỷ lệ diện tích vùng da (tóc) trong ô so với diện tích của ô Mỗi điểm ảnh được phân loại thành tóc, khuôn mặt, tóc/khuôn mặt và tóc/nền dựa vào phân bố, đểõ có các vùng giống

Trang 24

khuôn mặt và giống tóc kết hợp các đặc trưng mắt-lông mày và mũi-miệng để xác định ứng viên nào sẽ là khuôn mặt thật sự

Khi tiếp cận theo hướng thứ hai, các chuyên gia sử dụng các kỹ thuật học để xác định khuôn mặt Kết cấu khuôn con người riêng biệt có thể xem là đặc trưng để phân loại với đối tượng khác Các chuyên gia sẽ xây dựng các hệ thống để tìm ra kết cấu rồi dựa vào đây để xác định khuôn mặt Theo [42], Augusteijn và Skufca tính kết cấu dựa vào đặc trưng thống kê trên vùng Huấn luyện ba loại đặc trưng: màu da, tóc và những thứ khác cho mạng nơron với mối tương quan cascade để phân loại các kết cấu cùng ánh xạ Kohonen gom nhóm các lớp kết cấu khác nhau, dùng phương pháp bầu cử khi không có được quyết định Manian và Ross [67] dùng biến đổi wavelet xây dựng dữ liệu kết cấu khuôn mặt trong ảnh xám với đa phân giải kết hợp xác suất thông kê để xác định khuôn mặt Theo [42], Dai và Nakano dùng mô hình SGLD để xác định khuôn mặt dựa vào thông tin màu và mô hình kết cấu khuôn mặt Hai tác giả dùng các phần tựa màu cam để tìm ứng viên Một thuận lợi của phương pháp này là có thể xác định khuôn mặt không chỉ chụp thẳng và có thể có râu và có đeo kính

Hình 1.5 Chiếu từng phần ứng viên để xác định khuôn mặt

Một số chuyên gia xây dựng các mẫu chuẩn của khuôn mặt sau đó dùng phương pháp so khớp mẫu để xác định khuôn mặt Từ ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt, mắt, mũi và miệng Từ các giá trị tương quan này để quyết định có tồn tại hay không khuôn

Trang 25

mặt trong ảnh Hướng tiếp cận này có lợi thế là rất dễ cài đặt, nhưng không hiệu quả khi tỷ lệ, tư thế và hình dáng thay đổi [6], [34]

Theo [42], Sakai dùng mẫu con về mắt, mũi, miệng và đường viền khuôn mặt để mô hình hóa một khuôn mặt Ông sử dụng gradient trích các đường thẳng thuộc ứng viên dựa vào mối tương quan về đường viền và so khớp các mẫu con để xác định có tồn tại hay không khuôn mặt Theo [42], Tsukamoto chia mỗi ảnh mẫu thành nhiều khối và ước lượng theo mỗi khối Tham số hóa một mẫu khuôn mặt theo: lightness và edgeness là đặc trưng của mô hình Dựa vào giá trị faceness (mức độ là khuôn mặt) được tính từ các khối trong mẫu để xác định khuôn mặt Hình chiếu [21], [65] được dùng như mẫu để xác định khuôn mặt Tìm tập hình chiếu cơ bản bằng PCA từ mẫu khuôn mặt Kết hợp đặc trưng hình chiếu riêng và biến đổi Hough để xác định khuôn mặt Theo [42], Sinha xem xét độ tối sáng khác nhau của các vùng khác nhau trên khuôn mặt (như hai mắt, hai má và trán) để xây dựng 23 quan hệ, hình 1.6, trong đó có 11 quan hệ thiết yếu (các mũi tên màu đen) và 12 quan hệ xác thực (các mũi tên xám) để phân loại Iwata [32] xây dựng mẫu gồm bốn đặc trưng theo bốn hướng: ngang, bên phải phía trên, đứng và bên trái phía trên của khuôn mặt chụp thẳng trong ảnh xám

So khớp từng phần của mẫu kết hợp xác suất láng giềng Theo [42], Miao đề xuất so khớp mẫu có thứ tự để xác định khuôn mặt người, ảnh được xoay từ -20ođến 20o với mỗi bước là 5o theo thứ tự, kết hợp đa phân giải, hình 1.2 và phép toán Laplace để tìm các cạnh Một mẫu khuôn mặt gồm các cạnh mô tả sáu thành phần: hai lông mày, hai mắt, một mũi và một miệng

Theo [42], Lam và Yan dùng đường gấp khúc (snake) có n điểm ảnh để ước lượng các đoạn cong nhỏ và mẫu để xác định khuôn mặt Thay vì dùng đường gấp khúc thì Huang và Su [20] dùng lý thuyết dòng chảy để xác định đường viền khuôn mặt dựa trên đặc tính hình học Hai ông dùng lý thuyết tập đồng mức

Trang 26

loang để có khuôn mặt Theo [42], Lanitis gán nhãn đường bao mắt, mũi, cằm/má, xây dựng vector mô tả hình dáng kết hợp mô hình phân bố điểm (Point Distribution Model – PDM) để mô tả vector hình dáng qua toàn bộ các cá thể, còn Kirby và Sirovich xác thực khuôn mặt dựa vào mô hình hình dáng tích cực (Active Shape Model - ASM) với tham số về hình dáng và cường độ Hsu và Jain [58] xây dựng ngữ nghĩa khuôn mặt theo hình dáng và vị trí các thành phần khuôn mặt Xây dựng một đồ thị quan hệ từ bộ ngữ nghĩa để dễ dàng so khớp khi xác định khuôn mặt người

Keren [13] xây dựng khái niệm Antifaces để xác định khuôn mặt người Dựa trên nhiều loại mẫu, kết hợp giả thuyết phân bố xác suất xác định những đối tượng không có mối tương quan để tìm khuôn mặt người Ông cho biết, phương pháp này nhanh hơn eigenface và SVM (Support Vector Machine), mà mức độ chính xác gần tương đương

Hình 1.6 Một mẫu khuôn mặt, có 16 vùng và 23 quan hệ (các mũi tên)

Một số phương pháp học tiêu biểu được dùng để huấn luyện hệ thống xác định khuôn mặt người như: egienface, dựa trên phân bố, mạng nơron, SVM, phân loại Bayes, mô hình Markov ẩn, lý thuyết thông tin, học theo quy nạp, AdaBoost, phân loại dựa trên cú pháp, phân loại dựa trên loại bỏ

Theo [42], Kirby và Sirovich mã hóa tuyến tính ảnh các khuôn mặt bằng một số lượng vừa phải các ảnh cơ sở hay vector cơ sở (còn biết với tên ảnh riêng hay eigenface), tính chất này dựa trên biến đổi Karhunen-Lòeve, còn được gọi dưới

Trang 27

tên khác là PCA hay biến đổi Hotelling Ý tưởng này được xem là của Pearson trình bày đầu tiên vào năm 1901 và sau đó là Hotelling vào năm 1933

Theo [42], Sung và Poggio xây dựng các mẫu negative và positive là các mẫu là khuôn mặt/không phải khuôn mặt rồi xác định phân bố của các mẫu (mỗi mẫu là một vector có 361 chiều) để gom nhóm các mẫu (mỗi nhóm sẽ có sáu mẫu cùng loại) bằng thuật toán k-trung bình (k-mean); hình 1.7; kết hợp độ đo Mahalanobis và Euclide; hình 1.8; xem xét mẫu thuộc nhóm nào, Moghaddam và Pentland xem xét mô hình học theo xác suất dựa trên ước lượng mật độ trong không gian có số chiều bằng số chiều không gian riêng; hai ông phân rã một không gian vector thành hai không gian con, hai không gian con này loại trừ lẫn nhau và cũng bổ sung cho nhau: không gian con chính (không gian đặc trưng) và phần bù trực giao; hình 1.9, còn Yang dùng phương pháp phân tích hệ số (Factor Analysis – FA), FA tương tự PCA ở vài khía cạnh; nhưng PCA không giống FA và PCA không hiệu quả khi có nhiễu độc lập trong dữ, phương pháp dùng biệt số tuyến tính Fisher (Fisher’s Linear Discriminant – FLD); trên cơ sở phân tích biệt số tuyến tính các tác giả đã xây dựng phương pháp Fisherface; khi dùng FLD để phân loại mẫu sẽ tốt hơn PCA kết hợp phân rã các mẫu huấn luyện khuôn mặt và không phải khuôn mặt vào vài lớp con bằng ánh xạ tự tổ chức Kohonen (Kohonen’s Self Organizing Map – SOM); hình 1.8

Hình 1.7 Phân nhóm dữ liệu khuôn mặt và nhóm dữ liệu không phải khuôn mặt

Trang 28

Một thuận lợi khi dùng mạng nơron để xác định khuôn mặt là tính khả thi của hệ thống học khi có sự phức tạp trong lớp các mẫu khuôn mặt Nhưng trở ngại là các kiến trúc mạng đều tổng quát, khi áp dụng thì phải xác định rõ ràng số lượng tầng, số lượng node, tỷ lệ học, …, cho từng trường hợp cụ thể Theo [42] có nhiều nghiên cứu theo hướng này như: Agui dùng mạng nơron có thứ tự với hai mạng con song song mà dữ liệu là giá trị cường độ của dựa trên thuật toán lọc Sobel để có các giá trị đặc trưng: đặc trưng độ lệch chuẩn của các giá trị điểm ảnh trong mẫu đưa vào, một tỷ lệ của số điểm ảnh trắng trên tổng số điểm ảnh (ảnh nhị phân) trong một cửa sổ và đặc trưng thiết yếu về hình học, qua kinh nghiệm tác giả chỉ ra rằng nếu các ảnh cùng một kích thước thì mới dùng phương pháp này được Lin dùng mạng nơron quyết định trên cơ sở xác suất (Probabilistic Decision-based Neural Network – PDBNN) với vector đặc trưng dựa trên cường độ và thông tin cạnh trong vùng khuôn mặt chứa lông mày, mắt và mũi

Hình 1.8 (a) Khoảng cách giữa mẫu cần kiểm tra và các nhóm;

(b) hai thành phần khoảng cách

Nghiên cứu của Rowley là tốt nhất khi so sánh với các phương pháp dùng

mạng nơron để xác định khuôn mặt người đối với ảnh xám, hình 1.11, mạng đa tầng được dùng để học các mẫu khuôn mặt và không phải khuôn mặt (dựa trên quan hệ cường độ, về mặt không gian của các điểm ảnh), phương pháp này chỉ có thể xác định khuôn mặt chụp thẳng và tựa thẳng Sau đó Rowley cải tiến để có thể xác định khuôn mặt bị xoay bằng mạng định hướng, hình 1.12, thêm tiến

Trang 29

trình xác định hướng khuôn mặt và xoay về lại tư thế chuẩn (chụp thẳng), tuy nhiên khi quay lại dữ liệu thì tỷ lệ chính xác lại giảm đi, chỉ còn khoảng 76.9%

Hình 1.9 Phân rã một ảnh khuôn mặt vào không gian chính F

và phần bù trực giao F

Nhiều chuyên gia dùng mạng nơron nhưng cải tiến phương pháp trích đặc trưng như: Kwolek [7] dùng bộ lọc Gabor để trích đặc trưng rồi huấn luyện cho mạng nơron xoắn (mạng nơron xoắn là mạng nơron mà mỗi node ở mỗi tầng có thể liên kết với các láng giềng cục bộ tầng phía trước của nó), Feris [61] dùng biến đổi wavelet để xem xét các đặc trưng

Hình 1.10 Đại diện của mỗi lớp khuôn mặt, mỗi đại diện tương ứng tâm của một nhóm

Hình 1.11 Mô hình mạng nơron theo Rowley

Trang 30

Hầu hết các phương pháp huấn luyện để phân loại khác đều dùng tiêu chí tối thiểu lỗi huấn luyện (rủi ro do kinh nghiệm) thì SVM dùng quy nạp (được gọi là tối thiểu rủi ro cấu trúc), mục tiêu là làm tối thiểu bao bên trên lỗi tổng quát Ý tưởng chính là dùng một siêu phẳng để tách dữ liệu, việc ước lượng siêu phẳng sẽ tương đương giải bài toán tuyến tính bậc hai Theo [42], Osuna là tác giả đầu tiên áp dụng phương pháp SVM để giải quyết bài toán xác định khuôn mặt người Julien xây dựng một cấu trúc SVM mới, gồm nhiều SVM kết nối song song với nhau để học dữ liệu từ không gian eigenface [31] Dựa trên phương pháp SVM, mỗi chuyên gia sẽ đề xuất một phương pháp trích đặc trưng để phân loại như: biến đổi wavelet Gabor, độ phân giải thấp, các mô men Fourier-Mellin trực giao, wavelet phân tích mẫu, histogram, Ngoài ra SVM còn được thuật toán leo đồi, phương pháp bầu cử, … để xác định khuôn mặt người

Hình 1.12 Một ví dụ cho dữ liệu vào và dữ liệu ra của mạng định hướng

Theo [42], Schneiderman và Kanade dùng phân loại Naive Bayes ước lượng xác suất để nối diện mạo tại vị trí cục bộ trên khuôn mặt và vị trí của các mẫu khuôn mặt (các vùng con trên khuôn mặt) trong đa phân giải; tại mỗi tỷ lệ khuôn mặt được phân rã làm bốn vùng hình chữ nhật con; chiếu các vùng này xuống không gian có số chiều thấp hơn (dùng PCA) và lượng tử hóa thành một tập các mẫu có giới hạn rồi ước lượng bằng thống kê; hướng tiếp cận này cho phép xác định các khuôn mặt bị xoay và nhìn nghiêng, Rickert cũng dùng các đặc trưng

Trang 31

cục bộ rồi tìm phân bố của các vector đặc trưng bằng phương pháp gom nhóm và Gauss hỗn hợp sau đó tính khả năng của vector đặc trưng để phân loại

Thang [66] dùng mạng Bayes kết hợp, hay gọi là mạng Bayes có cấu trúc rừng (Forest-Structured Bayesian Network) để xác định các biệt số Kết hợp phương pháp Bagging xây dựng phân loại tích hợp nhằm xác định khuôn mặt trong ảnh xám Nam và Rhee [39] xây dựng mạng Bayes học phân loại theo ngữ cảnh: màu da, ánh sáng và kết cấu khuôn mặt để xác định khuôn mặt trong ảnh Hai tác giả dùng phân loại Bayes để chọn ứng viên thông qua các đặc trưng về cường độ và kết cấu của khuôn mặt Duy Nguyen [15] dùng bộ lọc Sobel tìm các đặc trưng cho Naive Bayse như Schneiderman và Kanade và kết hợp đồng thời với một phương pháp xác định môi

Giả thuyết quan trọng của HMM là mẫu có thể được đặc tính hóa như các tiến trình ngẫu nhiên có tham số và tham số này được ước lượng chính xác Khi dùng HMM giải quyết bài toán nhận dạng mẫu, phải xác định rõ có bao nhiêu trạng thái ẩn đầu tiên cho mô hình Phải huấn luyện HMM học xác suất chuyển trạng thái từ mẫu, mỗi mẫu được mô tả như một chuỗi các quan sát Mục tiêu huấn luyện HMM là cực đại hóa xác suất của quan sát từ dữ liệu huấn luyện bằng cách điều chỉnh các tham số trong mô hình HMM thông qua phương pháp phân đoạn Viterbi chuẩn và thuật toán Baum -Welch Một cách trực quan, có thể chia mẫu khuôn mặt người thành nhiều vùng khác nhau như đầu, mắt, mũi, miệng và cằm Có thể xác định một mẫu khuôn mặt người bằng tiến trình xem xét các vùng quan sát theo thứ tự thích hợp (từ trên xuống dưới, từ trái qua phải) Thay vì tin tưởng mức độ chính xác vị trí lề để dùng cho các phương pháp dựa trên so khớp (nơi xuất hiện các đặc trưng như mắt và mũi cần xác định vị trí lề tốt để lấy được toàn bộ chi tiết của đặc trưng) Mục tiêu của phương pháp này là kết hợp các vùng đặc trưng khuôn mặt với các trạng thái của mô hình Các

Trang 32

phương pháp dựa vào HMM sẽ xem xét mẫu khuôn mặt như một chuỗi các vector quan sát, hình 1.13a và hình 1.14 Trong quá trình huấn luyện và kiểm tra, ảnh được quét theo một thứ tự, hình 1.13a và hình 1.14 Áp dụng định hướng theo xác suất để chuyển từ trạng thái này sang trạng thái khác, hình 1.13b, dữ liệu ảnh được mô hình hóa bằng phân bố Gauss nhiều biến Một chuỗi quan sát bao gồm tất cả giá trị cường độ từ mỗi khối Kết quả xuất ra cho biết quan sát thuộc lớp nào Theo [42], Samaria dùng năm trạng thái tương ứng năm vùng (hình 1.13b) để mô hình hóa tiến trình xác định khuôn mặt, Samaria và Young dùng HMM 1 chiều (hình 1.13) và 2 chiều (hình 1.14) để trích đặc trưng và xác định khuôn mặt, tương tự Samaria và Young; Nefian và Hayes dùng HMM và biến đổi Karhunen Lòeve (Karhunen Lòeve Tranform – KLT) với các vector quan sát bao gồm các hệ số (dùng KLT) thì kết quả sẽ tốt hơn Samaria và Young và tỷ lệ chính xác cao khi dùng HMM 2 chiều (hình 1.14), còn Rajagopalan và cộng sự dùng thống kê có thứ tự ở mức cao hơn (Higher Order Statistic - HOS) để ước lượng cường độ

Hình 1.13 Mô hình Markov ẩn:

(a) các vector quan sát để huấn luyện cho HMM;

(b) năm trạng thái ẩn

Filareti [17] dùng đặc trưng màu kết hợp thông tin về độ sâu của ảnh làm dữ liệu dạy HMM học để xác định khuôn mặt Phương pháp này cho phép giải quyết vấn đề về điều kiện hình nền, độ sáng, che khuất, tư thế khuôn mặt Còn Kicheon [33] dùng đặc trưng Haar-like để xác định khuôn mặt người với HMM

Trang 33

Hình 1.14 Xác định khuôn mặt bằng HMM các trạng thái, mỗi trạng thái lại có những

trạng thái nhỏ bên trong: trạng thái trán có ba trạng thái nhỏ bên trong;

trạng thái mắt có năm trạng thái nhỏ bên trong

Thuộc tính trong không gian khuôn mặt có thể được mô hình hóa qua nhiều diện mạo khác nhau dựa trên ngữ cảnh để phân đoạn Lý thuyết trường ngẫu nhiên Markov (Markov Random Field – MRF) được dùng để mô hình hóa các thực thể dựa vào ngữ cảnh như các điểm ảnh và các đặc trưng có mối tương quan với quan hệ Kullback Theo [42], Lew dùng 9 quang cảnh để ước lượng phân bố của khuôn mặt rồi chọn các điểm ảnh giàu thông tin nhất (Most Informative Pixel – MIP) để cực đại hóa thông tin quan hệ Kullback giữa hàm xác suất khi mẫu là khuôn mặt người và khi mẫu không phải là khuôn mặt người; ông duyệt trên ảnh xây dựng khoảng cách từ không gian khuôn mặt (Distance From Face Space – DFFS) để xác định khuôn mặt – hình 1.9, tương tự Colmenarez và Huang xem xét cực đại hóa biệt số trên cơ sở thông tin giữa mẫu negative và positive của khuôn mặt Dựa trên ý tưởng này Henry [22] tìm tỷ lệ khả năng dùng cho mô hình xác suất đã được huấn luyện rồi xác định khuôn mặt Feng và Shi [71] dùng KFD (Kernel Fisher Discriminant) để phân tích ảnh có khuôn mặt người rồi học các đặc trưng này để xác định khuôn mặt người

Theo [42], Huang dùng thuật toán C4.5 xây dựng cây quyết định từ mẫu khuôn mặt; mỗi mẫu huấn luyện được mô tả như một vector có thuộc tính về entropy, trung bình và độ lệch chuẩn của các giá trị cường độ của điểm ảnh; mỗi node của cây quyết định sẽ chỉ rõ quyết định trên một thuộc tính đơn, Duta và

Trang 34

Jain mô tả phương pháp học khái niệm khuôn mặt bằng thuật toán Find-S của Mitchell dựa trên phân bố của mẫu khuôn mặt bằng p(x|khuôn mặt) mà không dùng mẫu không phải là khuôn mặt và chỉ dùng phần tâm dữ liệu với vector đặc trưng gồm có các ảnh với 32 mức cường độ hoặc kết cấu Ramana [57] dùng cây quyết định như công cụ để phân loại phần nào sẽ là khuôn mặt Khi xây dựng cây ông kết hợp cả cascade để tăng tính hiệu quả Froba và Ernts [5] dùng cây quyết định có nhiều nhánh cho phép xác định khuôn mặt người nhìn nghiêng từ -

60o đến 60o, mỗi node có khả năng loại bỏ cửa sổ con hiện hành đang xét hoặc phân loại vào một trong ba lớp quay được định sẵn

Học với AdaBoost là một phân loại mạnh phi tuyến phức HM(x), được xây dựng từ M phân loại yếu [48], 𝐻𝑀 𝑥 = 𝑀𝑚 =1𝛼𝑚 ℎ 𝑚 (𝑥)

𝛼𝑚𝑀

𝑚 =1 với x là mẫu cần phân loại,

hm(x){-1,1} là phân loại yếu, m0 là các hệ số trong R và 𝑀 𝛼𝑚

𝑚=1 là nhân tố chuẩn hóa Mục tiêu của Adaboost là học dãy các phân loại yếu Giả sử có một tập N mẫu huấn luyện đã gán nhãn {(x1,y1), …, (xN,yN)}, với yi là nhãn tương ứng của mẫu xiRn Tính một phân bố của các mẫu huấn luyện [w1, …, wN] cập nhật trong suốt quá trình học Sau bước lặp m, mẫu khó phân loại (xi,yi) có trọng số mới wi(m), đến bước lặp thứ (m+1), mẫu này sẽ có tầm quan trọng hơn Viola và Jones [48] dùng bốn loại đặc trưng Haar-like [33] cơ bản để xác định khuôn mặt người, hình 1.15 Đặc trưng Haar được ưa thích vì có hai lý do: (1) phân loại mạnh trong việc xác định khuôn mặt hay không phải khuôn mặt; và (2) hiệu quả khi dùng bảng tổng các vùng hoặc kỹ thuật ảnh đầy đủ

Hình 1.15 Bốn loại đặc trưng Haar wavelet-like

Trang 35

Ou [73] nhận xét nếu dùng cascade AdaBoost để xác định khuôn mặt với thuật toán Greedy thì không tối ưu, đề xuất dùng GA thay thế để tăng tính hiệu quả Lienhart [56] phát triển đặc trưng Haar-like thành bộ đặc trưng mới kết hợp phân loại cascade để xác định khuôn mặt người Từ ý tưởng chính trên, nhiều chuyên gia cải tiến như: dùng boost để loại trường hợp học quá khớp đồng thời sử dụng huấn luyện tăng cường để giảm tỷ lệ sai và xứ lý khuất, dùng đặc trưng Gauss không đẳng hướng và Haar-like kết hợp Adaboost, dùng phương pháp BDF (Block Difference Feature) với các đặc trưng Haar-like xác định các tư thế của khuôn mặt, … để tăng tính hiệu quả

Li và Zhang [64] đề xuất khái niệm Float Boost, là phương pháp học dựa trên phân loại boosting để tỷ lệ lỗi ở mức cực tiểu Phương pháp này cho phép quay lui tại mỗi bước học bằng AdaBoost đã cực tiểu hóa được tỷ lệ lỗi trực tiếp Có hai vấn đề gặp khi dùng phương pháp AdaBoost:

 Thứ nhất, AdaBoost cực tiểu theo hàm mũ tại biên qua tập huấn luyện Đây là tiện lợi, tuy nhiên mục tiêu cuối cùng trong các ứng dụng dùng phân loại mẫu thường là cực tiểu một giá trị trực tiếp kết hợp với tỷ lệ lỗi Một phân loại mạnh được học bằng AdaBoost thì gần điểm tối ưu của ứng dụng trong điều kiện tỷ lệ lỗi Vấn đề này không thấy tài liệu nói đến có lời giải

 Thứ hai, AdaBoost để lại thách thức nếu dùng phân loại yếu để học Học để phân loại tối ưu với phân loại yếu cần ước lượng mật độ không gian đặc trưng, điều này là vấn đề khó, đặc biệt khi số chiều của không gian khá lớn Float Boost xem như một cầu nối giữa mục tiêu của học boosting thông thường và nhiều ứng dụng dùng cực tiểu tỷ lệ lỗi thông qua việc kết hợp phương pháp tìm kiếm Floating và AdaBoost cùng kỹ thuật quay lui Tian [12] xây dựng cây xác định trên cơ sở học tích cực bằng thuật toán gom nhóm c-mean mờ dựa trên nền tảng Float Boost

Trang 36

Tu [72] dựa trên khái niệm cú pháp trong xử lý ngôn ngữ để xây dựng đồ thị cú pháp của ảnh dựa trên nội dung ảnh, hình 1.16 Sau khi có được các từ vựng, ông dùng phương pháp Adaboost (đã được huấn luyện) để xác định các đối tượng dựa trên giả thuyết của đối tượng

Elad [40] đề xuất phân loại dựa trên khái niệm loại bỏ tối đa (Maximal Rejection Classifier – MRC) khác hẳn ý tưởng các phân loại khác Các phương pháp khác tìm mức độ chung của một cá thể nào đó so với các lớp để đưa cá thể vào lớp Tác giả chọn cách loại bỏ những lớp mà cá thể này không có hoặc có ít mối tương quan, dựa vào PDF của hai lớp: khuôn mặt (target) và không phải khuôn mặt (clutter) xác định ngưỡng loại bỏ bằng FLD

Ngoài những phương pháp đã trình bày, nhiều chuyên gia kết hợp nhiều phương pháp để có kết quả hiệu quả trong bài toán xác định khuôn mặt Kim [70] dùng đặc trưng láng giềng của khuôn mặt để xây dựng mẫu theo hướng và dùng kỹ thuật xác định cạnh EBM (Edge-like Blob Map) theo cường độ Ông dùng logic mờ kết hợp PCA để ước lượng tư thế khuôn mặt Garcia và Tziritas [11] dựa vào màu da người tìm ứng viên Hai ông phân rã ứng viên bằng wavelet xem có cùng kết cấu với khuôn mặt hay không thông qua khoảng cách Bhattacharrya

Hình 1.16 Một ví dụ về cú pháp ảnh

Trang 37

Theo [42], Li dùng kernel để học như là một ánh xạ phi tuyến, đầu tiên ông dùng KPCA (Kernel PCA) để chọn các đặc trưng và không gian đặc trưng để học Sau đó ông dùng KSVC (Kernel Support Vector Classifier) kết hợp FLD để xác định khuôn mặt

5 Mục tiêu của đề tài

5.1 Xây dựng ngưỡng phân đoạn

Thông thường các phương pháp xác định khuôn mặt người trong ảnh màu đều sử dụng đặc trưng màu da người để chọn các ứng viên Tuy nhiên khi dùng bước tiền xử lý này thì các đặc trưng không còn mức độ chính xác cao vì nhiều lý do khác nhau Một trong những lý do chính là nhiễu Nhiễu sẽ gây ra biến dạng, cũng như sai lệch vị trí các đường biên khuôn mặt hay thành phần khuôn mặt, … Nhiễu có thể do tác động từ môi trường xung quanh, tác động từ ánh sáng, tác động từ vật dụng của người được lấy ảnh và ngay cả màu sắc từ quần áo của người được lấy ảnh cũng tác động… Ngoài những tác động từ bên ngoài, nhiễu cũng có thể sinh ra do lỗi kỹ thuật của công ty sản xuất thiết bị thu ảnh Từ nhận xét này cũng như chúng tôi đã tham khảo nhiều phương pháp xác định khuôn mặt người, phần 4 trong chương 1, chúng tôi sẽ đi xây dựng một phương pháp phân đoạn ảnh chọn ứng viên để xác định xem ứng viên nào là khuôn mặt người Quá trình phân đoạn để chọn ứng viên chính là quá trình tiền xử lý để thu hẹp không gian tìm kiếm trên ảnh Quá trình này cho phép chúng tôi có thể giảm thiểu thời gian xác định thay vì phải tìm trên toàn ảnh Nhưng qua quá trình tiền xử lý này cũng làm phát sinh một vấn đề, nếu mô hình màu da để phân đoạn ảnh cần tính toán nhiều để chính xác (mô hình phức tạp) thì sẽ mất khá nhiều thời gian, phần 3 trong chương 1 Vì thế chúng tôi phải xây dựng một quá

Trang 38

trình phân ngưỡng không quá phức tạp để đảm bảo thời gian xử lý mà vẫn đảm bảo có kết quả phân đoạn tốt

5.2 Dùng logic mờ để xác định khuôn mặt

Từ các ứng viên đã nhận được chúng tôi cần xây dựng một phương pháp xác

định khuôn mặt người với dữ liệu đầu vào là các ứng viên đã có từ quá trình phân đoạn, nhưng thật sự các ứng viên này đã bị biến dạng về hình dáng (gọi là

bị tác động của nhiễu – do tác động của môi trường: có những vùng không phải khuôn mặt nhưng có màu trùng với màu da sẽ tham gia vào ứng viên, hay những điểm ảnh thuộc khuôn mặt người nhưng dưới tác động của ánh sáng hay các đối tượng xung quanh sẽ bị thay đổi màu sắc và sau khi phân đoạn sẽ không tồn tại là điểm ảnh của ứng viên nữa) do quá trình lấy ảnh bị tác động cũng như quá trình tìm ứng viên Vì thế phương pháp xác định này phải chấp nhận dữ liệu đầu vào là các ứng viên không còn rõ ràng chính xác (mờ) và đưa ra một quyết định rõ ràng là ứng viên đang xem xét sẽ là khuôn mặt người hay không phải khuôn mặt người Dựa trên kiến thức và kinh nghiệm của chúng tôi, chúng tôi quyết định chọn phương pháp là dùng logic mờ để giải quyết

Hệ thống logic mờ này sẽ đưa ra quyết định dựa trên những quan hệ không rõ ràng chính xác về những tính chất bên ngoài: độ tròn, tỷ lệ chiều cao-chiều rộng,

… cũng như những tính chất về quan hệ của các thành phần bên trong: quan hệ hai mắt, quan hệ mắt-miệng, (những quan hệ này không còn rõ ràng và chính xác vì ứng viên không còn rõ ràng chính xác về hình dáng, kích thước, vị trí, …) để quyết định ứng viên nào sẽ là khuôn mặt người Vì vậy chúng tôi cần phải giải quyết hai bài toán sau:

 Xây dựng bộ luật mờ từ các quan hệ về hình dáng bên ngoài của khuôn mặt

Trang 39

 Xây dựng bộ luật mờ từ các quan hệ của các thành phần bên trong của khuôn mặt

Do quá trình phân đoạn tìm các ứng viên có thể có những khuôn mặt sau khi phân đoạn sẽ tạo một ứng viên duy nhất do điều kiện màu sắc Đây chính là bài toán thứ ba mà chúng tôi cần phải giải quyết Chúng tôi cần phải làm sao tách thành các ứng viên mà mỗi ứng viên có thể là một khuôn mặt người Chúng tôi phải xây dựng bộ suy luận mờ để ước lượng phạm vi vùng của từng ứng viên

5.3 Điều kiện của bài toán

Để suy luận được thì dữ liệu mờ đầu vào phải đảm bảo tồn tại những quan hệ đặc trưng cần thiết để suy luận Muốn thế, các khuôn mặt trong hình ảnh cần phải nhìn thấy ít nhất hai phần ba khuôn mặt để đảm bảo có đủ đặc trưng cần thiết Khi khuôn mặt bị xoay một góc  (bảo đảm thấy hai phần ba khuôn mặt), chúng tôi sẽ dùng các quan hệ về tỷ lệ mà không dùng quan hệ về khoảng cách

vì những quan hệ tỷ lệ này bất biến với các phép biến đổi Affine

Ngoài hệ thống xác định khuôn mặt người trong ảnh màu này phải có tỷ lệ xác định chính xác trên 70% và thời gian thực hiện dưới 2 giây [42], điều kiện này là điều kiện chung của các ứng dụng sử dụng bài toán xác định khuôn mặt người mà chúng tôi được tham khảo Không những vậy, phương pháp xác định khuôn mặt người này phải xác định được các khuôn mặt người ở nhiều điều kiện khác nhau: môi trường xung quanh đa dạng, vị trí khuôn mặt, tư thế khuôn mặt

Trang 40

Chương 2 Logic mờ và cơ sở toán học

Trong chương 2, chúng tôi chỉ trình bày một số khái niệm cơ bản của logic mờ – cơ sở để chúng tôi xây dựng các luật mờ trong phương pháp xác định khuôn mặt người sẽ trình bày ở phần sau

1 Khái niệm về logic mờ

Hệ mờ và điều khiển mờ dựa trên nền tảng logic mờ, được nhà toán học gốc Azerbaijan, Lotfi Zadeh, đưa ra năm 1965 [3], [4], [29]

Trong logic mệnh đề cổ điển, một mệnh đề toán học chỉ có một chân trị hoặc đúng hoặc sai Ví dụ: 100 >1 là hoàn toàn đúng Tuy nhiên trong thực tế, một lời phát biểu hay một lời nhận xét có khi không thể phán quyết được đúng hay sai

Ví dụ anh Sơn nói: “Con trai tôi cũng khá cao.” Thì tùy quan điểm của mỗi người mà mức độ đồng ý hay bác bỏ của họ là rất khác nhau

Chiều cao của một bé trai bao nhiêu thì mới được coi là cao và khá cao? Khái niệm cao của một bé trai sẽ phụ thuộc vào độ tuổi của bé khi phát biểu Logic cổ điển không thể làm gì được trên một phát biểu như thế của anh Sơn Tuy nhiên, nếu con trai anh Sơn ba tuổi mà có chiều cao khoảng 1.2 mét thì phát biểu đó hoàn toàn chính xác, còn nếu chiều cao dưới 0.6 mét thì rõ ràng là quá thấp [2]

Zadeh đã mở rộng hai chân trị của logic cổ điển {0,1} ra toàn bộ giá trị thực trong đoạn [0, 1] để chỉ mức độ đúng/sai của một mệnh đề bất kỳ [29] Khi đó, hai chân trị 0 và 1 của logic cổ điển chỉ là trường hợp đặc biệt của đoạn [0, 1] Như trong ví dụ trên, nếu con anh Sơn có chiều cao 1.0 mét, có thể nói là khá cao nhưng rất cao thì chưa chắc Khi đó, ta có thể nói mức độ đúng của phát biểu trên bằng 0.70 (so sánh biểu đồ phát triển của trẻ em Việt Nam) Còn trường hợp chiều cao hơn hẳn 1.2 mét thì mức độ đúng có thể coi như 1.00

Ngày đăng: 18/08/2020, 13:04

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm