L'ex-traction des caractéristiques peut être aidée par la détection et le suivi desvisages, je présenterai aussi les résultats de localisation obtenus en utilisant ou non ces outils.. 29
Trang 1MÉMOIRE DE FIN D'ÉTUDES
Localisation du locuteur dans une séquence
audiovisuelle
VU Ngoc SonMaster d'informatiqueInstitut de la Francophonie pour l'Informatique
Tuteurs : Gérard CHOLLET - ENST ParisAntoine MANZANERA - ENSTA Paris
2 avril - 30 septembre 2007
11 octobre 2007
Trang 2Je tiens à remercier tout particulièrement M Gérard Chollet, seur de l'ENST-Paris et M Antoine Manzanera, enseignant-chercheur del'ENSTA-Paris pour leur direction sur un sujet de recherche très intéressant
profes-Je tiens à exprimer ma reconnaissance pour leurs conseils et encouragementsqui ont facilité mon travail
Mes plus sincères remerciements vont également à tous les professeurs
et les personnels de l'Institut de la Francophonie pour l'Informatique (IFI)pour m'avoir donné des cours de très bonne qualité et pour leur soutien aulong de mes études à l'IFI
Un grande merci à mes collègues à l'ENST et à l'ENSTA pour une biance de travail particulièrement favorable
am-Je remercie chaleureusement mes camarades de la promotion XI pourleur amitié sans faille et je leur souhaite bonne chance pour la soutenance.Enn, je voudrais remercier ma famille et mes amis qui m'ont supporté
et encouragé énormément pendant mes séjours en France
Trang 3Le mouvement de la bouche d'un locuteur est fortement corrélé avec lesdonnées audio que celle-ci produit L'objectif est ici de détecter le locuteurdans une vidéo en utilisant ces deux signaux : le signal de parole acoustique et
le signal de parole visuel La localisation du locuteur est la clé dans certainesapplications : les vidéoconférences, les systèmes de sécurité, la reconnaissancedes personnes, l'indexation de vidéos, l'amélioration des interfaces hommemachine, l'analyse d'expressions humaines, la lecture sur les lèvres, etc.L'objectif de ce stage est d'étudier la localisation du locuteur en utilisantles données audio et les donnés visuelles Dans ce rapport, je présente d'abordles principes de l'extraction des énergies visuelles et de l'énergie sonore Ensuite j'étudie diérents méthodes pour mesurer leurs correspondances L'ex-traction des caractéristiques peut être aidée par la détection et le suivi desvisages, je présenterai aussi les résultats de localisation obtenus en utilisant
ou non ces outils
Mots clés : localisation du locuteur, multi modalité, détection de visage
Trang 4The visual motion of a speaker's mouth is highly correlated with the audiodata generated from the mouth We use this correlation to detect speakersusing video and audio data Applications of speaker detection include videoconferencing, people recognizing, video indexing, lip/speech reading, impro-ving the human computer interface, etc
The subject of this training course is to study the speaker detection usingboth audio and visual In this report, I present rstly the principles of ex-traction of the speech features, and then I study the method to measure theircorrespondence The extraction of features can be helped by face detectionand face tracking ; I will present also the results of localisation obtained byusing or not these techniques
Keywords : speaker detection, multimodality, face detection
Trang 5Table des matières
1.1 Problématique 9
1.2 Motivation 9
1.3 Objectifs de stage 10
2 Etat de l'art 11 2.1 Etat de l'art de la localisation du locuteur 11
2.2 Etat de l'art de la détection et du suivi de visages 12
2.2.1 Etat de l'art de la détection de visages 12
2.2.2 Etat de l'art du suivi de visages 13
2.3 Conclusion 14
3 Extraction des énergies et mesure de leur correspondance 15 3.1 Les énergies 15
3.1.1 L'énergie sonore 15
3.1.2 L'énergie visuelle 15
3.1.3 Diérence de fréquence d'échantillonnage 18
3.2 Mesures de correspondance 18
3.2.1 La corrélation 18
3.2.2 L'information mutuelle 19
3.2.3 Synchronisation l'énergie sonore et l'énergie visuelle 19
3.3 Protocole d'évaluation 19
3.3.1 Bases de données 19
3.3.2 Critères d'évaluation 20
4 Localisation du locuteur au niveau global 22 4.1 Extraction de l'énergie visuelle d'une région 22
4.1.1 Couleur de la peau humaine 22
4.1.2 Energie visuelle dans une région 24
4.1.3 Image intégrale 25
4.2 Expérimentations 26
4.2.1 Traitement des composantes couleurs 26
4.2.2 Bruit d'encodage 28
Trang 64.2.3 Expérimentations 29
5 Modèle proposé : la localisation du locuteur avec l'aide de la détection et du suivi de visage 31 5.1 Image de corrélation 31
5.2 Critères de choix de la région la plus corrélée avec la bande audio 32
5.2.1 Le maximum 32
5.2.2 La moyenne 32
5.2.3 Le nombre de pixels 32
5.2.4 La moyenne des valeurs les plus grandes 33
5.3 Localisation du locuteur en utilisant la détection de visage 33
5.3.1 Principe 33
5.3.2 Expérimentations 34
5.4 Localisation du locuteur en utilisant le suivi de visage 37
5.4.1 Principe 37
5.4.2 Expérimentations 37
5.5 Expérimentations sur les paramètres utilisés 39
6 Conclusion et perspectives 43 6.1 Conclusion 43
6.2 Perspectives 43
Trang 7Table des gures
3.1 Les images : It−1, It, EIC 1
V , EIC 2
V 163.2 Les images : It, Ft, ∆t, α = 0.1 173.3 Synchronisation l'énergie sonore et l'énergie visuelle sur les kdernières trames 203.4 Base "BANCA" 203.5 Base "JT" 214.1 Une image dans l'espace RGB, YCrCb ; avec les 3 composantes
Y, Cr, Cb ; les composantes Cr, Cb après avoir mis à noir despixels x ∈ RdV 234.2 Calcul de la somme de pixels dans un rectangle par l'imageintégrale 264.3 Résultat obtenus à deux instants diérents, même type del'énergie visuelle basée sur l'estimation du fond, découpage enrégions 8x8 ; plus la région est claire, plus elle est corrélée avec
le son 274.4 Eliminer le bruit : au niveau de pixel et au niveau de régionsur une vidéo de 4 personnes parlant 285.1 Image de corrélation d'un visage : les pixels les plus clairescorrespondent aux pixels les plus corrélées avec la bande audio 325.2 Images de corrélation de trois visages diérents : le locuteurcourant correspondant à la femme la plus à gauche 335.3 Localisation du locuteur avec la détection de visage ; le locu-teur ne bouge pas beaucoup 345.4 Erreurs obtenus en appliquant le critère maximun : les pixelsles plus corrélées peuvent appartenir à n'importe quelle zone
du visage 355.5 Utilisation du critère Moyenne pour choisir la région la pluscorrélée avec la parole 365.6 Une diculté : le changement du nombre de visages d'unetrame à l'autre 375.7 Localisation du locuteur avec suivi de visage - les avantages 37
Trang 85.8 Un exemple de changement de la taille des zones de visages
du suivi au cours du temps 385.9 La taille de la fenêtre temporelle utilisée pour estimer la corré-lation dépend de celle de la séquence de suivi de visage considéré 395.10 Images de corrélation en foncition des diérentes énergies vi-suelles - Intensité, Changement d'intensité, Energie basée surl'estimation du fond 416.1 Traitement de bruit en éliminant des pixels bien corrélés maisnon-groupés 446.2 Traitement de bruit en focalisant plus précisément sur les ré-gions de la bouche 44
Trang 9Liste des tableaux
4.1 Les résultats obtenus avec des corrélations diérentes 274.2 Les résultats obtenus en fonction des vidéos d'une personneactive avec un seuil d'énergie visuelle 294.3 Les résultats obtenus en fonction des vidéos de quatre per-sonnes actives avec un seuil d'énergie visuelle 295.1 Résultats obtenus en fonction de l'approche "Région" vs "Pixel" 355.2 Résultats obtenus en fonction du critère de sélection 355.3 Localisation du locuteur avec suivi de visage - résultats obte-nus en fonction de la méthode choisie pour xer la taille duvisage 385.4 Localisation du locuteur avec la détection vs le suivi de visages 395.5 Localisation du locuteur avec la détection de visage en fonc-tion de la taille de la fenêtre temporelle 405.6 Performances du système en fonction de l'énergie visuelle ba-sée sur l'estimation du fond - variation du paramètre α 405.7 Performances du système en fonction de l'énergie visuelle ba-sée sur le changement d'intensité 415.8 Performances du système en fonction des énergies visuelles 42
Trang 10Chapitre 1
Introduction
1.1 Problématique
La localisation du locuteur est un sujet actif de recherche Actuellement,
la localisation du locuteur est faite en utilisant un ensemble de microphones,qui peuvent positionner une caméra pour zoomer sur la personne parlant.Cependant, il n'est pas un système ecace quand le nombre de locuteurs'élève
Une nouvelle approche - la localisation du locuteur dans une séquenceaudiovisuelle - est d'analyser les données visuelles et les données audio Ondétecte le locuteur dans une vidéo en utilisant conjointement les deux si-gnaux : le signal de parole acoustique et le signal de parole visuel (le mouve-ment de lèvres plus précisément) Cette approche est inspirée par le fait que
le son semble provenir d'un stimulus visuel synchrone avec le signal audio
Le mouvement visuel de la bouche d'un locuteur est ainsi fortement corréléavec les données audio produites de sa bouche
1.2 Motivation
La localisation du locuteur la clé dans certaines applications : les déoconférences, les systèmes de sécurité, la reconnaissance des personnes,l'indexation de vidéo, amélioration l'interface humaine machine, l'analysed'expressions humaines, la lecture sur les lèvres, etc
vi-La localisation du locuteur courant lors d'une vidéoconférence permet dezoomer sur celui-ci ou encore de ne transmettre que sa vidéo limitant ainsi
la bande passante nécessaire
Dans les systèmes de sécurité, l'analyse de la synchronie audiovisuellepeut être utilisée pour détecter des impostures
La localisation du locuteur peut aussi être utilisée à des ns d'indexation,permettant ainsi de rechercher des séquences de dialogue particulier lorsque
la reconnaissance de visage permet de mettre un nom sur chaque séquence
Trang 11d'un locuteur particulier.
Dans le cadre des IHM perceptives, la localisation du locuteur peut êtreutile pour distinguer l'utilisateur actif (du point de vue de la parole)
1.3 Objectifs de stage
Dans le cadre du projet Européen "Secure-Phone" visant à développerdes techniques biométriques d'authentication pour la sécurisation des tran-sactions téléphoniques, l'équipe de TSI à l'ENST cherche à extraire des carac-téristiques discriminantes à partir des séquences audiovisuelles du locuteur(signal sonore de sa voix + vidéo de son visage)
Au delà du projet "Secure-phone", l'enjeu de ce travail est l'émergence
de "Smart phones" (téléphones intelligents) et de systèmes de visiophonie ou
de commande sans parole (caméra qui "lit sur les lèvres")
L'objectif de ce stage - en coopération avec l'UEI de l'ENSTA - est deproduire, à partir des enregistrements vidéo, une séquence d'indices visuels
de parole pour la localisation automatique du locuteur dans les séquencesvidéo
Trang 12Chapitre 2
Etat de l'art
2.1 Etat de l'art de la localisation du locuteur
L'extraction d'indices visuels pour localisation du locuteur pose la tion d'ó provient la parole sur la vidéo John Hershey et Javier Movellan[3] sont les premiers à s'attaquer à ce problème Ils ont cherché le lien entre
ques-la localisation d'un son et sa synchronisation avec le signal visuel En eetintuitivement lors d'une discussion si une des personnes entends mal, elle sefocalisera sur la bouche pour interpréter la conversation Plus généralement
le son est un indice spatial Malgré cette évidence la synchronie suelle est rarement utilisée comme source d'information dans les traitementsd'images John Hershey et Javier Movellan ont voulu localiser la source dusignal sonore en cherchant les régions de l'image qui sont corrélées avec lesignal audio Ils mesurent la synchronie comme l'information mutuelle entrel'énergie audio et l'intensité de pixel Ils appliquent cette mesure de cor-respondance pour tous les pixels dans la vidéo Le résultat est une cartetopographique d'information mutuelle audiovisuelle Pour estimer la posi-tion du locuteur à un instant, ils utilisent la corrélation des pixels dans lepassé Un lissage temporel Gaussien est aussi utilisé pour réduire les erreurs
Trang 13lant la corrélation entre les nouvelles données vidéos dans cet espace Maisles performances de FaceSync dépendent de la base d'apprentissage, elle estconstituée de toutes les vidéos dont ils disposaient Malheureusement lors demauvais résultats, on ne peut pas connaître quelle est la partie de la based'apprentissage qui pose problème.
Kazumasa Murai et Satoshi Nakamura [7] s'intéressent seulement à larégion de la bouche A partir de la détection des yeux et des lèvres, ilscalculent l'énergie visuelle en utilisant l'intersection de bissectrice de deuxyeux et la région de la bouche Cependant cette méthode est très dépendante
de l'orientation du visage et ne fonctionne pas quand le visage du locuteurest de face
Dans ces méthodes, les liens entre la vidéo et l'audio sont déduits par prentissage de séquences audio-vidéo Nous allons maintenant nous penchersur des méthodes n'en nécessitant pas
ap-2.2 Etat de l'art de la détection et du suivi de
vi-sages
2.2.1 Etat de l'art de la détection de visages
Il y a aussi beaucoup de travaux sur la détection de visage Le principegénéral est de balayer l'image par une fenêtre de recherche à laquelle estattribuée l'un des labels "visage" ou "non-visage" De façon schématique,ces méthodes utilisent toutes une des deux approches suivantes :
1 L'approche à base de caractéristiques propres du visage
Les méthodes de ce type utilisent des connaissances a priori sur les tributs d'un visage comme sa texture ou sa géométrie Généralement, cesconnaissances sont acquises relativement à une grande base d'images Cer-tains des modèles obtenus prennent la forme de règles dénissant la réparti-tion de diérents attributs (yeux, sourcils, ) dans un visage [13] Lorsqueles images d'entrée sont en couleurs, il est avantageux d'utiliser les infor-mations colorimétriques disponibles pour isoler les régions susceptibles decontenir des visages On considère alors qu'il est possible de délimiter dansl'espace de couleurs choisi la région correspondant à la peau En utilisantles frontières de cette région comme valeurs de seuillage sur une image, ilest alors possible d'extraire les pixels dont la couleur peut s'apparenter àcelle de la peau Plusieurs auteurs ont développé des algorithmes basés sur
at-la segmentation de at-la peau [14][15]
De telles approches sont rapides car elles se basent généralement sur descalculs simples Cependant, elles restent très sensibles à des changementssignicatifs de l'apparence des visages, (par exemple yeux fermés, boucheouverte, etc)
Trang 142 L'approche à base d'apprentissage
A la diérence de l'approche précédente, celle-ci ne nécessite pas deconnaissance préalable sur les caractéristiques propres du visage Ces mé-thodes sont plus robustes aux changements d'apparence des objets caracté-ristiques et des inuences des conditions environnementales
L'objectif ici est de discriminer deux distributions : celle de la classevisage et celle de la classe non-visage grâce à un algorithme d'apprentissagestatistique Lors de la phase d'apprentissage, des images labelisées commeappartenant à l'une ou l'autre de ces deux classes sont considérées Chaqueimage d'entrée est assimilée à une variable aléatoire x à laquelle est associé
le label y : visage (1) ou non-visage (-1)
A partir des données d'apprentissage, les probabilités conditionnellesp(x/y) sont estimées, permettant d'évaluer par la suite les probabilités aposteriori p(y/x) nécessaires pour eectuer la classication Une premièreméthode très populaire est alors celle des modèles de markov cachés (HMMs)[16] Le principe des HMMs, lors de la localisation du visage, est de toujoursextraire les mêmes régions de l'image d'entrée et de vérier si les caracté-ristiques apparaissent dans le même ordre que celui déni dans le modèleHMM
Les réseaux de neurones [17] ou encore les SVMs [18] sont aussi ment utilisés pour la tâche de détection, exploitant alors par exemple pourles SVMs leur capacité à gérer les données de grande dimension, permettantune représentation des visages par la valeur des pixels
couram-Il est enn envisageable d'utiliser des "eigenfaces" [19] consistant à quer une analyse en composantes principales sur un corpus d'apprentissage
appli-ó chaque visage est représenté par un vecteur de valeur de ses pixels Lespremiers vecteurs propres obtenus (les eigenfaces) sont alors sélectionnés etdéterminent par la suite l'espace de représentation des visages Pour détecter
un visage dans une image, chaque zone candidate est alors projetée dans cetespace Si la distance entre le vecteur obtenu et le vecteur original (celui desvaleurs des pixels) est inférieure à un certain seuil, on estime alors que lazone contient un visage
Considérant les avantages d'une méthode basée sur l'apprentissage, notreéquipe de TSI à l'Enst a donc opté pour l'algorithme développé par Viola etJones [5] dont l'un des atouts principaux réside dans sa rapidité d'exécution,contrainte jouant un rơle non négligeable lorsque le volume de données àtraiter est important
2.2.2 Etat de l'art du suivi de visages
L'objectif de la phase de suivi est de permettre l'association des rentes instances d'un même visage au cours du temps Dans le contexte de
dié-la segmentation, dié-la phase de suivi s'avère donc primordiale
Trang 15Dans la littérature, les méthodes de suivi se décomposent généralement
en deux grandes catégories : déterministe et stochastique
Les méthodes déterministes consistent à rechercher les caractéristiquespropres du visage (sa forme ovale, sa couleur ou son contour) dans chaqueimage du ux
Les méthodes stochastiques, quant à elles, se basent sur une rechercheprobabiliste de l'hypothèse de conguration la plus vraisemblance par rap-port à un modèle prédéni de l'objet suivi
Malheureusement, l'ensemble de ces méthodes sont beaucoup trop teuses en temps de calcul ce qui nous ont amené à préféré la méthode quenous allons présenter par la suite, dite du CamShift [20]
L'extraction des caractéristiques peut être aidée par la détection et lesuivi des visages Dans le cadre de ce stage, le résultat de détection ou desuivi de visages a été eectué en utilisant l'algorithme de Viola et Jones,CamShift pour réduire le cỏt de calcul
Trang 16Chapitre 3
Extraction des énergies et
mesure de leur correspondance
3.1 Les énergies
Nous cherchons à mesurer la corrélation entre le signal sonore et le signalvidéo Pour ce faire, nous devons extraire des caractéristiques de ces signaux(des énergies) puis mesurer leur correspondance Ce chapitre présente doncles diérentes énergies qu'il est possible d'extraire ainsi que les mesures decorrespondance permettant de les comparer
- x = (i, j) : un pixel de postion (i,j) dans l'image
- It(i, j): l'intensité du pixel (i, j) appartenant à la trame t
- EV(x, t) : l'énergie visuelle du pixel (i, j) de la trame t
- ROI : une région d'intérêt
- EV(ROI, t): l'énergie visuelle de la région d'intérêt de la trame t
- S : la surface de la région d'intérêt
Trang 171 Energie visuelle au niveau du pixel
Intensité du pixel
Au niveau le plus simple, l'énergie visuelle du pixel (i, j) correspond àson intensité :
Changement de l'intensité du pixel
Nous prenons en compte la variation de luminance du pixel d'une trame
à une autre Il y a deux manières pour la calculer :
La première est la diérence d'intensité de la luminance du pixel dansdeux trames successives :
EIC1
V (x, t) = (It(i, j) − It−1(i, j))2 (3.3)Ici, la diérence est prise au carré an de l'énergie visuelle est positive
Et la deuxième est la moyenne de ces diérences des pixels voisins de(i, j):
Fig 3.1 Les images : It−1, It, EIC 1
V , EIC 2
V
La gure 3.1 présente la diérence des images successives, c'est aussi latrace laissée par la personne au cours de son déplacement
Energie visuelle basée sur l'estimation du fond
Il est clair que les pixels plus intéressants dans le cadre de l'applicationenvisagée correspondent aux pixels des objets en mouvements Pour extraireces pixels particuliers, l'idée est de parvenir à soustraire dans chaque image
le fond constitué des pixels dont la valeur change peu dans le temps J'utilisedonc la méthode d'estimation récursive du fond présentée dans [10] Cetteméthode est adaptative puisque le fond est réestimé à chaque image
Trang 18Initialisation : pour tous les pixels x à l'instant 0
ó α ∈ [0, 1] est une constante
Si α est 1, Ft = It, le fond correspond à l'image courante Si α est
0, Ft = Ft−1 = = F0, le fond reste toujours égal à sa valeur initiale Enfaisant varier α, nous pouvons trouver la valeur la plus adaptée à la détection
du mouvement
Ensuite, on calcule la diérence d'intensité de chaque pixel :
−→
Fig 3.2 Les images : It, Ft, ∆t, α = 0.1
La gure 3.2 nous montre le résultat de la détection de mouvement àniveau de base Ces images montrent que ∆t permet de mettre en avant lazone la plus en mouvement dans le carré en bas à gauche
L'énergie visuelle en chaque pixel x = (i, j) est alors :
EVF(x, t) = k∆t(i, j)k2 (3.8)
2 Energie visuelle dans une région
L'énergie visuelle de la région d'intérêt EV(ROI, t) est la moyenne decelle de tous les pixels dans la région :
Trang 193 Fréquence d'échantillonnage
Les vidéos de la base de données sont échantillonnées à 25 trames/s.Par conséquent, l'énergie est calculée en chaque pixel ou région 25 fois parseconde
3.1.3 Diérence de fréquence d'échantillonnage
Notre objectif est de comparer sur une fenêtre temporelle les valeurs del'énergie visuelle avec celles de l'énergie audio Pour obtenir des vecteursd'énergie de même dimension, il est possible de sur-échantillonner les éner-gies visuelles ou de sous-échantillonner les énergies sonores (en prenant lamoyenne de 4 échantillons) Nous avons choisi ici cette seconde solution pouréconomiser le temps de calcul
3.2 Mesures de correspondance
Dans ce paragraphe, on rappellera les mesures de correspondance pourévaluer la synchronisation entre deux variables Soient X et Y deux variablesaléatoires
Trang 203.2.2 L'information mutuelle
Dans la théorie des probabilités et la théorie de l'information, mation mutuelle de deux variables aléatoires est une quantité mesurant ladépendance statistique de ces variables :
3.2.3 Synchronisation l'énergie sonore et l'énergie visuelle
An de détecter le locuteur actif à l'instant courant, il faut s'intéresser
à la synchronie entre la voix et le mouvement de la bouche Pour évaluercette synchronie à l'instant t, on calcule la correspondance entre les énergiessonores et visuelles mesurées sur les k dernières trames
3.3 Protocole d'évaluation
3.3.1 Bases de données
Deux bases diérentes on été utilisées :
- une première base est construite à partir de la base BANCA : 4 vidéosont utilisées pour former une unique vidéo (la gure 3.4) Ces 4 vidéosmontrent une personne récitant son texte d'identication La bande son estdivisée en 4 segments consécutifs correspondant chacun à une des personnes.L'ordre des locuteurs est connu, il est aussi possible d'évaluer facilement lesrésultats du système de localisation Il faut remarquer que ces vidéos sontdiciles : l'ensemble des personnes parlent "visuellement" alors que la voix
Trang 21Fig 3.3 Synchronisation l'énergie sonore et l'énergie visuelle sur les kdernières trames
Fig 3.4 Base "BANCA"
d'une seule compose chacun des 4 segments audio 52 vidéos sont constituéessur ce modèle
- La seconde base est constituée d'un extrait d'un journal télévisé Cettefois la diculté provient plus du fait que les personnes sont plus libres deleurs mouvements Les visages bougent plus, ne sont pas toujours de face ;
ce qui peut poser problème pour l'extraction des énergies visuelles
3.3.2 Critères d'évaluation
Dans la littérature sur l'évaluation des systèmes de détection, il existeune mesure de précision et de rappel :
P recision = N ombre de locuteurs correctement detectes
N ombre total de locuteurs detectes (3.14)
Trang 22Fig 3.5 Base "JT"
Rappel = N ombre de locuteurs correctement detectes
N ombre de locuteurs a detecter (3.15)Dans le cadre de ce stage, une région la plus corrélée avec l'énergie sonoresera trouvée pour tous les instants et on ne sait pas l'instant ó un locuteurest actif, on utilise donc seulement le critère de P recision pour mesurer laperformance du système
Trang 23Ce chapitre présente plus précisément l'extraction des énergies visuellesd'une région et la corrélation entre l'énergie sonore et l'énergie visuelle A la
n, nous discutons des résultats obtenus
4.1 Extraction de l'énergie visuelle d'une région
4.1.1 Couleur de la peau humaine
Il est clair que les pixels les plus intéressants dans le cadre de l'applicationenvisagée correspondent aux pixels des régions de visage humain Pour cefaire, on peut utiliser des techniques de détection de visage Cependant,dans cette étape, nous utilisons seulement une technique assez simple pourchercher des pixels particuliers qui peuvent correspondre aux visages C'est
la caractéristique de la couleur de la peau humaine
Bien que les personnes diérentes aient la peau de couleur diérente,plusieurs travaux ont montré que la diérence principale se trouve en grandepartie entre leur intensité de chrominance Plusieurs espaces de couleur sontutilisés pour détecter les pixels dans l'image qui ont la couleur de la peauhumaine L'ecacité de détection des pixels dont la couleur est celle de lapeau humaine dépend du choix de l'espace de couleur La recherche a prouvéque la couleur de peau est groupée dans une petite région de l'espace dechrominance Un des espaces de couleur souvent utilisé est l'espace YCrCb.L'équation de transformation du RGB à l'espace de YCrCb est montrée ci-
Trang 24dessous :
Y = 0.299R + 0.587G + 0.114B (4.1)
Cr = 0.492(B − Y ) = −0.147R − 0.289G + 0.436B (4.2)
Cb = 0.877(R − Y ) = 0.615R − 0.515G − 0.100B (4.3)
Fig 4.1 Une image dans l'espace RGB, YCrCb ; avec les 3 composantes Y,
Cr, Cb ; les composantes Cr, Cb après avoir mis à noir des pixels x ∈ RdVNous avons essayé plusieurs tests expérimentaux sur notre base de don-nées pour trouver deux intervalles {Cr1, Cr2}, {Cb1, Cb2}
Avec ces deux intervalles, on dit que le pixel x peut être un pixel d'unvisage si :
Cr(x) ∈ {Cr1, Cr2} et Cb(x) ∈ {Cb1, Cb2} (4.4)