— Nes encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans fa réalisation de ues travaux.. Eu sous appuyaut suc Jes césullats d
Trang 1UNIVERSITE NATIONALE DU VIETNAM, IIANOI INSTITUT FRANCOPIIONE INTERNATIONAL
ATREV] Dicudonné Fabrice
EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SLLHOVUETTES HUMALNES : RECONNAISSANCE DE POSTURES ET
MODELISATION D'ACTIONS
CHIẾT XUẤT KHUNG XUONG 3D TI ANH 2D CUA CON NGUOT:
NHẬN DẠNG TƯ THỂ VÀ MÔ HÌNH HOÁ HÀNH ĐỘNG
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
HANOI —2015
Trang 2
UNIVERSITE NATIONALE DU VIETNAM, IIANOI INSTITUT FRANCOPTIONE INTERNATIONAL
ATREVI Dieudonné Fabrice
EXTRACTION DE SQUELET ES 3D A PARTIR D'LMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET
MODELISATION D'ACTIONS
CHIET XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI:
NHAN DANG TU THE VA MO HINH HOA HANH BONG
Spécialité : Systémes Intelligents et Multimédia
Code : Programme pilote
MEMOIRE DE FLX D’ETUDES DU MASTER INFORMATIQUE
Sous Ia direction de: Dr Damien VIVET, Maitre de conférence
Dr Florent DUCULTY, Maitre de conférence
Lu et validé, bon pour soutenance
— _——— HANOI - 2015
Trang 3
Table des matiéres
Table des matiéres
Remerciements
Résumé
Abstract
Liste des figures
Liste des tableaux
2 Modélisation humaine 3D et extraction de donné
Descripteurs de formes et extraction de caractéristiques
Trang 4de dédie ra document & mea Jamiile eb & res camerutes de
IEE
Trang 5Remecrcicments
La réalisation de ce document qui eonronne Ta ñn da natre &matidn de Master, nhanrait
été possible sans Ï'appui đircct du indirecE de persoanes ct đ"nstikufions auxquelles nows tenons
ict A cxprimer aus sincéres semerciemnents ÏÏ s agit de :
— L'Agence Universitaire de la lrancophonie (AUI’), pour nous avoir donné l’opportunité
de poursnivre nas étures de Master 8 T'TET 8 travers une bourse,
— L'Institut Francophone International (IFT) et de tous les professeurs, pour les nombreuses connaissances acquises durant notre formation
— Nes encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans fa réalisation de ues travaux
— ‘Tous ceux qui de prés ou de Join nous ont apporté ieur soutien durant notre formation
Trang 6partir de captours classiques ne Zournissant pas d'information de profondeurs Crs informations
đe prolondeurs son uclucliement indispeusables pour des analyses plus précises du eumpor- tement bumain dans le cadre de la vidéo surveillance de masse de personnes L’approche que noms avons propasée an cours de ce stage suit me démarehe classique d'apprentissage auto matique qui cousiste appreudre ua cusvable de poses obLeunes a parlic de donudes si:mulées
‘Les résullats oblewus soul promelieurs eu ce seus que uous aveus oblenm de bous taux de
reconnaissance de pose 4 partir d’images de personnes inconnues dans la base d’apprentissage Nos travaux nous ont permis de comparer les différents descripteurs de formes mis en jeux
el de montrer ceux qui soul les plus robustes Eu sous appuyaut suc Jes césullats de recon- uaissance de postures, nous avous propusé uae premiére approche de classification Pactious
dans une vidéo, Les résulvats obtenus sont prometteurs et peuvent étre améliorés pour une
plus grande etticacité, notamment en prenant en compte l'information temporelle par ia mise
ou place d'un pislage ranlli hypolhdse des poiuls d'articulatiou du squelette
Mots-clés : Analyse comportementale reconnaissance de postures, classification d’actions, de:
vipteurs de forines
Trang 7Abstract
Tn the recent history of the science, IT provides powerful analysis tools for support expert
te make a decision In the same way, computer vision trics to implement automatic tools for image and video analysis For example, in the context of video anaiysis, we cau talk about human motion analysis through a video In the specific context of our work, we addressed
the issue of the ID pore estimation ram 20 memoewlar images obtained from conventional
sensors not providing depth
of human frou au image and compule, via the orthogonal goomelric moment and the shape
contexl, Unree feature vectors A human poses aud action can be retrieved by calculating Ube
Euclidian distance between the feature vector af the request image and alll of the feature vector
of the training data, we are deduce the corresponding action by choising the most represent clas of action 3D estimate poses fs Creu computing by Uke mean 3D poses of all relzieved
images of lhe ost represented action class,
Keywords: Behavior analysis, 3D pose recoguilion, actions classiliculiou, shape deserip-
tors.
Trang 8ste des figures
Personne équipée d'un exosquelette 6 ee ee
Persoune équipée lors Pune capture magué.ique: -
Fxemples de modétes hmains 3D obtenns avec MakeFinman -
Modléle du suetette de type second life hones - -
Xodele huunain baporte dang bieuder & partir de MakeHuraan
Exemples de silhoettes extvaites lors d'tme marche -
A gauche, une matrice 4 x 4, à droite une image avec les points reprojetés
De Ja gauche vers Ja droite : courbe du polyndare avec n = 0, 1, 2
Tétermination dit bon ordre ponr le moment de Krawtchank -
A gauche, les moments pour le bas du corps et a droite, les moments pour le
Polynômes de Zernike tracés sr Je disque unité [1] -
Determination du bon ordre pour lẻ moment de Zernike "
Contexte de forme (a,b) sont des exemples de forme (c) est le diagramme
fog-polaire, (d-t) des histogrammes des points marqués Source Belongie et al [2]
Dêterminalion dụ bọn nơnnbre de clusters -
worklow de la démarche sulvie 00 eee
Tuas de reconuaissance pour des douudes apprises > Méthode de Krawtebouk
Tanx de reconnaissance ponr des données non anprises : Máthode đe Krawr-
chouk Eu abscisse, résultats pour cespectivenent 1, 3, 5 et 7 voisins considérés
et em ordomnée, les tax de reconnaissance -
Tanx de raronnaissance panr des donnees appriees : Mẽthode de Zernike Tìn
abscisse, résullals pour respeclivement 1, 3, B et 7 voising considérés et eu
ardanmee, ‘es tanx de reconaissanre - -
Taux de reconnaissanee pour đes đonnées non apprises : Methode de Zernike
En abscisse, résultats pour respectivement 1, 3, 3 ot 7 voisins considérés et on
ordomnée, tes tanx de recomnaissanre
Taux de reconnaissance pour des données apprises : Méthode du contexte de
forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés
et en ordonnée, les taux de reconnaissance -
‘Taux de reconnaissance pour des données non apprises : Méthode du comtexte de
forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés
et en ordonnée, les taux de reconnaissance "
Résultat de recherche (Pane image iconuue avec Tes Lrols deseriplowrs
vì
32
33 34
Trang 9Exemple 1 : Résultat de représentation 3D de squelette -
#xemple 2 : Résultat de représentation 3L) de sqnelette
Résultats de suivi pour le mouvement "granper" -
Résultats de suivi pour le mouvement "saut* -
Matrice de confusion obtenue
‘A gaucho notre matvice de confusion cxprimée on pourcentage ot & droite Ta
matrice de confusion obtenue par Gorelick et al (SJ 2
Contour extrait sur une silhouette 2 ee
Images de silhouctte br
images de silhouette bruitée avec std 2
Images de silhouette bruitée avec std = 3 - see
Remiitat de reconnaissance de postnre avec tne image réelle pau ame posture
en croix, A gauche, limage originale, au centre lee résultats obvenus et A droite
at de reconnaissance cle postnre avec me image réelle pour me nostnire
de marche A gauche, I'auage originale, au cenLre, les résullals oblenus el a
droile estimation du squelelte 3D, - -
Trang 10Liste des tableaux
3.1 Caractéristiques de la machine
3.2 Détuils de composition des difféercutes bases
3.3 Organisation de la base @apprentissage
viii
25
26 26
Trang 11Introduction Générale
Contexte et Cadre d’étnde
Le précent document a été élaboré dans le cadze des travaux réalisés durant notre stage de fin de formation pour Pobtention du Master spécialité "Systemes Intelligent et Multimédia"
de ‘Institut Lrancophone International en collaboration avec I' Université de La Rochelle Les
de
travanx se sont déroulés an sain de Véquipe “Tmaze et Vision” du Laboratoire PRISM
TUniversité d’Orleans II s'agit d'un laboratoire pluridisciplinaize dans le domaine général des sciences pour Vingénieur Il est déployé sur plusieurs sites et est composé d’environ 106
enseignants-chercheurs, de 70 doctorants et d'une dizaine d'ingénieurs
La thématique abordée durant ces travaux ext relative au domaine de l’analyse compor-
tementale ef de 1a télésurveillance En effet, plusienrs domaines de la science ont recours A
Tinformatique ct plus précisément 4 la vision par ordinatcur pour Panalyse des actions (dans
un aéroport, dans un slade, dans unc place publique, etc.) W’une ou d'un groupe de pCrsonnos,
et ce, & travers des vidéos Ll est ditticile pour “homme de pouvoir surveiller et prédire des ac-
tions de ces individus dans un environnement plus large et non contréié Ainsi, de nombreuses
techerches ont 616 wenées ces deraidres aunées pour inettre a la disposition des spécialistes des outils prévis et eflicaces alin de les aider daus leur prise de décisiou en mvaliére de vidéo surveillance et plus précisément dans ‘analyse de comportement
Problématiques
Dans ie cadre de ia vidéosurveiliance, de ’analyse comportementale et de la reconnaissance
de gestes, certaines informations péométriques (comme les informations sur la pose 3D des individu) sont essentielles ponr affiner les analyses des experts T/obtentian des informations
de profondcur requicrt Pulilisation de dispusitis spGcifiques cofiteux ct đong nón utilisés dass
Ja videusurveillance, 1] ve pose alors la problématique de Wrouver un moyen simple et efficace
@obtenir ces informations 4 partir ’nne vue monnculaire de l'environnement et des personnes
qui s'y trouvent Cette problématique, qui est un véritable challenge dans le domaine de
Ja vision, a mnubilisd cos deruiéves années, de nombreux cherehours, qui se sent Tancôs dang:
Télaboration de différentes approckes De uebreuses solutions ut &lé proposées et chacune
Trang 12Welles présente des avantages et des inconvénients Nos travaux s‘intéressent 4 ce domaine
et viseml & propuser une méthode simple, efficace cl rapide pour oxtraize les iuformations
géomélriques sur la pose d'une personne
Objectifs du stage
Les objectifs de notre stage sont multiples et se déclinent en deux grandes parties Dans
la premiére grande partie, il s'agira de mettre en place une base de données de silhouettes 2D et de semelettes 3D extrait
3D Une fois les bases de données mises en place, nous proposerons une démarche méthodique
Le mémoire est organisé autour de trois chapitres de fagon & rondze compte du travail
effectué duraut le slage Le prunicr chupitre présente les principaux Lravaux revensts lors de
Létude bibliographique et qui traitent de la classification d'actions dans une vidéo, de ['estima-
tion de pose et également les différentes techniques existantes pour la capture de mouvement,
Le sceond chapitre présente les méthadcs utilisées dans I'élaboration de solutions pour la re~ conuuissance de postures et la cecoumaisvauce d'actions Une description détaillée de la Unéerie sur les deseripteurs de formes que nous avons utilisés pour décrire Les silhouettes des personnes contennes dan Jes différentes images our finir ie troisiéme chapitre présente les détails de Jimptementation, les démarches suivies pour les expérimuentaLions ot lex résullats obtenus, Une
analyse de nos résultats a éLé faite daus ce dernier chapilre ainsi qu'uae comparaiyou avec des
résuitats obtenus dans des travaux préexistants
Trang 13tions tridimensionnelies et temporelles sur le mouvement effectué par un objet, un animal ou
am étre humain Les domaines d'application utilisant la capture de movement, deviennent de plus cn plus uowbreux Allaut du cinéma, a la médeciae en passant par Pindustrie, la capture
de mouvement a pour but de reproduire sur des objets virtuels ou cur des robots, des mouve- ments bien connus Dans le cinéma, on retrouve des films dans lesquels les personnages, qui
sont virtnels, exécntent des movements réaliates Ces mouvements sont obtenns par des tach:
siques de “motion capture" Eu nédecine, on peut ciler les bras robuliques pouvant ceproduire
Je mouvement d’un chirurgien pour des interventions millimetrées
L'analyse de mouvement, consisle & modéiser le mouvement déerit par ua objet, an
animal ou un étre humain 4 partir d'informations recueillies Les applications possibles sont également, nombrenees T'analyee de comportement pour la sirvei'lance actions dans les aéroports, les gares, les stades par cxemple, se trouve dans le domaine de Vanalyse de mouve-
_
Daus ec chapilre, nous allous prosentcr Jes approches de captare de uouyemcul voumues
ot ies travaux relatits A Vestimation de pose ainsi que Panalyse de mouvement
1 exisle plusicurs syslémcs peraucltanl de caplurer Je anvuvement Van objet on géucral
et d'un étre humain en particulier Ces approches peuvent étre classées en fonction des moyens nifilisés pour réaliser Paccuisition de données Ainsi, an distingue trois grandes catagories de
aystémes A savoir : les systémes mécaniques, magnétiques ct optiques.
Trang 14ur élément dont on souhaite enregistrer le mouvement (voir figure 1.1 a
la page 4) Le dispositif est constitué non seulement, de Vexosquelette, mais également des codeurs d’angle associés aux différentes articulations et qui renvoient 4 un ordinateur leur
valeur de rotation? I] permet d'obtenir avec précision, le mouvement exécuté au niveau de
Cela constitue un inconvénient majeur surtout pour la capture du mouvement humain et d'ob-
jets non rigides et non déformables Par exemple, la société PDI a développé pour le haut du corps un exosquelette en plastique qui mesure les mouvements de la téte, des bras et dụ torse à
et impose done de disposer d'importants moyens pour la réalisation de grands projets Avec
ces systéme: il est difficile de capter interaction entre plusieurs éléments (personages dans une animation) Cette approche est plus adaptée a la capture d’éléments rigides (systémes
1 Source = http: //e.chasserat free fx/TPE2/defhistorique html, consulté le 04/07/2015
2 source : hetps: //fr.wikipedia.org/wilei/Capture.de_mouvenent, consulté le 04/07/2015
3, source : bttp://tpenodelisationhunaine.e-monsite.com/pages/motion-capture.html, consulté le
06/07/2015
Trang 151.2.2 Systémes magnétiques
L’exploitation des lois de Pélectromagnétisme a permis daboutir a la mise en place de cette approche L’espace géométrique est représenté par un repére (x,y,z) dont Vorigine (0,0,0)
est déterminée par un générateur de champ magnétique plus communément appelé antenne
L’élément dont le mouvement sera capturé est équipé de capteurs (gé
électriques) qui 2 la page
5) Ces systémes offrent la possibilité de détermine
repére du pers onnage et les mesures sont en temps réel [6] Ils permettent d’éviter les problémes doccultations entre les éléments de la scene puisque le champ magnétique peut traverser le corps humain Plus le nombre de capteurs est important, plus il y a une précision dans la
capture de mouvement Cela nécessite également des moyens finance
s non négligeables
Pour ces systémes, il est né aire de corriger a chaque fois le décalage qui peut suryenir
entre le capteur et le point qu'il représente Cette erreur est souvent due an mouvement du
du champ magnétique étant limitée, l'espace de travail se voit également limiter Outre ces
inconvénients, on peut citer la fréquence d’échantillonnage de ces systémes qui est faible et
qui limite les types de mouvements pouvant étre exécutés par le sujet d’étude
FIGURE 1.2 ~ Personne équipée lors d'une capture magnétique
4 souree ; Attp://tpenodeligationhumaine.e-monsite.com/pages/motion-capture-html consulté le 06/07/201
Trang 16
1.2.3 Systémes optiques
1
pour acquérir l'information sur le mouvement exécuté Ils sont les plus ntilisés dans le monde ‘agit de systémes basés sur l'utili
isation des rayons lumineux avec ou sans marqueurs
de cette utilisation massive réside dans la précision qu nmoins, ils ont quelques
limites comme Toceultation lors de la capture de mouvement de deux on plusieurs person-
nages On peut noter différentes variantes de ces systémes utilisant différents composants
pour l’aequisition de donnée:
1.2.3.1 Caméras infrarouges couplées aux capteurs
Le principe des systémes a réflecteurs passifs est d’émettre des rayons infrarouges depuis
de
peuvent afficher sur une image chacun de ¢
caméras, qui seront réfléchis par les réflecteurs Une fois les rayons réfléchis, les camér,
sflecteurs par des points Ains
posés & des points clés (articulations
ar exemple) permettent d’avoir en 2D les positions de ces points L’information 3D étant nécessaire, il est couramment utilisé un nombre important (minimum 3) de caméras qui observent la méme scene, mais de différents
points de vue afin de pouvoir déduire
informations par la technique de la triangulation
Cette méthode nécessite cependant une calibration trés ise du systéme muultica
1.2.3.2 Caméra RGB-D / Kinect
La technologie basée sur la caméra Kinect est trés populaire dans le domaine ludique
ouvert au public Le principe de fonctionnement est totalement different de celui des autres
systémes optiques Elle ne nécessite qu'une seule caméra et n'utilise pas de marqueurs posés sur Vobjet dont on souhaite capturer le mouvement Cette technologie est optique car elle utilise les faisceanx lumineux infrarouges qui sont émis dans environnement de la scéne observée
par la caméra spécifique Le systéme émet un motif IR bien connu avec um projecteur IR
(une sorte de polynéme bidimensionne!) et ill mesure avec la caméra la forme du motif dans
Venvironnement Selon la déformation observée sur les lignes de niveau, on peut remonter a l'information de distance
IGURE 1.3 ~ Capture avec kinect
Trang 171.3 L’estimation de pose et analyse de mouvement
Estimer la pose d’un étre humain, revient 4 déterminer ies informations 2D ou 3D des membres de son corps ln vision par ordinateur, les recherches tendent a rendre cela possible a, travers différentes techniques bien élahorées L’estimation de pose et, Vanalyse de mouvement
ou d'action sont liées en ce sens qu'analyser un mouvement, revient 4 suivre les différentes
poses prises par l’éure humain au fil du temps (A travers des séquences d'images) Les domaines d’appiications de ces recherches sont mnultiples On peut les uviliser en analyse comportementale
et sportive, en interaction homme machine, en indexation de contenus visuels, etc Notre but
4 travers cette section est de parcourir les différents travaux dans ‘a littérature qui traitent 4
la fois de l'estimation de la pose humaine et de analyse de mouvement
1.3.1 Approches sur le flot optiqne, le gradient at le contour dans image
La classification de vidéo baste sur l'analyse des mouvements humains qui y sont exéeu-
(és oceupe la majeure partic des travaux rencontés dans fa Hittéravure traitank de Panalyse
de monvement La plupart des travaux élaborent des méthodes permettant d'extraire des informations assez robustes pour catégoriser des mouvements donnés La validation de ces ap-
proches est faite sur des duunées réclles slockées dans des bases bien connues afin de faciiler
comme étant "le champ de vitesse décrivant le monvement apparent des motifs dintensité
de Vimage sems Phypothe:
dìiThmination ronatante" [7] La méthade proposée par Negrel et
al, [7] alilise la (cuhsique Poxteaction du fot uptiyse proposée par Lucas el Kanade [S| qui determine le déplacement Wun pixel a partir des pixels voisiny dans une lenélre dounée, Is modélisent le Alot optiqne entre denx images snenessives de Ta vidéo A l'aide dame base de polynémes arthogonaux La classification des actions est faite @ partir d'un SVM Eftos et al [9] out également atilisé le Mot eplique dauss fours Lravaux pour chusifier des actious de Leunis, football et Lallet La similarité entre les vecteurs de descripleurs du lot optique est calculee
par la méthode des plus proches voisins, Nazli Tkizler et, al [10] ont a Ta fois utilisé les flors optiques et um descripteur de forme basé eur la distribution des points d'union entre des lignes courtes et longues ajuuldes aux contours de la forme avec la irunsforimée de Hough Chutre ‘es approches basées sur le flot optique, on peut citer les wavaux de Matthew Brand et al [LJ] qui
ont ntiisé Ter macéles de Markov cachés ponr également veconnaitre des morvements cht "Pai chi" chincis Zcinik-Manor ct al, [12] ont plutat utilisé des histogrammes de gradient spatio- vemporels avee des échelles Lemporclles umuitiples, cbicuus par Ja construction de pysamides temporelies dont un niveau donné contient la moitie du nombre de irames du niveau précédent,
Ta comparaisan de dewx vidéos revient A comparer lenrs histogrammes de gradient, caleniés
‘ova act eras
Trang 18
pour les différents niveaux de le pyramide Il est 4 noter que ces méthodes nécessitent une
estimalion fable et robuste du fot oplique et done une qualité Pinrage importante
1.3.2 Approaches sur le suivi de mouvement
D'antres travanx sa sont penchés sur le snivi dn mouvement décrit par les membres du corps humain, Le but de ees travaux est de pullier aux problémes és & Ta qualité de Vimage,
car les méthodes précédentes y sont sensib‘es Dollar et al [13] ont utilisé des points d'intéréts
spatio-temporels extraits des vidéos grace & un détecteur de points d'intéréts (spécialement élahoré par emx ef hasé sur Ta réponse ane fonetion A neyan ganssien) Ts décrivent alors
le mouvement ex se basal sur la posilion 2D de ces points duléréts a taavers Ta séqueuce vidéo Rao et Shah [14] ont modétisé la trajectoire des mains pour pouvoir classifier les actions
La trajectoire des mains ponvant varier sefon le poimt de vue de la caméra, les auteurs ont: propasé une approche pour rendre invariante celie.ci par rapport anx points de vue, en utilisant
Ja courbure ypaliv-Lemporelle de lá LrajeeLoire Ali et Aggarwal [15] ont proposé Mulilisalion,
des angles d’inclinaison du torse et ies parties inzérieures et supérieures des jambes pour décrire les actions Yang Song, et al [1ti] ont proposé d'extraire des points diintérats dans image et
de les suivre afin d'estimar 1a pose et le monvement, Dans Pensemble dee points extraits, ‘Is se bavent sur la position et la vélocilé de ces poinls pour choisir ceux qui, envesble, représenteut une forme humaine Ces points peuvent représenter des membres du corps dont le mouvement permettra didentifier action effectuée en comparaisan avec les actions apprisas dans une hase
dapprentissage
1.3.3 Approches sur les silhouettes
Line troisiéme catégorie d’approches se base ur ia description du mouvement & partir de
onl, a partic du voluwse spativ-teinpore! des silhouetbes, varaclérsi
est en utilisant les proprietés des solutions de l'équation de Poisson qu’ils ont extrait ies caractéristiques spatio-temporeiles telles que la saillance spatio-temporelie locale, la structure
ct Vorientation de Ia forme La méthode pennet d'avoir une robustesse aux occultations, aux changements d’Gehelle cl aux points de vue de la canéra, Gue el al [17] oak propose la représentation des actions dans les videos avec ia matrice de covariance empirique de vecteurs géomeétriques normalisés 4 13 dimensions qui caractérisent la forme de la silhouette extraice
La similarité entre actions cst évaluée avec fa distance de Ricmannian ontre les matrices de
Trang 19égale-ment cette approche Il ne nous reste plus que “approche basée cur la silhouette et analyse
1.4.1 Les descriptears glohawx
Les descripteurs glcbaux sont utilisés pour quantificr l'information contenue dans Pimage daus sa globalilé, Parsi ces descriplours, ou peut citer las moments mathéusatiques Ainsi, de-
puis I'intreduction par Hu dans les années 1962 [18] de la méthode des moments en traitement
images, différents types de moments ont été implémentés ets testés dans de nombrenx travanx
de la littérature Nous pouvons citer : les moments de Tehebychev, de Racah, de Legendre, de
Zernike, dc Krawtchoul, ole
Les moments de Zernike out élé introduils pour la premiere [ois en aualyses Pauages par 'Ieague en 1950 [19] 11 s'agit d’un descripteur robuste, qui repose sur les polyndmes de Zer-
nike Ha été abondamment ntilisé dans la littérature pomr diverses applications telles que la
de Krawtchonk qnant 4 enx ont été introduits pour la premiére fois en analyse d'images par P-T Yap et al [22] Les moments de Krawtchouk sont ces moments orthogonanx se hacant sur Jes polynéines discrets lassiques de Krawichouk [23] Shucba Rani cl D Devaraj [24] ont fait
de la reconnaissance et de la classification de visages en utilisant les moments orthogonaux
de Krawtchank Shnping Tin af al [25] dans lenr recherche sur Ja classification de geates de
la main, ont également basé leur systéme sur les moments de Krawtchouk Il resort de leur Glude que les muomeuts de petit ordre sout plus cobustes que les moments Wordre aleve qui eax favorisent plus la reconstruction totale de l'image Bing Lu et Simon Liao [26] ont également
utilisé tes maments de Kyawtchonk dans labjectif de pouvoir recanmaime les caractéres chinois,
Trang 20qui se ressemblent fortement dans la forme Ils ont parvenus a miontrer que les moments de oawlchouk arrivaicnl plus a distiaguce les différents caructeres que U'aulres moucals Peur
Ja description de la forme d'objels 3D, Dariuse Frejlicliowski [27] utilise la translorrnee de: Tonrier-Polaire Claude Clariou [28] a dans ses travaux, propasé 1me approche hasée sir tes twansfonnées de Fourier Mellin pour la reconnaissance ce formes dans les documents tech- niques Kim ct al [29| ont utilisé Jes supments invariauts de Ha pour la reconnaissance de
diagramme logique I existe énormément d'autres travaux sur ta description de formes, une
bréve revue de ces techniques est propasée par Zhang [30]
1.4.2 Les descriptcurs locaux
Les descripteurs locaux devraient permettre d’éviter les prétraitements nécessaires sur !e3
images pour les descriprenrs plohanx Ces prétraitements penvent tre réalisés pour pallier
aux éventuelies erreurs da segmentation de Fimage:
Serge Belongie et.al [2] ont introduit le contexte de forme, qui est im descriptenr local
dout la méthode consiste & décrize unc forme & partir de la description du voisinage de ses
pols de contours, Ainsi, pour une forme domée, 1 [aul un ensemble de points de son conlour
(intérieur comme extérieur} La description conaiste 4 calculer la distribution en log polaire des
points dans un voisinage donne 4 l'aide d’un diagramme log polaize Dans sa version originale, pruposée dans |3|, là correspoudauce entre formes est alors cfoctuée par caleut des cereurs (caleul de la dizLauee khi-2 cetre les histogramumes des points) de correspoudauce entre les points dea formes Ankur Agarwa: et IYiggs [31] ont utilisé ce deseripteur pour lestimation
de la pose humaine 3D a partir d'images de silhouettes de la personne Ds ont proposé un sysldue utilisant la Lechuique de mots visuels obleuus & parlir đun algoritlane de K-Means
La classification dune pose daus la base d’apprentissage est faite A parlic Pun vecteur de pertinence machine (KVM) ‘hi Oanh Nguyen et al [2] ont proposé une méthode atternative pour la recherche de symboles graphiques Cette méthode est une adaptation du descripteur
de contexte de forme aux points Winlécéts des symboles Celle méthode permet d'éviler le
calcul du contexte de forme pour tous les points de contour du symbole en ne le calculant
10
Trang 21Les recherches en vision par ordinateur tentent de trouver des approches pour la descrip- tion des monvements Nons avons done présenté les différentes approaches permettant d'estimer
Ja pose humaine ct de recomnaitre des actions dans unc vidéo Lime des approches est basée
sur Putilisalion des descripteurs de formes et Jes sifhouellcs huinaines, Celie calégorie préseute des méthodes tirant avantage de “extraction rapide de la silhouette C’est dans cette catégorie
d’approche que se situent nos travaux
1
Trang 22se basant sur la silhouctle el Vanalyse de forme ä travers différcals descripLears de formes
Suite a (étude bib:iographique, nous avons choisi les descripteurs offrant a la fois un meilleur xaux de reconnaissance, une bonne robustesse aux bruits et qui sont également rapides & calenler Nons avons opté pour ime démarche par apprentissage, qni se décompose en denx phases 4 savoir: Papprentissage eb la dassificatiun, Nous allous fonder notre apprentissage
sur des données simulées trés peu coutenses et rapides 4 obtenir comparées 4 la mise en place
d'une analyse de capture de mouvement La disponibilité d’ouriis libres et de grandes bases
de fichiers de mouvement en libre accés nous ont confortés dans ce choix
Le modéle humain 3D permet d’avoir 3 la fois la corpulence voulue pour le modéle et les informations 3D des points d'articulation Dans notre démarche, nous modélisons dans
tu pretnier Lemps le persunuage voulu, puis duus un secoud Lemps, nous animons le modele avec différents mouvements Ainsi, pour constituer notre base d’apprentissage, il nous suffira dextraire lez informations spatio-temporelles des points d’articulation du persounage ainsi
que sa silhouctte
2.2.1 Modélivation humaine 3D
Rous avons utilisé te logiciel "Makel man" | ponr accomplir cette tache Makelliman est
aim Togicie! libre soms la licence AGPT.A, congn pany permertre anx artistes de facilement mentre
Ì hp: //vuv xakehunan orz/'
12
Trang 23en pla des modéles humains les plus réalistes possible, La mise en place d’un modéle de bi
ne prend que quelques minutes et ne nécessite pas une grande connaissance en modélisation
3D A travers les parametres proposés, il est facile d’avoir des modéles variés en terme de
morphologic, d’habillage (figure 2.1 page 13) et également en terme de pos
qui différent dans le nombre d'articulations pris en compte Nous avons choisi (utiliser le type
"second life bones" (voir figure 2.2 page 13) qui modélise 19 articulations a savoir : la tête, le
cou, la poitrine, l'abdomen, la hanche, la cuisse (gauche et droite), le tibia (gauche et droit), le
13
Trang 24Une fois le modéle mis en ple
, il reste A Vexporter dans le logiciel choisi pour Pani-
mation Dans le cadre de nos travaux, nous avons choisi le logiciel d’animation Blender? qui
est également un logiciel libre sous licence GPL Il est développé et maintenn par une grande
communauté regroupant des personnes vivant un peu partout dans le monde entier Blender
offre la possibilité de modéliser des objets et des personnages 3D et de les animer Il offre
motion capture, Nous avons pu profiter de la base de egspeed qui offre de nombreux
bvh décrivant différents mouvements
FIGURE 2.3 ~ Modéle humain importé dans blender a partir de MakeHuman
2.2.2 Extraction des données simulées
permettent d’extraire les images de la silhouette du personnage A chaque frame ainsi que les
2, hvtps://ww.blender org/ consulté le 26/03/2015
3, https://tr, wikipedia org/viki /Biovision Hierarchy consulté le 07/07/2015
4 www cgspeed.com consulté le 31/03/2015
H
Trang 25Les informations spatiales extraites concernent également les camé es pour cap-
turer les silhouettes
de ce point Notre ba se d'apprentissage est organisée en différentes classes qui correspondent
nage d’une morphologic donnée et exécutant une action donnée La base
de test est également organi: e A chaque image de silhouette sont asso-
cies 20 matrices (4 x 4) représentant les données des articulations et également de la caméra
Trang 26WX images de silhouettes (différentes morphologies, différents mouvements, différents uabillements)
~ Nox 19 points de coordounées 8D (iufurmation du squelelte) ;
Ni matrice de camera (pose dabservatian)
2.2 Descripteurs de formes et extraction de caractéristiques
Apreés la consticution de la base d’apprentiscage et de test nous allons aborder dans
cette section, la description détailtée ces descripteurs utilisés pour caractériser les formes de silhouette, Nous aborderons trois descripteure & savoir : les moments de Krawtchouk, les moments de Zernik et le descripteur focal du contexte de forme (shape context)
2.3.1 Méthode hasée sur les momenta de Krawtchouk
Ainsi, lensemble des (N-+1) palynémes, forme mm jen complet de fonctions iscrétes basiqnes
est la factorielle croissante (symbole de Pochhammer)
Trang 27
Krawtchouk comme des deseripteurs locaux Nous verrons dans les sections 4 venir, concrdte-
ment comment utiliser ces paramétres pour extraire les caractéristiques des zones de Vimage
Le calcul des moments peut nécessiter tin long temps de calcul et des ressources processe
s cause des fonctions hypergéométriques et de la fonction gamma, Pour faciliter le ealeul et réduire également le temps d’exécution, des formules récurrentes des polyndmes ont été pro-
posées ainsi qu'une forme matricielle de calcul du moment
p(n —N) Kyat (w:p.N) = A(Np—2n + n—2) x Ky (a:p.N) — Bn(1 — p) Ky (23p.N)
avec A= /SGROED B= \/ ate Ko(aip.N) = Jur),
La forme matricielle peut s‘écrire sous la forme
Q= {Qi} {Ki (ii pe.N —1)})
En fonction des applications, il est souvent indispensable de rendre invariants les moments
Trang 282.3.1.3 Extraction des caractéristiques
L’extraction des caractéristiques d'une forme avec les moments de Krawtchouk revient
& constitner un vecteur avee différentes valeurs de moments calculées sur la méme forme
La dimension du vecteur ainsi que les valeurs de moments & choisir ne sont pas universelles Différents auteurs ont proposé différentes techniques afin de trouver les valeurs qui discriminent aul mieux les formes De nombreux travaux essaient de déterminer le bon ordre de moment
en essayant plusieurs valeurs possibles pour finalement prendre la meilleure Quant au choix
de la dimension du vecteur, c'est la méme Stratégie, Par contre, pour le choix des valeurs des
Dans le cadre de nos travaux, nous calculons tous les moments d’ordre inférieur a (n,m)
avec n — m et nous prenons les moments de la diagonale de notre matrice, c'est a dire
(Q1 Qàa, Quan) La valeur de n a été déterminée en essayant différents ordres, comme
le montre la courbe de la figure 2.7 à la page 18, sur une base contenant 600 images non apprises, Un taux de reconnaissance stable de 99,17% est obtenu a partir de Vordre n = 24 Pour extraire les caractéristiques de la partie souhaitée de Pimage A laide des moments de
unique de dimension 48 qui la caractérise
er Pimage en deux parties en
Trang 29Largement utilisés en reconnaissance de formes A travers les moments de Zernike, les
polynémes complexes de Zernike sont formés a partir des polynomes radiaux et calculés sur
le cercle unitaire(figure 2.9, page 20) Soit Zj" les polynomes de Zernike d’ordre n ct de répétition m On definit 22" par :
2.3.2.2 Les moments 2D de Zernike
Les moments 2D de Zernike (calculés sur une image), sont construits en utilisant un ensemble de polynomes définis ci-dessus combinés avec les valeurs des pixels de Pimage Soit
Anm le moment de Zernike d’ordre n et de répétition m, Ajm est défini par :
19