Luận văn extraction de squelettes 3d a partir d'images de silhouettes humaines reconnaissance de postures et modelisation d'actions

— Nes encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans fa réalisation de ues travaux.. Eu sous appuyaut suc Jes césullats d

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, IIANOI INSTITUT FRANCOPIIONE INTERNATIONAL

ATREV] Dicudonné Fabrice

EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SLLHOVUETTES HUMALNES : RECONNAISSANCE DE POSTURES ET

MODELISATION D'ACTIONS

CHIẾT XUẤT KHUNG XUONG 3D TI ANH 2D CUA CON NGUOT:

NHẬN DẠNG TƯ THỂ VÀ MÔ HÌNH HOÁ HÀNH ĐỘNG

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI —2015

Trang 2

UNIVERSITE NATIONALE DU VIETNAM, IIANOI INSTITUT FRANCOPTIONE INTERNATIONAL

ATREVI Dieudonné Fabrice

EXTRACTION DE SQUELET ES 3D A PARTIR D'LMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET

MODELISATION D'ACTIONS

CHIET XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI:

NHAN DANG TU THE VA MO HINH HOA HANH BONG

Spécialité : Systémes Intelligents et Multimédia

Code : Programme pilote

MEMOIRE DE FLX D’ETUDES DU MASTER INFORMATIQUE

Sous Ia direction de: Dr Damien VIVET, Maitre de conférence

Dr Florent DUCULTY, Maitre de conférence

Lu et validé, bon pour soutenance

— _——— HANOI - 2015

Trang 3

Table des matiéres

Remerciements

Résumé

Abstract

Liste des figures

Liste des tableaux

2 Modélisation humaine 3D et extraction de donné

Descripteurs de formes et extraction de caractéristiques

Trang 4

de dédie ra document & mea Jamiile eb & res camerutes de

IEE

Trang 5

Remecrcicments

La réalisation de ce document qui eonronne Ta ñn da natre &matidn de Master, nhanrait

été possible sans Ï'appui đircct du indirecE de persoanes ct đ"nstikufions auxquelles nows tenons

ict A cxprimer aus sincéres semerciemnents ÏÏ s agit de :

— L'Agence Universitaire de la lrancophonie (AUI’), pour nous avoir donné l’opportunité

de poursnivre nas étures de Master 8 T'TET 8 travers une bourse,

— L'Institut Francophone International (IFT) et de tous les professeurs, pour les nombreuses connaissances acquises durant notre formation

— Nes encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans fa réalisation de ues travaux

— ‘Tous ceux qui de prés ou de Join nous ont apporté ieur soutien durant notre formation

Trang 6

partir de captours classiques ne Zournissant pas d'information de profondeurs Crs informations

đe prolondeurs son uclucliement indispeusables pour des analyses plus précises du eumpor- tement bumain dans le cadre de la vidéo surveillance de masse de personnes L’approche que noms avons propasée an cours de ce stage suit me démarehe classique d'apprentissage auto matique qui cousiste appreudre ua cusvable de poses obLeunes a parlic de donudes si:mulées

‘Les résullats oblewus soul promelieurs eu ce seus que uous aveus oblenm de bous taux de

reconnaissance de pose 4 partir d’images de personnes inconnues dans la base d’apprentissage Nos travaux nous ont permis de comparer les différents descripteurs de formes mis en jeux

el de montrer ceux qui soul les plus robustes Eu sous appuyaut suc Jes césullats de reconuaissance de postures, nous avous propusé uae premiére approche de classification Pactious

dans une vidéo, Les résulvats obtenus sont prometteurs et peuvent étre améliorés pour une

plus grande etticacité, notamment en prenant en compte l'information temporelle par ia mise

ou place d'un pislage ranlli hypolhdse des poiuls d'articulatiou du squelette

Mots-clés : Analyse comportementale reconnaissance de postures, classification d’actions, de:

vipteurs de forines

Trang 7

Abstract

Tn the recent history of the science, IT provides powerful analysis tools for support expert

te make a decision In the same way, computer vision trics to implement automatic tools for image and video analysis For example, in the context of video anaiysis, we cau talk about human motion analysis through a video In the specific context of our work, we addressed

the issue of the ID pore estimation ram 20 memoewlar images obtained from conventional

sensors not providing depth

of human frou au image and compule, via the orthogonal goomelric moment and the shape

contexl, Unree feature vectors A human poses aud action can be retrieved by calculating Ube

Euclidian distance between the feature vector af the request image and alll of the feature vector

of the training data, we are deduce the corresponding action by choising the most represent clas of action 3D estimate poses fs Creu computing by Uke mean 3D poses of all relzieved

images of lhe ost represented action class,

Keywords: Behavior analysis, 3D pose recoguilion, actions classiliculiou, shape deserip-

tors.

Trang 8

ste des figures

Personne équipée d'un exosquelette 6 ee ee

Persoune équipée lors Pune capture magué.ique: -

Fxemples de modétes hmains 3D obtenns avec MakeFinman -

Modléle du suetette de type second life hones - -

Xodele huunain baporte dang bieuder & partir de MakeHuraan

Exemples de silhoettes extvaites lors d'tme marche -

A gauche, une matrice 4 x 4, à droite une image avec les points reprojetés

De Ja gauche vers Ja droite : courbe du polyndare avec n = 0, 1, 2

Tétermination dit bon ordre ponr le moment de Krawtchank -

A gauche, les moments pour le bas du corps et a droite, les moments pour le

Polynômes de Zernike tracés sr Je disque unité [1] -

Determination du bon ordre pour lẻ moment de Zernike "

Contexte de forme (a,b) sont des exemples de forme (c) est le diagramme

fog-polaire, (d-t) des histogrammes des points marqués Source Belongie et al [2]

Dêterminalion dụ bọn nơnnbre de clusters -

worklow de la démarche sulvie 00 eee

Tuas de reconuaissance pour des douudes apprises > Méthode de Krawtebouk

Tanx de reconnaissance ponr des données non anprises : Máthode đe Krawr-

chouk Eu abscisse, résultats pour cespectivenent 1, 3, 5 et 7 voisins considérés

et em ordomnée, les tax de reconnaissance -

Tanx de raronnaissance panr des donnees appriees : Mẽthode de Zernike Tìn

abscisse, résullals pour respeclivement 1, 3, B et 7 voising considérés et eu

ardanmee, ‘es tanx de reconaissanre - -

Taux de reconnaissanee pour đes đonnées non apprises : Methode de Zernike

En abscisse, résultats pour respectivement 1, 3, 3 ot 7 voisins considérés et on

ordomnée, tes tanx de recomnaissanre

Taux de reconnaissance pour des données apprises : Méthode du contexte de

forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés

et en ordonnée, les taux de reconnaissance -

‘Taux de reconnaissance pour des données non apprises : Méthode du comtexte de

forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés

et en ordonnée, les taux de reconnaissance "

Résultat de recherche (Pane image iconuue avec Tes Lrols deseriplowrs

vì

32

33 34

Trang 9

Exemple 1 : Résultat de représentation 3D de squelette -

#xemple 2 : Résultat de représentation 3L) de sqnelette

Résultats de suivi pour le mouvement "granper" -

Résultats de suivi pour le mouvement "saut* -

Matrice de confusion obtenue

‘A gaucho notre matvice de confusion cxprimée on pourcentage ot & droite Ta

matrice de confusion obtenue par Gorelick et al (SJ 2

Contour extrait sur une silhouette 2 ee

Images de silhouctte br

images de silhouette bruitée avec std 2

Images de silhouette bruitée avec std = 3 - see

Remiitat de reconnaissance de postnre avec tne image réelle pau ame posture

en croix, A gauche, limage originale, au centre lee résultats obvenus et A droite

at de reconnaissance cle postnre avec me image réelle pour me nostnire

de marche A gauche, I'auage originale, au cenLre, les résullals oblenus el a

droile estimation du squelelte 3D, - -

Trang 10

Liste des tableaux

3.1 Caractéristiques de la machine

3.2 Détuils de composition des difféercutes bases

3.3 Organisation de la base @apprentissage

viii

25

26 26

Trang 11

Introduction Générale

Contexte et Cadre d’étnde

Le précent document a été élaboré dans le cadze des travaux réalisés durant notre stage de fin de formation pour Pobtention du Master spécialité "Systemes Intelligent et Multimédia"

de ‘Institut Lrancophone International en collaboration avec I' Université de La Rochelle Les

de

travanx se sont déroulés an sain de Véquipe “Tmaze et Vision” du Laboratoire PRISM

TUniversité d’Orleans II s'agit d'un laboratoire pluridisciplinaize dans le domaine général des sciences pour Vingénieur Il est déployé sur plusieurs sites et est composé d’environ 106

enseignants-chercheurs, de 70 doctorants et d'une dizaine d'ingénieurs

La thématique abordée durant ces travaux ext relative au domaine de l’analyse compor-

tementale ef de 1a télésurveillance En effet, plusienrs domaines de la science ont recours A

Tinformatique ct plus précisément 4 la vision par ordinatcur pour Panalyse des actions (dans

un aéroport, dans un slade, dans unc place publique, etc.) W’une ou d'un groupe de pCrsonnos,

et ce, & travers des vidéos Ll est ditticile pour “homme de pouvoir surveiller et prédire des ac-

tions de ces individus dans un environnement plus large et non contréié Ainsi, de nombreuses

techerches ont 616 wenées ces deraidres aunées pour inettre a la disposition des spécialistes des outils prévis et eflicaces alin de les aider daus leur prise de décisiou en mvaliére de vidéo surveillance et plus précisément dans ‘analyse de comportement

Problématiques

Dans ie cadre de ia vidéosurveiliance, de ’analyse comportementale et de la reconnaissance

de gestes, certaines informations péométriques (comme les informations sur la pose 3D des individu) sont essentielles ponr affiner les analyses des experts T/obtentian des informations

de profondcur requicrt Pulilisation de dispusitis spGcifiques cofiteux ct đong nón utilisés dass

Ja videusurveillance, 1] ve pose alors la problématique de Wrouver un moyen simple et efficace

@obtenir ces informations 4 partir ’nne vue monnculaire de l'environnement et des personnes

qui s'y trouvent Cette problématique, qui est un véritable challenge dans le domaine de

Ja vision, a mnubilisd cos deruiéves années, de nombreux cherehours, qui se sent Tancôs dang:

Télaboration de différentes approckes De uebreuses solutions ut &lé proposées et chacune

Trang 12

Welles présente des avantages et des inconvénients Nos travaux s‘intéressent 4 ce domaine

et viseml & propuser une méthode simple, efficace cl rapide pour oxtraize les iuformations

géomélriques sur la pose d'une personne

Objectifs du stage

Les objectifs de notre stage sont multiples et se déclinent en deux grandes parties Dans

la premiére grande partie, il s'agira de mettre en place une base de données de silhouettes 2D et de semelettes 3D extrait

3D Une fois les bases de données mises en place, nous proposerons une démarche méthodique

Le mémoire est organisé autour de trois chapitres de fagon & rondze compte du travail

effectué duraut le slage Le prunicr chupitre présente les principaux Lravaux revensts lors de

Létude bibliographique et qui traitent de la classification d'actions dans une vidéo, de ['estima-

tion de pose et également les différentes techniques existantes pour la capture de mouvement,

Le sceond chapitre présente les méthadcs utilisées dans I'élaboration de solutions pour la re~ conuuissance de postures et la cecoumaisvauce d'actions Une description détaillée de la Unéerie sur les deseripteurs de formes que nous avons utilisés pour décrire Les silhouettes des personnes contennes dan Jes différentes images our finir ie troisiéme chapitre présente les détails de Jimptementation, les démarches suivies pour les expérimuentaLions ot lex résullats obtenus, Une

analyse de nos résultats a éLé faite daus ce dernier chapilre ainsi qu'uae comparaiyou avec des

résuitats obtenus dans des travaux préexistants

Trang 13

tions tridimensionnelies et temporelles sur le mouvement effectué par un objet, un animal ou

am étre humain Les domaines d'application utilisant la capture de movement, deviennent de plus cn plus uowbreux Allaut du cinéma, a la médeciae en passant par Pindustrie, la capture

de mouvement a pour but de reproduire sur des objets virtuels ou cur des robots, des mouvements bien connus Dans le cinéma, on retrouve des films dans lesquels les personnages, qui

sont virtnels, exécntent des movements réaliates Ces mouvements sont obtenns par des tach:

siques de “motion capture" Eu nédecine, on peut ciler les bras robuliques pouvant ceproduire

Je mouvement d’un chirurgien pour des interventions millimetrées

L'analyse de mouvement, consisle & modéiser le mouvement déerit par ua objet, an

animal ou un étre humain 4 partir d'informations recueillies Les applications possibles sont également, nombrenees T'analyee de comportement pour la sirvei'lance actions dans les aéroports, les gares, les stades par cxemple, se trouve dans le domaine de Vanalyse de mouve-

_

Daus ec chapilre, nous allous prosentcr Jes approches de captare de uouyemcul voumues

ot ies travaux relatits A Vestimation de pose ainsi que Panalyse de mouvement

1 exisle plusicurs syslémcs peraucltanl de caplurer Je anvuvement Van objet on géucral

et d'un étre humain en particulier Ces approches peuvent étre classées en fonction des moyens nifilisés pour réaliser Paccuisition de données Ainsi, an distingue trois grandes catagories de

aystémes A savoir : les systémes mécaniques, magnétiques ct optiques.

Trang 14

ur élément dont on souhaite enregistrer le mouvement (voir figure 1.1 a

la page 4) Le dispositif est constitué non seulement, de Vexosquelette, mais également des codeurs d’angle associés aux différentes articulations et qui renvoient 4 un ordinateur leur

valeur de rotation? I] permet d'obtenir avec précision, le mouvement exécuté au niveau de

Cela constitue un inconvénient majeur surtout pour la capture du mouvement humain et d'ob-

jets non rigides et non déformables Par exemple, la société PDI a développé pour le haut du corps un exosquelette en plastique qui mesure les mouvements de la téte, des bras et dụ torse à

et impose done de disposer d'importants moyens pour la réalisation de grands projets Avec

ces systéme: il est difficile de capter interaction entre plusieurs éléments (personages dans une animation) Cette approche est plus adaptée a la capture d’éléments rigides (systémes

1 Source = http: //e.chasserat free fx/TPE2/defhistorique html, consulté le 04/07/2015

2 source : hetps: //fr.wikipedia.org/wilei/Capture.de_mouvenent, consulté le 04/07/2015

3, source : bttp://tpenodelisationhunaine.e-monsite.com/pages/motion-capture.html, consulté le

06/07/2015

Trang 15

1.2.2 Systémes magnétiques

L’exploitation des lois de Pélectromagnétisme a permis daboutir a la mise en place de cette approche L’espace géométrique est représenté par un repére (x,y,z) dont Vorigine (0,0,0)

est déterminée par un générateur de champ magnétique plus communément appelé antenne

L’élément dont le mouvement sera capturé est équipé de capteurs (gé

électriques) qui 2 la page

5) Ces systémes offrent la possibilité de détermine

repére du pers onnage et les mesures sont en temps réel [6] Ils permettent d’éviter les problémes doccultations entre les éléments de la scene puisque le champ magnétique peut traverser le corps humain Plus le nombre de capteurs est important, plus il y a une précision dans la

capture de mouvement Cela nécessite également des moyens finance

s non négligeables

Pour ces systémes, il est né aire de corriger a chaque fois le décalage qui peut suryenir

entre le capteur et le point qu'il représente Cette erreur est souvent due an mouvement du

du champ magnétique étant limitée, l'espace de travail se voit également limiter Outre ces

inconvénients, on peut citer la fréquence d’échantillonnage de ces systémes qui est faible et

qui limite les types de mouvements pouvant étre exécutés par le sujet d’étude

FIGURE 1.2 ~ Personne équipée lors d'une capture magnétique

4 souree ; Attp://tpenodeligationhumaine.e-monsite.com/pages/motion-capture-html consulté le 06/07/201

Trang 16

1.2.3 Systémes optiques

1

pour acquérir l'information sur le mouvement exécuté Ils sont les plus ntilisés dans le monde ‘agit de systémes basés sur l'utili

isation des rayons lumineux avec ou sans marqueurs

de cette utilisation massive réside dans la précision qu nmoins, ils ont quelques

limites comme Toceultation lors de la capture de mouvement de deux on plusieurs person-

nages On peut noter différentes variantes de ces systémes utilisant différents composants

pour l’aequisition de donnée:

1.2.3.1 Caméras infrarouges couplées aux capteurs

Le principe des systémes a réflecteurs passifs est d’émettre des rayons infrarouges depuis

de

peuvent afficher sur une image chacun de ¢

caméras, qui seront réfléchis par les réflecteurs Une fois les rayons réfléchis, les camér,

sflecteurs par des points Ains

posés & des points clés (articulations

ar exemple) permettent d’avoir en 2D les positions de ces points L’information 3D étant nécessaire, il est couramment utilisé un nombre important (minimum 3) de caméras qui observent la méme scene, mais de différents

points de vue afin de pouvoir déduire

informations par la technique de la triangulation

Cette méthode nécessite cependant une calibration trés ise du systéme muultica

1.2.3.2 Caméra RGB-D / Kinect

La technologie basée sur la caméra Kinect est trés populaire dans le domaine ludique

ouvert au public Le principe de fonctionnement est totalement different de celui des autres

systémes optiques Elle ne nécessite qu'une seule caméra et n'utilise pas de marqueurs posés sur Vobjet dont on souhaite capturer le mouvement Cette technologie est optique car elle utilise les faisceanx lumineux infrarouges qui sont émis dans environnement de la scéne observée

par la caméra spécifique Le systéme émet un motif IR bien connu avec um projecteur IR

(une sorte de polynéme bidimensionne!) et ill mesure avec la caméra la forme du motif dans

Venvironnement Selon la déformation observée sur les lignes de niveau, on peut remonter a l'information de distance

IGURE 1.3 ~ Capture avec kinect

Trang 17

1.3 L’estimation de pose et analyse de mouvement

Estimer la pose d’un étre humain, revient 4 déterminer ies informations 2D ou 3D des membres de son corps ln vision par ordinateur, les recherches tendent a rendre cela possible a, travers différentes techniques bien élahorées L’estimation de pose et, Vanalyse de mouvement

ou d'action sont liées en ce sens qu'analyser un mouvement, revient 4 suivre les différentes

poses prises par l’éure humain au fil du temps (A travers des séquences d'images) Les domaines d’appiications de ces recherches sont mnultiples On peut les uviliser en analyse comportementale

et sportive, en interaction homme machine, en indexation de contenus visuels, etc Notre but

4 travers cette section est de parcourir les différents travaux dans ‘a littérature qui traitent 4

la fois de l'estimation de la pose humaine et de analyse de mouvement

1.3.1 Approches sur le flot optiqne, le gradient at le contour dans image

La classification de vidéo baste sur l'analyse des mouvements humains qui y sont exéeu-

(és oceupe la majeure partic des travaux rencontés dans fa Hittéravure traitank de Panalyse

de monvement La plupart des travaux élaborent des méthodes permettant d'extraire des informations assez robustes pour catégoriser des mouvements donnés La validation de ces ap-

proches est faite sur des duunées réclles slockées dans des bases bien connues afin de faciiler

comme étant "le champ de vitesse décrivant le monvement apparent des motifs dintensité

de Vimage sems Phypothe:

dìiThmination ronatante" [7] La méthade proposée par Negrel et

al, [7] alilise la (cuhsique Poxteaction du fot uptiyse proposée par Lucas el Kanade [S| qui determine le déplacement Wun pixel a partir des pixels voisiny dans une lenélre dounée, Is modélisent le Alot optiqne entre denx images snenessives de Ta vidéo A l'aide dame base de polynémes arthogonaux La classification des actions est faite @ partir d'un SVM Eftos et al [9] out également atilisé le Mot eplique dauss fours Lravaux pour chusifier des actious de Leunis, football et Lallet La similarité entre les vecteurs de descripleurs du lot optique est calculee

par la méthode des plus proches voisins, Nazli Tkizler et, al [10] ont a Ta fois utilisé les flors optiques et um descripteur de forme basé eur la distribution des points d'union entre des lignes courtes et longues ajuuldes aux contours de la forme avec la irunsforimée de Hough Chutre ‘es approches basées sur le flot optique, on peut citer les wavaux de Matthew Brand et al [LJ] qui

ont ntiisé Ter macéles de Markov cachés ponr également veconnaitre des morvements cht "Pai chi" chincis Zcinik-Manor ct al, [12] ont plutat utilisé des histogrammes de gradient spatio- vemporels avee des échelles Lemporclles umuitiples, cbicuus par Ja construction de pysamides temporelies dont un niveau donné contient la moitie du nombre de irames du niveau précédent,

Ta comparaisan de dewx vidéos revient A comparer lenrs histogrammes de gradient, caleniés

‘ova act eras

Trang 18

pour les différents niveaux de le pyramide Il est 4 noter que ces méthodes nécessitent une

estimalion fable et robuste du fot oplique et done une qualité Pinrage importante

1.3.2 Approaches sur le suivi de mouvement

D'antres travanx sa sont penchés sur le snivi dn mouvement décrit par les membres du corps humain, Le but de ees travaux est de pullier aux problémes és & Ta qualité de Vimage,

car les méthodes précédentes y sont sensib‘es Dollar et al [13] ont utilisé des points d'intéréts

spatio-temporels extraits des vidéos grace & un détecteur de points d'intéréts (spécialement élahoré par emx ef hasé sur Ta réponse ane fonetion A neyan ganssien) Ts décrivent alors

le mouvement ex se basal sur la posilion 2D de ces points duléréts a taavers Ta séqueuce vidéo Rao et Shah [14] ont modétisé la trajectoire des mains pour pouvoir classifier les actions

La trajectoire des mains ponvant varier sefon le poimt de vue de la caméra, les auteurs ont: propasé une approche pour rendre invariante celie.ci par rapport anx points de vue, en utilisant

Ja courbure ypaliv-Lemporelle de lá LrajeeLoire Ali et Aggarwal [15] ont proposé Mulilisalion,

des angles d’inclinaison du torse et ies parties inzérieures et supérieures des jambes pour décrire les actions Yang Song, et al [1ti] ont proposé d'extraire des points diintérats dans image et

de les suivre afin d'estimar 1a pose et le monvement, Dans Pensemble dee points extraits, ‘Is se bavent sur la position et la vélocilé de ces poinls pour choisir ceux qui, envesble, représenteut une forme humaine Ces points peuvent représenter des membres du corps dont le mouvement permettra didentifier action effectuée en comparaisan avec les actions apprisas dans une hase

dapprentissage

1.3.3 Approches sur les silhouettes

Line troisiéme catégorie d’approches se base ur ia description du mouvement & partir de

onl, a partic du voluwse spativ-teinpore! des silhouetbes, varaclérsi

est en utilisant les proprietés des solutions de l'équation de Poisson qu’ils ont extrait ies caractéristiques spatio-temporeiles telles que la saillance spatio-temporelie locale, la structure

ct Vorientation de Ia forme La méthode pennet d'avoir une robustesse aux occultations, aux changements d’Gehelle cl aux points de vue de la canéra, Gue el al [17] oak propose la représentation des actions dans les videos avec ia matrice de covariance empirique de vecteurs géomeétriques normalisés 4 13 dimensions qui caractérisent la forme de la silhouette extraice

La similarité entre actions cst évaluée avec fa distance de Ricmannian ontre les matrices de

Trang 19

égale-ment cette approche Il ne nous reste plus que “approche basée cur la silhouette et analyse

1.4.1 Les descriptears glohawx

Les descripteurs glcbaux sont utilisés pour quantificr l'information contenue dans Pimage daus sa globalilé, Parsi ces descriplours, ou peut citer las moments mathéusatiques Ainsi, de-

puis I'intreduction par Hu dans les années 1962 [18] de la méthode des moments en traitement

images, différents types de moments ont été implémentés ets testés dans de nombrenx travanx

de la littérature Nous pouvons citer : les moments de Tehebychev, de Racah, de Legendre, de

Zernike, dc Krawtchoul, ole

Les moments de Zernike out élé introduils pour la premiere [ois en aualyses Pauages par 'Ieague en 1950 [19] 11 s'agit d’un descripteur robuste, qui repose sur les polyndmes de Zer-

nike Ha été abondamment ntilisé dans la littérature pomr diverses applications telles que la

de Krawtchonk qnant 4 enx ont été introduits pour la premiére fois en analyse d'images par P-T Yap et al [22] Les moments de Krawtchouk sont ces moments orthogonanx se hacant sur Jes polynéines discrets lassiques de Krawichouk [23] Shucba Rani cl D Devaraj [24] ont fait

de la reconnaissance et de la classification de visages en utilisant les moments orthogonaux

de Krawtchank Shnping Tin af al [25] dans lenr recherche sur Ja classification de geates de

la main, ont également basé leur systéme sur les moments de Krawtchouk Il resort de leur Glude que les muomeuts de petit ordre sout plus cobustes que les moments Wordre aleve qui eax favorisent plus la reconstruction totale de l'image Bing Lu et Simon Liao [26] ont également

utilisé tes maments de Kyawtchonk dans labjectif de pouvoir recanmaime les caractéres chinois,

Trang 20

qui se ressemblent fortement dans la forme Ils ont parvenus a miontrer que les moments de oawlchouk arrivaicnl plus a distiaguce les différents caructeres que U'aulres moucals Peur

Ja description de la forme d'objels 3D, Dariuse Frejlicliowski [27] utilise la translorrnee de: Tonrier-Polaire Claude Clariou [28] a dans ses travaux, propasé 1me approche hasée sir tes twansfonnées de Fourier Mellin pour la reconnaissance ce formes dans les documents techniques Kim ct al [29| ont utilisé Jes supments invariauts de Ha pour la reconnaissance de

diagramme logique I existe énormément d'autres travaux sur ta description de formes, une

bréve revue de ces techniques est propasée par Zhang [30]

1.4.2 Les descriptcurs locaux

Les descripteurs locaux devraient permettre d’éviter les prétraitements nécessaires sur !e3

images pour les descriprenrs plohanx Ces prétraitements penvent tre réalisés pour pallier

aux éventuelies erreurs da segmentation de Fimage:

Serge Belongie et.al [2] ont introduit le contexte de forme, qui est im descriptenr local

dout la méthode consiste & décrize unc forme & partir de la description du voisinage de ses

pols de contours, Ainsi, pour une forme domée, 1 [aul un ensemble de points de son conlour

(intérieur comme extérieur} La description conaiste 4 calculer la distribution en log polaire des

points dans un voisinage donne 4 l'aide d’un diagramme log polaize Dans sa version originale, pruposée dans |3|, là correspoudauce entre formes est alors cfoctuée par caleut des cereurs (caleul de la dizLauee khi-2 cetre les histogramumes des points) de correspoudauce entre les points dea formes Ankur Agarwa: et IYiggs [31] ont utilisé ce deseripteur pour lestimation

de la pose humaine 3D a partir d'images de silhouettes de la personne Ds ont proposé un sysldue utilisant la Lechuique de mots visuels obleuus & parlir đun algoritlane de K-Means

La classification dune pose daus la base d’apprentissage est faite A parlic Pun vecteur de pertinence machine (KVM) ‘hi Oanh Nguyen et al [2] ont proposé une méthode atternative pour la recherche de symboles graphiques Cette méthode est une adaptation du descripteur

de contexte de forme aux points Winlécéts des symboles Celle méthode permet d'éviler le

calcul du contexte de forme pour tous les points de contour du symbole en ne le calculant

10

Trang 21

Les recherches en vision par ordinateur tentent de trouver des approches pour la description des monvements Nons avons done présenté les différentes approaches permettant d'estimer

Ja pose humaine ct de recomnaitre des actions dans unc vidéo Lime des approches est basée

sur Putilisalion des descripteurs de formes et Jes sifhouellcs huinaines, Celie calégorie préseute des méthodes tirant avantage de “extraction rapide de la silhouette C’est dans cette catégorie

d’approche que se situent nos travaux

1

Trang 22

se basant sur la silhouctle el Vanalyse de forme ä travers différcals descripLears de formes

Suite a (étude bib:iographique, nous avons choisi les descripteurs offrant a la fois un meilleur xaux de reconnaissance, une bonne robustesse aux bruits et qui sont également rapides & calenler Nons avons opté pour ime démarche par apprentissage, qni se décompose en denx phases 4 savoir: Papprentissage eb la dassificatiun, Nous allous fonder notre apprentissage

sur des données simulées trés peu coutenses et rapides 4 obtenir comparées 4 la mise en place

d'une analyse de capture de mouvement La disponibilité d’ouriis libres et de grandes bases

de fichiers de mouvement en libre accés nous ont confortés dans ce choix

Le modéle humain 3D permet d’avoir 3 la fois la corpulence voulue pour le modéle et les informations 3D des points d'articulation Dans notre démarche, nous modélisons dans

tu pretnier Lemps le persunuage voulu, puis duus un secoud Lemps, nous animons le modele avec différents mouvements Ainsi, pour constituer notre base d’apprentissage, il nous suffira dextraire lez informations spatio-temporelles des points d’articulation du persounage ainsi

que sa silhouctte

2.2.1 Modélivation humaine 3D

Rous avons utilisé te logiciel "Makel man" | ponr accomplir cette tache Makelliman est

aim Togicie! libre soms la licence AGPT.A, congn pany permertre anx artistes de facilement mentre

Ì hp: //vuv xakehunan orz/'

12

Trang 23

en pla des modéles humains les plus réalistes possible, La mise en place d’un modéle de bi

ne prend que quelques minutes et ne nécessite pas une grande connaissance en modélisation

3D A travers les parametres proposés, il est facile d’avoir des modéles variés en terme de

morphologic, d’habillage (figure 2.1 page 13) et également en terme de pos

qui différent dans le nombre d'articulations pris en compte Nous avons choisi (utiliser le type

"second life bones" (voir figure 2.2 page 13) qui modélise 19 articulations a savoir : la tête, le

cou, la poitrine, l'abdomen, la hanche, la cuisse (gauche et droite), le tibia (gauche et droit), le

13

Trang 24

Une fois le modéle mis en ple

, il reste A Vexporter dans le logiciel choisi pour Pani-

mation Dans le cadre de nos travaux, nous avons choisi le logiciel d’animation Blender? qui

est également un logiciel libre sous licence GPL Il est développé et maintenn par une grande

communauté regroupant des personnes vivant un peu partout dans le monde entier Blender

offre la possibilité de modéliser des objets et des personnages 3D et de les animer Il offre

motion capture, Nous avons pu profiter de la base de egspeed qui offre de nombreux

bvh décrivant différents mouvements

FIGURE 2.3 ~ Modéle humain importé dans blender a partir de MakeHuman

2.2.2 Extraction des données simulées

permettent d’extraire les images de la silhouette du personnage A chaque frame ainsi que les

2, hvtps://ww.blender org/ consulté le 26/03/2015

3, https://tr, wikipedia org/viki /Biovision Hierarchy consulté le 07/07/2015

4 www cgspeed.com consulté le 31/03/2015

H

Trang 25

Les informations spatiales extraites concernent également les camé es pour cap-

turer les silhouettes

de ce point Notre ba se d'apprentissage est organisée en différentes classes qui correspondent

nage d’une morphologic donnée et exécutant une action donnée La base

de test est également organi: e A chaque image de silhouette sont asso-

cies 20 matrices (4 x 4) représentant les données des articulations et également de la caméra

Trang 26

WX images de silhouettes (différentes morphologies, différents mouvements, différents uabillements)

~ Nox 19 points de coordounées 8D (iufurmation du squelelte) ;

Ni matrice de camera (pose dabservatian)

2.2 Descripteurs de formes et extraction de caractéristiques

Apreés la consticution de la base d’apprentiscage et de test nous allons aborder dans

cette section, la description détailtée ces descripteurs utilisés pour caractériser les formes de silhouette, Nous aborderons trois descripteure & savoir : les moments de Krawtchouk, les moments de Zernik et le descripteur focal du contexte de forme (shape context)

2.3.1 Méthode hasée sur les momenta de Krawtchouk

Ainsi, lensemble des (N-+1) palynémes, forme mm jen complet de fonctions iscrétes basiqnes

est la factorielle croissante (symbole de Pochhammer)

Trang 27

Krawtchouk comme des deseripteurs locaux Nous verrons dans les sections 4 venir, concrdte-

ment comment utiliser ces paramétres pour extraire les caractéristiques des zones de Vimage

Le calcul des moments peut nécessiter tin long temps de calcul et des ressources processe

s cause des fonctions hypergéométriques et de la fonction gamma, Pour faciliter le ealeul et réduire également le temps d’exécution, des formules récurrentes des polyndmes ont été pro-

posées ainsi qu'une forme matricielle de calcul du moment

p(n —N) Kyat (w:p.N) = A(Np—2n + n—2) x Ky (a:p.N) — Bn(1 — p) Ky (23p.N)

avec A= /SGROED B= \/ ate Ko(aip.N) = Jur),

La forme matricielle peut s‘écrire sous la forme

Q= {Qi} {Ki (ii pe.N —1)})

En fonction des applications, il est souvent indispensable de rendre invariants les moments

Trang 28

2.3.1.3 Extraction des caractéristiques

L’extraction des caractéristiques d'une forme avec les moments de Krawtchouk revient

& constitner un vecteur avee différentes valeurs de moments calculées sur la méme forme

La dimension du vecteur ainsi que les valeurs de moments & choisir ne sont pas universelles Différents auteurs ont proposé différentes techniques afin de trouver les valeurs qui discriminent aul mieux les formes De nombreux travaux essaient de déterminer le bon ordre de moment

en essayant plusieurs valeurs possibles pour finalement prendre la meilleure Quant au choix

de la dimension du vecteur, c'est la méme Stratégie, Par contre, pour le choix des valeurs des

Dans le cadre de nos travaux, nous calculons tous les moments d’ordre inférieur a (n,m)

avec n — m et nous prenons les moments de la diagonale de notre matrice, c'est a dire

(Q1 Qàa, Quan) La valeur de n a été déterminée en essayant différents ordres, comme

le montre la courbe de la figure 2.7 à la page 18, sur une base contenant 600 images non apprises, Un taux de reconnaissance stable de 99,17% est obtenu a partir de Vordre n = 24 Pour extraire les caractéristiques de la partie souhaitée de Pimage A laide des moments de

unique de dimension 48 qui la caractérise

er Pimage en deux parties en

Trang 29

Largement utilisés en reconnaissance de formes A travers les moments de Zernike, les

polynémes complexes de Zernike sont formés a partir des polynomes radiaux et calculés sur

le cercle unitaire(figure 2.9, page 20) Soit Zj" les polynomes de Zernike d’ordre n ct de répétition m On definit 22" par :

2.3.2.2 Les moments 2D de Zernike

Les moments 2D de Zernike (calculés sur une image), sont construits en utilisant un ensemble de polynomes définis ci-dessus combinés avec les valeurs des pixels de Pimage Soit

Anm le moment de Zernike d’ordre n et de répétition m, Ajm est défini par :

19

Tiêu đề	Extraction De Squelettes 3D À Partir D'Images De Silhouettes Humaines Recognition De Postures Et Modelisation D'Actions
Tác giả	Dieudonné Fabrice
Người hướng dẫn	Dr Damien VIVET, Dr Florent DUCULTY
Trường học	Universite Nationale du Vietnam
Chuyên ngành	Systèmes Intelligents et Multimédia
Thể loại	Memoire de Fin d’Études du Master Informatique
Năm xuất bản	2015
Thành phố	Hanoi

Định dạng
Số trang	59
Dung lượng	1,58 MB