1. Trang chủ
  2. » Giáo Dục - Đào Tạo

EXTRACTION DE SQUELETTES 3d a PARTIR DIMAGES DE SILHOUETTES HUMAINES RECONNAISSANCE DE POSTURES ET MODELISATION DACTIONS

63 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 2,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

— Nos encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans la réalisation de nos travaux.. Dans la première grande partie, il s

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

-ATREVI Dieudonné Fabrice

EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET

MODELISATION D'ACTIONS

CHIẾT XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI:

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI – 2015

Trang 2

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

-ATREVI Dieudonné Fabrice

EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET MODELISATION D'ACTIONS

CHIẾT XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI:

Spécialité : Systèmes Intelligents et Multimédia

Code : Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de: Dr Damien VIVET, Maître de conférence

Dr Florent DUCULTY, Maître de conférence

Lu et validé, bon pour soutenance

HANOI – 2015

Trang 3

Table des matières

Table des matières

Remerciements

Résumé

Abstract

Liste des figures

Liste des tableaux

Introduction Générale

1 État de l’art

1.1 Introduction

1.2 La capture de mouvement

1.3 L’estimation de pose et l’analyse de mouvement

1.4 Descripteurs de formes

1.5 Conclusion

2 Méthodes et solutions proposées 2.1 Introduction

2.2 Modélisation humaine 3D et extraction de données 2.3 Descripteurs de formes et extraction de caractéristiques 2.4 Conclusion

3 Implémentation et Résultats 3.1 Introduction

3.2 Outils utilisés

3.3 Résultats de la reconnaissance de postures

3.4 Résultats de la reconnaissance d’actions

3.5 Conclusion

Conclusion Générale

Bibliographie

Annexes

Trang 4

Je dédie ce document à ma

famille et à mes camarades de

l’IFI

Trang 5

La réalisation de ce document qui couronne la fin de notre formation de Master,n’aurait été possible sans l’appui direct ou indirect de personnes et d’institutionsauxquelles nous tenons ici à exprimer nos sincères remerciements Il s’agit de :

— L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné

l’opportunité de poursuivre nos études de Master à l’IFI à travers une bourse

— L’Institut Francophone International (IFI) et de tous les professeurs, pour les

nombreuses connaissances acquises durant notre formation

— Nos encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi et implication personnelle dans la réalisation de nos travaux

— Tous ceux qui de près ou de loin nous ont apporté leur soutien durant notre formation

Trang 6

de capteurs classiques ne fournissant pas d’information de profondeurs Ces informations deprofondeurs sont actuellement indispensables pour des analyses plus précises du compor-tementhumain dans le cadre de la vidéo surveillance de masse de personnes L’approche que nous avonsproposée au cours de ce stage suit une démarche classique d’apprentissage auto-matique quiconsiste à apprendre un ensemble de poses obtenues à partir de données simulées Les résultatsobtenus sont prometteurs en ce sens que nous avons obtenu de bons taux de reconnaissance depose à partir d’images de personnes inconnues dans la base d’apprentissage Nos travaux nousont permis de comparer les di érents descripteurs de formes mis en jeux et de montrer ceux quiffsont les plus robustes En nous appuyant sur les résultats de recon-naissance de postures, nousavons proposé une première approche de classification d’actions dans une vidéo Les résultatsobtenus sont prometteurs et peuvent être améliorés pour une plus grande e cacité, notamment enffiprenant en compte l’information temporelle par la mise en place d’un pistage multi hypothèse despoints d’articulation du squelette.

Mots-clés : Analyse comportementale, reconnaissance de postures, classificationd’actions, descripteurs de formes

Trang 7

In the recent history of the science, IT provides powerful analysis tools for support expert

to make a decision In the same way, computer vision tries to implement automatic tools forimage and video analysis For example, in the context of video analysis, we can talk abouthuman motion analysis through a video In the specific context of our work, we addressed theissue of the 3D pose estimation from 2D monocular images obtained from conventionalsensors not providing depth information The aim of our study is to estimate the 3D pose of ahuman from a monocular 2D image and then provides an action classification tool Theproposed approach follows a classical machine learning approach that involves learning a set

of 3D poses obtained from simulated data The proposed approach consists to extractsilhouette of human from an image and compute, via the orthogonal geometric moment andthe shape context, three feature vectors A human poses and action can be retrieved bycalculating the Euclidian distance between the feature vector af the request image and all ofthe feature vector of the training data we are deduce the corresponding action by choising themost represent class of action 3D estimate poses is then computing by the mean 3D poses ofall retrieved images of the most represented action class

Keywords: Behavior analysis, 3D pose recognition, actions classification, shape tors

Trang 8

descrip-Liste des figures

1.1 Personne équipée d’un exosquelette

1.2 Personne équipée lors d’une capture magnétique

1.3 Capture avec kinect

2.1 Exemples de modèles humains 3D obtenus avec MakeHuman

2.2 Modèle du squelette de type second life bones

2.3 Modèle humain importé dans blender à partir de MakeHuman

2.4 Exemples de silhouettes extraites lors d’une marche

2.5 À gauche, une matrice 4 x 4, à droite une image avec les points reprojetés 2.6 De la gauche vers la droite : courbe du polynôme avec n = 0, 1, 2

2.7 Détermination du bon ordre pour le moment de Krawtchouk

2.8 À gauche, les moments pour le bas du corps et à droite, les moments pour le haut du corps

2.9 Polynômes de Zernike tracés sur le disque unité [1]

2.10 Détermination du bon ordre pour le moment de Zernike

2.11 Contexte de forme (a,b) sont des exemples de forme (c) est le diagramme log-polaire (d-f) des histogrammes des points marqués Source Belongie et al [2] 2.12 Détermination du bon nombre de clusters

3.1 worklow de la démarche suivie

3.2 Taux de reconnaissance pour des données apprises : Méthode de Krawtchouk 3.3 Taux de reconnaissance pour des données non apprises : Méthode de Krawt-chouk En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance

3.4 Taux de reconnaissance pour des données apprises : Méthode de Zernike En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance

3.5 Taux de reconnaissance pour des données non apprises : Méthode de Zernike En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance

3.6 Taux de reconnaissance pour des données apprises : Méthode du contexte de forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance

3.7 Taux de reconnaissance pour des données non apprises : Méthode du contexte de forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance

3.8 Résultat de recherche d’une image inconnue avec les trois descripteurs

Trang 9

3.10 Exemple 2 : Résultat de représentation 3D de squelette

3.11 Résultats de suivi pour le mouvement "grimper"

3.12 Résultats de suivi pour le mouvement "saut"

3.13 Matrice de confusion obtenue

3.14 A gauche notre matrice de confusion exprimée en pourcentage et à droite la matrice de confusion obtenue par Gorelick et al [3]

A1 Contour extrait sur une silhouette

B1 Images de silhouette bruitée avec std = 1

B2 Images de silhouette bruitée avec std = 2

B3 Images de silhouette bruitée avec std = 3

C1 Résultat de reconnaissance de posture avec une image réelle pour une posture en croix A gauche, l’image originale, au centre, les résultats obtenus et à droite l’estimation du squelette 3D

C2 Résultat de reconnaissance de posture avec une image réelle pour une posture de marche A gauche, l’image originale, au centre, les résultats obtenus et à droite l’estimation du squelette 3D

D1 Mouvement "Marche"

D2 Mouvement "Bend"

D3 Mouvement "Jump"

D4 Mouvement "Side"

Trang 10

Liste des tableaux

3.1 Caractéristiques de la machine

3.2 Détails de composition des di érentes bases ff

3.3 Organisation de la base d’apprentissage

Trang 11

Introduction Générale

Contexte et Cadre d’étude

Le présent document a été élaboré dans le cadre des travaux réalisés durant notre stage

de fin de formation pour l’obtention du Master spécialité "Systèmes Intelligents et Multimédia"

de l’Institut Francophone International en collaboration avec l’Université de La Rochelle Lestravaux se sont déroulés au sein de l’équipe "Image et Vision" du laboratoire PRISME del’Université d’Orléans Il s’agit d’un laboratoire pluridisciplinaire dans le domaine général dessciences pour l’ingénieur Il est déployé sur plusieurs sites et est composé d’environ 106enseignants-chercheurs, de 70 doctorants et d’une dizaine d’ingénieurs

La thématique abordée durant ces travaux est relative au domaine de l’analyse tementale et de la télésurveillance En e et, plusieurs domaines de la science ont recours àffl’informatique et plus précisément à la vision par ordinateur pour l’analyse des actions (dans

compor-un ắroport, dans compor-un stade, dans compor-une place publique, etc.) d’compor-une ou d’compor-un groupe depersonnes, et ce, à travers des vidéos Il est di cile pour l’homme de pouvoir surveiller etffiprédire des ac-tions de ces individus dans un environnement plus large et non contrơlé Ainsi,

de nombreuses recherches ont été menées ces dernières années pour mettre à la dispositiondes spécialistes des outils précis et e caces afin de les aider dans leur prise de décision enffimatière de vidéo-surveillance et plus précisément dans l’analyse de comportement

Problématiques

Dans le cadre de la vidéosurveillance, de l’analyse comportementale et de la reconnaissance

de gestes, certaines informations géométriques (comme les informations sur la pose 3D desindividus) sont essentielles pour a ner les analyses des experts L’obtention des informations deffiprofondeur requiert l’utilisation de dispositifs spécifiques cỏteux et donc non utilisés dans lavidéosurveillance Il se pose alors la problématique de trouver un moyen simple et e caceffid’obtenir ces informations à partir d’une vue monoculaire de l’environnement et des personnes quis’y trouvent Cette problématique, qui est un véritable challenge dans le domaine de la vision, amobilisé ces dernières années, de nombreux chercheurs, qui se sont lancés dans l’élaboration de

di érentes approches De nombreuses solutions ont été proposées et chacuneff

Trang 12

d’elles présente des avantages et des inconvénients Nos travaux s’intéressent à cedomaine et visent à proposer une méthode simple, e cace et rapide pour extraire lesffiinformations géométriques sur la pose d’une personne.

Objectifs du stage

Les objectifs de notre stage sont multiples et se déclinent en deux grandes parties Dans

la première grande partie, il s’agira de mettre en place une base de données de silhouettes 2D

et de squelettes 3D extraits lors de l’exécution de mouvement par des modèles humains 3D.Une fois les bases de données mises en place, nous proposerons une démarche méthodiquequi permettra de caractériser l’ensemble des silhouettes via des descripteurs de formes Unebonne description des formes des silhouettes permettra à partir de l’image d’une personne deremonter à une estimation de sa pose 3D À l’atteinte de cet objectif, nous aborderons laseconde partie qui consistera à proposer une première approche de reconnaissance d’actionsbasée sur la description des silhouettes et une méthode d’évaluation de nos approches avecdes données réelles Après l’atteinte de ces deux grands objectifs, nous pourrons disposerd’un outil d’estimation de postures 3D et de reconnaissance d’action à partir d’une image depersonne et d’une vidéo de la personne exécutant l’action

Organisation du mémoire

Le mémoire est organisé autour de trois chapitres de façon à rendre compte du travail

e ectué durant le stage Le premier chapitre présente les principaux travaux recensés lors deffl’étude bibliographique et qui traitent de la classification d’actions dans une vidéo, de l’estima-tion

de pose et également les di érentes techniques existantes pour la capture de mouvement Leffsecond chapitre présente les méthodes utilisées dans l’élaboration de solutions pour la re-connaissance de postures et la reconnaissance d’actions Une description détaillée de la théoriesur les descripteurs de formes que nous avons utilisés pour décrire les silhouettes des personnescontenues dans les di érentes images Pour finir, le troisième chapitre présente les détails deffl’implémentation, les démarches suivies pour les expérimentations et les résultats obtenus Uneanalyse de nos résultats a été faite dans ce dernier chapitre ainsi qu’une comparaison avec desrésultats obtenus dans des travaux préexistants

Trang 13

mouve-L’analyse de mouvement, consiste à modéliser le mouvement décrit par un objet, unanimal ou un être humain à partir d’informations recueillies Les applications possiblessont également nombreuses L’analyse de comportement pour la surveillance d’actionsdans les aéroports, les gares, les stades par exemple, se trouve dans le domaine del’analyse de mouve-ment.

Dans ce chapitre, nous allons présenter les approches de capture de mouvementconnues et les travaux relatifs à l’estimation de pose ainsi que l’analyse de mouvement

1.2 La capture de mouvement

Il existe plusieurs systèmes permettant de capturer le mouvement d’un objet en général etd’un être humain en particulier Ces approches peuvent être classées en fonction des moyensutilisés pour réaliser l’acquisition de données Ainsi, on distingue trois grandes catégories desystèmes à savoir : les systèmes mécaniques, magnétiques et optiques

Trang 14

1.2.1 Systèmes mécaniques

Les systèmes mécaniques de capture de mouvement sont les premiers systèmesapparus dans ce domaine vers les années 80 1 Il s’agit d’une approche se basant surl’utilisation d’un exosquelette posé sur l’élément dont on souhaite enregistrer lemouvement (voir figure 1.1 à la page 4) Le dispositif est constitué non seulement del’exosquelette, mais également des codeurs d’angle associés aux di érentes articulationsff

et qui renvoient à un ordinateur leur valeur de rotation 2 Il permet d’obtenir avec précision,

le mouvement exécuté au niveau de chaque articulation et de ce fait, donne globalementavec une grande précision le mouvement enregistré

Les capteurs servant à ce type de capture, sont souvent reliés par une connexion filaire àl’ordinateur, ce qui d’une part permet d’obtenir une grande rapidité dans la transmission desdonnées, mais d’autre part, limite le mouvement que peut exécuter l’élément dans l’espace 3.Cela constitue un inconvénient majeur surtout pour la capture du mouvement humain et d’ob-jets non rigides et non déformables Par exemple, la société PDI a développé pour le haut ducorps un exosquelette en plastique qui mesure les mouvements de la tête, des bras et dutorse à l’aide de potentiomètres [4] Sa précision dans la capture du mouvement dépend de laprécision avec laquelle est modélisé l’exosquelette Ce dernier doit être adapté à chaquemorphologie et impose donc de disposer d’importants moyens pour la réalisation de grandsprojets Avec ces systèmes, il est di cile de capter l’interaction entre plusieurs élémentsffi(personnages dans une animation) Cette approche est plus adaptée à la capture d’élémentsrigides (systèmes mécaniques) qu’à la capture de mouvement humain et est de moins enmoins utilisée On peut cependant citer un exemple d’exosquelette moderne ó la technique ắté améliorée avec l’utilisation d’un textile intelligent [5

Figure 1.1 – Personne équipée d’un exosquelette

1.source : http://c.chasserat.free.fr/TPE2/defhistorique.html , consulté le 04/07/2015

2 source : https://fr.wikipedia.org/wiki/Capture_de_mouvement , consulté le 04/07/2015

3 source : http://tpemodelisationhumaine.e-monsite.com/pages/motion-capture.html , consulté le

06/07/2015

Trang 15

1.2.2 Systèmes magnétiques

L’exploitation des lois de l’électromagnétisme a permis d’aboutir à la mise en place de cetteapproche L’espace géométrique est représenté par un repère (x,y,z) dont l’origine (0,0,0) estdéterminée par un générateur de champ magnétique plus communément appelé antenne.L’élément dont le mouvement sera capturé est équipé de capteurs (généralement des bobinesélectriques) qui créent une perturbation dans le champ magnétique (voir figure 1.2 à la page 5).Ces systèmes o rent la possibilité de déterminer, en plus de la position, l’orientation dans leff repère

du personnage et les mesures sont en temps réel [6] Ils permettent d’éviter les problèmesd’occultations entre les éléments de la scène puisque le champ magnétique peut traverser le corpshumain Plus le nombre de capteurs est important, plus il y a une précision dans la capture demouvement Cela nécessite également des moyens financiers non négligeables

Pour ces systèmes, il est nécessaire de corriger à chaque fois le décalage qui peut survenirentre le capteur et le point qu’il représente Cette erreur est souvent due au mouvement dupersonnage Mais le plus grand inconvénient réside dans leur sensibilité face à des interfé-rencesélectromagnétiques 4 Ainsi, l’introduction de n’importe quel élément métallique ou la proximitéentre deux personnages peut créer de fausses mesures du mouvement La portée du champmagnétique étant limitée, l’espace de travail se voit également limiter Outre ces inconvénients, onpeut citer la fréquence d’échantillonnage de ces systèmes qui est faible et qui limite les types demouvements pouvant être exécutés par le sujet d’étude

Figure 1.2 – Personne équipée lors d’une capture magnétique

4 source : http://tpemodelisationhumaine.e-monsite.com/pages/motion-capture.html consulté le

06/07/2015

Trang 16

1.2.3 Systèmes optiques

Il s’agit de systèmes basés sur l’utilisation des rayons lumineux avec ou sansmarqueurs pour acquérir l’information sur le mouvement exécuté Ils sont les plus utilisésdans le monde de la création de mouvement de personnages virtuels, de la médecine,etc La grande raison de cette utilisation massive réside dans la précision qu’ils o rent.ffNéanmoins, ils ont quelques limites comme l’occultation lors de la capture de mouvement

de deux ou plusieurs person-nages On peut noter di érentes variantes de ces systèmesffutilisant di érents composants pour l’acquisition de données.ff

1.2.3.1 Caméras infrarouges couplées aux capteurs

Le principe des systèmes à réflecteurs passifs est d’émettre des rayons infrarouges depuisdes caméras, qui seront réfléchis par les réflecteurs Une fois les rayons réfléchis, les caméraspeuvent a cher sur une image chacun de ces réflecteurs par des points Ainsi, les réflecteursffiposés à des points clés (articulations d’un être humain par exemple) permettent d’avoir en 2D lespositions de ces points L’information 3D étant nécessaire, il est couramment utilisé un nombreimportant (minimum 2) de caméras qui observent la même scène, mais de di érents points de vueffafin de pouvoir déduire ces informations par la technique de la triangulation Cette méthodenécessite cependant une calibration très précise du système multicaméra

1.2.3.2 Caméra RGB-D / Kinect

La technologie basée sur la caméra Kinect est très populaire dans le domaine ludiqueouvert au public Le principe de fonctionnement est totalement di érent de celui desffautres systèmes optiques Elle ne nécessite qu’une seule caméra et n’utilise pas demarqueurs posés sur l’objet dont on souhaite capturer le mouvement Cette technologieest optique car elle utilise les faisceaux lumineux infrarouges qui sont émis dansl’environnement de la scène observée par la caméra spécifique Le système émet un motif

IR bien connu avec un projecteur IR (une sorte de polynôme bidimensionnel) et il mesureavec la caméra la forme du motif dans l’environnement Selon la déformation observée surles lignes de niveau, on peut remonter à l’information de distance

Figure 1.3 – Capture avec kinect

Trang 17

1.3 L’estimation de pose et l’analyse de mouvement

Estimer la pose d’un être humain, revient à déterminer les informations 2D ou 3D desmembres de son corps En vision par ordinateur, les recherches tendent à rendre cela possible àtravers di érentes techniques bien élaborées L’estimation de pose et l’analyse de mouvement ouffd’action sont liées en ce sens qu’analyser un mouvement, revient à suivre les di érentes posesffprises par l’être humain au fil du temps (à travers des séquences d’images) Les domainesd’applications de ces recherches sont multiples On peut les utiliser en analyse comportementale etsportive, en interaction homme-machine, en indexation de contenus visuels, etc Notre but à traverscette section est de parcourir les di érents travaux dans la littérature qui traitent à la fois deffl’estimation de la pose humaine et de l’analyse de mouvement

1.3.1 Approches sur le flot optique, le gradient et le contour dans l’image

La classification de vidéo basée sur l’analyse des mouvements humains qui y sontexécu-tés occupe la majeure partie des travaux rencontrés dans la littérature traitant del’analyse de mouvement La plupart des travaux élaborent des méthodes permettantd’extraire des informations assez robustes pour catégoriser des mouvements donnés Lavalidation de ces ap-proches est faite sur des données réelles stockées dans des basesbien connues afin de faciliter la comparaison des approches On peut citer la basepublique de Weizmann [3] ou encore celle de KHT 5

Des approches se basent sur l’utilisation du flot optique dans la vidéo, qui peut être définicomme étant "le champ de vitesse décrivant le mouvement apparent des motifs d’intensité del’image sous l’hypothèse d’illumination constante" [7] La méthode proposée par Negrel et al [7]utilise la technique d’extraction du flot optique proposée par Lucas et Kanade [8] qui détermine ledéplacement d’un pixel à partir des pixels voisins dans une fenêtre donnée Ils modélisent le flotoptique entre deux images successives de la vidéo à l’aide d’une base de polynômes orthogonaux

La classification des actions est faite à partir d’un SVM Efros et al [9] ont également utilisé le flotoptique dans leurs travaux pour classifier des actions de tennis, football et ballet La similarité entreles vecteurs de descripteurs du flot optique est calculée par la méthode des plus proches voisins.Nazli Ikizler et al [10] ont à la fois utilisé les flots optiques et un descripteur de forme basé sur ladistribution des points d’union entre des lignes courtes et longues ajoutées aux contours de laforme avec la transformée de Hough Outre les approches basées sur le flot optique, on peut citerles travaux de Matthew Brand et al [11] qui ont utilisé les modèles de Markov cachés pourégalement reconnaître des mouvements du "Tai chi" chinois Zelnik-Manor et al [12] ont plutôtutilisé des histogrammes de gradient spatio-temporels avec des échelles temporelles multiples,obtenus par la construction de pyramides temporelles dont un niveau donné contient la moitié dunombre de frames du niveau précédent La comparaison de deux vidéos revient à comparer leurshistogrammes de gradient calculés

5 http ://www.nada.kth.se/cvap/actions/

Trang 18

pour les di érents niveaux de la pyramide Il est à noter que ces méthodes nécessitentffune estimation fiable et robuste du flot optique et donc une qualité d’image importante.

1.3.2 Approches sur le suivi de mouvement

D’autres travaux se sont penchés sur le suivi du mouvement décrit par les membres ducorps humain Le but de ces travaux est de pallier aux problèmes liés à la qualité de l’image,car les méthodes précédentes y sont sensibles Dollar et al [13] ont utilisé des pointsd’intérêts spatio-temporels extraits des vidéos grâce à un détecteur de points d’intérêts(spécialement élaboré par eux et basé sur la réponse d’une fonction à noyau gaussien) Ilsdécrivent alors le mouvement en se basant sur la position 2D de ces points d’intérêts à travers

la séquence vidéo Rao et Shah [14] ont modélisé la trajectoire des mains pour pouvoirclassifier les actions La trajectoire des mains pouvant varier selon le point de vue de lacaméra, les auteurs ont proposé une approche pour rendre invariante celle-ci par rapport auxpoints de vue, en utilisant la courbure spatio-temporelle de la trajectoire Ali et Aggarwal [15]ont proposé l’utilisation des angles d’inclinaison du torse et les parties inférieures etsupérieures des jambes pour décrire les actions Yang Song et al [16] ont proposé d’extrairedes points d’intérêts dans l’image et de les suivre afin d’estimer la pose et le mouvement.Dans l’ensemble des points extraits, ils se basent sur la position et la vélocité de ces pointspour choisir ceux qui, ensemble, représentent une forme humaine Ces points peuventreprésenter des membres du corps dont le mouvement permettra d’identifier l’action e ectuéeff

en comparaison avec les actions apprises dans une base d’apprentissage

1.3.3 Approches sur les silhouettes

Une troisième catégorie d’approches se base sur la description du mouvement àpartir de l’analyse des silhouettes de la personne dans di érentes séquences d’images.ffGorelick et al [3] ont, à partir du volume spatio-temporel des silhouettes, caractérisé lesactions dans la vidéo C’est en utilisant les propriétés des solutions de l’équation dePoisson qu’ils ont extrait les caractéristiques spatio-temporelles telles que la saillancespatio-temporelle locale, la structure et l’orientation de la forme La méthode permetd’avoir une robustesse aux occultations, aux changements d’échelle et aux points de vue

de la caméra Guo et al [17] ont proposé la représentation des actions dans les vidéosavec la matrice de covariance empirique de vecteurs géométriques normalisés à 13dimensions qui caractérisent la forme de la silhouette extraite La similarité entre actionsest évaluée avec la distance de Riemannian entre les matrices de covariance

Dans la suite de nos travaux, nous allons utiliser cette dernière approche puisque dans lecontexte de la vidéo surveillance, la qualité des images ne peut être assurée ce qui n’encouragepas à utiliser les méthodes de la première catégorie citée L’extraction de points d’intérêts requiertégalement une bonne résolution pour être précise, ce qui nous amène à écarter égale-

Trang 19

ment cette approche Il ne nous reste plus que l’approche basée sur la silhouette etl’analyse de sa forme Ainsi, nous détaillerons dans la section qui suit, quelques types dedescripteurs de formes rencontrés.

1.4 Descripteurs de formes

La description de la silhouette d’une personne revient à trouver le moyen d’extrairel’in-formation qui code au mieux sa forme Dans cette démarche, nous rencontrons deuxcatégories de descripteurs de formes : les descripteurs globaux et les descripteurs locaux.Nous présen-tons dans cette section quelques travaux relatifs à l’utilisation de cesdescripteurs en vision par ordinateur

1.4.1 Les descripteurs globaux

Les descripteurs globaux sont utilisés pour quantifier l’information contenue dansl’image dans sa globalité Parmi ces descripteurs, on peut citer les momentsmathématiques Ainsi, de-puis l’introduction par Hu dans les années 1962 [18] de laméthode des moments en traitement d’images, di érents types de moments ont étéffimplémentés et testés dans de nombreux travaux de la littérature Nous pouvons citer : lesmoments de Tchebychev, de Racah, de Legendre, de Zernike, de Krawtchouk, etc

Les moments de Zernike ont été introduits pour la première fois en analyses d’images parTeague en 1980 [19] Il s’agit d’un descripteur robuste, qui repose sur les polynômes de Zer-nike Il

a été abondamment utilisé dans la littérature pour diverses applications telles que lareconnaissance des empreintes digitales, l’analyse de mouvement, etc C’est ainsi que Imen Las-soued et al [20] ont utilisé une extension des moments classiques de Zernike pour caractériser etclassifier des actions dans une vidéo L’extension proposée consiste à intégrer le paramètre tempsdans le calcul du moment puisque la vidéo est une succession d’images contenant des objets nonrigides en mouvement Cette extension au dire des auteurs présente un meilleur taux dereconnaissance Anh-Phuong Ta et al [21] ont fait de la détection d’objets 3D en utilisant lesmoments de Zernike calculés sur des vues multiples 2D des objets Les moments de Krawtchoukquant à eux ont été introduits pour la première fois en analyse d’images par P-T Yap et al [22] Lesmoments de Krawtchouk sont des moments orthogonaux se basant sur les polynômes discretsclassiques de Krawtchouk [23] Sheeba Rani et D Devaraj [24] ont fait de la reconnaissance et de

la classification de visages en utilisant les moments orthogonaux de Krawtchouk Shuping Liu et al.[25] dans leur recherche sur la classification de gestes de la main, ont également basé leursystème sur les moments de Krawtchouk Il ressort de leur étude que les moments de petit ordresont plus robustes que les moments d’ordre élevé qui eux favorisent plus la reconstruction totale del’image Bing Hu et Simon Liao [26] ont également utilisé les moments de Krawtchouk dansl’objectif de pouvoir reconnaître les caractères chinois

Trang 20

qui se ressemblent fortement dans la forme Ils sont parvenus à montrer que les moments

de Krawtchouk arrivaient plus à distinguer les di érents caractères que d’autres moments.ffPour la description de la forme d’objets 3D, Dariusz Frejlichowski [27] utilise latransformée de Fourier-Polaire Claude Cariou [28] a dans ses travaux, proposé uneapproche basée sur les transformées de Fourier-Mellin pour la reconnaissance de formesdans les documents tech-niques Kim et al [29] ont utilisé les moments invariants de Hupour la reconnaissance de diagramme logique Il existe énormément d’autres travaux sur

la description de formes, une brève revue de ces techniques est proposée par Zhang [30]

1.4.2 Les descripteurs locaux

Les descripteurs locaux devraient permettre d’éviter les prétraitements nécessairessur les images pour les descripteurs globaux Ces prétraitements peuvent être réaliséspour pallier aux éventuelles erreurs de segmentation de l’image

Serge Belongie et al [2] ont introduit le contexte de forme, qui est un descripteur local dont laméthode consiste à décrire une forme à partir de la description du voisinage de ses points decontours Ainsi, pour une forme donnée, il faut un ensemble de points de son contour (intérieurcomme extérieur) La description consiste à calculer la distribution en log polaire des points dans

un voisinage donné à l’aide d’un diagramme log-polaire Dans sa version originale, proposée dans[2], la correspondance entre formes est alors e ectuée par calcul des erreurs (calcul de la distanceffkhi-2 entre les histogrammes des points) de correspondance entre les points des formes AnkurAgarwal et Triggs [31] ont utilisé ce descripteur pour l’estimation de la pose humaine 3D à partird’images de silhouettes de la personne Ils ont proposé un système utilisant la technique de motsvisuels obtenus à partir d’un algorithme de K-Means La classification d’une pose dans la based’apprentissage est faite à partir d’un vecteur de pertinence machine (RVM) Thi Oanh Nguyen et

al [32] ont proposé une méthode alternative pour la recherche de symboles graphiques Cetteméthode est une adaptation du descripteur de contexte de forme aux points d’intérêts dessymboles Cette méthode permet d’éviter le calcul du contexte de forme pour tous les points decontour du symbole en ne le calculant que pour les points d’intérêts issus du descripteur SIFT [33]

La technique de mots visuels a également été utilisée pour l’indexation des symboles Laptev etLindeberg [34] ont proposé une extension du descripteur SIFT pour la reconnaissance d’action Laméthode proposée par ces derniers consiste à extraire des caractéristiques invariantes à l’échelle,

à partir des coins tridimensionnels du volume spatio-temporel Elle a permis de reconnaître lamarche dans des vidéos avec un arrière-plan dynamique et des occultations

Trang 21

1.5 Conclusion

Dans ce chapitre, nous avons fait le tour des di érentes techniques de capture de mou-ffvement Trois catégories d’approches se sont dégagées et présentent chacune leursavantages et inconvénients L’acquisition des informations dimensionnelles et temporelles sur

le mouve-ment via ces techniques reste assez cỏteuse et n’est donc pas accessible à tout lemonde Il est important de souligner que la sauvegarde des informations du mouvement peut-être faite dans des fichiers tel que fichiers BHV pour une exploitation ultérieure

Les recherches en vision par ordinateur tentent de trouver des approches pour ladescrip-tion des mouvements Nous avons donc présenté les di érentes approchesffpermettant d’estimer la pose humaine et de reconnaỵtre des actions dans une vidéo L’unedes approches est basée sur l’utilisation des descripteurs de formes et les silhouetteshumaines Cette catégorie présente des méthodes tirant avantage de l’extraction rapide

de la silhouette C’est dans cette catégorie d’approche que se situent nos travaux

Trang 22

en deux phases à savoir : l’apprentissage et la classification Nous allons fonder notreapprentissage sur des données simulées très peu cỏteuses et rapides à obtenir comparées à

la mise en place d’une analyse de capture de mouvement La disponibilité d’outils libres et degrandes bases de fichiers de mouvement en libre accès nous ont confortés dans ce choix

2.2 Modélisation humaine 3D et extraction de données

Le modèle humain 3D permet d’avoir à la fois la corpulence voulue pour le modèle etles informations 3D des points d’articulation Dans notre démarche, nous modélisons dans

un premier temps le personnage voulu, puis dans un second temps, nous animons lemodèle avec di érents mouvements Ainsi, pour constituer notre base d’apprentissage, ilffnous su ra d’extraire les informations spatio-temporelles des points d’articulation duffipersonnage ainsi que sa silhouette

2.2.1 Modélisation humaine 3D

Nous avons utilisé le logiciel "MakeHuman" 1 pour accomplir cette tâche MakeHuman est

un logiciel libre sous la licence AGPL3, conçu pour permettre aux artistes de facilement mettre

Trang 23

en place des modèles humains les plus réalistes possible La mise en place d’un modèle debase ne prend que quelques minutes et ne nécessite pas une grande connaissance enmodélisation 3D À travers les paramètres proposés, il est facile d’avoir des modèles variés enterme de morphologie, d’habillage (figure 2.1 page 13) et également en terme de possibilitéd’exportation des modèles Ainsi, il est possible d’exporter les modèles dans les formats telsque : Collada (dae), mhx, fbx, Ogre3D, MD5, etc Cette possibilité o re l’avantage de pouvoirffutiliser le même modèle dans plusieurs logiciels d’animation sans avoir à tout refaire.

Figure 2.1 – Exemples de modèles humains 3D obtenus avec MakeHuman

Les informations importantes pour nos travaux sont à la fois la corpulence du personnage

et les di érentes articulations MakeHuman o re plusieurs types de modélisation desff ffsquelettes qui di èrent dans le nombre d’articulations pris en compte Nous avons choisiffd’utiliser le type "second life bones" (voir figure 2.2 page 13) qui modélise 19 articulations

à savoir : la tête, le cou, la poitrine, l’abdomen, la hanche, la cuisse (gauche et droite), letibia (gauche et droit), le pied (gauche et droit), la clavicule (gauche et droite), l’épaule(gauche et droite), l’avant-bras (gauche et droite) et la main (gauche et droite)

Figure 2.2 – Modèle du squelette de type second life bones

Trang 24

Une fois le modèle mis en place, il reste à l’exporter dans le logiciel choisi pour mation Dans le cadre de nos travaux, nous avons choisi le logiciel d’animation Blender 2qui est également un logiciel libre sous licence GPL Il est développé et maintenu par unegrande communauté regroupant des personnes vivant un peu partout dans le mondeentier Blender o re la possibilité de modéliser des objets et des personnages 3D et deffles animer Il o re également la possibilité d’importer des modèles provenant d’autresfflogiciels de modélisation comme "MakeHuman" (voir figure 2.3 à la page 14) L’animationdes modèles peut être entièrement créée à travers les fonctionnalités qu’il o re Cetteffopération s’avère longue et né-cessite une parfaite maîtrise du logiciel Mais à côté,Blender permet l’importation de fichiers d’animation tels que les fichiers BVH (BioVisionHierarchy) 3 qui contiennent des données de motion capture Nous avons pu profiter de labase de cgspeed 4 qui o re de nombreux fichiers bvh décrivant di érents mouvements.ff ff

l’ani-Figure 2.3 – Modèle humain importé dans blender à partir de MakeHuman

2.2.2 Extraction des données simulées

Les modèles précédemment animés dans Blender, serviront à constituer notre base prentissage et de test En e et, selon notre méthode, nous aurons besoin des images de laffsilhouette du personnage ainsi que des informations spatiales sur les articulations lors du dé-roulement d’un mouvement Blender o re la possibilité d’être interfacé à travers des scriptsff

d’ap-"python" pour la réalisation de di érentes tâches Nous avons donc développé des scripts quiffpermettent d’extraire les images de la silhouette du personnage à chaque frame ainsi que les

Trang 25

informations spatiales de chaque point d’articulation dans une structure bien définie (voirfigure 2.4 à la page 15).

Figure 2.4 – Exemples de silhouettes extraites lors d’une marche

Les informations spatiales extraites concernent également les caméras utilisées pour turer les silhouettes En e et, pour chaque point d’articulation ainsi que pour la ou les camérasffvirtuelles, Blender fournit sous forme d’une matrice (4 x 4) les informations sur la position 3D

cap-et les informations de rotation de la caméra virtuelle dans l’espace La figure 2.5 à la page 15montre une matrice d’un exemple de données extraites La partie en vert concerne lescoordonnées 3D du point focal de la caméra et la partie en jaune est la matrice de rotation de

ce point Notre base d’apprentissage est organisée en di érentes classes qui correspondentffchacune à un personnage d’une morphologie donnée et exécutant une action donnée Labase de test est également organisée de la même manière À chaque image de silhouette sontasso-ciées 20 matrices (4 x 4) représentant les données des articulations et également de lacaméra Ces données serviront à reprojeter sur une image de silhouette ces di érents pointsff

à travers les propriétés de la géométrie perspective On peut le remarquer sur l’image de lafigure 2.5 à la page 15, une silhouette avec les points reprojetés en blanc

Figure 2.5 – À gauche, une matrice 4 x 4, à droite une image avec les points reprojetés

A cet stade, nous pouvons disposer de :

Trang 26

- N images de silhouettes (di érentes morphologies, di érents mouvements, ff ff

di érents habillements) ;ff

-N x 19 points de coordonnées 3D (information du squelette) ;

-N matrice de caméra (pose d’observation)

2.3 Descripteurs de formes et extraction de caractéristiques

Après la constitution de la base d’apprentissage et de test, nous allons aborder danscette section, la description détaillée des descripteurs utilisés pour caractériser les formes

de silhouette Nous aborderons trois descripteurs à savoir : les moments de Krawtchouk,les moments de Zernik et le descripteur local du contexte de forme (shape context)

2.3.1 Méthode basée sur les moments de Krawtchouk

et (a)k = a(a+ 1):::(a+k 1) =

Ainsi, l’ensemble des (N+1) polynômes, forme un jeu complet de fonctions discrètes basiques

avec pour fonction de poids w(x; p;N) =

Trang 27

16

Trang 28

Figure 2.6 – De la gauche vers la droite : courbe du polynôme avec n = 0, 1, 2

Q nm =

x=0Avec les paramètres p1 et p2 des polynômes, nous pouvons sélectionner la zone de l’image dontnous souhaitons calculer les moments Cette propriété permet alors d’utiliser les moments deKrawtchouk comme des descripteurs locaux Nous verrons dans les sections à venir, concrète-ment comment utiliser ces paramètres pour extraire les caractéristiques des zones de l’image Lecalcul des moments peut nécessiter un long temps de calcul et des ressources processeurs

à cause des fonctions hypergéométriques et de la fonction gamma Pour faciliter le calcul

et réduire également le temps d’exécution, des formules récurrentes des polynômes ontété pro-posées ainsi qu’une forme matricielle de calcul du moment

Trang 29

à l’échelle, à la translation et à la rotation Nous avons adopté une méthode simple, dont

on parlera dans les prochaines sections, lors du pré-traitement pour les rendre invariants àl’échelle et à la translation

17

Trang 30

2.3.1.3 Extraction des caractéristiques

L’extraction des caractéristiques d’une forme avec les moments de Krawtchouk revient

à constituer un vecteur avec di érentes valeurs de moments calculées sur la même forme Laffdimension du vecteur ainsi que les valeurs de moments à choisir ne sont pas universelles

Di érents auteurs ont proposé di érentes techniques afin de trouver les valeurs quiff ffdiscriminent au mieux les formes De nombreux travaux essaient de déterminer le bon ordre

de moment en essayant plusieurs valeurs possibles pour finalement prendre la meilleure.Quant au choix de la dimension du vecteur, c’est la même stratégie Par contre, pour le choixdes valeurs des moments, certains à l’image de [22] prennent des valeurs précises dans lamatrice des moments D’autres préfèrent prendre les moments pour lesquels n = m

Dans le cadre de nos travaux, nous calculons tous les moments d’ordre inférieur à (n,m)avec n = m et nous prenons les moments de la diagonale de notre matrice, c’est à dire (Q1;1;Q2;2; :::; Qn;n) La valeur de n a été déterminée en essayant di érents ordres, comme leffmontre la courbe de la figure 2.7 à la page 18, sur une base contenant 600 images nonapprises Un taux de reconnaissance stable de 99,17% est obtenu à partir de l’ordre n = 24.Pour extraire les caractéristiques de la partie souhaitée de l’image à l’aide des moments de

Figure 2.7 – Détermination du bon ordre pour le moment de Krawtchouk

Krawtchouk, nous avons, pour notre application, décidé de diviser l’image en deux parties

en agissant sur les valeurs des paramètres p1 et p2 Ainsi, nous calculons le vecteur dedescripteur pour la partie haute du corps (en fixant p1 = 0,5 et p2 = 0,1) et pour la partiebasse (p1 = 0,5 et p2 = 0,95) (voir figure 2.8 à la page 19) Ce qui fait pour une silhouette,

un vecteur unique de dimension 48 qui la caractérise

Trang 31

Figure 2.8 – À gauche, les moments pour le bas du corps et à droite, les moments pour lehaut du corps

2.3.2 Méthode basée sur les moments de Zernike

2.3.2.1 Polynơmes de Zernike

Largement utilisés en reconnaissance de formes à travers les moments de Zernike,les polynơmes complexes de Zernike sont formés à partir des polynơmes radiaux etcalculés sur le cercle unitaire(figure 2.9, page 20) Soit Znm les polynơmes de Zerniked’ordre n et de répétition m On définit Znm par :

Znm ( ; ) = Rnm( ) exp(jm )

ó :

n : est un entier positif ou nul ;

m : est un entier positif ou négatif et défini sous la contrainte n jmj et n j mj soit paire ;: est la distance radiale normalisée du pixel (x,y) par rapport au centre de gravité de l’objet ;: est l’angle d’azimut du pixel (x,y) par rapport au centre de gravité de l’objet

Le polynơme radial est défini par :

x2+y2 1 [V nm (x;y)] V pq (x;y)dxdy = n+1 : np mq avec ab = (

2.3.2.2 Les moments 2D de Zernike

Les moments 2D de Zernike (calculés sur une image), sont construits en utilisant unensemble de polynơmes définis ci-dessus combinés avec les valeurs des pixels de

Ngày đăng: 30/10/2020, 21:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w