1. Trang chủ
  2. » Ngoại Ngữ

EXTRACTION DE SQUELETTES 3d a PARTIR DIMAGES DE SILHOUETTES HUMAINES RECONNAISSANCE DE POSTURES ET MODELISATION DACTIONS

59 428 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 2,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

L’approche quenous avons proposée au cours de ce stage suit une démarche classique d’apprentissage auto-matique qui consiste à apprendre un ensemble de poses obtenues à partir de données

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL

-

ATREVI Dieudonné Fabrice

EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET

Trang 2

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL

-

ATREVI Dieudonné Fabrice

EXTRACTION DE SQUELETTES 3D A PARTIR D'IMAGES DE SILHOUETTES HUMAINES : RECONNAISSANCE DE POSTURES ET

MODELISATION D'ACTIONS

CHIẾT XUẤT KHUNG XƯƠNG 3D TỪ ẢNH 2D CỦA CON NGƯỜI: NHẬN DẠNG TƯ THẾ VÀ MÔ HÌNH HOÁ HÀNH ĐỘNG

Spécialité : Systèmes Intelligents et Multimédia

Code : Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de: Dr Damien VIVET, Maître de conférence

Dr Florent DUCULTY, Maître de conférence

HANOI – 2015

Lu et validé, bon pour soutenance

Trang 3

Table des matières

1.1 Introduction 3

1.2 La capture de mouvement 3

1.3 L’estimation de pose et l’analyse de mouvement 7

1.4 Descripteurs de formes 9

1.5 Conclusion 11

2 Méthodes et solutions proposées 12 2.1 Introduction 12

2.2 Modélisation humaine 3D et extraction de données 12

2.3 Descripteurs de formes et extraction de caractéristiques 16

2.4 Conclusion 24

3 Implémentation et Résultats 25 3.1 Introduction 25

3.2 Outils utilisés 25

3.3 Résultats de la reconnaissance de postures 27

3.4 Résultats de la reconnaissance d’actions 36

3.5 Conclusion 39

Trang 4

Je dédie ce document à ma famille et à mes camarades de

l’IFI

Trang 5

La réalisation de ce document qui couronne la fin de notre formation de Master, n’auraitété possible sans l’appui direct ou indirect de personnes et d’institutions auxquelles nous tenonsici à exprimer nos sincères remerciements Il s’agit de :

— L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné l’opportunité

de poursuivre nos études de Master à l’IFI à travers une bourse

— L’Institut Francophone International (IFI) et de tous les professeurs, pour les nombreusesconnaissances acquises durant notre formation

— Nos encadrants pour nous avoir accueillis au sein de leur équipe et pour leur suivi etimplication personnelle dans la réalisation de nos travaux

— Tous ceux qui de près ou de loin nous ont apporté leur soutien durant notre formation

Trang 6

d’ou-de profond’ou-deurs sont actuellement indispensables pour d’ou-des analyses plus précises du tement humain dans le cadre de la vidéo surveillance de masse de personnes L’approche quenous avons proposée au cours de ce stage suit une démarche classique d’apprentissage auto-matique qui consiste à apprendre un ensemble de poses obtenues à partir de données simulées.Les résultats obtenus sont prometteurs en ce sens que nous avons obtenu de bons taux dereconnaissance de pose à partir d’images de personnes inconnues dans la base d’apprentissage.Nos travaux nous ont permis de comparer les différents descripteurs de formes mis en jeux

compor-et de montrer ceux qui sont les plus robustes En nous appuyant sur les résultats de naissance de postures, nous avons proposé une première approche de classification d’actionsdans une vidéo Les résultats obtenus sont prometteurs et peuvent être améliorés pour uneplus grande efficacité, notamment en prenant en compte l’information temporelle par la mise

recon-en place d’un pistage multi hypothèse des points d’articulation du squelette

Mots-clés : Analyse comportementale, reconnaissance de postures, classification d’actions,descripteurs de formes

Trang 7

In the recent history of the science, IT provides powerful analysis tools for support expert

to make a decision In the same way, computer vision tries to implement automatic tools forimage and video analysis For example, in the context of video analysis, we can talk abouthuman motion analysis through a video In the specific context of our work, we addressedthe issue of the 3D pose estimation from 2D monocular images obtained from conventionalsensors not providing depth information The aim of our study is to estimate the 3D pose

of a human from a monocular 2D image and then provides an action classification tool Theproposed approach follows a classical machine learning approach that involves learning a set of3D poses obtained from simulated data The proposed approach consists to extract silhouette

of human from an image and compute, via the orthogonal geometric moment and the shapecontext, three feature vectors A human poses and action can be retrieved by calculating theEuclidian distance between the feature vector af the request image and all of the feature vector

of the training data we are deduce the corresponding action by choising the most representclass of action 3D estimate poses is then computing by the mean 3D poses of all retrievedimages of the most represented action class

Keywords: Behavior analysis, 3D pose recognition, actions classification, shape tors

Trang 8

descrip-Liste des figures

1.1 Personne équipée d’un exosquelette 4

1.2 Personne équipée lors d’une capture magnétique 5

1.3 Capture avec kinect 6

2.1 Exemples de modèles humains 3D obtenus avec MakeHuman 13

2.2 Modèle du squelette de type second life bones 13

2.3 Modèle humain importé dans blender à partir de MakeHuman 14

2.4 Exemples de silhouettes extraites lors d’une marche 15

2.5 À gauche, une matrice 4 x 4, à droite une image avec les points reprojetés 15

2.6 De la gauche vers la droite : courbe du polynôme avec n = 0, 1, 2 17

2.7 Détermination du bon ordre pour le moment de Krawtchouk 18

2.8 À gauche, les moments pour le bas du corps et à droite, les moments pour le haut du corps 19

2.9 Polynômes de Zernike tracés sur le disque unité [1] 20

2.10 Détermination du bon ordre pour le moment de Zernike 21

2.11 Contexte de forme (a,b) sont des exemples de forme (c) est le diagramme log-polaire (d-f) des histogrammes des points marqués Source Belongie et al [2] 22 2.12 Détermination du bon nombre de clusters 23

3.1 worklow de la démarche suivie 27

3.2 Taux de reconnaissance pour des données apprises : Méthode de Krawtchouk 29 3.3 Taux de reconnaissance pour des données non apprises : Méthode de Krawt-chouk En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance 30

3.4 Taux de reconnaissance pour des données apprises : Méthode de Zernike En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance 31

3.5 Taux de reconnaissance pour des données non apprises : Méthode de Zernike En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance 31

3.6 Taux de reconnaissance pour des données apprises : Méthode du contexte de forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance 32

3.7 Taux de reconnaissance pour des données non apprises : Méthode du contexte de forme En abscisse, résultats pour respectivement 1, 3, 5 et 7 voisins considérés et en ordonnée, les taux de reconnaissance 33

3.8 Résultat de recherche d’une image inconnue avec les trois descripteurs 34

Trang 9

3.9 Exemple 1 : Résultat de représentation 3D de squelette 34

3.10 Exemple 2 : Résultat de représentation 3D de squelette 35

3.11 Résultats de suivi pour le mouvement "grimper" 35

3.12 Résultats de suivi pour le mouvement "saut" 36

3.13 Matrice de confusion obtenue 37

3.14 A gauche notre matrice de confusion exprimée en pourcentage et à droite la matrice de confusion obtenue par Gorelick et al [3] 38

A1 Contour extrait sur une silhouette 44

B1 Images de silhouette bruitée avec std = 1 45

B2 Images de silhouette bruitée avec std = 2 45

B3 Images de silhouette bruitée avec std = 3 45

C1 Résultat de reconnaissance de posture avec une image réelle pour une posture en croix A gauche, l’image originale, au centre, les résultats obtenus et à droite l’estimation du squelette 3D 46

C2 Résultat de reconnaissance de posture avec une image réelle pour une posture de marche A gauche, l’image originale, au centre, les résultats obtenus et à droite l’estimation du squelette 3D 46

D1 Mouvement "Marche" 47

D2 Mouvement "Bend" 47

D3 Mouvement "Jump" 47

D4 Mouvement "Side" 47

Trang 10

Liste des tableaux

3.1 Caractéristiques de la machine 253.2 Détails de composition des différentes bases 263.3 Organisation de la base d’apprentissage 26

Trang 11

Introduction Générale

Contexte et Cadre d’étude

Le présent document a été élaboré dans le cadre des travaux réalisés durant notre stage defin de formation pour l’obtention du Master spécialité "Systèmes Intelligents et Multimédia"

de l’Institut Francophone International en collaboration avec l’Université de La Rochelle Lestravaux se sont déroulés au sein de l’équipe "Image et Vision" du laboratoire PRISME del’Université d’Orléans Il s’agit d’un laboratoire pluridisciplinaire dans le domaine généraldes sciences pour l’ingénieur Il est déployé sur plusieurs sites et est composé d’environ 106enseignants-chercheurs, de 70 doctorants et d’une dizaine d’ingénieurs

La thématique abordée durant ces travaux est relative au domaine de l’analyse tementale et de la télésurveillance En effet, plusieurs domaines de la science ont recours àl’informatique et plus précisément à la vision par ordinateur pour l’analyse des actions (dans

compor-un ắroport, dans compor-un stade, dans compor-une place publique, etc.) d’compor-une ou d’compor-un groupe de personnes,

et ce, à travers des vidéos Il est difficile pour l’homme de pouvoir surveiller et prédire des tions de ces individus dans un environnement plus large et non contrơlé Ainsi, de nombreusesrecherches ont été menées ces dernières années pour mettre à la disposition des spécialistesdes outils précis et efficaces afin de les aider dans leur prise de décision en matière de vidéo-surveillance et plus précisément dans l’analyse de comportement

ac-Problématiques

Dans le cadre de la vidéosurveillance, de l’analyse comportementale et de la reconnaissance

de gestes, certaines informations géométriques (comme les informations sur la pose 3D desindividus) sont essentielles pour affiner les analyses des experts L’obtention des informations

de profondeur requiert l’utilisation de dispositifs spécifiques cỏteux et donc non utilisés dans

la vidéosurveillance Il se pose alors la problématique de trouver un moyen simple et efficaced’obtenir ces informations à partir d’une vue monoculaire de l’environnement et des personnesqui s’y trouvent Cette problématique, qui est un véritable challenge dans le domaine de

la vision, a mobilisé ces dernières années, de nombreux chercheurs, qui se sont lancés dansl’élaboration de différentes approches De nombreuses solutions ont été proposées et chacune

Trang 12

d’elles présente des avantages et des inconvénients Nos travaux s’intéressent à ce domaine

et visent à proposer une méthode simple, efficace et rapide pour extraire les informationsgéométriques sur la pose d’une personne

Objectifs du stage

Les objectifs de notre stage sont multiples et se déclinent en deux grandes parties Dans

la première grande partie, il s’agira de mettre en place une base de données de silhouettes2D et de squelettes 3D extraits lors de l’exécution de mouvement par des modèles humains3D Une fois les bases de données mises en place, nous proposerons une démarche méthodiquequi permettra de caractériser l’ensemble des silhouettes via des descripteurs de formes Unebonne description des formes des silhouettes permettra à partir de l’image d’une personne

de remonter à une estimation de sa pose 3D À l’atteinte de cet objectif, nous aborderons laseconde partie qui consistera à proposer une première approche de reconnaissance d’actionsbasée sur la description des silhouettes et une méthode d’évaluation de nos approches avec desdonnées réelles Après l’atteinte de ces deux grands objectifs, nous pourrons disposer d’un outild’estimation de postures 3D et de reconnaissance d’action à partir d’une image de personne

et d’une vidéo de la personne exécutant l’action

Organisation du mémoire

Le mémoire est organisé autour de trois chapitres de façon à rendre compte du travaileffectué durant le stage Le premier chapitre présente les principaux travaux recensés lors del’étude bibliographique et qui traitent de la classification d’actions dans une vidéo, de l’estima-tion de pose et également les différentes techniques existantes pour la capture de mouvement

Le second chapitre présente les méthodes utilisées dans l’élaboration de solutions pour la connaissance de postures et la reconnaissance d’actions Une description détaillée de la théoriesur les descripteurs de formes que nous avons utilisés pour décrire les silhouettes des personnescontenues dans les différentes images Pour finir, le troisième chapitre présente les détails del’implémentation, les démarches suivies pour les expérimentations et les résultats obtenus Uneanalyse de nos résultats a été faite dans ce dernier chapitre ainsi qu’une comparaison avec desrésultats obtenus dans des travaux préexistants

Trang 13

mouve-le mouvement d’un chirurgien pour des interventions millimétrées.

L’analyse de mouvement, consiste à modéliser le mouvement décrit par un objet, unanimal ou un être humain à partir d’informations recueillies Les applications possibles sontégalement nombreuses L’analyse de comportement pour la surveillance d’actions dans lesaéroports, les gares, les stades par exemple, se trouve dans le domaine de l’analyse de mouve-ment

Dans ce chapitre, nous allons présenter les approches de capture de mouvement connues

et les travaux relatifs à l’estimation de pose ainsi que l’analyse de mouvement

1.2 La capture de mouvement

Il existe plusieurs systèmes permettant de capturer le mouvement d’un objet en général

et d’un être humain en particulier Ces approches peuvent être classées en fonction des moyensutilisés pour réaliser l’acquisition de données Ainsi, on distingue trois grandes catégories desystèmes à savoir : les systèmes mécaniques, magnétiques et optiques

Trang 14

1.2.1 Systèmes mécaniques

Les systèmes mécaniques de capture de mouvement sont les premiers systèmes apparusdans ce domaine vers les années 801 Il s’agit d’une approche se basant sur l’utilisation d’unexosquelette posé sur l’élément dont on souhaite enregistrer le mouvement (voir figure 1.1 à

la page 4) Le dispositif est constitué non seulement de l’exosquelette, mais également descodeurs d’angle associés aux différentes articulations et qui renvoient à un ordinateur leurvaleur de rotation2 Il permet d’obtenir avec précision, le mouvement exécuté au niveau dechaque articulation et de ce fait, donne globalement avec une grande précision le mouvementenregistré

Les capteurs servant à ce type de capture, sont souvent reliés par une connexion filaire àl’ordinateur, ce qui d’une part permet d’obtenir une grande rapidité dans la transmission desdonnées, mais d’autre part, limite le mouvement que peut exécuter l’élément dans l’espace3.Cela constitue un inconvénient majeur surtout pour la capture du mouvement humain et d’ob-jets non rigides et non déformables Par exemple, la société PDI a développé pour le haut ducorps un exosquelette en plastique qui mesure les mouvements de la tête, des bras et du torse àl’aide de potentiomètres [4] Sa précision dans la capture du mouvement dépend de la précisionavec laquelle est modélisé l’exosquelette Ce dernier doit être adapté à chaque morphologie

et impose donc de disposer d’importants moyens pour la réalisation de grands projets Avecces systèmes, il est difficile de capter l’interaction entre plusieurs éléments (personnages dansune animation) Cette approche est plus adaptée à la capture d’éléments rigides (systèmesmécaniques) qu’à la capture de mouvement humain et est de moins en moins utilisée Onpeut cependant citer un exemple d’exosquelette moderne ó la technique a été améliorée avecl’utilisation d’un textile intelligent [5]

Figure 1.1 – Personne équipée d’un exosquelette

1 source : http://c.chasserat.free.fr/TPE2/defhistorique.html , consulté le 04/07/2015

2 source : https://fr.wikipedia.org/wiki/Capture_de_mouvement , consulté le 04/07/2015

3 source : http://tpemodelisationhumaine.e-monsite.com/pages/motion-capture.html , consulté le 06/07/2015

Trang 15

1.2.2 Systèmes magnétiques

L’exploitation des lois de l’électromagnétisme a permis d’aboutir à la mise en place decette approche L’espace géométrique est représenté par un repère (x,y,z) dont l’origine (0,0,0)est déterminée par un générateur de champ magnétique plus communément appelé antenne.L’élément dont le mouvement sera capturé est équipé de capteurs (généralement des bobinesélectriques) qui créent une perturbation dans le champ magnétique (voir figure 1.2 à la page

5) Ces systèmes offrent la possibilité de déterminer, en plus de la position, l’orientation dans lerepère du personnage et les mesures sont en temps réel [6] Ils permettent d’éviter les problèmesd’occultations entre les éléments de la scène puisque le champ magnétique peut traverser lecorps humain Plus le nombre de capteurs est important, plus il y a une précision dans lacapture de mouvement Cela nécessite également des moyens financiers non négligeables.Pour ces systèmes, il est nécessaire de corriger à chaque fois le décalage qui peut survenirentre le capteur et le point qu’il représente Cette erreur est souvent due au mouvement dupersonnage Mais le plus grand inconvénient réside dans leur sensibilité face à des interfé-rences électromagnétiques4 Ainsi, l’introduction de n’importe quel élément métallique ou laproximité entre deux personnages peut créer de fausses mesures du mouvement La portée

du champ magnétique étant limitée, l’espace de travail se voit également limiter Outre cesinconvénients, on peut citer la fréquence d’échantillonnage de ces systèmes qui est faible etqui limite les types de mouvements pouvant être exécutés par le sujet d’étude

Figure 1.2 – Personne équipée lors d’une capture magnétique

4 source : http://tpemodelisationhumaine.e-monsite.com/pages/motion-capture.html consulté le 06/07/2015

Trang 16

1.2.3 Systèmes optiques

Il s’agit de systèmes basés sur l’utilisation des rayons lumineux avec ou sans marqueurspour acquérir l’information sur le mouvement exécuté Ils sont les plus utilisés dans le monde

de la création de mouvement de personnages virtuels, de la médecine, etc La grande raison

de cette utilisation massive réside dans la précision qu’ils offrent Néanmoins, ils ont quelqueslimites comme l’occultation lors de la capture de mouvement de deux ou plusieurs person-nages On peut noter différentes variantes de ces systèmes utilisant différents composantspour l’acquisition de données

1.2.3.1 Caméras infrarouges couplées aux capteurs

Le principe des systèmes à réflecteurs passifs est d’émettre des rayons infrarouges depuisdes caméras, qui seront réfléchis par les réflecteurs Une fois les rayons réfléchis, les caméraspeuvent afficher sur une image chacun de ces réflecteurs par des points Ainsi, les réflecteursposés à des points clés (articulations d’un être humain par exemple) permettent d’avoir en2D les positions de ces points L’information 3D étant nécessaire, il est couramment utilisé unnombre important (minimum 2) de caméras qui observent la même scène, mais de différentspoints de vue afin de pouvoir déduire ces informations par la technique de la triangulation.Cette méthode nécessite cependant une calibration très précise du système multicaméra

1.2.3.2 Caméra RGB-D / Kinect

La technologie basée sur la caméra Kinect est très populaire dans le domaine ludiqueouvert au public Le principe de fonctionnement est totalement différent de celui des autressystèmes optiques Elle ne nécessite qu’une seule caméra et n’utilise pas de marqueurs posés surl’objet dont on souhaite capturer le mouvement Cette technologie est optique car elle utiliseles faisceaux lumineux infrarouges qui sont émis dans l’environnement de la scène observéepar la caméra spécifique Le système émet un motif IR bien connu avec un projecteur IR(une sorte de polynôme bidimensionnel) et il mesure avec la caméra la forme du motif dansl’environnement Selon la déformation observée sur les lignes de niveau, on peut remonter àl’information de distance

Figure 1.3 – Capture avec kinect

Trang 17

1.3 L’estimation de pose et l’analyse de mouvement

Estimer la pose d’un être humain, revient à déterminer les informations 2D ou 3D desmembres de son corps En vision par ordinateur, les recherches tendent à rendre cela possible àtravers différentes techniques bien élaborées L’estimation de pose et l’analyse de mouvement

ou d’action sont liées en ce sens qu’analyser un mouvement, revient à suivre les différentesposes prises par l’être humain au fil du temps (à travers des séquences d’images) Les domainesd’applications de ces recherches sont multiples On peut les utiliser en analyse comportementale

et sportive, en interaction homme-machine, en indexation de contenus visuels, etc Notre but

à travers cette section est de parcourir les différents travaux dans la littérature qui traitent à

la fois de l’estimation de la pose humaine et de l’analyse de mouvement

1.3.1 Approches sur le flot optique, le gradient et le contour dans l’image

La classification de vidéo basée sur l’analyse des mouvements humains qui y sont tés occupe la majeure partie des travaux rencontrés dans la littérature traitant de l’analyse

exécu-de mouvement La plupart exécu-des travaux élaborent exécu-des méthoexécu-des permettant d’extraire exécu-desinformations assez robustes pour catégoriser des mouvements donnés La validation de ces ap-proches est faite sur des données réelles stockées dans des bases bien connues afin de faciliter

la comparaison des approches On peut citer la base publique de Weizmann [3] ou encore celle

de KHT5

Des approches se basent sur l’utilisation du flot optique dans la vidéo, qui peut être définicomme étant "le champ de vitesse décrivant le mouvement apparent des motifs d’intensité

de l’image sous l’hypothèse d’illumination constante" [7] La méthode proposée par Negrel et

al [7] utilise la technique d’extraction du flot optique proposée par Lucas et Kanade [8] quidétermine le déplacement d’un pixel à partir des pixels voisins dans une fenêtre donnée Ilsmodélisent le flot optique entre deux images successives de la vidéo à l’aide d’une base depolynômes orthogonaux La classification des actions est faite à partir d’un SVM Efros et al.[9] ont également utilisé le flot optique dans leurs travaux pour classifier des actions de tennis,football et ballet La similarité entre les vecteurs de descripteurs du flot optique est calculéepar la méthode des plus proches voisins Nazli Ikizler et al [10] ont à la fois utilisé les flotsoptiques et un descripteur de forme basé sur la distribution des points d’union entre des lignescourtes et longues ajoutées aux contours de la forme avec la transformée de Hough Outre lesapproches basées sur le flot optique, on peut citer les travaux de Matthew Brand et al [11] quiont utilisé les modèles de Markov cachés pour également reconnaître des mouvements du "Taichi" chinois Zelnik-Manor et al [12] ont plutôt utilisé des histogrammes de gradient spatio-temporels avec des échelles temporelles multiples, obtenus par la construction de pyramidestemporelles dont un niveau donné contient la moitié du nombre de frames du niveau précédent

La comparaison de deux vidéos revient à comparer leurs histogrammes de gradient calculés

5 http ://www.nada.kth.se/cvap/actions/

Trang 18

pour les différents niveaux de la pyramide Il est à noter que ces méthodes nécessitent uneestimation fiable et robuste du flot optique et donc une qualité d’image importante.

1.3.2 Approches sur le suivi de mouvement

D’autres travaux se sont penchés sur le suivi du mouvement décrit par les membres ducorps humain Le but de ces travaux est de pallier aux problèmes liés à la qualité de l’image,car les méthodes précédentes y sont sensibles Dollar et al [13] ont utilisé des points d’intérêtsspatio-temporels extraits des vidéos grâce à un détecteur de points d’intérêts (spécialementélaboré par eux et basé sur la réponse d’une fonction à noyau gaussien) Ils décrivent alors

le mouvement en se basant sur la position 2D de ces points d’intérêts à travers la séquencevidéo Rao et Shah [14] ont modélisé la trajectoire des mains pour pouvoir classifier les actions

La trajectoire des mains pouvant varier selon le point de vue de la caméra, les auteurs ontproposé une approche pour rendre invariante celle-ci par rapport aux points de vue, en utilisant

la courbure spatio-temporelle de la trajectoire Ali et Aggarwal [15] ont proposé l’utilisationdes angles d’inclinaison du torse et les parties inférieures et supérieures des jambes pour décrireles actions Yang Song et al [16] ont proposé d’extraire des points d’intérêts dans l’image et

de les suivre afin d’estimer la pose et le mouvement Dans l’ensemble des points extraits, ils sebasent sur la position et la vélocité de ces points pour choisir ceux qui, ensemble, représententune forme humaine Ces points peuvent représenter des membres du corps dont le mouvementpermettra d’identifier l’action effectuée en comparaison avec les actions apprises dans une based’apprentissage

1.3.3 Approches sur les silhouettes

Une troisième catégorie d’approches se base sur la description du mouvement à partir del’analyse des silhouettes de la personne dans différentes séquences d’images Gorelick et al [3]ont, à partir du volume spatio-temporel des silhouettes, caractérisé les actions dans la vidéo.C’est en utilisant les propriétés des solutions de l’équation de Poisson qu’ils ont extrait lescaractéristiques spatio-temporelles telles que la saillance spatio-temporelle locale, la structure

et l’orientation de la forme La méthode permet d’avoir une robustesse aux occultations, auxchangements d’échelle et aux points de vue de la caméra Guo et al [17] ont proposé lareprésentation des actions dans les vidéos avec la matrice de covariance empirique de vecteursgéométriques normalisés à 13 dimensions qui caractérisent la forme de la silhouette extraite

La similarité entre actions est évaluée avec la distance de Riemannian entre les matrices decovariance

Dans la suite de nos travaux, nous allons utiliser cette dernière approche puisque dans lecontexte de la vidéo surveillance, la qualité des images ne peut être assurée ce qui n’encouragepas à utiliser les méthodes de la première catégorie citée L’extraction de points d’intérêtsrequiert également une bonne résolution pour être précise, ce qui nous amène à écarter égale-

Trang 19

ment cette approche Il ne nous reste plus que l’approche basée sur la silhouette et l’analyse

de sa forme Ainsi, nous détaillerons dans la section qui suit, quelques types de descripteurs

présen-1.4.1 Les descripteurs globaux

Les descripteurs globaux sont utilisés pour quantifier l’information contenue dans l’imagedans sa globalité Parmi ces descripteurs, on peut citer les moments mathématiques Ainsi, de-puis l’introduction par Hu dans les années 1962 [18] de la méthode des moments en traitementd’images, différents types de moments ont été implémentés et testés dans de nombreux travaux

de la littérature Nous pouvons citer : les moments de Tchebychev, de Racah, de Legendre, deZernike, de Krawtchouk, etc

Les moments de Zernike ont été introduits pour la première fois en analyses d’images parTeague en 1980 [19] Il s’agit d’un descripteur robuste, qui repose sur les polynômes de Zer-nike Il a été abondamment utilisé dans la littérature pour diverses applications telles que lareconnaissance des empreintes digitales, l’analyse de mouvement, etc C’est ainsi que Imen Las-soued et al [20] ont utilisé une extension des moments classiques de Zernike pour caractériser

et classifier des actions dans une vidéo L’extension proposée consiste à intégrer le paramètretemps dans le calcul du moment puisque la vidéo est une succession d’images contenant desobjets non rigides en mouvement Cette extension au dire des auteurs présente un meilleurtaux de reconnaissance Anh-Phuong Ta et al [21] ont fait de la détection d’objets 3D enutilisant les moments de Zernike calculés sur des vues multiples 2D des objets Les moments

de Krawtchouk quant à eux ont été introduits pour la première fois en analyse d’images parP-T Yap et al [22] Les moments de Krawtchouk sont des moments orthogonaux se basant surles polynômes discrets classiques de Krawtchouk [23] Sheeba Rani et D Devaraj [24] ont fait

de la reconnaissance et de la classification de visages en utilisant les moments orthogonaux

de Krawtchouk Shuping Liu et al [25] dans leur recherche sur la classification de gestes de

la main, ont également basé leur système sur les moments de Krawtchouk Il ressort de leurétude que les moments de petit ordre sont plus robustes que les moments d’ordre élevé qui euxfavorisent plus la reconstruction totale de l’image Bing Hu et Simon Liao [26] ont égalementutilisé les moments de Krawtchouk dans l’objectif de pouvoir reconnaître les caractères chinois

Trang 20

qui se ressemblent fortement dans la forme Ils sont parvenus à montrer que les moments deKrawtchouk arrivaient plus à distinguer les différents caractères que d’autres moments Pour

la description de la forme d’objets 3D, Dariusz Frejlichowski [27] utilise la transformée deFourier-Polaire Claude Cariou [28] a dans ses travaux, proposé une approche basée sur lestransformées de Fourier-Mellin pour la reconnaissance de formes dans les documents tech-niques Kim et al [29] ont utilisé les moments invariants de Hu pour la reconnaissance dediagramme logique Il existe énormément d’autres travaux sur la description de formes, unebrève revue de ces techniques est proposée par Zhang [30]

1.4.2 Les descripteurs locaux

Les descripteurs locaux devraient permettre d’éviter les prétraitements nécessaires sur lesimages pour les descripteurs globaux Ces prétraitements peuvent être réalisés pour pallieraux éventuelles erreurs de segmentation de l’image

Serge Belongie et al [2] ont introduit le contexte de forme, qui est un descripteur localdont la méthode consiste à décrire une forme à partir de la description du voisinage de sespoints de contours Ainsi, pour une forme donnée, il faut un ensemble de points de son contour(intérieur comme extérieur) La description consiste à calculer la distribution en log polaire despoints dans un voisinage donné à l’aide d’un diagramme log-polaire Dans sa version originale,proposée dans [2], la correspondance entre formes est alors effectuée par calcul des erreurs(calcul de la distance khi-2 entre les histogrammes des points) de correspondance entre lespoints des formes Ankur Agarwal et Triggs [31] ont utilisé ce descripteur pour l’estimation

de la pose humaine 3D à partir d’images de silhouettes de la personne Ils ont proposé unsystème utilisant la technique de mots visuels obtenus à partir d’un algorithme de K-Means

La classification d’une pose dans la base d’apprentissage est faite à partir d’un vecteur depertinence machine (RVM) Thi Oanh Nguyen et al [32] ont proposé une méthode alternativepour la recherche de symboles graphiques Cette méthode est une adaptation du descripteur

de contexte de forme aux points d’intérêts des symboles Cette méthode permet d’éviter lecalcul du contexte de forme pour tous les points de contour du symbole en ne le calculantque pour les points d’intérêts issus du descripteur SIFT [33] La technique de mots visuels aégalement été utilisée pour l’indexation des symboles Laptev et Lindeberg [34] ont proposéune extension du descripteur SIFT pour la reconnaissance d’action La méthode proposée parces derniers consiste à extraire des caractéristiques invariantes à l’échelle, à partir des coinstridimensionnels du volume spatio-temporel Elle a permis de reconnaître la marche dans desvidéos avec un arrière-plan dynamique et des occultations

Trang 21

mouve-Les recherches en vision par ordinateur tentent de trouver des approches pour la tion des mouvements Nous avons donc présenté les différentes approches permettant d’estimer

descrip-la pose humaine et de reconnaître des actions dans une vidéo L’une des approches est baséesur l’utilisation des descripteurs de formes et les silhouettes humaines Cette catégorie présentedes méthodes tirant avantage de l’extraction rapide de la silhouette C’est dans cette catégoried’approche que se situent nos travaux

Trang 22

à partir d’une image de personne Les méthodes proposées entrent dans la catégorie de celles

se basant sur la silhouette et l’analyse de forme à travers différents descripteurs de formes.Suite à l’étude bibliographique, nous avons choisi les descripteurs offrant à la fois un meilleurtaux de reconnaissance, une bonne robustesse aux bruits et qui sont également rapides àcalculer Nous avons opté pour une démarche par apprentissage, qui se décompose en deuxphases à savoir : l’apprentissage et la classification Nous allons fonder notre apprentissagesur des données simulées très peu cỏteuses et rapides à obtenir comparées à la mise en placed’une analyse de capture de mouvement La disponibilité d’outils libres et de grandes bases

de fichiers de mouvement en libre accès nous ont confortés dans ce choix

2.2 Modélisation humaine 3D et extraction de données

Le modèle humain 3D permet d’avoir à la fois la corpulence voulue pour le modèle etles informations 3D des points d’articulation Dans notre démarche, nous modélisons dans

un premier temps le personnage voulu, puis dans un second temps, nous animons le modèleavec différents mouvements Ainsi, pour constituer notre base d’apprentissage, il nous suffirad’extraire les informations spatio-temporelles des points d’articulation du personnage ainsique sa silhouette

2.2.1 Modélisation humaine 3D

Nous avons utilisé le logiciel "MakeHuman"1pour accomplir cette tâche MakeHuman est

un logiciel libre sous la licence AGPL3, conçu pour permettre aux artistes de facilement mettre

1 http://www.makehuman.org/

Trang 23

en place des modèles humains les plus réalistes possible La mise en place d’un modèle de base

ne prend que quelques minutes et ne nécessite pas une grande connaissance en modélisation3D À travers les paramètres proposés, il est facile d’avoir des modèles variés en terme demorphologie, d’habillage (figure2.1page 13) et également en terme de possibilité d’exportationdes modèles Ainsi, il est possible d’exporter les modèles dans les formats tels que : Collada(dae), mhx, fbx, Ogre3D, MD5, etc Cette possibilité offre l’avantage de pouvoir utiliser lemême modèle dans plusieurs logiciels d’animation sans avoir à tout refaire

Figure 2.1 – Exemples de modèles humains 3D obtenus avec MakeHuman

Les informations importantes pour nos travaux sont à la fois la corpulence du personnage etles différentes articulations MakeHuman offre plusieurs types de modélisation des squelettesqui diffèrent dans le nombre d’articulations pris en compte Nous avons choisi d’utiliser le type

"second life bones" (voir figure2.2page 13) qui modélise 19 articulations à savoir : la tête, lecou, la poitrine, l’abdomen, la hanche, la cuisse (gauche et droite), le tibia (gauche et droit), lepied (gauche et droit), la clavicule (gauche et droite), l’épaule (gauche et droite), l’avant-bras(gauche et droite) et la main (gauche et droite)

Figure 2.2 – Modèle du squelette de type second life bones

Trang 24

Une fois le modèle mis en place, il reste à l’exporter dans le logiciel choisi pour mation Dans le cadre de nos travaux, nous avons choisi le logiciel d’animation Blender2 quiest également un logiciel libre sous licence GPL Il est développé et maintenu par une grandecommunauté regroupant des personnes vivant un peu partout dans le monde entier Blenderoffre la possibilité de modéliser des objets et des personnages 3D et de les animer Il offreégalement la possibilité d’importer des modèles provenant d’autres logiciels de modélisationcomme "MakeHuman" (voir figure 2.3 à la page 14) L’animation des modèles peut êtreentièrement créée à travers les fonctionnalités qu’il offre Cette opération s’avère longue et né-cessite une parfaite maîtrise du logiciel Mais à côté, Blender permet l’importation de fichiersd’animation tels que les fichiers BVH (BioVision Hierarchy)3 qui contiennent des données demotion capture Nous avons pu profiter de la base de cgspeed4 qui offre de nombreux fichiersbvh décrivant différents mouvements.

l’ani-Figure 2.3 – Modèle humain importé dans blender à partir de MakeHuman

2.2.2 Extraction des données simulées

Les modèles précédemment animés dans Blender, serviront à constituer notre base prentissage et de test En effet, selon notre méthode, nous aurons besoin des images de lasilhouette du personnage ainsi que des informations spatiales sur les articulations lors du dé-roulement d’un mouvement Blender offre la possibilité d’être interfacé à travers des scripts

d’ap-"python" pour la réalisation de différentes tâches Nous avons donc développé des scripts quipermettent d’extraire les images de la silhouette du personnage à chaque frame ainsi que les

2 https://www.blender.org/ consulté le 26/03/2015

3 https://fr.wikipedia.org/wiki/Biovision_Hierarchy consulté le 07/07/2015

4 www.cgspeed.com consulté le 31/03/2015

Trang 25

informations spatiales de chaque point d’articulation dans une structure bien définie (voirfigure 2.4à la page 15).

Figure 2.4 – Exemples de silhouettes extraites lors d’une marche

Les informations spatiales extraites concernent également les caméras utilisées pour turer les silhouettes En effet, pour chaque point d’articulation ainsi que pour la ou les camérasvirtuelles, Blender fournit sous forme d’une matrice (4 x 4) les informations sur la position3D et les informations de rotation de la caméra virtuelle dans l’espace La figure 2.5 à lapage 15 montre une matrice d’un exemple de données extraites La partie en vert concerneles coordonnées 3D du point focal de la caméra et la partie en jaune est la matrice de rotation

cap-de ce point Notre base d’apprentissage est organisée en différentes classes qui corresponcap-dentchacune à un personnage d’une morphologie donnée et exécutant une action donnée La base

de test est également organisée de la même manière À chaque image de silhouette sont ciées 20 matrices (4 x 4) représentant les données des articulations et également de la caméra.Ces données serviront à reprojeter sur une image de silhouette ces différents points à traversles propriétés de la géométrie perspective On peut le remarquer sur l’image de la figure2.5à

asso-la page 15, une silhouette avec les points reprojetés en blanc

Figure 2.5 – À gauche, une matrice 4 x 4, à droite une image avec les points reprojetés

A cet stade, nous pouvons disposer de :

Trang 26

- N images de silhouettes (différentes morphologies, différents mouvements, différentshabillements) ;

- N x 19 points de coordonnées 3D (information du squelette) ;

- N matrice de caméra (pose d’observation)

2.3 Descripteurs de formes et extraction de caractéristiques

Après la constitution de la base d’apprentissage et de test, nous allons aborder danscette section, la description détaillée des descripteurs utilisés pour caractériser les formes desilhouette Nous aborderons trois descripteurs à savoir : les moments de Krawtchouk, lesmoments de Zernik et le descripteur local du contexte de forme (shape context)

2.3.1 Méthode basée sur les moments de Krawtchouk

x

!

px(1 − p)N −x et satisfait à la conditiond’orthogonalité :

NP

k=0w(x; p,N )Kn(x; p,N )Km(x; p,N ) = ρ(n; p,N )δnmavec ρ(n; p,N ) = (−1)n

1−p p

n n!

(−N ) n.L’allure de la courbe des polynômes varie en fonction de la valeur de l’ordre n comme on peut

le voir sur la figure 2.6 à la page 17 Pour éviter les fluctuations numériques dues au calculdes moments, et pour obtenir également une stabilité numérique, les auteurs ont introduit

la notion de polynômes pondérés par la fonction de poids Nous obtenons l’ensemble despolynômes pondérés par la formule :

¯

Kn(x; p,N ) = Kn(x; p,N )

qw(x;p,N ) ρ(n;p,N )

Trang 27

Figure 2.6 – De la gauche vers la droite : courbe du polynôme avec n = 0, 1, 2

2.3.1.2 Moments de Krawtchouk

Les moments de Krawtchouk d’une image sont calculés en utilisant les polynômes vusprécédemment et les valeurs des pixels de l’image La formule générale permettant de calculerces moments est :

Qnm=

N −1P

x=0

M −1P

Le calcul des moments peut nécessiter un long temps de calcul et des ressources processeurs

à cause des fonctions hypergéométriques et de la fonction gamma Pour faciliter le calcul etréduire également le temps d’exécution, des formules récurrentes des polynômes ont été pro-posées ainsi qu’une forme matricielle de calcul du moment

p(n − N ) ¯Kn+1(x; p,N ) = A (N p − 2n + n − x) × ¯Kn(x; p,N ) − Bn(1 − p) ¯Kn−1(x; p,N )avec A =

q

(1−p)(n+1)

p(N −n) , B =

q(1−p) 2 (n+1)n (p) 2 (N −n)(N −n+1), ¯K0(x; p,N ) =pw(x; p,N ),

¯

K1(x; p,N ) =1 −pNx pw(x; p,N ), w(x + 1; p,N ) =N −x

x+1

p 1−pw(x; p,N ) etw(0; p,N ) = (1 − p)N = eN ln(1−p)

La forme matricielle peut s’écrire sous la forme : Q = K2AK1T, avec

Q = {Qji}i,j=N −1i,j=0 , Kv = { ¯Ki(j; pv,N − 1)}i,j=N −1i,j=0 et A = {f (j,i)}i,j=N −1i,j=0

En fonction des applications, il est souvent indispensable de rendre invariants les moments

à l’échelle, à la translation et à la rotation Nous avons adopté une méthode simple, dont onparlera dans les prochaines sections, lors du pré-traitement pour les rendre invariants à l’échelle

et à la translation

Trang 28

2.3.1.3 Extraction des caractéristiques

L’extraction des caractéristiques d’une forme avec les moments de Krawtchouk revient

à constituer un vecteur avec différentes valeurs de moments calculées sur la même forme

La dimension du vecteur ainsi que les valeurs de moments à choisir ne sont pas universelles.Différents auteurs ont proposé différentes techniques afin de trouver les valeurs qui discriminent

au mieux les formes De nombreux travaux essaient de déterminer le bon ordre de moment

en essayant plusieurs valeurs possibles pour finalement prendre la meilleure Quant au choix

de la dimension du vecteur, c’est la même stratégie Par contre, pour le choix des valeurs desmoments, certains à l’image de [22] prennent des valeurs précises dans la matrice des moments.D’autres préfèrent prendre les moments pour lesquels n = m

Dans le cadre de nos travaux, nous calculons tous les moments d’ordre inférieur à (n,m)avec n = m et nous prenons les moments de la diagonale de notre matrice, c’est à dire(Q1,1, Q2,2, , Qn,n) La valeur de n a été déterminée en essayant différents ordres, comme

le montre la courbe de la figure 2.7 à la page 18, sur une base contenant 600 images nonapprises Un taux de reconnaissance stable de 99,17% est obtenu à partir de l’ordre n = 24.Pour extraire les caractéristiques de la partie souhaitée de l’image à l’aide des moments de

Figure 2.7 – Détermination du bon ordre pour le moment de Krawtchouk

Krawtchouk, nous avons, pour notre application, décidé de diviser l’image en deux parties enagissant sur les valeurs des paramètres p1 et p2 Ainsi, nous calculons le vecteur de descripteurpour la partie haute du corps (en fixant p1 = 0,5 et p2 = 0,1) et pour la partie basse (p1 =0,5 et p2 = 0,95) (voir figure 2.8 à la page 19) Ce qui fait pour une silhouette, un vecteurunique de dimension 48 qui la caractérise

Trang 29

Figure 2.8 – À gauche, les moments pour le bas du corps et à droite, les moments pour lehaut du corps

2.3.2 Méthode basée sur les moments de Zernike

n : est un entier positif ou nul ;

m : est un entier positif ou négatif et défini sous la contrainte n ≥ |m| et n − |m| soit paire ;

ρ : est la distance radiale normalisée du pixel (x,y) par rapport au centre de gravité de l’objet ;

θ : est l’angle d’azimut du pixel (x,y) par rapport au centre de gravité de l’objet

Le polynôme radial est défini par :

Les moments 2D de Zernike (calculés sur une image), sont construits en utilisant unensemble de polynômes définis ci-dessus combinés avec les valeurs des pixels de l’image Soit

Anm le moment de Zernike d’ordre n et de répétition m Anm est défini par :

Ngày đăng: 27/10/2016, 15:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm