projection de Pespare 3D des objets au Yeepace 2D de Pimage 11.3 Suivi d’objets Ce module est pour but de relier ler régione du méme objet dans des frames différents pour avoir une traj
Trang 1en méme temps plusicurs prablémes de traitement de vidéos (le changement
de Tillumination, le contrastc faible etc) & différents niveaux de diHiculté Par conséquent, c'est difficile d'extrapoler le résultat d’6valuation sur des
nonveanx aéquences Dans ratte mémoire nons proposons une mérhadalogie
Wévaluation qui aide A rénriliser le résnitat d’évalnation Nous essayans d‘iso-
ler chaque probiéme ct de définir des mesures quantitatives pour caleuler Je niveau de difficulté relativement au probléme donné Le niveau maximum
de diffienlté auqucl la performance d'un algorithme cst ossex bon est défini comme Ja borne supérieure de la capacité de cet algorithme pour révoudre le probleme doané, Pour ilustrer cette méthodulogie, nous prosentony lee me sures qui évaluent la performance d’algorithmes en résoudre Je probleme de cantrasre faible er le probléme des ombres:
Trang 2Table des matiéres
1 Introduction
1.1 Syaréme d'interprération da vidéna
1.1.1 Détection d’objets mobiles
112 Classification d'abjets mobiles
4.3.1 Probléme de manipulation des ombres
Trang 34.3.2 Mesure de niveaux de contraste des ombres
4.3.3 Capacité des algorilhmes en détectant des ombres
Expérimentation
B.A Détection des objets faiblanent contrastés
S.L.L Sélection des séquences de vidéos
2 Manipulation des objets mélangés am ombres
3.2.1 Sélection des vidéos
Trang 4Chapitre 1
Introduction
Aujourd’hui, los systémes de vidéo surveillance devicnnent trés popu- jaires Normalement, ccs systémes sont contralés par des opérateurs humains
pour détecter des événements dangereux ou inattendus comme un combat
an mne hÌacage đ'nn passage Panrtant, la travail de regarder aux plusieurs
&œrans đe pÌuøienre cameras eek três đu ponr les opératenre parce qu’ils doivent concentrer pendant une période trés longue Alors, on essaie de créer
dos systéme d'intorprétation automatique de vidéos qui facilitent le travail des opérateurs humains Le but de cos systéme ost de détecter automatique-
naissance des évinemenrs
1.1.1 Détection d’objets mobiles
Ce module est pour but de détecter des objets comme les personnes, les voltures qui apparoissont dans la scéne de surveillance Son entréc ost 1a flux
de vidéo de la seéne contenant des cbjets mobiles et sa sortie est les régions qui correspundant a ces objets L'objectif de ve module est de déteruiiuer des régions qui ue couvreut que (ous ley pixels appartenant aux objets dans Ia seéne, Alors, le probleme le plus difficile est de détecter des pixels des objets
qui sant ts pen contrastés ef an méme temps #liminer des pixels de bruit
comme les ombres ou les régions ayant le changement de PHlumination
Trang 5FIG 1.1 - Les taches principales d'une systéme @intorprétation de vidéos
1.1.2 Classification dobjets mobiles
Liobjectif de ce module est de assigner les régions détectées par le module
de détection des objets & une categorie pré-définie comme une personne, une voiture ou un groupe de personnes, Oe module doit suufftir la déficience du module de dévection comme le manque d'une partie d'une région correspon dant aun ohjet ou Ja, fansse inchision de hmuit ete De plus, il doit résondre
Je probléme de la perra d'information A canse de la projection de Pespare 3D des objets au Yeepace 2D de Pimage
11.3 Suivi d’objets
Ce module est pour but de relier ler régione du méme objet dans des frames différents pour avoir une trajectoire de mouvement de Fob jet donné Cette tache n'est pas toujours facile parce qu'il y a dey cas v2 les modules précédenis ne peuvent pas détecter des objets mobile dans quelques frames
En ontre, il devient plus difficile dans des scéne complexes of il y a des
aerlnsions comme le mur an phisienrs personnes se eroisent
1.1.4 Reconnaissance des événements
Son ohjectif est de reconnaitre des événements pré-définis par des experts humains Cetre ache est tras difficile parce que la pinpart d°événemenra roel
Trang 6sunt try compliguéy Par exemple, 'événement de vaudalisine d'une machine
de café peut durent longtemps et impliquent plusieurs personnes et objets, De plus, parce que ce inodule est la deruier wodule d’un systéine d'interprétation
de vidéos, il doivent, souffrir de toutes Jes erreurs accumulés pendant: tous ler modules prénédencs
#un tvne partienlidre de seêne Par exemple, nn algorithme peut bien gérer
Je changement Villamination d’une seéne extérianre mais il a des difficniré à
détecter dee objets peu contrastée Alors, l’évaluation de performance pour sélectionner les algorithmes convenablos & une scene particuliére devient trés
important
Normofewent, pour faire valuation, on collecte un ensemble de séquences
de vidéus niayi que Ja vérit6 terrain Wustrant Jes problémes on veut tester
La performance d’un algorithme indique seulement comment bon il traite een ensemble da séqnences Rien quiadspté par heanroup de projets, cette
approche conrient denx limitations principales
Premiéroment, le résultat d’évaluation dépend de Ï'cnsemblc particulier
de séquences de vidéos Autrement dit, il peut chouger uettement avec un nouvel ensemble de séquences d'évaluation La raison est que chaque vidéo séquence contient plusieurs problémes de traitement de vidéos & plusieurs nivean de difficulté et le résultat, final est affaené par tons cas faereurs Aver, 1a nonvelle séquence, on a ane nonvelle camhinaison de problémes Ainsi, la performance d’algorithmes sur cette séquence est imprévisible
Deuxiémemont, um systéme d’interprétation de vidéos est habituclicment congu pour unc condition spéeifique (une seéne cxtéricure/intéricurc, une scone contenant Ie changement rapide/lent đìiluningtion ete) Pourboat, n'y a aneuna mesnre quantitative de calenlar la nivean de diffeulté dune,
séqnence de vidéo relativement A wn prohlame donné Par consaquent, none
ne savons pas jusqu’A quel nivean de difficulté d'un probléme donné, un algorithme peut avoir une performance acceptable
Cotte mémoire propose une méthodologic d’évaluation qui aident 4 réati- liver le révuleat d'évaluation Nous essuyous d'isuler chaque probléme de trai- vement de vidéo et de définir des mesures quantilatives pour calvuler le niveau
de difficults d’une vidéo relativement au probieme đonné Le niveau maxi- mum da difficulté des vidéos anqnel Palsorihme a na perfotmanee assez honne eạr défini comme la horne supérieure de la caparité dalgorithme pant
Trang 7xmaipuler le probleme, Pour iustrer cetre móthodologie, nous présentons kes métriquey qui évaluent le performance Palgorillnnes relativeuenb aux problémes de dévecter des objets faiblement contrastés ev de wanipuler des ammbres
Trang 8face intersection [2] présenre la métrique pour mesnrer la similarité entre deux trajectoire pour évaluer la tache de suivi [3] présente une cadre utili-
sant des vidéos pscudo synthétique pour evaluer la performance de suivi [4] utilise les metriques comme vrai posit! vrai négatif, faux négatit pour évaluer Ja performance des algorithmes de détection des ombres Pour
ua survol plus complet des travaux d'évaluation des performances, voir [5] ninvins, ces travaux ont peu d'influence sur Ja communauté de recherches pare qiVils ne constitnent pas nne plare-forme d’évalnation complet, permer- tant d'évalner des nouveanx algorithmes T’ailleura, leur hase de đonnées a'ost pas assez grand pour avoir dos résultats lables d’évaluation
Pour répondre au besoin d'avoir une base de vidéos annotés disponible
an publiqne, on a eréé plusieurs projers (CAVTAR [7]} et workshaps (PETS [6]) d’évalnation Ces programmes de recherche fonrniesent: les afqnences de
vidéos 4 plusieurs “nivenux de difficulté” ainsi que la vérité terrain assaciée
paree que les gens participant aux workshops tels que PE choisissont les séquonece de vidéos souvent arbitraircment ct évaluent leur al- gorithme en utilisant la métrique définie per eux-mémes, la comperaison de le performance over d'autres ulgurithmes est difficile, D'wutres programunes tels
a
Trang 9que [10), [8], [9] essayent de surmonter ce probline en fournissoat Ja métrique
et Pensemble de données standard pour évaluer Ja performance de différents algorithmes, Cependant ils souffrent toujours de plusieurs problémes :
— Ta nivean de difficnté esr estimé mannellemant par des experts Pour Ja
méme sfqnence, deux experts peuvent assigner denx différents niveatIx
de difficulté
Une séquence de vidéo peut contenir plusieurs problémes a différents uiveaux de difficulté Tous ces probléames contribuent au “niveau de diffculté” des données d’entrée de Valgorithine (par exemple la vidéo ponr Paigarithme de détertion dobjet)
— Par canséqpent, i y a pinsienrs fagons de combiner les prohlémes qui produisent le méme nivean de difficulté En conséquence, Je rang d’un algorithme sur deux séquences au méme nivean de dilliculté peut ére différent parce que cet algorithme cst elficaee rolativemeut 4 un pro- bléine purticulier
— Textrapolation des résultats d’évalnation pont une nonvelle vidéo est
presque impnssible Ta performance d’an algorichme sur ane nonvelie, séquence cst ostimée cn sc basant sur sa performance sur la séquenee
la plus “similairc” dans Ja base de vidéos d’évaluation Le choix de 1a séquence “la plus similairc” ct Ja prévision de Fcxécution basée sur Jo
“imilarité” de deux séqueuces sont souvent subjectify et imprécis
Le processus d’Gvaluation ae permet pas d’ubtenir dey connaissances techniques de chaque algorithme de traitement de vidéos En particu- lier, le procesens đ`#valnation ne đếtermine pas les travanx nfcessairer
a faire ponr améliorer Palgorithme (quelle amélioration ear la plas eru- ciale) pour avoir unc performance satistaisante sur unc condition don- ade de Ï'euvironneinenk
Trang 10
La méthodologie d'EWISEO cst comme suivante
Essayer de traiter chaque probleme de traitement de vidéos séparément
en définissant le prubléme correclement, Par exemple, nous devuns tei ter au moiny Lrois types des ombres s¢parément : (1) des umbres a di férents niveanx d’intensités (les ombres krên contrasée on pen eonkrae- tée) avec le fond uniforme ct non-coloré (2) des ombres au méme niveau d'intensité mais avec des dilférents types des fond en termes de couloir
et de texture (3} des ombres avec des différentes sources d'illumination
en Lernes de position de sources et de Jongueur d'ondes,
ĩ
Trang 11Pour chaque probléme, collecter des séquences de vidéus Mlustrant seule ment le probléwe coursal Ges séquenves doivent illustrer le probléwe
4 différents niveaux de difficultés Par exemple, pour le problémes des
ombres ef nivean d’intensiré, nons devane sélectianner des séquences
contenant des ombhres a différents nivean® d’intensité (plne on moins
controstés)
Filtrer et extraire des parties envenubley de la vérité terrain de sé- quences sGlectionnées pour ivoler des problémes de traitement de vi- déus Par exemple, pour la tache de détection des ubjets, nous pouvons fvahter Ja, performance des algorithmer relativement an problame de
dérerter des objets arcine en considérant senlement la vérité terrain
contenant des objets occlue
- Pour la tache donnée (detection d'objets, suivi, classification d’objets
ct reconnaissance d’événcments), délinir un nombre sullisamment des métriques pour mesuzer el curactériser Ja performance dex ulgorilhines
en des aspecte différents
= Calenler les données de référence qui correspondent A la sortie prévn
de Vaigorithme à évaluer rolativement A unc tiche donnée de traite- ment de vidéos Les données de référence sont caleulées & partir de ]a vérité terrain fournic par les opérateurs humains et peuvent étre amé- livrées pour correspondre mieux aux résultats prévus Par exemple, au lieu Wévaluer les positions d’ubjets mobiles de Ja vérité verrain (2D- points), nous pouvons employer des données de la référence 3D)-point
pour mesurer la position de Pabjer 3D
— Utilizer un anti d’évalnation antomatique et wniqne ponr analyser
cxactement comment un algorithme donné résoudre un probléme donné
- L'annotation générale sur les séquenees de vidéo concernant des pro- blémes de traitement de vidéus(par exemple ombres faibles) ou concer- nant lee étuty d’enregistrement (par exemple conditions atinosphériques telles que Je jour ensoleillé)
— Ta ealihration de la caméra ex Vinformations contextuelles snr Ia ecane
vide décrivant, la tapologie de Ìa scene (par exemple anne dintérét)
Trang 12Tan 3.1 — RTEVSI-RR-18-C1 : Pévalnation @'RTISEO snr Ja tache de dé tection dobjets
Participant | 8 1 11 | 1ả | a 12 Đrếcsion | 0.69 | 0.79 | 0.49 | 1.39 | 0.30 0.98 Sensitivité | 0.71 | 0.42 | 0.48 | 1.42] 040 0.16
F-Score 7 | 0.55 | O48 | 0.41 | 0.34 0.27
‘Tap 3.2 - EII-VBI-BE-18-CH : l'évaluation de la tache de suivi
Participant | 11 1 413 8 12 Suivi 0.47 | 0.45 | 042 0.4 1.19
Dans E'TISKO, toutes sequences de vidéos (environ 40 séquences) sont choisies et classifiées selon les problemes qu'lls illustrent Ces séquences ont GUé traitées par 23 Gquipes iuternationales participant au programme d’évae luation
ETISRO également, a fait face A denx limitations principales Paisque Ter participants font Vexpérionce cux-mémes, ils ont souvent différentes hypo- théses Par exemple, plusicurs participants ne détectent pas les objets qui ne
se déplacent pas pendant une certaine période Par conséquent, pour quelques séquences, Jes résultats d'algorithine ae peuvent pay étre comparés ley uns
avec Jes autres Les rahles 3.1 at 3.2 montrent qne les résuitats d’évalnation
des taches de la détection et du snivi d’objet sur la eéquence ETL VS1-BE-18-
Cá Dans le point de vue d’E'TISKQ, nous pouvons observer qu'il n’y a aucune concordance entre ces deux tache, un algorithme ayant la bonne performance sur la, détection Pobjet peut exécuter mal dans Ja tache de suivi d’objets Cependant, ves résultats sont tout a fait différente de ceux de Vévaluation proposée déurite dany le chapitre 5
LUne antre limitation est qn’ ETISRO ne définit, pas des méthades qnanti- tatives panr mesnrer le nivaan de difficalté des vidéos flnstrant un prohléme
de traitement de vidéos donné Par exemple, RTISRO emploie les termer
Trang 13“normale” vu “sombre pour décrize ley niveaux d’intensitd des sequences de vidéos Par conséquent, le choix des véquences de vidéus dans ETISEO selon leurs niveaux de difficulté est subjectif eu assez imprécis Eo outre, ve juge-
menr subjectif fait également arbitraire Ja comparaison entre les nanveaie séqnences aver les efquences dja restées
‘Lravaillant dans le projet E'T'ISEQ, j'ai trois contributions principales D'abord, j'ai essayé de trouver des Huritations d'ETISEO et modifié Ioutil
#évaluakion pour enrmanrer ces limirations Puis, j'ai vérifié la pertinence
de chaque métriqne d’évaination Par exemple, j'ai proposé d’éliminer la mé-
triqne qui compare le nombre des objets mobiles dans les données de référence
et cela détecté par des algorithmes sans utilisant los rectangles de bords d'ob- jets Oa, j'9i proposé unc solution pour modilier ies métriquos qui caracté- rivent le phénoméne de fusion et division dey objets Finalement, j'ai propusé uue nouvelle méthode d'évaluatiun qui est présentée dans ce aéunoire
10
Trang 14tés pour la tache de détection d’objets
~ Définir la métrique pour évalucr Ja performance d’algorithmes
— Choisir Jes séquences de vidéos illustrant Ie probleme ct les données de référence associ¢es pour faire Pévaluation
Bvaluer la performace d'algorithme gur ces séqueuces en utilisant Ie
mnétrique définie
— Ponr chaqne algorithme, déterminer le nivean le plns 6lev£ đa đi nhé
á Palgorirhme pent avair mne performance acceptable, Cetre valenr cac đếtinie comme la capaciié đ'algorithmne pour résoudre le probléme
courant
Avec cette nouvelle approche, nous we pouvouy pas eucore prévoir Ja per formoace d’un algorithine pour une nouvelle séquence Nous pouvons seule- ment estimer la harna snpérienre de Ja performance d’algorithme relativernent,
Aun problame spécifiqne de traitement de vidéns La raison est que Ja per-
formance d’algorithme sur une nouvelle séquence dépend également d'autres problémes comme la petite taille d’objet, le changement dillumination cte Ainsi ob cetif prineipal de cette méthadologic ost de déclarcr que la perfor mance pourrait étre insuffisante au cas off le niveau de difficulté relativement Aun prohlame particnlier est plus grand que la capanité đ'algarithme Fin
autres termes, pour nn algorithme donné, nons ne pouvans pas dérermi-
11
Trang 15ner 34 condition suffisunte de suce’s mais acus pouvuns estimer la condition aévessaire
Pour réaliser ceute approche, nous avons besoin de six Glémeats : te sésultat
de la performance de Palgorithma de plnsienrs participants, le probleme de
traitement, de vidéos, la métrique d’évalnation de performance, la mesure de
difficulté des donnécs đ'entréc, los donnécs de référence ct los séquences de vi- dévs choisies Mustrant Je probleine Concernant les algorithines de (raitement
de vidéos & évaluer, i est important de définir Jee pazainétres exigeont d'un stage d'apprentissage pendant la configuration de traiter les vidéus chuisis
Tans cet article, nous considérons qne les réalieatenrs @algorithme pouvaient, adaprer leurs algorithmes et fournir les résnitats qui sont assez satisfaisants
et asses représentant ar conséquent, pour appliquer cette méthodologie, doux éléments principaux rostés : la métrique d’évaluation de performance
ct la mosure dos données d’entréc Dans Ja section suivante, pour illustrer la inéthodologie d'évaluation, nous décrivons Vimplémentation de autre inétho- dolagie pour denx problames de trairement de vidéos : la détecrion des chịnha faiblement, contrasts et Ja manipnlarion der objets mélange anx ombres,
Cette section étudic la sonsibilité des algorithmes de traitement de vidéos sur la détection des objets faiblement contrastés Duns ce but, neus déerivons abord le probleme de détecter ley objets faiblement comuzastés, Puis nous définissons une mesure de caleuler le niveau de contraste d’un pixel, puis une bande (Funité de hase panr calenler Vansemble de niveams de contraare pout Vobjer entier) Ensuite nous dérrivons le procédé pour calculer Pensemble de niveaux de contraste d’objet dans unc image En conclusion, nous présentons
ja méthode pour calculer la capacité d’algorithme pour manipuler les objets faiblemont contrastés
4.2.1 Description de probléme
Habituellement, la performance des algorithines de trailement de vidéos est proportionnelle au niveau de contaste entre les objets mobiles & détecter
ex Fimage du fond Si le contraste de Pobjet ast pins faible, 1a performanon,
des algorirhmes est pls manvaise Par conséqnent nane vondrions dérerminer
le niveau de contraste of un algorithme donné peut obtenir une performance
acceptable
Trang 164.2.2 Mesure d'un niveau de contraste d’un pixel
Donné toutes les deux Pimage courante qui conticnt les abjets mobiles &
détecter et Pimage du fond de la scéne, le eontraste d’un pixel d’objet cst
calculé en utilisant Ia formule suivante :
[Fey = Rel — [Ws = Vo + Pa — Bel
(As, Yo, 8} est la valour de couleur du pixel correspondant du find
4.2.3 Mesure d’un niveau de contraste d’une bande
La région d’image eorrespondant A un objet mobile s’appelle Ie blob
Un blob peut comporter beaucoup de régions & beaucoup de niveaux de contraste Pour loceliser les nivesux de contraste d'un blob, nous divisons horizunlalement le blob en pelites bandes avee l'espoir que le conLraste de» pixels a 'intérieur d'une bande est assez howogéne et peut dere représenté par une valenr unique Cependanr, carte hypothése n’esr pas ronjotire onrrerte Por cxomplo, parce que Fannotation prends beaucoup de temps, la vérité terrain conticnt souvent seulement un rectangle de bord pour chaque blob A Yineérieur de ce rectangle, il y a beaucoup de pixels upparienant au fund, mais pas wu blob Par censéquent, la valeur muyenne dey niveaux de contraste des pixels 4 Pintérieur d’une bande n’est pas evaluation currecte pour le niveau
de contraste de bande Ponr résondre ce prahlame, nons appliquone le procédé suivant pour calculer te contrasre d'une hande
— Diviser verticalement la bande en sous-régions
— Pour chague sous-région, calculor la valeur moyenne des niveaux de controste de tous les pixels dans cette sous-région
Le niveau de contraste d’une bande est le niveau de contraste maximum
đe tonres lee sona-r6gians đe cerka hande
1ã
Trang 17Fic 4.2 - Le niveau de contraste maximum de toutes les sous-régions aide
A détecter la bande entiére
Par exemple, dans la bande dans la figure 4.1, l'ensemble de niveaux
de contraste de toutes les sousrégions est {3,2.5,1} Alors, Ie nivean de
contraste de cette bande est 5
Le premier avantage de ce procédé est de définir le niveau de contraste pour la bande entiére comme niveau maximum de contraste de toutes les
sous-régions Nous illustrons cet avantage en utilisant la figure 4.2 Dans
cette figure, il y a deux blobs Le blob a gauche se compose d'une sous-
région faiblement contrastée (nivean de contraste 1) et d’une autre sous
région fortement contrastée (niveau de contraste 3) De méme, le blab a droit
a également ces deux sous-régions principales, D’ailleurs ce blob contient aussi
une autre sous-région plus fortement eontrastée (niveau de contraste 4) Nous supposons qu'un algorithme donné ne peut pas détecter la sous-région avec le
niveau 1 de contraste, Par conséquent, pour le blob & gauche, cet algorithme
peut détecter seulement la région avee le niveau 3 de contraste Cependant,
pour le blob a droit, grace a la petite région & un niveau de contraste
(4) le rectangle détecté par cet algorithme contient non seulement, les régions
fortement contrastées (niveau 3, 4) mais également une part de la région avec
un niveau de contraste trés bas (niveau 1) Par conséquent, pour une bande,
la sous-région an niveau du contraste le plus élevé peut aider Valgorithme
pour détecter la bande entiére De plus, cette méthode nous aide également
A réduire Feffet des parties de la bande qui correspondent au fond parce
que leurs niveaux de contraste sont trés petit en comparaison avec ceux qui
correspondent & objet Pour ces raisons nous assignons le niveau maximum
de contraste des sous-régions au niveau de contraste de la bande entiére,
Le deuxiéme avantage est la taille des sous-régions dans la bande Si nous
prenons le niveau maximum de contraste de tons les pixels A lintérieur de
la bande (e-à-d la plus petite taille pour une sous-tégion), cette valeur pent correspondre an bruit Par conséquent, nous avons choisi une taille de région