Luận văn une nouvelle approche d'évaluation pour les algorithmes d'interprétation automatique de vidéos

projection de Pespare 3D des objets au Yeepace 2D de Pimage 11.3 Suivi d’objets Ce module est pour but de relier ler régione du méme objet dans des frames différents pour avoir une traj

Trang 1

en méme temps plusicurs prablémes de traitement de vidéos (le changement

de Tillumination, le contrastc faible etc) & différents niveaux de diHiculté Par conséquent, c'est difficile d'extrapoler le résultat d’6valuation sur des

nonveanx aéquences Dans ratte mémoire nons proposons une mérhadalogie

Wévaluation qui aide A rénriliser le résnitat d’évalnation Nous essayans d‘iso-

ler chaque probiéme ct de définir des mesures quantitatives pour caleuler Je niveau de difficulté relativement au probléme donné Le niveau maximum

de diffienlté auqucl la performance d'un algorithme cst ossex bon est défini comme Ja borne supérieure de la capacité de cet algorithme pour révoudre le probleme doané, Pour ilustrer cette méthodulogie, nous prosentony lee me sures qui évaluent la performance d’algorithmes en résoudre Je probleme de cantrasre faible er le probléme des ombres:

Trang 2

Table des matiéres

1 Introduction

1.1 Syaréme d'interprération da vidéna

1.1.1 Détection d’objets mobiles

112 Classification d'abjets mobiles

4.3.1 Probléme de manipulation des ombres

Trang 3

4.3.2 Mesure de niveaux de contraste des ombres

4.3.3 Capacité des algorilhmes en détectant des ombres

Expérimentation

B.A Détection des objets faiblanent contrastés

S.L.L Sélection des séquences de vidéos

2 Manipulation des objets mélangés am ombres

3.2.1 Sélection des vidéos

Trang 4

Chapitre 1

Introduction

Aujourd’hui, los systémes de vidéo surveillance devicnnent trés popu- jaires Normalement, ccs systémes sont contralés par des opérateurs humains

pour détecter des événements dangereux ou inattendus comme un combat

an mne hÌacage đ'nn passage Panrtant, la travail de regarder aux plusieurs

&œrans đe pÌuøienre cameras eek três đu ponr les opératenre parce qu’ils doivent concentrer pendant une période trés longue Alors, on essaie de créer

dos systéme d'intorprétation automatique de vidéos qui facilitent le travail des opérateurs humains Le but de cos systéme ost de détecter automatique-

naissance des évinemenrs

1.1.1 Détection d’objets mobiles

Ce module est pour but de détecter des objets comme les personnes, les voltures qui apparoissont dans la scéne de surveillance Son entréc ost 1a flux

de vidéo de la seéne contenant des cbjets mobiles et sa sortie est les régions qui correspundant a ces objets L'objectif de ve module est de déteruiiuer des régions qui ue couvreut que (ous ley pixels appartenant aux objets dans Ia seéne, Alors, le probleme le plus difficile est de détecter des pixels des objets

qui sant ts pen contrastés ef an méme temps #liminer des pixels de bruit

comme les ombres ou les régions ayant le changement de PHlumination

Trang 5

FIG 1.1 - Les taches principales d'une systéme @intorprétation de vidéos

1.1.2 Classification dobjets mobiles

Liobjectif de ce module est de assigner les régions détectées par le module

de détection des objets & une categorie pré-définie comme une personne, une voiture ou un groupe de personnes, Oe module doit suufftir la déficience du module de dévection comme le manque d'une partie d'une région correspon dant aun ohjet ou Ja, fansse inchision de hmuit ete De plus, il doit résondre

Je probléme de la perra d'information A canse de la projection de Pespare 3D des objets au Yeepace 2D de Pimage

11.3 Suivi d’objets

Ce module est pour but de relier ler régione du méme objet dans des frames différents pour avoir une trajectoire de mouvement de Fob jet donné Cette tache n'est pas toujours facile parce qu'il y a dey cas v2 les modules précédenis ne peuvent pas détecter des objets mobile dans quelques frames

En ontre, il devient plus difficile dans des scéne complexes of il y a des

aerlnsions comme le mur an phisienrs personnes se eroisent

1.1.4 Reconnaissance des événements

Son ohjectif est de reconnaitre des événements pré-définis par des experts humains Cetre ache est tras difficile parce que la pinpart d°événemenra roel

Trang 6

sunt try compliguéy Par exemple, 'événement de vaudalisine d'une machine

de café peut durent longtemps et impliquent plusieurs personnes et objets, De plus, parce que ce inodule est la deruier wodule d’un systéine d'interprétation

de vidéos, il doivent, souffrir de toutes Jes erreurs accumulés pendant: tous ler modules prénédencs

#un tvne partienlidre de seêne Par exemple, nn algorithme peut bien gérer

Je changement Villamination d’une seéne extérianre mais il a des difficniré à

détecter dee objets peu contrastée Alors, l’évaluation de performance pour sélectionner les algorithmes convenablos & une scene particuliére devient trés

important

Normofewent, pour faire valuation, on collecte un ensemble de séquences

de vidéus niayi que Ja vérit6 terrain Wustrant Jes problémes on veut tester

La performance d’un algorithme indique seulement comment bon il traite een ensemble da séqnences Rien quiadspté par heanroup de projets, cette

approche conrient denx limitations principales

Premiéroment, le résultat d’évaluation dépend de Ï'cnsemblc particulier

de séquences de vidéos Autrement dit, il peut chouger uettement avec un nouvel ensemble de séquences d'évaluation La raison est que chaque vidéo séquence contient plusieurs problémes de traitement de vidéos & plusieurs nivean de difficulté et le résultat, final est affaené par tons cas faereurs Aver, 1a nonvelle séquence, on a ane nonvelle camhinaison de problémes Ainsi, la performance d’algorithmes sur cette séquence est imprévisible

Deuxiémemont, um systéme d’interprétation de vidéos est habituclicment congu pour unc condition spéeifique (une seéne cxtéricure/intéricurc, une scone contenant Ie changement rapide/lent đìiluningtion ete) Pourboat, n'y a aneuna mesnre quantitative de calenlar la nivean de diffeulté dune,

séqnence de vidéo relativement A wn prohlame donné Par consaquent, none

ne savons pas jusqu’A quel nivean de difficulté d'un probléme donné, un algorithme peut avoir une performance acceptable

Cotte mémoire propose une méthodologic d’évaluation qui aident 4 réati- liver le révuleat d'évaluation Nous essuyous d'isuler chaque probléme de trai- vement de vidéo et de définir des mesures quantilatives pour calvuler le niveau

de difficults d’une vidéo relativement au probieme đonné Le niveau maximum da difficulté des vidéos anqnel Palsorihme a na perfotmanee assez honne eạr défini comme la horne supérieure de la caparité dalgorithme pant

Trang 7

xmaipuler le probleme, Pour iustrer cetre móthodologie, nous présentons kes métriquey qui évaluent le performance Palgorillnnes relativeuenb aux problémes de dévecter des objets faiblement contrastés ev de wanipuler des ammbres

Trang 8

face intersection [2] présenre la métrique pour mesnrer la similarité entre deux trajectoire pour évaluer la tache de suivi [3] présente une cadre utili-

sant des vidéos pscudo synthétique pour evaluer la performance de suivi [4] utilise les metriques comme vrai posit! vrai négatif, faux négatit pour évaluer Ja performance des algorithmes de détection des ombres Pour

ua survol plus complet des travaux d'évaluation des performances, voir [5] ninvins, ces travaux ont peu d'influence sur Ja communauté de recherches pare qiVils ne constitnent pas nne plare-forme d’évalnation complet, permer- tant d'évalner des nouveanx algorithmes T’ailleura, leur hase de đonnées a'ost pas assez grand pour avoir dos résultats lables d’évaluation

Pour répondre au besoin d'avoir une base de vidéos annotés disponible

an publiqne, on a eréé plusieurs projers (CAVTAR [7]} et workshaps (PETS [6]) d’évalnation Ces programmes de recherche fonrniesent: les afqnences de

vidéos 4 plusieurs “nivenux de difficulté” ainsi que la vérité terrain assaciée

paree que les gens participant aux workshops tels que PE choisissont les séquonece de vidéos souvent arbitraircment ct évaluent leur algorithme en utilisant la métrique définie per eux-mémes, la comperaison de le performance over d'autres ulgurithmes est difficile, D'wutres programunes tels

a

Trang 9

que [10), [8], [9] essayent de surmonter ce probline en fournissoat Ja métrique

et Pensemble de données standard pour évaluer Ja performance de différents algorithmes, Cependant ils souffrent toujours de plusieurs problémes :

— Ta nivean de difficnté esr estimé mannellemant par des experts Pour Ja

méme sfqnence, deux experts peuvent assigner denx différents niveatIx

de difficulté

Une séquence de vidéo peut contenir plusieurs problémes a différents uiveaux de difficulté Tous ces probléames contribuent au “niveau de diffculté” des données d’entrée de Valgorithine (par exemple la vidéo ponr Paigarithme de détertion dobjet)

— Par canséqpent, i y a pinsienrs fagons de combiner les prohlémes qui produisent le méme nivean de difficulté En conséquence, Je rang d’un algorithme sur deux séquences au méme nivean de dilliculté peut ére différent parce que cet algorithme cst elficaee rolativemeut 4 un pro- bléine purticulier

— Textrapolation des résultats d’évalnation pont une nonvelle vidéo est

presque impnssible Ta performance d’an algorichme sur ane nonvelie, séquence cst ostimée cn sc basant sur sa performance sur la séquenee

la plus “similairc” dans Ja base de vidéos d’évaluation Le choix de 1a séquence “la plus similairc” ct Ja prévision de Fcxécution basée sur Jo

“imilarité” de deux séqueuces sont souvent subjectify et imprécis

Le processus d’Gvaluation ae permet pas d’ubtenir dey connaissances techniques de chaque algorithme de traitement de vidéos En particulier, le procesens đ`#valnation ne đếtermine pas les travanx nfcessairer

a faire ponr améliorer Palgorithme (quelle amélioration ear la plas eru- ciale) pour avoir unc performance satistaisante sur unc condition don- ade de Ï'euvironneinenk

Trang 10

La méthodologie d'EWISEO cst comme suivante

Essayer de traiter chaque probleme de traitement de vidéos séparément

en définissant le prubléme correclement, Par exemple, nous devuns tei ter au moiny Lrois types des ombres s¢parément : (1) des umbres a di férents niveanx d’intensités (les ombres krên contrasée on pen eonkrae- tée) avec le fond uniforme ct non-coloré (2) des ombres au méme niveau d'intensité mais avec des dilférents types des fond en termes de couloir

et de texture (3} des ombres avec des différentes sources d'illumination

en Lernes de position de sources et de Jongueur d'ondes,

ĩ

Trang 11

Pour chaque probléme, collecter des séquences de vidéus Mlustrant seule ment le probléwe coursal Ges séquenves doivent illustrer le probléwe

4 différents niveaux de difficultés Par exemple, pour le problémes des

ombres ef nivean d’intensiré, nons devane sélectianner des séquences

contenant des ombhres a différents nivean® d’intensité (plne on moins

controstés)

Filtrer et extraire des parties envenubley de la vérité terrain de sé- quences sGlectionnées pour ivoler des problémes de traitement de vi- déus Par exemple, pour la tache de détection des ubjets, nous pouvons fvahter Ja, performance des algorithmer relativement an problame de

dérerter des objets arcine en considérant senlement la vérité terrain

contenant des objets occlue

- Pour la tache donnée (detection d'objets, suivi, classification d’objets

ct reconnaissance d’événcments), délinir un nombre sullisamment des métriques pour mesuzer el curactériser Ja performance dex ulgorilhines

en des aspecte différents

= Calenler les données de référence qui correspondent A la sortie prévn

de Vaigorithme à évaluer rolativement A unc tiche donnée de traitement de vidéos Les données de référence sont caleulées & partir de ]a vérité terrain fournic par les opérateurs humains et peuvent étre amé- livrées pour correspondre mieux aux résultats prévus Par exemple, au lieu Wévaluer les positions d’ubjets mobiles de Ja vérité verrain (2D- points), nous pouvons employer des données de la référence 3D)-point

pour mesurer la position de Pabjer 3D

— Utilizer un anti d’évalnation antomatique et wniqne ponr analyser

cxactement comment un algorithme donné résoudre un probléme donné

- L'annotation générale sur les séquenees de vidéo concernant des pro- blémes de traitement de vidéus(par exemple ombres faibles) ou concernant lee étuty d’enregistrement (par exemple conditions atinosphériques telles que Je jour ensoleillé)

— Ta ealihration de la caméra ex Vinformations contextuelles snr Ia ecane

vide décrivant, la tapologie de Ìa scene (par exemple anne dintérét)

Trang 12

Tan 3.1 — RTEVSI-RR-18-C1 : Pévalnation @'RTISEO snr Ja tache de dé tection dobjets

Participant | 8 1 11 | 1ả | a 12 Đrếcsion | 0.69 | 0.79 | 0.49 | 1.39 | 0.30 0.98 Sensitivité | 0.71 | 0.42 | 0.48 | 1.42] 040 0.16

F-Score 7 | 0.55 | O48 | 0.41 | 0.34 0.27

‘Tap 3.2 - EII-VBI-BE-18-CH : l'évaluation de la tache de suivi

Participant | 11 1 413 8 12 Suivi 0.47 | 0.45 | 042 0.4 1.19

Dans E'TISKO, toutes sequences de vidéos (environ 40 séquences) sont choisies et classifiées selon les problemes qu'lls illustrent Ces séquences ont GUé traitées par 23 Gquipes iuternationales participant au programme d’évae luation

ETISRO également, a fait face A denx limitations principales Paisque Ter participants font Vexpérionce cux-mémes, ils ont souvent différentes hypo- théses Par exemple, plusicurs participants ne détectent pas les objets qui ne

se déplacent pas pendant une certaine période Par conséquent, pour quelques séquences, Jes résultats d'algorithine ae peuvent pay étre comparés ley uns

avec Jes autres Les rahles 3.1 at 3.2 montrent qne les résuitats d’évalnation

des taches de la détection et du snivi d’objet sur la eéquence ETL VS1-BE-18-

Cá Dans le point de vue d’E'TISKQ, nous pouvons observer qu'il n’y a aucune concordance entre ces deux tache, un algorithme ayant la bonne performance sur la, détection Pobjet peut exécuter mal dans Ja tache de suivi d’objets Cependant, ves résultats sont tout a fait différente de ceux de Vévaluation proposée déurite dany le chapitre 5

LUne antre limitation est qn’ ETISRO ne définit, pas des méthades qnanti- tatives panr mesnrer le nivaan de difficalté des vidéos flnstrant un prohléme

de traitement de vidéos donné Par exemple, RTISRO emploie les termer

Trang 13

“normale” vu “sombre pour décrize ley niveaux d’intensitd des sequences de vidéos Par conséquent, le choix des véquences de vidéus dans ETISEO selon leurs niveaux de difficulté est subjectif eu assez imprécis Eo outre, ve juge-

menr subjectif fait également arbitraire Ja comparaison entre les nanveaie séqnences aver les efquences dja restées

‘Lravaillant dans le projet E'T'ISEQ, j'ai trois contributions principales D'abord, j'ai essayé de trouver des Huritations d'ETISEO et modifié Ioutil

#évaluakion pour enrmanrer ces limirations Puis, j'ai vérifié la pertinence

de chaque métriqne d’évaination Par exemple, j'ai proposé d’éliminer la mé-

triqne qui compare le nombre des objets mobiles dans les données de référence

et cela détecté par des algorithmes sans utilisant los rectangles de bords d'objets Oa, j'9i proposé unc solution pour modilier ies métriquos qui caracté- rivent le phénoméne de fusion et division dey objets Finalement, j'ai propusé uue nouvelle méthode d'évaluatiun qui est présentée dans ce aéunoire

10

Trang 14

tés pour la tache de détection d’objets

~ Définir la métrique pour évalucr Ja performance d’algorithmes

— Choisir Jes séquences de vidéos illustrant Ie probleme ct les données de référence associ¢es pour faire Pévaluation

Bvaluer la performace d'algorithme gur ces séqueuces en utilisant Ie

mnétrique définie

— Ponr chaqne algorithme, déterminer le nivean le plns 6lev£ đa đi nhé

á Palgorirhme pent avair mne performance acceptable, Cetre valenr cac đếtinie comme la capaciié đ'algorithmne pour résoudre le probléme

courant

Avec cette nouvelle approche, nous we pouvouy pas eucore prévoir Ja per formoace d’un algorithine pour une nouvelle séquence Nous pouvons seulement estimer la harna snpérienre de Ja performance d’algorithme relativernent,

Aun problame spécifiqne de traitement de vidéns La raison est que Ja per-

formance d’algorithme sur une nouvelle séquence dépend également d'autres problémes comme la petite taille d’objet, le changement dillumination cte Ainsi ob cetif prineipal de cette méthadologic ost de déclarcr que la perfor mance pourrait étre insuffisante au cas off le niveau de difficulté relativement Aun prohlame particnlier est plus grand que la capanité đ'algarithme Fin

autres termes, pour nn algorithme donné, nons ne pouvans pas dérermi-

11

Trang 15

ner 34 condition suffisunte de suce’s mais acus pouvuns estimer la condition aévessaire

Pour réaliser ceute approche, nous avons besoin de six Glémeats : te sésultat

de la performance de Palgorithma de plnsienrs participants, le probleme de

traitement, de vidéos, la métrique d’évalnation de performance, la mesure de

difficulté des donnécs đ'entréc, los donnécs de référence ct los séquences de vi- dévs choisies Mustrant Je probleine Concernant les algorithines de (raitement

de vidéos & évaluer, i est important de définir Jee pazainétres exigeont d'un stage d'apprentissage pendant la configuration de traiter les vidéus chuisis

Tans cet article, nous considérons qne les réalieatenrs @algorithme pouvaient, adaprer leurs algorithmes et fournir les résnitats qui sont assez satisfaisants

et asses représentant ar conséquent, pour appliquer cette méthodologie, doux éléments principaux rostés : la métrique d’évaluation de performance

ct la mosure dos données d’entréc Dans Ja section suivante, pour illustrer la inéthodologie d'évaluation, nous décrivons Vimplémentation de autre inétho- dolagie pour denx problames de trairement de vidéos : la détecrion des chịnha faiblement, contrasts et Ja manipnlarion der objets mélange anx ombres,

Cette section étudic la sonsibilité des algorithmes de traitement de vidéos sur la détection des objets faiblement contrastés Duns ce but, neus déerivons abord le probleme de détecter ley objets faiblement comuzastés, Puis nous définissons une mesure de caleuler le niveau de contraste d’un pixel, puis une bande (Funité de hase panr calenler Vansemble de niveams de contraare pout Vobjer entier) Ensuite nous dérrivons le procédé pour calculer Pensemble de niveaux de contraste d’objet dans unc image En conclusion, nous présentons

ja méthode pour calculer la capacité d’algorithme pour manipuler les objets faiblemont contrastés

4.2.1 Description de probléme

Habituellement, la performance des algorithines de trailement de vidéos est proportionnelle au niveau de contaste entre les objets mobiles & détecter

ex Fimage du fond Si le contraste de Pobjet ast pins faible, 1a performanon,

des algorirhmes est pls manvaise Par conséqnent nane vondrions dérerminer

le niveau de contraste of un algorithme donné peut obtenir une performance

acceptable

Trang 16

4.2.2 Mesure d'un niveau de contraste d’un pixel

Donné toutes les deux Pimage courante qui conticnt les abjets mobiles &

détecter et Pimage du fond de la scéne, le eontraste d’un pixel d’objet cst

calculé en utilisant Ia formule suivante :

[Fey = Rel — [Ws = Vo + Pa — Bel

(As, Yo, 8} est la valour de couleur du pixel correspondant du find

4.2.3 Mesure d’un niveau de contraste d’une bande

La région d’image eorrespondant A un objet mobile s’appelle Ie blob

Un blob peut comporter beaucoup de régions & beaucoup de niveaux de contraste Pour loceliser les nivesux de contraste d'un blob, nous divisons horizunlalement le blob en pelites bandes avee l'espoir que le conLraste de» pixels a 'intérieur d'une bande est assez howogéne et peut dere représenté par une valenr unique Cependanr, carte hypothése n’esr pas ronjotire onrrerte Por cxomplo, parce que Fannotation prends beaucoup de temps, la vérité terrain conticnt souvent seulement un rectangle de bord pour chaque blob A Yineérieur de ce rectangle, il y a beaucoup de pixels upparienant au fund, mais pas wu blob Par censéquent, la valeur muyenne dey niveaux de contraste des pixels 4 Pintérieur d’une bande n’est pas evaluation currecte pour le niveau

de contraste de bande Ponr résondre ce prahlame, nons appliquone le procédé suivant pour calculer te contrasre d'une hande

— Diviser verticalement la bande en sous-régions

— Pour chague sous-région, calculor la valeur moyenne des niveaux de controste de tous les pixels dans cette sous-région

Le niveau de contraste d’une bande est le niveau de contraste maximum

đe tonres lee sona-r6gians đe cerka hande

1ã

Trang 17

Fic 4.2 - Le niveau de contraste maximum de toutes les sous-régions aide

A détecter la bande entiére

Par exemple, dans la bande dans la figure 4.1, l'ensemble de niveaux

de contraste de toutes les sousrégions est {3,2.5,1} Alors, Ie nivean de

contraste de cette bande est 5

Le premier avantage de ce procédé est de définir le niveau de contraste pour la bande entiére comme niveau maximum de contraste de toutes les

sous-régions Nous illustrons cet avantage en utilisant la figure 4.2 Dans

cette figure, il y a deux blobs Le blob a gauche se compose d'une sous-

région faiblement contrastée (nivean de contraste 1) et d’une autre sous

région fortement contrastée (niveau de contraste 3) De méme, le blab a droit

a également ces deux sous-régions principales, D’ailleurs ce blob contient aussi

une autre sous-région plus fortement eontrastée (niveau de contraste 4) Nous supposons qu'un algorithme donné ne peut pas détecter la sous-région avec le

niveau 1 de contraste, Par conséquent, pour le blob & gauche, cet algorithme

peut détecter seulement la région avee le niveau 3 de contraste Cependant,

pour le blob a droit, grace a la petite région & un niveau de contraste

(4) le rectangle détecté par cet algorithme contient non seulement, les régions

fortement contrastées (niveau 3, 4) mais également une part de la région avec

un niveau de contraste trés bas (niveau 1) Par conséquent, pour une bande,

la sous-région an niveau du contraste le plus élevé peut aider Valgorithme

pour détecter la bande entiére De plus, cette méthode nous aide également

A réduire Feffet des parties de la bande qui correspondent au fond parce

que leurs niveaux de contraste sont trés petit en comparaison avec ceux qui

correspondent & objet Pour ces raisons nous assignons le niveau maximum

de contraste des sous-régions au niveau de contraste de la bande entiére,

Le deuxiéme avantage est la taille des sous-régions dans la bande Si nous

prenons le niveau maximum de contraste de tons les pixels A lintérieur de

la bande (e-à-d la plus petite taille pour une sous-tégion), cette valeur pent correspondre an bruit Par conséquent, nous avons choisi une taille de région

Tiêu đề	A New Evaluation Approach for Automatic Video Interpretation Algorithms
Trường học	University of Sciences and Technology of Hanoi
Chuyên ngành	Video Interpretation Algorithms
Thể loại	Thesis
Thành phố	Hanoi

Định dạng
Số trang	35
Dung lượng	412,14 KB