Plusivurs algarithmes existent pour effectuer celle tache et chacun présente des avantages et inconvénients.En résumé ces méthodes peuvent étre regroupés trois catégoties : 2.1.1 Méthade
Trang 1UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL
Saidi DAOUDA KADRI
Développement d’algorithmes de
reconnaissance de formes pour identifier et
caractériser des gravats recyclés
Phat triển các thuật toán nhận dạng hình
dạng để xác định và mô tả đặc tính của đắng
đổ nát tái chê
Spécialité: Systemes Intelligenis et Muldmédia
Code : Programme pilote
MEMOIRE DE FIN D’ETUDES DU MASTER
INFORMATIQUE
Sous la direction de:
Dr Nicolas SIDERE, Assistant Professeur
Dr Jérome Lux, Maitre de Conférence
Nicolas Sidere : Favorable
'HANGf - 2020
Trang 2ATTESTATION SUR LHONNEUR
Jatteste sur 'honneur que ce mémoire a été réalisé par moi-méme et que les données
et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La
source des informations citées dans ce mémoire a été bien précisée
LOI CAM DOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai công bồ trong bất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
Trang 3Remerciements
Je souhaite tout d'abord a exprimer mes plus vifs remerciements a mes encadrants
Monsieur Nicolas Sidére, Assistant Professeur et Monsieur Jérome Lux Maitre de Confé-
rence pour mavoir accompagné et guide tout au long de mon stage Leurs consetls, leur
disponibililé mont permis de compléter ce mémoire et dacquérir une expérience inesti-
mable
Je remercie également le Dactorant Jean David Lau Hiu Hoong qui, malgré son em-
ploi du temps chargé & toujours su se rendre disponible lorsque favais besoin des expli-
cations on accede au machine de calcul
Je tiens & remercier Dr Muhammad Muzzamil LUIQMAN ef tout l'équipe di labora-
toire L3i qui ont participé a la réalisation et validation de ce projet
Je voudrais aussi remercier notre respumsable de Muster Dr Ho Tuong Vinh ainsi que
tous les personnels pédagagiques et administratifs de l'Institut Krancophane internatia-
nal, Université National de Vietnam à Hanoi
Enfin, je tiens @ exprimer ma profonde gratinude @ mes parents, @ ma famille pour
im'avoir apporté un soutien indéfectible et des encouragements canstants tout au long de
ies années de Master
Je ne saurais ouhlier M Tionel Moussou et mes amis qui ont toujours été la pour moi
Votre soutien inconditionnel et vos encouragements ont été d'une grande aide Je vous
remercie
Suidi DAGUDA KADRI
Trang 4Résumé
Chaque annéc la France produit des millions de tonne de déchets incrtcs ct réuti-
liser une partie peu significalif.Dans ee projet il est question de trouver les moyens
iduines pour la valarisalion ces déchels au profil de Putilisalion des ressources nalu-
relles
Apres I'étape de création de la base de données suivi de l'implémentation d’une modele de classification.Létape suivante que nous avons aborde dans ce manuscrits
consiste 4 implémenter une méthode de détection et segmentation d'objet Le systeme
humaine est composé de plusieurs organes, mais celui qui s‘occupe de l'oeil est très complexe et joue un réle majeur Un seul coup d’oeil sur une image, homme arrive & identifier et localiser les objets sur l'image
La reproduction du fonctionnement des yeux sur ‘ordinateur sont des taches fasti- dieuses et laborieusement effectuées par les chercheurs, Mais depuis quelques années aver les méthades hasées sur l'approntissage profand, cos aches devicrment de plus
en plus facile
Pour attcindre Ics objcctifs nous étudicrons Ics travaux cxistant qui traite unc partic
ou Loiale de notre sujel afin d’avoir des connaissances sur les méthodes pour pouvnir
proposer une solulion et apporler des con
uirins
Mats clés : Reeonnaissance de formes, Analyse d'image, Apprentissage profend, Segmentation sémanlique, Segmentation Winstance, Agrégats recycles
Trang 5Abstract
Each year France produces millions of tonnes of inert waste and reusing some oft
can be significant In this project it is a question of finding the appropriate means for the recovery of these waste for the henefit of the use of natural resources
After the step of creation of the database tollowing impiementation of a classifica- tion model The next step that we will discuss in this manuscript consists in implemen- ting a method of object detection and segmentation, The human system is made up of
several organs, but the one that takes care of the cye is very complex and plays a major
roie With a single glance at an image, man can identify and locate the objects on the
image
Reproducing the functioning of the eyes on the computer are tedious and laho- tiousty carried out by researchers a few years with the methods based on deep lear-
ning, these tasks become more and more eas!
‘To reach the objectives we will study the existing work which treats part or total of our subject in orderto have knowledge on the methods to be able to propose a solution
and make contributions
Keywords :Paitern recognition, Tmage analysis, Decp learning, scmantic segmen- tation, instance segmentation, recycled aggregates:
Trang 6Table des matiéres
1.1 Présentation de l’établissement d'accueil 2
LEE 13h « wis ay 3” xã Riese ““ <
1.1.1.1 Le laboratoire L3i, la structure de recherche en informa-
tique de 'Université de La Rochelle 2
1.1.1⁄2 Une politique scientiñque ancrée sur des enjeux socio-
21:3 ‘Méthode détection étseamentitionen temps réel #
2.2.1 Réseau de convolution basé sur les régions (R-CNN) 7
22.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN) 8 2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN) « 9
2.2.4 Réseau de convolution basé sur le masque de région(Mask R-CNN) 10 2.2.5 Le modéle You Only Look Once(Yolo) ,
2.2.6 Réseau complément convolutifs (FCNs)
Trang 7TABLE DES MATIERES
3.1.1.5 Tête de Détection nu 3.1.16 Tête deSegmentation
Trang 8Table des figures
BE) LOBOS + sa as avn woe
1⁄22 Logo Univ-la Rochelle
2.1 principe de l'architecture R-CNN
2.2 principe de l'architecture Fast R-CNN
2.3 principe de l'architecture Faster R-CNN
24 principe de l'architecture Mask R-CNN
2.5 principe de l'architecture Yolo
2.6 principe de l'architecture du réseau complément convolutifs 13 2.7 principe de l'architecture du réseau complément convolutifs 14 2.8 principe de l'architecture du réseau complément convolutifs 15
3.2 Resnet Méthode ee
3.3 ArchitecturedeFPN
3.4 Architecture de Region Proposal Network
3.5 Architecture de Region Proposal Network
3.6 Architecture des tétes de sorties
3.7 Architecture d’acquisition d'image
Trang 9TABLE DES FIGURES
Trang 10Liste des tableaux
2:1, Tableau compatatifi css ec wewssnaie eee wou 2n 22 1 0g eee Bie es Boe 16 4,1 Tableau des Résultats
4.2 Tableau des Résultats
Trang 11Liste des sigles et acronymes
MASK RCNN
(RCNN — Réseau de convolution basé sur les région
Past R-CNN Réseat convolttionnel rapide base sur la région
Faster R-CNN Héseau de convolution régional plus rapide
RPN Réseau de proposition de région
Mask R-CNN Réseau de convoiterion basd sur le masque de région Yolo You Only Look Once
FCNs Réseau complément convoltetifs
Trang 12chaque annéc Pas plus 15 million de tonnes sont valorisés aprés unc longue processus
de recyclage la question qui sc pose esl de savoir comment rchausser Ie Laux de valo-
tisalion? Pune des oplions consisles 4 minimiser utilisation des granulats naturelle,
Cc travail s'inscrit dans la continuité d'un projet dont la premiére phase était la classification des images de granulals recycles, les résultats oblcnus étaient impres-
sinnnanis avee un taux erreur de 5 % La seconde Glape qui fait Vobjel de notre Glude
consiste 4 implémenter les algorithmes de reconnaissance d’objet en temps réel pour
identifier chaque type de gravats
Le processus de valorisation des déchets comporte plusieurs étapes Aprés la col-
lecte, ils sont envoyés aux plate-tormes de recyclage A ce niveau il existe certains phases trés pénihle ou les techniciens devront trié manuellement les gravats Ce trie demande beaucoup d’effort humaine et de temps pour en traiter une quantité peu importante
de déchets
Dans le monde actuel, nous vivons dans l’ére de la révolution informatique avec l'apparition des super-calculatcurs ct aussi la dispanibilité des méga données acquit grace 4 des apparcils its suphistiques, el une grande partic à Lravers Vinlernet A par-
lir de ces deux aspects, les réseaux de neurmme convalulif el d'autres ont permis de
résoudre des problémes trés fastidieux : la reconnaissance d’abjet, d'action, détection
Trang 13CHAPITRE 1 INTRODUCTION GENERALE
la
Informatique
Image _ Interaction La Rochelle
EIGURE 1.1~ Logo L3i FIeURE 1.2- Logo Univ-la Rochelle
Cestage s'est déroulé enti¢rement au laboratoire L3i (La Rochelle) au sein de l'équipe
Images et Contenus
1.11 L3i
1.1.1.1 Lelaboratoire L3i, la structure de recherche en informatique de "Université
de La Rochelle
Créé en 1993, le Laboratoire Informatique, Image, Interaction (L3i) est le labora-
toire de recherche du domaine Sciences du Numérique de l'Université de la Rochelle
Il comporte 98 membres travaillant dans les domaines de I'Informatique, I'Image et
I'Interaction Il associe les chercheurs en informatique de I'ITUT et du Péle Sciences de
l'Université de La Rochelle
1.1.1.2 Une politique scientifique ancrée sur des enjeux socio-économiques
En terme de politique scientifique, le laboratoire L3i développe un projet de re-
cherche résolument tourné vers les enjeux de société, adressant des problématiques
jugées stratégiques au plan européen (programme Horizon 2020) et national (techno-
logies clés du ministére du redressement productif, alliance ALLISTENE )
Ce projet est articulé avec la politique scientifique globale de l'université dans son ensemble (I'axe de recherche du laboratoire L3i est un des deux axes stratégiques de
l'Université de La Rochelle), en relais avec la politique de développement des collecti- vités territoriales, et en particulier de la région Poitou-Charentes
Trang 14CHAPITRE 1, INTRODUCTION GENERALE
1.1.1.3 Une politique de réseau consolidée
Le laboratoire L3i est intégré aux réseaux de recherche régionaux (Fédération CNRS MIRES, ERT « Interactivité numérique »), nationaux (GDR 13, et GDR ISIS) et internatio- naux (IAPR) dans les secteurs de visibilité de son action scientifique, autour d’un projet
slralégique li¢ a Ja gestion intelligente ct interactive des conienus numériques Ceci est
consolidé par une politique volontariste de participation ou de pilotage de projets de recherche labellisés (ANK, PCRD, .1, au sein desquels le laboratoire occupe souvent une position de leadership
1infin, son action internationale est actuellement renforcée avec des liens privilé- giés avec de nombreux centres de recherche A travers le monde (Espagne, Japon, Viet- nam, Tunisie, Malaisie)
1.1.1.4 UnecnHure de la relation avec ['entreprise avec Valconum
Une autre originalité du projet porté par le L3i est son lien particuliérement fort
avec le monde socia-écanomique, avec la création de I’écnsystéme Valconum (Centre Jivopéen de Valorisation Numérique) qui représente un consortium académique et
industriel regroupant de nombreuses unités de recherche en Hrance et a ’étranger, et
des entreprises de portée nationale et du territoire picto-charentais
Labjectif de la création de cet écasystéme est de contribuer Ala compétitivité scien- tifique et industrielle frangaise, sur un sujet précis, abordé sous un angle systémique
Les concepts d'innovation et de transfert technologique représentent les piliers de ce
consortium '
1 tps «/Fhetps ://1Si.univ-larachelle.fr/ Presentation
a
Trang 15CHAPITRE 1, INTRODUCTION GENERALE
1.2 Contexte et problématique
1.2.1 Contexte
La vision humain est l'un des organes qui nous permet d’étre relation direct avec
le monde extérieur adaptation des machines pour réaliser cette tache ardue n'est
pas du tout unc chose facile.Car plusicurs parametres cntre en jcu (la forme, la cou- Jeur, la Lexture elc ) La farme nous permet d’avoir unc représcnialiin plus pré
Tobjet, ce qui a conduit & la discipline appelle reeunnaissance de forme
sance de forme a joué un réle importante dans plusieurs aspects Les chercheurs et
ingénieurs ont mené des études approfondis qui ont aboutis A des articles et applica- tions(Hobotique, Biologique, analyse de texte etc ) ces techniques ont révolutionné le monde,mais reste inférieur 4 la vue humaine
1.2.1.2 Objectifs
Les travaux effectués dans ce stage ont pour objectifs, de faire une étude des solu-
tions pour la détection ct scgmentation dc gravats dans unc image ;Avoir cn sortic uni- quement le masque ct boite englabante et enfin implémenter Varchitceture resncll 8
En résume les objectifs peuvent étre regroupés en deux partie :
—- Proposer et implémenter une méthode de détection et segmentation
— Modifier la sortie pour avoir uniquement le masque et hoite englobante
— Implềmenter Ïarchitecture resnet 18
1.2.1.3 Problématiques
Ta déteetion ol segmentatinn sont des (aches ardues de la vision par ordinaLeur.Ta
détection consiste à localiser objet en utilisant la boile délimilation ef 4 déterminer la
catégorie.Pour I’implémentation plusieurs paramétres doivent étre pris en compie.En
effet, dans Jes scenes naturelles les gravats peuvent apparaitre dans de nombreux va- tiations :
— Variation du paint de vue :ies gravats sont entités physiques tri-dimensionnelles,ieur
apparence change en fonction de l'angle de vue
— Variation d’'illumination :des changements peuvenLapparaitre sur gravals en fonc-
tim de l'environnement de leur acquisiti
Trang 16CHAPITRE 1, INTRODUCTION GENERALE
— les acclusions : les objels peuvent étre partiellement nu Lolalemen| masques par
d'autres objets dans une image
— les variations d’échelle :Concernant |’échelle ils peuvent arriver que les gravats
d'une méme calégoric présenics des Lailles différentes
Par contre la segmentation a pour but d’identifier les parties homogénes et les
contours, ces deux éléments sont pertinents pour sepmenter un objet
les problématiques suivantes sont alors posées en raison de ne pas perde de vue les
objectifs
— Camment localiser chaque gravals avec précisinn;
— Comment localiser et segmenter l'objet en méme temps;
— Camment allons-nous réduire le nombre de paramétres de Marchilceture.
Trang 17une méthode qui fonctionnera comme les yeux humains
Dans cette section de rovue littéraire nnus allons faire la synthéxe des algorithmes
de délections el de segmentation Plusivurs algarithmes existent pour effectuer celle tache et chacun présente des avantages et inconvénients.En résumé ces méthodes peuvent étre regroupés trois catégoties :
2.1.1 Méthades de détection
— Les modéles basés sur la recherche sélective : R-CNN, fast R-CNN
— Les modéles basés sur région proposal Network : Faster R-CNN,
— Modéle basé sur les grilles : Yolo framework
2.1.2 Méthodes de segmentation
— Fully Convolutional Network for Semantic Segmentation
— Deconvolution Network
— Unet
Trang 18CHAPITRE 2, ETAT DE ART
2.1.2 Méthode détection ct segmentation en temps réel
— Les modéles basés sur région proposal Network : Mask R-CNN
2.2 Détection automatique d'objet
2.2.1 Réseau de convolution basé sur les régions (R-CNN)
Les réseaux de convolution basés sur les régions R-CNN est Ja toute premiére mé-
thodce utilisant l'apprentissage profond pour la détceliun d’objecl l'objectif [1] est que
Valgorithme localise les objets en ce basent sur la méthode de recherche puis déter- miné les classes en utilisant le CNN L'algorithme de recherche permettant de localiser les objets dans une image s’appelle recherche sélective Cet algorithme utilise essen-
tiellement les quatre régions qui forment un objet : la couleur, la texture, échelle et Venceinte variable.Ces motifs dans l'image permettent a P algorithme de proposer di- verses régions; son fonctionnement est simple, il prends a ’entréc une image puis il génére des sous-segmentations afin d'avair plusicurs régions.Ensuite le processus de Tegrouper les régions similaire pour former une région plus grande basée sur la simila- rité de la forme, du couleur, du texture, de Ja taille eta comptabilité de la forme Enfim, ces régions produisent les emplacements d'objet finaux Chaque région proposée est redimensionnée en fonction de l’entrée du réseau de neurone convolutif qui exwait
un ensemble de caractéristiques dans un vectcur de 4096 dimensions, Ces vectcurs de
caractéristiques sunt les données d’entrce pour les clas fin dobtenir les propa-
SVM entrainé pour aplimiser la probabililé de détection de cel objel Une régressian linéaire est appliquée pour déterminer la forme ou contour de la boite englobant pour
une région proposé et ainsi réduire les erreurs de localisations Les auteurs ont entraf- nés le réseau décrit ci-haut avec le dataset suivant : tout d’abord le CNN est préforme sur le dataset imageNet, aprés avoir adopté le réseau a notre probleme de détection, ilest entrainé sur PASCAL VOC 2007 pour Ja validation des décisians de conception et les hyper paramétres Et cnfin entraincr su: PASCAL VOC 2012 pour optimisation La
localisati j ons propasces carrespundant & un Tol su-
périeur a 0.5 comme vérité sur le terrain, les classitieurs SVM sont aussi entraines pour
chaque classe de dataset
Trang 19CHAPITRE 2 ETAT DE LART
R-CNN Linear Regression for bounding box offsets
Classify regions with
Bbox res |[ Svs (me £ SVMs
Ficure 2.1 - principe de l’architecture R-CNN
2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN)
Fast R-CNN est une version améliore du modéle R-CNN pour accélérer la vitesse de
détection et apporter des solutions aux inconvénients du R-CNN qui sont:
— Larecherche sélective génére environ 2000 propositions de régions pour chaque
image
— Chaque région d'intérét entrée dans le réseau de neurone convolutif ce qui en-
traine une lenteur au moment du test
— le modéle requiére une quantité importante d’espace de stockage
Le modéle Fast R-CNN développé par Ross-Girshick et al [2] avait pour objectif prin-
cipal de réduire le temps de calcul et de mémoire nécessaire da au fonctionnement
du RCNN en utilisant un réseau qui permet d’entrainer l'ensemble des couches en
un seul passage et mettre a jour tous les poids Au lieu d'utiliser un réseau de neu- rones convolitif pour chaque région susceptible de contenir un objet, Fast RCNN prend
l'image entiére en entrée et I'envoie dans un CNN qui extrait les cartes de caractéris-
tique.Les régions d’intérét (Rol) sont détectées avec la recherche sélective appliqué sur
la carte de caractéristiques produit la dimension de la cartes est réduite en utilisant
une couche de pooling afin d’obtenir les régions d’intérét valide avec des hauteur et
Trang 20CHAPITRE 2 ETAT DE LART
largeur et dimension fixe comme hyper-paramétre.les régions d'intérét aplati sont in-
troduites chacun dans un réseau entigrement connecte créant ainsi le vecteur de ca-
ractéristique utilisé pour prédire l'objet observé a l'aide d’un classifieur softmax et un
régression linéaire pour déterminer les localisations a travers les boites englobantes.La figure ci-dessous illustre l'architecture
'
Ficure 2.2 principe de l’architecture Fast R-CNN
2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN)
Ross Girshick et al avaient présente en 2016 une nouvelle architecture Faster R- CNN pour la détection des objets Faster R-CNN est une variante de Fast R-CNN.La dif- férence qui existe entre les deux modéle ce situe au niveau de la méthode utiliser pour
la reconnaissance d’ objet dans l'image Faster R-CNN introduit un réseau RPN (Region
Proposion Network ) alors que Fast R-CNN est basée sur la recherche sélective Lin-
convénient de la recherche sélective, elle est trés cofiteuse en calcul et mémoire Bien
que Fast R-CNN ait adopté un processus qui permettait de réduire le temps de calcul
en prennent l'image entiére.Mais la recherche sélective demeure un goulot d’étrangle- ment pour les modéles R-CNN et Fast R-CNN.Dans Faster R-CNN, réseau de propo- sition de region(RPN) a été introduit pour remplacer la recherche sélective cette mé- thode vise a proposer des régions qui seront utilisées par la méthode Fast R-CNN pour
déterminer les boites englobantes et détecter les objets.RPN utilise les modéles pré-
entrainer pour la classification, c'est un réseau de convolution profond qui propose des régions d'intérét.Il prend al'entrée l'image entiére qui passe dans plusieurs couche
de convolution qui génére en sortie les cartes de caractéristique pertinentes Ces cartes
sont passés dans RPN qui applique une fenétre de taille nx n qui parcourt l'ensemble
des cartes de caractéristique pour produire un vecteur de caractéristique;Ce vecteur
est entigrement connectés & deux couches :classification et régression.A chaque posi- tion du fenétre un maximum de K propositions de régions,les k régions sont appelées
ancres et ont un nombre fixe Ces ancres ont de taille et forme différent pour locali-
ser les objets.la couche de classification utilise 2k pour génére un score d’objectivité
pour chaque ancrage et la couche de régression 4K pour déterminer la boite d’ancrage
9
Trang 21CHAPITRE 2 ETAT DE LART
les boites d'ancrage détectées sont ensuite sélectionnées par rapport au score đ'ob-
jectivité.Celles qui dépassent le seuil prédéfini sont acheminées vers Fast R-CNN au
cas contraire l'objet détectée est éliminé.En utilisant RPN dans Faster R-CNN cela per- mettait d’éviter la recherche sélective et d'augmenter la performance.Larchitecture du
réseau décrit ci-haut est illustré par la figure ci-dessous
seat]
Fast R-CNN Map
Rot Pooling Fully Connected Layers
Ficure 2.3 — principe de l'architecture Faster R-CNN
2.2.4 Réseau de convolution basé sur le masque de région(Mask R-
CNN)
Le modéle Mask R-CNN développé par Kaiming He et al [4] est une extension du
modéle faster R-CNN Mask R-CNN est le résultat d’une combinaison de faster R-CNN
et du réseau entiérement convolutionnel (FCN) La figure ci-dessous illustre l’architec-
ture, Mask R-CNN ajoute une troisiéme branche pour la reconnaissance d’ ancre sélec- tionnée afin de prédire un masque pour l'objet.Mask R-CNN utilise les deux étapes du Faster R-CNN en modifiant certain partie.Dans la premiére étape, Mask R-CNN adopte
l'architecture RPN.Mais, au niveau de la deuxiéme étape Mask R-CNN étant du faster
R-CNN original Outre la prédiction des classes et les boites englobantes mask r-cnn af- fiche un masque binaire pour chaque Rol.La représentation du masque permet d'avoir
Ja disposition spéciale de |'objet.Linconvénient majeur du Rol pooling est que le Rol & nombre flottant est quantifié, cela entraine des préts d'informations.Cette quantifica-
tion est sans effet sur la classification mais impacte la prédiction des masques objets.Le faite que la branche masque a été ajouter trouver que la segmentation améliorer la lo- calisation et la détection.
Trang 22CHAPITRE 2 ETAT DE LART
FiGure 2.4 — principe de l’architecture Mask R-CNN
2.2.5 Le modéle You Only Look Once(Yolo)
Le modéle You Only Look One(Yolo)(5] est un modéle qui consiste en un seul réseau
de neurone formé bout en bout pour la détection.Contrairement aux modéles étudies
précédemment qui ne prend pas l'image entiére , plutét des régions susceptible de
contenir un objet en utilisant des méthodes comme : recherche sélective et réseau de proposition de région Framework Yolo fusionne des deux étapes(détection et location)
des algorithmes vus ci-haut; détection considére comme un probléme de classification est formule par Yolo comme un tache de régression, qui permettait de séparer le cadre
de sélection et associe les probabilité de classe.ll prend un image en entrée, une grille
de taille $ x $ est appliqué et ensuit les boites englobantes et les scores de confiance prévues(sont prédites) pour chaque boite Pour affecter un cadre de sélection a un ob-
jet, algorithme vérifie si le centre d'objet ce trouve dans le grille et calcul le score le
calcul de score est basée sur IoU(Intersection over Union) Aire de l'intersection / Aire
de l'union Certes, yolo est rapide,qui est un atout pour les algorithmes de détection.I]
viens avec un probleme de localisation.La figure ci-dessous illustre l’architecture.
Trang 23CHAPITRE 2 ETAT DE LART
Gone Laer Com Laat GW LmAr Site? ảnhHEs£ hh#se? tan Lm, satis: (EU và
\Varso Laer Magoo Lar Manse Laer timocs Layer Maco yee Mage’ ayer SONORA? Mal hoa? Bhed Bad x3
Figure 2.5- principe de l'architecture Yolo
2.2.6 Réseau complément convolutifs (FCNs)
Long et al 20156] présentaient une architecture pour la segmentation sémantique
d'image :les réseaux complétement convolutifs(FCNs).les CNNs utilisaient une archi- tecture pyramidale ou la dimension spatiale de l'image est réduit a chaque passage de
couche profond et la profondeur s’accroit avant qu'il soit transmise a la couche entiére- ment connectée Dans l'architecture FCNs les couches complétement connectées sont
remplacées par un structure pyramidale qui réduit la profondeur et augmente la réso-
lution spatiale par des opérations de sur-échantillonnage La dimension de la couche
de sortie est identique a celle de I’ image en entrée;De méme pour la profondeur et au nombre de classe Les couches entiérement connectées ne conviennent pas a la seg-
mentation pour deux raisons :Limage en entrée doit étre de la méme dimension et elle
entrainent une perte d'information locales trés important en segmentation
12
Trang 24CHAPITRE 2 ETAT DE LART
Ronneberger et al 2015[7] avaient présenté une architecture basée sur FCN spécia-
lement développé pour la segmentation d'image biomédicale suite aux problémes avec FCN traditionnelle Linconvénient avec le FCN original, il dispose d’une seul opération
de sur-échantillonnage.Cela réduire la complexité et améliorer la prédiction de clas-
sification et de localisation mais un probléme est apparu : faible résolution d'image
en sortie Pour remédier a cela plusieurs variantes de types FCNs ont été proposés,
nous étudierons seulement celle de l'encodeur-décodeur.les modéles FCNs de type
encodeur-décodeur sont formés de deux partie, l'encodeur qui fonctionne avec la struc-
ture pyramidale des CNNs, C’est au niveau de la deuxiéme partie que se trouve la diffé-
rence, au lieu d’une seul opération de sur-échantillonnage comme dans FCN original
Le décodeur est symétrique a! encodeur, les opérations de sous-échantillonnages sont remplacés par des sur-échantillonnages Le but est de retrouver la dimension spatiale
et de récupérer les détails de l'image L’architecture est illustrée par la figure ci-dessous
Trang 25CHAPITRE 2 ETAT DE LART
Ficure 2.7 - principe de l’architecture du réseau complément convolutifs
2.2.8 Réseau de de-convolution (Auto-encodeur)
Hyeonwoo et al 2015(8] ont proposés un nouvel algorithme de segmentation ap-
pelée réseau de dé-convolution Le but de leur travail est de surmonter les limites des
méthodes basées sur les réseaux entiérement convolutifs en intégrant une partie de de- convolution profonde les algorithmes de segmentation basées sur les CNNs consiste & interprétes les couches complétement connectées en couche de de convolution Cette
méthode développée par Long [4] améliore la classification et détection mais rencontre
certains problémes dti au faible résolution de d'image.Pour surmonter ces limites, ils introduisent un réseau composé de couche de de-convolution et de désengagement,
la figure ci-dessous est une représentation détaillée du réseau Il est composé de deux
parties : le réseau convolution qui extrait les caractéristiques et en sortie ona les cartes
de caractéristique, ces cartes sont ensuite passé dans le réseau de de-convolution pour
régénérer la forme de chaque objet dans l'image
14