R-CNN Réseau de convolution basé sur les région Fast R-CNN Réseau convolutionnel rapide basé sur la région Faster R-CNN Réseau de convolution régional plus rapide RPN Réseau de propositi
Trang 1UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ
INSTITUT FRANCOPHONE INTERNATIONAL
Saidi DAOUDA KADRI
Développement d’algorithmes de
reconnaissance de formes pour identifier et
caractériser des gravats recyclés
Phát triển các thuật tốn nhận dạng hình dạng để xác định và mơ tả đặc tính của đống
đổ nát tái chế
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
HANỌ - 2020
Trang 2UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ
INSTITUT FRANCOPHONE INTERNATIONAL
Saidi DAOUDA KADRI
Développement d’algorithmes de
reconnaissance de formes pour identifier et
caractériser des gravats recyclés
Phát triển các thuật tốn nhận dạng hình dạng để xác định và mơ tả đặc tính của đống
đổ nát tái chế
Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
Sous la direction de :
Dr Nicolas SIDERE, Assistant Professeur
Dr Jérome Lux, Maitre de Conférence
Trang 3ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données
et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs Lasource des informations citées dans ce mémoire a été bien précisée
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêutrong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ côngtrình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc
Signature de l’étudiant
Saidi DAOUDA KADRI
Trang 4Je souhaite tout d’abord à exprimer mes plus vifs remerciements à mes encadrants Monsieur Nicolas Sidère, Assistant Professeur et Monsieur Jérome Lux Maître de Confé- rence pour m’avoir accompagné et guidé tout au long de mon stage Leurs conseils, leur disponibilité m’ont permis de compléter ce mémoire et d’acquérir une expérience inesti- mable.
Je remercie également le Doctorant Jean David Lau Hiu Hoong qui, malgré son ploi du temps chargé à toujours su se rendre disponible lorsque j’avais besoin des expli- cations ou accède au machine de calcul.
em-Je tiens à remercier Dr Muhammad Muzzamil LUQMAN et tout l’équipe du toire L3i qui ont participé à la réalisation et validation de ce projet.
labora-Je voudrais aussi remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone Internatio- nal, Université National de Vietnam à Hanoi.
Enfin, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille pour m’avoir apporté un soutien indéfectible et des encouragements constants tout au long de mes années de Master.
Je ne saurais oublier M Lionel Houssou et mes amis qui ont toujours été là pour moi Votre soutien inconditionnel et vos encouragements ont été d’une grande aide Je vous remercie.
Saidi DAOUDA KADRI
Trang 6Chaque année la France produit des millions de tonne de déchets inertes et liser une partie peu significatif.Dans ce projet il est question de trouver les moyensidoines pour la valorisation ces déchets au profit de l’utilisation des ressources natu-relles
réuti-Après l’étape de création de la base de données suivi de l’implémentation d’unemodèle de classification.L’étape suivante que nous avons aborde dans ce manuscritsconsiste à implémenter une méthode de détection et segmentation d’objet Le systèmehumaine est composé de plusieurs organes, mais celui qui s’occupe de l’oeil est trèscomplexe et joue un rôle majeur Un seul coup d’oeil sur une image, l’homme arrive àidentifier et localiser les objets sur l’image
La reproduction du fonctionnement des yeux sur l’ordinateur sont des tâches dieuses et laborieusement effectuées par les chercheurs.Mais depuis quelques annéesavec les méthodes basées sur l’apprentissage profond, ces tâches deviennent de plus
fasti-en plus facile
Pour atteindre les objectifs nous étudierons les travaux existant qui traite une partie
ou totale de notre sujet afin d’avoir des connaissances sur les méthodes pour pouvoirproposer une solution et apporter des contribuions
Mots clés : Reconnaissance de formes, Analyse d’image, Apprentissage profond,
Segmentation sémantique, Segmentation d’instance, Agrégats recyclés
Trang 7Each year France produces millions of tonnes of inert waste and reusing some of itcan be significant In this project it is a question of finding the appropriate means forthe recovery of these waste for the benefit of the use of natural resources
After the step of creation of the database following implementation of a tion model The next step that we will discuss in this manuscript consists in implemen-ting a method of object detection and segmentation The human system is made up ofseveral organs, but the one that takes care of the eye is very complex and plays a majorrole With a single glance at an image, man can identify and locate the objects on theimage
classifica-Reproducing the functioning of the eyes on the computer are tedious and riously carried out by researchers a few years with the methods based on deep lear-ning, these tasks become more and more easy
labo-To reach the objectives we will study the existing work which treats part or total ofour subject in order to have knowledge on the methods to be able to propose a solutionand make contributions
Keywords :Pattern recognition, Image analysis, Deep learning, semantic
segmen-tation, instance segmensegmen-tation, recycled aggregates ;
Trang 8Table des matières
1.1 Présentation de l’établissement d’accueil 2
1.1.1 L3i 2
1.1.1.1 Le laboratoire L3i, la structure de recherche en informa-tique de l’Université de La Rochelle 2
1.1.1.2 Une politique scientifique ancrée sur des enjeux socio-économiques 2
1.1.1.3 Une politique de réseau consolidée 3
1.1.1.4 Une culture de la relation avec l’entreprise avec Valconum 3 1.2 Contexte et problématique 4
1.2.1 Contexte 4
1.2.1.1 Domaine d’étude 4
1.2.1.2 Objectifs 4
1.2.1.3 Problématiques 4
2 État de l’art 6 2.1 Introduction 6
2.1.1 Méthodes de détection 6
2.1.2 Méthodes de segmentation 6
2.1.3 Méthode détection et segmentation en temps réel 7
2.2 Détection automatique d’objet 7
2.2.1 Réseau de convolution basé sur les régions (R-CNN) 7
2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN) 8
2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN) 9
2.2.4 Réseau de convolution basé sur le masque de région(Mask R-CNN) 10 2.2.5 Le modèle You Only Look Once(Yolo) 11
2.2.6 Réseau complément convolutifs (FCNs) 12
Trang 9TABLE DES MATIÈRES
2.2.7 Unet 13
2.2.8 Réseau de de-convolution (Auto-encodeur) 14
2.3 Conclusion 19
3 Solutions proposées et contributions 20 3.1 Introduction 20
3.1.1 Description du Méthode 20
3.1.1.1 Resnet 21
3.1.1.2 Feature Pyramide Network(FPN) 21
3.1.1.3 Region Proposal Network(RPN) 22
3.1.1.4 RoIalign 22
3.1.1.5 Tête de Détection 23
3.1.1.6 Tête de Segmentation 23
3.2 Base de donnée 24
3.2.1 Création de la base de donnée 24
3.3 Conclusion 26
4 Expérimentations et résultats 27 Résultats et analyses 27 4.1 Introduction 27
4.2 Environnement de travail 27
4.2.1 Environnement matériel 27
4.2.2 Environnement logiciel 27
4.2.3 Autre Plate-forme 27
4.3 Pré-traitement 28
4.3.1 Redimensionnement 28
4.4 Dataset utilisé 28
4.5 Validation 28
4.6 Mask R-CNN Backbone 29
4.6.1 Analyse 30
4.7 Contribution 31
4.7.1 Tête box et masque 31
4.7.2 Backbone 32
4.7.3 Script Imagette 34
4.8 Conclusion 34
5 Conclusion et Perspectives 35 5.1 Conclusion générale 35
5.2 Perspectives 35
ii
Trang 10Table des figures
1.1 Logo L3i 2
1.2 Logo Univ-la Rochelle 2
2.1 principe de l’architecture R-CNN 8
2.2 principe de l’architecture Fast R-CNN 9
2.3 principe de l’architecture Faster R-CNN 10
2.4 principe de l’architecture Mask R-CNN 11
2.5 principe de l’architecture Yolo 12
2.6 principe de l’architecture du réseau complément convolutifs 13
2.7 principe de l’architecture du réseau complément convolutifs 14
2.8 principe de l’architecture du réseau complément convolutifs 15
3.1 20
3.2 Resnet Méthode 21
3.3 Architecture de FPN 22
3.4 Architecture de Region Proposal Network 22
3.5 Architecture de Region Proposal Network 23
3.6 Architecture des têtes de sorties 24
3.7 Architecture d’acquisition d’image 25
3.8 RA 26
3.9 Rb02 26
3.10 RA 26
3.11 Rb01 26
4.1 Taille réelle 6000x4000 28
4.2 Taille réduite à 1920x1280 28
4.3 Validation 29
4.4 ResNet 30
4.5 Existant Avec Resnet101 30
4.6 Architecture du modèle 31
4.7 RA 31
Trang 11TABLE DES FIGURES
4.8 Sans nom des classes et scores 31
4.9 Architecture ResNet18 33
4.10 Imagette 34
4.11 Imagette 34
4.12 A Imagette 34
iv
Trang 12Liste des tableaux
2.1 Tableau comparatif 16
4.1 Tableau des Résultats 31
4.2 Tableau des Résultats 34
Trang 13Liste des sigles et acronymes
MASK RCNN
(R-CNN Réseau de convolution basé sur les région
Fast R-CNN Réseau convolutionnel rapide basé sur la région Faster R-CNN Réseau de convolution régional plus rapide
RPN Réseau de proposition de région
Mask R-CNN Réseau de convolution basé sur le masque de région
Yolo You Only Look Once
FCNs Réseau complément convolutifs
Trang 14Chapitre 1
Introduction générale
En France, des études ont montré qu’environ 260 million de tonnes de déchets sue des chantiers (construction, démolitions et de dé-constructions) sont enregistréschaque année Pas plus 15 million de tonnes sont valorisés après une longue processus
is-de recyclage la question qui se pose est is-de savoir comment rehausser le taux is-de risation ? L’une des options consistes à minimiser l’utilisation des granulats naturelle
valo-Ce travail s’inscrit dans la continuité d’un projet dont la première phase était laclassification des images de granulats recyclés, les résultats obtenus étaient impres-sionnants avec un taux d’erreur de 5 % La seconde étape qui fait l’objet de notre étudeconsiste à implémenter les algorithmes de reconnaissance d’objet en temps réel pouridentifier chaque type de gravats
Le processus de valorisation des déchets comporte plusieurs étapes Après la lecte, ils sont envoyés aux plate-formes de recyclage A ce niveau il existe certains phasestrès pénible ou les techniciens devront trié manuellement les gravats Ce trie demandebeaucoup d’effort humaine et de temps pour en traiter une quantité peu importante
col-de déchets
Dans le monde actuel, nous vivons dans l’ère de la révolution informatique avecl’apparition des super-calculateurs et aussi la disponibilité des méga données acquitgrâce à des appareils très sophistiques, et une grande partie à travers l’internet A par-tir de ces deux aspects, les réseaux de neurone convolutif et d’autres ont permis derésoudre des problèmes très fastidieux : la reconnaissance d’objet, d’action, détection
de fraude etc
Ainsi dans l’optique d’apporter une solution au besoin ci-dessus que nous gerons dans le cadre de ce projet une architecture de segmentation et d’identification
envisa-Ainsi autre l’analyse du sujet, l’étude d’état de l’art, la solution proposée, nous lons expliquer en quoi consiste notre travail Nous exposerons dans le rapport la concep-tion et la modélisation du système
Trang 15al-CHAPITRE 1 INTRODUCTION GÉNÉRALE
FIGURE1.1 – Logo L3i FIGURE1.2 – Logo Univ-la Rochelle
1.1 Présentation de l’établissement d’accueil
Ce stage s’est déroulé entièrement au laboratoire L3i (La Rochelle) au sein de l’équipeImages et Contenus
1.1.1.2 Une politique scientifique ancrée sur des enjeux socio-économiques
En terme de politique scientifique, le laboratoire L3i développe un projet de cherche résolument tourné vers les enjeux de société, adressant des problématiquesjugées stratégiques au plan européen (programme Horizon 2020) et national (techno-logies clés du ministère du redressement productif, alliance ALLISTENE )
re-Ce projet est articulé avec la politique scientifique globale de l’université dans sonensemble (l’axe de recherche du laboratoire L3i est un des deux axes stratégiques del’Université de La Rochelle), en relais avec la politique de développement des collecti-vités territoriales, et en particulier de la région Poitou-Charentes
2
Trang 16CHAPITRE 1 INTRODUCTION GÉNÉRALE
1.1.1.3 Une politique de réseau consolidée
Le laboratoire L3i est intégré aux réseaux de recherche régionaux (Fédération CNRSMIRES, ERT « Interactivité numérique »), nationaux (GDR I3, et GDR ISIS) et internatio-naux (IAPR) dans les secteurs de visibilité de son action scientifique, autour d’un projetstratégique lié à la gestion intelligente et interactive des contenus numériques Ceci estconsolidé par une politique volontariste de participation ou de pilotage de projets derecherche labellisés (ANR, PCRD, ), au sein desquels le laboratoire occupe souventune position de leadership
Enfin, son action internationale est actuellement renforcée avec des liens giés avec de nombreux centres de recherche à travers le monde (Espagne, Japon, Viet-nam, Tunisie, Malaisie)
privilé-1.1.1.4 Une culture de la relation avec l’entreprise avec Valconum
Une autre originalité du projet porté par le L3i est son lien particulièrement fortavec le monde socio-économique, avec la création de l’écosystème Valconum (CentreEuropéen de Valorisation Numérique) qui représente un consortium académique etindustriel regroupant de nombreuses unités de recherche en France et à l’étranger, etdes entreprises de portée nationale et du territoire picto-charentais
L’objectif de la création de cet écosystème est de contribuer à la compétitivité tifique et industrielle française, sur un sujet précis, abordé sous un angle systémique.Les concepts d’innovation et de transfert technologique représentent les piliers de ceconsortium.1
scien-1 https ://https ://l3i.univ-larochelle.fr/Presentation
Trang 17CHAPITRE 1 INTRODUCTION GÉNÉRALE
1.2 Contexte et problématique
1.2.1 Contexte
La vision humain est l’un des organes qui nous permet d’être relation direct avec
le monde extérieur L’adaptation des machines pour réaliser cette tâche ardue n’estpas du tout une chose facile.Car plusieurs paramètres entre en jeu (la forme, la cou-leur, la texture etc ) La forme nous permet d’avoir une représentation plus précise del’objet, ce qui a conduit à la discipline appelle reconnaissance de forme.La reconnais-sance de forme a joué un rôle importante dans plusieurs aspects Les chercheurs etingénieurs ont mené des études approfondis qui ont aboutis à des articles et applica-tions(Robotique, Biologique, analyse de texte etc ) ces techniques ont révolutionné lemonde,mais reste inférieur à la vue humaine
1.2.1.1 Domaine d’étude
Notre sujet concerne la reconnaissance des gravats recyclés C’est un domaine d’étudequi fait appel outre l’informatique à des connaissances en génie civil Du point de vuescientifique et environnemental il est important d’implémenter des méthodes de vi-sion par ordinateur pour résoudre certains aspects du génie civil
1.2.1.2 Objectifs
Les travaux effectués dans ce stage ont pour objectifs, de faire une étude des tions pour la détection et segmentation de gravats dans une image ;Avoir en sortie uni-quement le masque et boite englobante et enfin implémenter l’architecture resnet18
solu-En résume les objectifs peuvent être regroupés en deux partie :
— Proposer et implémenter une méthode de détection et segmentation
— Modifier la sortie pour avoir uniquement le masque et boite englobante
— Implémenter l’architecture resnet 18
1.2.1.3 Problématiques
La détection et segmentation sont des tâches ardues de la vision par ordinateur.Ladétection consiste à localiser l’objet en utilisant la boite délimitation et à déterminer lacatégorie.Pour l’implémentation plusieurs paramètres doivent être pris en compte.Eneffet, dans les scènes naturelles les gravats peuvent apparaître dans de nombreux va-riations :
— Variation du point de vue :les gravats sont entités physiques tri-dimensionnelles,leurapparence change en fonction de l’angle de vue
— Variation d’illumination :des changements peuvent apparaître sur gravats en tion de l’environnement de leur acquisition
fonc-4
Trang 18CHAPITRE 1 INTRODUCTION GÉNÉRALE
— les occlusions : les objets peuvent être partiellement ou totalement masqués pard’autres objets dans une image
— les variations d’échelle :Concernant l’échelle ils peuvent arriver que les gravatsd’une même catégorie présentes des tailles différentes
Par contre la segmentation a pour but d’identifier les parties homogènes et lescontours, ces deux éléments sont pertinents pour segmenter un objet
les problématiques suivantes sont alors posées en raison de ne pas perde de vue lesobjectifs
— Comment localiser chaque gravats avec précision ;
— Comment localiser et segmenter l’objet en même temps ;
— Comment allons-nous réduire le nombre de paramètres de l’architecture
Trang 19recon-Dans cette section de revue littéraire nous allons faire la synthèse des algorithmes
de détections et de segmentation Plusieurs algorithmes existent pour effectuer cettetâche et chacun présente des avantages et inconvénients.En résumé ces méthodespeuvent être regroupés trois catégories :
2.1.1 Méthodes de détection
— Les modèles basés sur la recherche sélective : R-CNN, fast R-CNN
— Les modèles basés sur région proposal Network : Faster R-CNN,
— Modèle basé sur les grilles : Yolo framework
Trang 20CHAPITRE 2 ÉTAT DE L’ART
2.1.3 Méthode détection et segmentation en temps réel
— Les modèles basés sur région proposal Network : Mask R-CNN
2.2 Détection automatique d’objet
2.2.1 Réseau de convolution basé sur les régions (R-CNN)
Les réseaux de convolution basés sur les régions R-CNN est la toute première
mé-thode utilisant l’apprentissage profond pour la détection d’objet l’objectif [1] est quel’algorithme localise les objets en ce basent sur la méthode de recherche puis déter-miné les classes en utilisant le CNN L’algorithme de recherche permettant de localiserles objets dans une image s’appelle recherche sélective Cet algorithme utilise essen-tiellement les quatre régions qui forment un objet : la couleur, la texture, l’échelle etl’enceinte variable.Ces motifs dans l’image permettent à l’ algorithme de proposer di-verses régions ; son fonctionnement est simple, il prends à l’entrée une image puis ilgénère des sous-segmentations afin d’avoir plusieurs régions.Ensuite le processus deregrouper les régions similaire pour former une région plus grande basée sur la simila-rité de la forme, du couleur, du texture, de la taille et la comptabilité de la forme Enfin,ces régions produisent les emplacements d’objet finaux Chaque région proposée estredimensionnée en fonction de l’entrée du réseau de neurone convolutif qui extrait
un ensemble de caractéristiques dans un vecteur de 4096 dimensions Ces vecteurs decaractéristiques sont les données d’entrée pour les classifieurs afin d’obtenir les propo-sitions d’appartenance de chaque classe Chacune de ces classes possède un classifieurSVM entraîné pour optimiser la probabilité de détection de cet objet Une régressionlinéaire est appliquée pour déterminer la forme ou contour de la boite englobant pourune région proposé et ainsi réduire les erreurs de localisations Les auteurs ont entraî-nés le réseau décrit ci-haut avec le dataset suivant : tout d’abord le CNN est préformesur le dataset imageNet, après avoir adopté le réseau a notre problème de détection,
il est entraîné sur PASCAL VOC 2007 pour la validation des décisions de conception etles hyper paramètres Et enfin entraîner sur PASCAL VOC 2012 pour optimisation Lalocalisation a été ajuste en utilisant les régions proposées correspondant à un IoU su-périeur à 0.5 comme vérité sur le terrain, les classifieurs SVM sont aussi entraînes pourchaque classe de dataset
Trang 21CHAPITRE 2 ÉTAT DE L’ART
FIGURE2.1 – principe de l’architecture R-CNN
2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN)
Fast R-CNN est une version améliore du modèle R-CNN pour accélérer la vitesse de
détection et apporter des solutions aux inconvénients du R-CNN qui sont :
— La recherche sélective génère environ 2000 propositions de régions pour chaqueimage
— Chaque région d’intérêt entrée dans le réseau de neurone convolutif ce qui traîne une lenteur au moment du test
en-— le modèle requière une quantité importante d’espace de stockage
Le modèle Fast R-CNN développé par Ross-Girshick et al [2] avait pour objectif cipal de réduire le temps de calcul et de mémoire nécessaire dû au fonctionnement
prin-du RCNN en utilisant un réseau qui permet d’entraîner l’ensemble des couches en
un seul passage et mettre à jour tous les poids Au lieu d’utiliser un réseau de rones convolitif pour chaque région susceptible de contenir un objet, Fast RCNN prendl’image entière en entrée et l’envoie dans un CNN qui extrait les cartes de caractéris-tique.Les régions d’intérêt (RoI) sont détectées avec la recherche sélective appliqué sur
neu-la carte de caractéristiques produit neu-la dimension de neu-la cartes est réduite en utilisantune couche de pooling afin d’obtenir les régions d’intérêt valide avec des hauteur et
8
Trang 22CHAPITRE 2 ÉTAT DE L’ART
largeur et dimension fixe comme hyper-paramètre.les régions d’intérêt aplati sont troduites chacun dans un réseau entièrement connecte créant ainsi le vecteur de ca-ractéristique utilisé pour prédire l’objet observé à l’aide d’un classifieur softmax et unrégression linéaire pour déterminer les localisations à travers les boites englobantes.Lafigure ci-dessous illustre l’architecture
in-FIGURE2.2 – principe de l’architecture Fast R-CNN
2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN)
Ross Girshick et al avaient présente en 2016 une nouvelle architecture Faster
R-CNN pour la détection des objets Faster R-R-CNN est une variante de Fast R-R-CNN.La
dif-férence qui existe entre les deux modèle ce situe au niveau de la méthode utiliser pour
la reconnaissance d’objet dans l’image Faster R-CNN introduit un réseau RPN (Region
Proposion Network ) alors que Fast R-CNN est basée sur la recherche sélective
L’in-convénient de la recherche sélective, elle est très cỏteuse en calcul et mémoire Bienque Fast R-CNN ait adopté un processus qui permettait de réduire le temps de calcul
en prennent l’image entière.Mais la recherche sélective demeure un goulot
d’étrangle-ment pour les modèles R-CNN et Fast R-CNN.Dans Faster R-CNN, réseau de
propo-sition de region(RPN) a été introduit pour remplacer la recherche sélective cette thode vise à proposer des régions qui seront utilisées par la méthode Fast R-CNN pourdéterminer les boites englobantes et détecter les objets.RPN utilise les modèles pré-entraỵner pour la classification, c’est un réseau de convolution profond qui proposedes régions d’intérêt.Il prend à l’entrée l’image entière qui passe dans plusieurs couche
mé-de convolution qui génère en sortie les cartes mé-de caractéristique pertinentes Ces cartessont passés dans RPN qui applique une fenêtre de taille n x n qui parcourt l’ensembledes cartes de caractéristique pour produire un vecteur de caractéristique ;Ce vecteurest entièrement connectés à deux couches :classification et régression.A chaque posi-tion du fenêtre un maximum de K propositions de régions,les k régions sont appeléesancres et ont un nombre fixe Ces ancres ont de taille et forme diffèrent pour locali-ser les objets.la couche de classification utilise 2k pour génère un score d’objectivitépour chaque ancrage et la couche de régression 4K pour déterminer la boite d’ancrage
Trang 23CHAPITRE 2 ÉTAT DE L’ART
les boites d’ancrage détectées sont ensuite sélectionnées par rapport au score jectivité.Celles qui dépassent le seuil prédéfini sont acheminées vers Fast R-CNN au
d’ob-cas contraire l’objet détectée est éliminé.En utilisant RPN dans Faster R-CNN cela
per-mettait d’éviter la recherche sélective et d’augmenter la performance.L’architecture duréseau décrit ci-haut est illustré par la figure ci-dessous
FIGURE2.3 – principe de l’architecture Faster R-CNN
2.2.4 Réseau de convolution basé sur le masque de région(Mask
l’architec-la disposition spéciale de l’objet.L’inconvénient majeur du RoI pooling est que le RoI ànombre flottant est quantifié, cela entraîne des prêts d’informations.Cette quantifica-tion est sans effet sur la classification mais impacte la prédiction des masques objets.Lefaite que la branche masque a été ajouter trouver que la segmentation améliorer la lo-calisation et la détection
10
Trang 24CHAPITRE 2 ÉTAT DE L’ART
FIGURE2.4 – principe de l’architecture Mask R-CNN
2.2.5 Le modèle You Only Look Once(Yolo)
Le modèle You Only Look One(Yolo)[5] est un modèle qui consiste en un seul réseau
de neurone formé bout en bout pour la détection.Contrairement aux modèles étudiesprécédemment qui ne prend pas l’image entière , plutôt des régions susceptible decontenir un objet en utilisant des méthodes comme : recherche sélective et réseau deproposition de région Framework Yolo fusionne des deux étapes(détection et location)des algorithmes vus ci-haut ; détection considère comme un problème de classificationest formule par Yolo comme un tâche de régression, qui permettait de séparer le cadre
de sélection et associe les probabilité de classe.Il prend un image en entrée, une grille
de taille S x S est appliqué et ensuit les boites englobantes et les scores de confianceprévues(sont prédites) pour chaque boite Pour affecter un cadre de sélection à un ob-jet, algorithme vérifie si le centre d’objet ce trouve dans le grille et calcul le score lecalcul de score est basée sur IoU(Intersection over Union) Aire de l’intersection / Aire
de l’union Certes, yolo est rapide,qui est un atout pour les algorithmes de détection.Ilviens avec un problème de localisation.La figure ci-dessous illustre l’architecture
Trang 25CHAPITRE 2 ÉTAT DE L’ART
FIGURE2.5 – principe de l’architecture Yolo
2.2.6 Réseau complément convolutifs (FCNs)
Long et al 2015[6] présentaient une architecture pour la segmentation sémantiqued’image :les réseaux complètement convolutifs(FCNs).les CNNs utilisaient une archi-tecture pyramidale ou la dimension spatiale de l’image est réduit a chaque passage decouche profond et la profondeur s’accroît avant qu’il soit transmise à la couche entière-ment connectée Dans l’architecture FCNs les couches complètement connectées sontremplacées par un structure pyramidale qui réduit la profondeur et augmente la réso-lution spatiale par des opérations de sur-échantillonnage La dimension de la couche
de sortie est identique à celle de l’ image en entrée ;De même pour la profondeur et aunombre de classe Les couches entièrement connectées ne conviennent pas à la seg-mentation pour deux raisons :L’image en entrée doit être de la même dimension et elleentraînent une perte d’information locales très important en segmentation
12
Trang 26CHAPITRE 2 ÉTAT DE L’ART
FIGURE2.6 – principe de l’architecture du réseau complément convolutifs
2.2.7 Unet
Ronneberger et al 2015[7] avaient présenté une architecture basée sur FCN lement développé pour la segmentation d’image biomédicale suite aux problèmes avecFCN traditionnelle L’inconvénient avec le FCN original,il dispose d’une seul opération
spécia-de sur-échantillonnage.Cela réduire la complexité et améliorer la prédiction spécia-de sification et de localisation mais un problème est apparu : faible résolution d’image
clas-en sortie Pour remédier à cela plusieurs variantes de types FCNs ont été proposés,nous étudierons seulement celle de l’encodeur-décodeur.les modèles FCNs de typeencodeur-décodeur sont formés de deux partie, l’encodeur qui fonctionne avec la struc-ture pyramidale des CNNs C’est au niveau de la deuxième partie que se trouve la diffé-rence, au lieu d’une seul opération de sur-échantillonnage comme dans FCNs original
Le décodeur est symétrique à l’ encodeur, les opérations de sous-échantillonnages sontremplacés par des sur-échantillonnages Le but est de retrouver la dimension spatiale
et de récupérer les détails de l’image L’architecture est illustrée par la figure ci-dessous