1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn phát triển các thuật toán nhận dạng hình dạng Để xác Định và mô tả Đặc tính của Đống Đổ nát tái chế

50 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Development of shape recognition algorithms to identify and describe characteristics of recycled debris
Tác giả Saidi Daouda Kadri
Người hướng dẫn Dr. Nicolas Sidere, Dr. Jérome Lux
Trường học Université Nationale du Vietnam, Hanoi, Institut Francophone International
Chuyên ngành Informatics
Thể loại thesis
Năm xuất bản 2020
Thành phố Hanoi
Định dạng
Số trang 50
Dung lượng 1,4 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Plusivurs algarithmes existent pour effectuer celle tache et chacun présente des avantages et inconvénients.En résumé ces méthodes peuvent étre regroupés trois catégoties : 2.1.1 Méthade

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL

Saidi DAOUDA KADRI

Développement d’algorithmes de

reconnaissance de formes pour identifier et

caractériser des gravats recyclés

Phat triển các thuật toán nhận dạng hình

dạng để xác định và mô tả đặc tính của đắng

đổ nát tái chê

Spécialité: Systemes Intelligenis et Muldmédia

Code : Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER

INFORMATIQUE

Sous la direction de:

Dr Nicolas SIDERE, Assistant Professeur

Dr Jérome Lux, Maitre de Conférence

Nicolas Sidere : Favorable

'HANGf - 2020

Trang 2

ATTESTATION SUR LHONNEUR

Jatteste sur 'honneur que ce mémoire a été réalisé par moi-méme et que les données

et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La

source des informations citées dans ce mémoire a été bien précisée

LOI CAM DOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu

trong Luận văn là trung thực và chưa từng được ai công bồ trong bất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn

Trang 3

Remerciements

Je souhaite tout d'abord a exprimer mes plus vifs remerciements a mes encadrants

Monsieur Nicolas Sidére, Assistant Professeur et Monsieur Jérome Lux Maitre de Confé-

rence pour mavoir accompagné et guide tout au long de mon stage Leurs consetls, leur

disponibililé mont permis de compléter ce mémoire et dacquérir une expérience inesti-

mable

Je remercie également le Dactorant Jean David Lau Hiu Hoong qui, malgré son em-

ploi du temps chargé & toujours su se rendre disponible lorsque favais besoin des expli-

cations on accede au machine de calcul

Je tiens & remercier Dr Muhammad Muzzamil LUIQMAN ef tout l'équipe di labora-

toire L3i qui ont participé a la réalisation et validation de ce projet

Je voudrais aussi remercier notre respumsable de Muster Dr Ho Tuong Vinh ainsi que

tous les personnels pédagagiques et administratifs de l'Institut Krancophane internatia-

nal, Université National de Vietnam à Hanoi

Enfin, je tiens @ exprimer ma profonde gratinude @ mes parents, @ ma famille pour

im'avoir apporté un soutien indéfectible et des encouragements canstants tout au long de

ies années de Master

Je ne saurais ouhlier M Tionel Moussou et mes amis qui ont toujours été la pour moi

Votre soutien inconditionnel et vos encouragements ont été d'une grande aide Je vous

remercie

Suidi DAGUDA KADRI

Trang 4

Résumé

Chaque annéc la France produit des millions de tonne de déchets incrtcs ct réuti-

liser une partie peu significalif.Dans ee projet il est question de trouver les moyens

iduines pour la valarisalion ces déchels au profil de Putilisalion des ressources nalu-

relles

Apres I'étape de création de la base de données suivi de l'implémentation d’une modele de classification.Létape suivante que nous avons aborde dans ce manuscrits

consiste 4 implémenter une méthode de détection et segmentation d'objet Le systeme

humaine est composé de plusieurs organes, mais celui qui s‘occupe de l'oeil est très complexe et joue un réle majeur Un seul coup d’oeil sur une image, homme arrive & identifier et localiser les objets sur l'image

La reproduction du fonctionnement des yeux sur ‘ordinateur sont des taches fasti- dieuses et laborieusement effectuées par les chercheurs, Mais depuis quelques années aver les méthades hasées sur l'approntissage profand, cos aches devicrment de plus

en plus facile

Pour attcindre Ics objcctifs nous étudicrons Ics travaux cxistant qui traite unc partic

ou Loiale de notre sujel afin d’avoir des connaissances sur les méthodes pour pouvnir

proposer une solulion et apporler des con

uirins

Mats clés : Reeonnaissance de formes, Analyse d'image, Apprentissage profend, Segmentation sémanlique, Segmentation Winstance, Agrégats recycles

Trang 5

Abstract

Each year France produces millions of tonnes of inert waste and reusing some oft

can be significant In this project it is a question of finding the appropriate means for the recovery of these waste for the henefit of the use of natural resources

After the step of creation of the database tollowing impiementation of a classifica- tion model The next step that we will discuss in this manuscript consists in implemen- ting a method of object detection and segmentation, The human system is made up of

several organs, but the one that takes care of the cye is very complex and plays a major

roie With a single glance at an image, man can identify and locate the objects on the

image

Reproducing the functioning of the eyes on the computer are tedious and laho- tiousty carried out by researchers a few years with the methods based on deep lear-

ning, these tasks become more and more eas!

‘To reach the objectives we will study the existing work which treats part or total of our subject in orderto have knowledge on the methods to be able to propose a solution

and make contributions

Keywords :Paitern recognition, Tmage analysis, Decp learning, scmantic segmen- tation, instance segmentation, recycled aggregates:

Trang 6

Table des matiéres

1.1 Présentation de l’établissement d'accueil 2

LEE 13h « wis ay 3” xã Riese ““ <

1.1.1.1 Le laboratoire L3i, la structure de recherche en informa-

tique de 'Université de La Rochelle 2

1.1.1⁄2 Une politique scientiñque ancrée sur des enjeux socio-

21:3 ‘Méthode détection étseamentitionen temps réel #

2.2.1 Réseau de convolution basé sur les régions (R-CNN) 7

22.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN) 8 2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN) « 9

2.2.4 Réseau de convolution basé sur le masque de région(Mask R-CNN) 10 2.2.5 Le modéle You Only Look Once(Yolo) ,

2.2.6 Réseau complément convolutifs (FCNs)

Trang 7

TABLE DES MATIERES

3.1.1.5 Tête de Détection nu 3.1.16 Tête deSegmentation

Trang 8

Table des figures

BE) LOBOS + sa as avn woe

1⁄22 Logo Univ-la Rochelle

2.1 principe de l'architecture R-CNN

2.2 principe de l'architecture Fast R-CNN

2.3 principe de l'architecture Faster R-CNN

24 principe de l'architecture Mask R-CNN

2.5 principe de l'architecture Yolo

2.6 principe de l'architecture du réseau complément convolutifs 13 2.7 principe de l'architecture du réseau complément convolutifs 14 2.8 principe de l'architecture du réseau complément convolutifs 15

3.2 Resnet Méthode ee

3.3 ArchitecturedeFPN

3.4 Architecture de Region Proposal Network

3.5 Architecture de Region Proposal Network

3.6 Architecture des tétes de sorties

3.7 Architecture d’acquisition d'image

Trang 9

TABLE DES FIGURES

Trang 10

Liste des tableaux

2:1, Tableau compatatifi css ec wewssnaie eee wou 2n 22 1 0g eee Bie es Boe 16 4,1 Tableau des Résultats

4.2 Tableau des Résultats

Trang 11

Liste des sigles et acronymes

MASK RCNN

(RCNN — Réseau de convolution basé sur les région

Past R-CNN Réseat convolttionnel rapide base sur la région

Faster R-CNN Héseau de convolution régional plus rapide

RPN Réseau de proposition de région

Mask R-CNN Réseau de convoiterion basd sur le masque de région Yolo You Only Look Once

FCNs Réseau complément convoltetifs

Trang 12

chaque annéc Pas plus 15 million de tonnes sont valorisés aprés unc longue processus

de recyclage la question qui sc pose esl de savoir comment rchausser Ie Laux de valo-

tisalion? Pune des oplions consisles 4 minimiser utilisation des granulats naturelle,

Cc travail s'inscrit dans la continuité d'un projet dont la premiére phase était la classification des images de granulals recycles, les résultats oblcnus étaient impres-

sinnnanis avee un taux erreur de 5 % La seconde Glape qui fait Vobjel de notre Glude

consiste 4 implémenter les algorithmes de reconnaissance d’objet en temps réel pour

identifier chaque type de gravats

Le processus de valorisation des déchets comporte plusieurs étapes Aprés la col-

lecte, ils sont envoyés aux plate-tormes de recyclage A ce niveau il existe certains phases trés pénihle ou les techniciens devront trié manuellement les gravats Ce trie demande beaucoup d’effort humaine et de temps pour en traiter une quantité peu importante

de déchets

Dans le monde actuel, nous vivons dans l’ére de la révolution informatique avec l'apparition des super-calculatcurs ct aussi la dispanibilité des méga données acquit grace 4 des apparcils its suphistiques, el une grande partic à Lravers Vinlernet A par-

lir de ces deux aspects, les réseaux de neurmme convalulif el d'autres ont permis de

résoudre des problémes trés fastidieux : la reconnaissance d’abjet, d'action, détection

Trang 13

CHAPITRE 1 INTRODUCTION GENERALE

la

Informatique

Image _ Interaction La Rochelle

EIGURE 1.1~ Logo L3i FIeURE 1.2- Logo Univ-la Rochelle

Cestage s'est déroulé enti¢rement au laboratoire L3i (La Rochelle) au sein de l'équipe

Images et Contenus

1.11 L3i

1.1.1.1 Lelaboratoire L3i, la structure de recherche en informatique de "Université

de La Rochelle

Créé en 1993, le Laboratoire Informatique, Image, Interaction (L3i) est le labora-

toire de recherche du domaine Sciences du Numérique de l'Université de la Rochelle

Il comporte 98 membres travaillant dans les domaines de I'Informatique, I'Image et

I'Interaction Il associe les chercheurs en informatique de I'ITUT et du Péle Sciences de

l'Université de La Rochelle

1.1.1.2 Une politique scientifique ancrée sur des enjeux socio-économiques

En terme de politique scientifique, le laboratoire L3i développe un projet de re-

cherche résolument tourné vers les enjeux de société, adressant des problématiques

jugées stratégiques au plan européen (programme Horizon 2020) et national (techno-

logies clés du ministére du redressement productif, alliance ALLISTENE )

Ce projet est articulé avec la politique scientifique globale de l'université dans son ensemble (I'axe de recherche du laboratoire L3i est un des deux axes stratégiques de

l'Université de La Rochelle), en relais avec la politique de développement des collecti- vités territoriales, et en particulier de la région Poitou-Charentes

Trang 14

CHAPITRE 1, INTRODUCTION GENERALE

1.1.1.3 Une politique de réseau consolidée

Le laboratoire L3i est intégré aux réseaux de recherche régionaux (Fédération CNRS MIRES, ERT « Interactivité numérique »), nationaux (GDR 13, et GDR ISIS) et internatio- naux (IAPR) dans les secteurs de visibilité de son action scientifique, autour d’un projet

slralégique li¢ a Ja gestion intelligente ct interactive des conienus numériques Ceci est

consolidé par une politique volontariste de participation ou de pilotage de projets de recherche labellisés (ANK, PCRD, .1, au sein desquels le laboratoire occupe souvent une position de leadership

1infin, son action internationale est actuellement renforcée avec des liens privilé- giés avec de nombreux centres de recherche A travers le monde (Espagne, Japon, Viet- nam, Tunisie, Malaisie)

1.1.1.4 UnecnHure de la relation avec ['entreprise avec Valconum

Une autre originalité du projet porté par le L3i est son lien particuliérement fort

avec le monde socia-écanomique, avec la création de I’écnsystéme Valconum (Centre Jivopéen de Valorisation Numérique) qui représente un consortium académique et

industriel regroupant de nombreuses unités de recherche en Hrance et a ’étranger, et

des entreprises de portée nationale et du territoire picto-charentais

Labjectif de la création de cet écasystéme est de contribuer Ala compétitivité scien- tifique et industrielle frangaise, sur un sujet précis, abordé sous un angle systémique

Les concepts d'innovation et de transfert technologique représentent les piliers de ce

consortium '

1 tps «/Fhetps ://1Si.univ-larachelle.fr/ Presentation

a

Trang 15

CHAPITRE 1, INTRODUCTION GENERALE

1.2 Contexte et problématique

1.2.1 Contexte

La vision humain est l'un des organes qui nous permet d’étre relation direct avec

le monde extérieur adaptation des machines pour réaliser cette tache ardue n'est

pas du tout unc chose facile.Car plusicurs parametres cntre en jcu (la forme, la cou- Jeur, la Lexture elc ) La farme nous permet d’avoir unc représcnialiin plus pré

Tobjet, ce qui a conduit & la discipline appelle reeunnaissance de forme

sance de forme a joué un réle importante dans plusieurs aspects Les chercheurs et

ingénieurs ont mené des études approfondis qui ont aboutis A des articles et applica- tions(Hobotique, Biologique, analyse de texte etc ) ces techniques ont révolutionné le monde,mais reste inférieur 4 la vue humaine

1.2.1.2 Objectifs

Les travaux effectués dans ce stage ont pour objectifs, de faire une étude des solu-

tions pour la détection ct scgmentation dc gravats dans unc image ;Avoir cn sortic uni- quement le masque ct boite englabante et enfin implémenter Varchitceture resncll 8

En résume les objectifs peuvent étre regroupés en deux partie :

—- Proposer et implémenter une méthode de détection et segmentation

— Modifier la sortie pour avoir uniquement le masque et hoite englobante

— Implềmenter Ïarchitecture resnet 18

1.2.1.3 Problématiques

Ta déteetion ol segmentatinn sont des (aches ardues de la vision par ordinaLeur.Ta

détection consiste à localiser objet en utilisant la boile délimilation ef 4 déterminer la

catégorie.Pour I’implémentation plusieurs paramétres doivent étre pris en compie.En

effet, dans Jes scenes naturelles les gravats peuvent apparaitre dans de nombreux va- tiations :

— Variation du paint de vue :ies gravats sont entités physiques tri-dimensionnelles,ieur

apparence change en fonction de l'angle de vue

— Variation d’'illumination :des changements peuvenLapparaitre sur gravals en fonc-

tim de l'environnement de leur acquisiti

Trang 16

CHAPITRE 1, INTRODUCTION GENERALE

— les acclusions : les objels peuvent étre partiellement nu Lolalemen| masques par

d'autres objets dans une image

— les variations d’échelle :Concernant |’échelle ils peuvent arriver que les gravats

d'une méme calégoric présenics des Lailles différentes

Par contre la segmentation a pour but d’identifier les parties homogénes et les

contours, ces deux éléments sont pertinents pour sepmenter un objet

les problématiques suivantes sont alors posées en raison de ne pas perde de vue les

objectifs

— Camment localiser chaque gravals avec précisinn;

— Comment localiser et segmenter l'objet en méme temps;

— Camment allons-nous réduire le nombre de paramétres de Marchilceture.

Trang 17

une méthode qui fonctionnera comme les yeux humains

Dans cette section de rovue littéraire nnus allons faire la synthéxe des algorithmes

de délections el de segmentation Plusivurs algarithmes existent pour effectuer celle tache et chacun présente des avantages et inconvénients.En résumé ces méthodes peuvent étre regroupés trois catégoties :

2.1.1 Méthades de détection

— Les modéles basés sur la recherche sélective : R-CNN, fast R-CNN

— Les modéles basés sur région proposal Network : Faster R-CNN,

— Modéle basé sur les grilles : Yolo framework

2.1.2 Méthodes de segmentation

— Fully Convolutional Network for Semantic Segmentation

— Deconvolution Network

— Unet

Trang 18

CHAPITRE 2, ETAT DE ART

2.1.2 Méthode détection ct segmentation en temps réel

— Les modéles basés sur région proposal Network : Mask R-CNN

2.2 Détection automatique d'objet

2.2.1 Réseau de convolution basé sur les régions (R-CNN)

Les réseaux de convolution basés sur les régions R-CNN est Ja toute premiére mé-

thodce utilisant l'apprentissage profond pour la détceliun d’objecl l'objectif [1] est que

Valgorithme localise les objets en ce basent sur la méthode de recherche puis déter- miné les classes en utilisant le CNN L'algorithme de recherche permettant de localiser les objets dans une image s’appelle recherche sélective Cet algorithme utilise essen-

tiellement les quatre régions qui forment un objet : la couleur, la texture, échelle et Venceinte variable.Ces motifs dans l'image permettent a P algorithme de proposer di- verses régions; son fonctionnement est simple, il prends a ’entréc une image puis il génére des sous-segmentations afin d'avair plusicurs régions.Ensuite le processus de Tegrouper les régions similaire pour former une région plus grande basée sur la simila- rité de la forme, du couleur, du texture, de Ja taille eta comptabilité de la forme Enfim, ces régions produisent les emplacements d'objet finaux Chaque région proposée est redimensionnée en fonction de l’entrée du réseau de neurone convolutif qui exwait

un ensemble de caractéristiques dans un vectcur de 4096 dimensions, Ces vectcurs de

caractéristiques sunt les données d’entrce pour les clas fin dobtenir les propa-

SVM entrainé pour aplimiser la probabililé de détection de cel objel Une régressian linéaire est appliquée pour déterminer la forme ou contour de la boite englobant pour

une région proposé et ainsi réduire les erreurs de localisations Les auteurs ont entraf- nés le réseau décrit ci-haut avec le dataset suivant : tout d’abord le CNN est préforme sur le dataset imageNet, aprés avoir adopté le réseau a notre probleme de détection, ilest entrainé sur PASCAL VOC 2007 pour Ja validation des décisians de conception et les hyper paramétres Et cnfin entraincr su: PASCAL VOC 2012 pour optimisation La

localisati j ons propasces carrespundant & un Tol su-

périeur a 0.5 comme vérité sur le terrain, les classitieurs SVM sont aussi entraines pour

chaque classe de dataset

Trang 19

CHAPITRE 2 ETAT DE LART

R-CNN Linear Regression for bounding box offsets

Classify regions with

Bbox res |[ Svs (me £ SVMs

Ficure 2.1 - principe de l’architecture R-CNN

2.2.2 Réseau convolutionnel rapide basé sur la région(Fast R-CNN)

Fast R-CNN est une version améliore du modéle R-CNN pour accélérer la vitesse de

détection et apporter des solutions aux inconvénients du R-CNN qui sont:

— Larecherche sélective génére environ 2000 propositions de régions pour chaque

image

— Chaque région d'intérét entrée dans le réseau de neurone convolutif ce qui en-

traine une lenteur au moment du test

— le modéle requiére une quantité importante d’espace de stockage

Le modéle Fast R-CNN développé par Ross-Girshick et al [2] avait pour objectif prin-

cipal de réduire le temps de calcul et de mémoire nécessaire da au fonctionnement

du RCNN en utilisant un réseau qui permet d’entrainer l'ensemble des couches en

un seul passage et mettre a jour tous les poids Au lieu d'utiliser un réseau de neu- rones convolitif pour chaque région susceptible de contenir un objet, Fast RCNN prend

l'image entiére en entrée et I'envoie dans un CNN qui extrait les cartes de caractéris-

tique.Les régions d’intérét (Rol) sont détectées avec la recherche sélective appliqué sur

la carte de caractéristiques produit la dimension de la cartes est réduite en utilisant

une couche de pooling afin d’obtenir les régions d’intérét valide avec des hauteur et

Trang 20

CHAPITRE 2 ETAT DE LART

largeur et dimension fixe comme hyper-paramétre.les régions d'intérét aplati sont in-

troduites chacun dans un réseau entigrement connecte créant ainsi le vecteur de ca-

ractéristique utilisé pour prédire l'objet observé a l'aide d’un classifieur softmax et un

régression linéaire pour déterminer les localisations a travers les boites englobantes.La figure ci-dessous illustre l'architecture

'

Ficure 2.2 principe de l’architecture Fast R-CNN

2.2.3 Réseau de convolution régional plus rapide (Faster R-CNN)

Ross Girshick et al avaient présente en 2016 une nouvelle architecture Faster R- CNN pour la détection des objets Faster R-CNN est une variante de Fast R-CNN.La dif- férence qui existe entre les deux modéle ce situe au niveau de la méthode utiliser pour

la reconnaissance d’ objet dans l'image Faster R-CNN introduit un réseau RPN (Region

Proposion Network ) alors que Fast R-CNN est basée sur la recherche sélective Lin-

convénient de la recherche sélective, elle est trés cofiteuse en calcul et mémoire Bien

que Fast R-CNN ait adopté un processus qui permettait de réduire le temps de calcul

en prennent l'image entiére.Mais la recherche sélective demeure un goulot d’étrangle- ment pour les modéles R-CNN et Fast R-CNN.Dans Faster R-CNN, réseau de propo- sition de region(RPN) a été introduit pour remplacer la recherche sélective cette mé- thode vise a proposer des régions qui seront utilisées par la méthode Fast R-CNN pour

déterminer les boites englobantes et détecter les objets.RPN utilise les modéles pré-

entrainer pour la classification, c'est un réseau de convolution profond qui propose des régions d'intérét.Il prend al'entrée l'image entiére qui passe dans plusieurs couche

de convolution qui génére en sortie les cartes de caractéristique pertinentes Ces cartes

sont passés dans RPN qui applique une fenétre de taille nx n qui parcourt l'ensemble

des cartes de caractéristique pour produire un vecteur de caractéristique;Ce vecteur

est entigrement connectés & deux couches :classification et régression.A chaque posi- tion du fenétre un maximum de K propositions de régions,les k régions sont appelées

ancres et ont un nombre fixe Ces ancres ont de taille et forme différent pour locali-

ser les objets.la couche de classification utilise 2k pour génére un score d’objectivité

pour chaque ancrage et la couche de régression 4K pour déterminer la boite d’ancrage

9

Trang 21

CHAPITRE 2 ETAT DE LART

les boites d'ancrage détectées sont ensuite sélectionnées par rapport au score đ'ob-

jectivité.Celles qui dépassent le seuil prédéfini sont acheminées vers Fast R-CNN au

cas contraire l'objet détectée est éliminé.En utilisant RPN dans Faster R-CNN cela per- mettait d’éviter la recherche sélective et d'augmenter la performance.Larchitecture du

réseau décrit ci-haut est illustré par la figure ci-dessous

seat]

Fast R-CNN Map

Rot Pooling Fully Connected Layers

Ficure 2.3 — principe de l'architecture Faster R-CNN

2.2.4 Réseau de convolution basé sur le masque de région(Mask R-

CNN)

Le modéle Mask R-CNN développé par Kaiming He et al [4] est une extension du

modéle faster R-CNN Mask R-CNN est le résultat d’une combinaison de faster R-CNN

et du réseau entiérement convolutionnel (FCN) La figure ci-dessous illustre l’architec-

ture, Mask R-CNN ajoute une troisiéme branche pour la reconnaissance d’ ancre sélec- tionnée afin de prédire un masque pour l'objet.Mask R-CNN utilise les deux étapes du Faster R-CNN en modifiant certain partie.Dans la premiére étape, Mask R-CNN adopte

l'architecture RPN.Mais, au niveau de la deuxiéme étape Mask R-CNN étant du faster

R-CNN original Outre la prédiction des classes et les boites englobantes mask r-cnn af- fiche un masque binaire pour chaque Rol.La représentation du masque permet d'avoir

Ja disposition spéciale de |'objet.Linconvénient majeur du Rol pooling est que le Rol & nombre flottant est quantifié, cela entraine des préts d'informations.Cette quantifica-

tion est sans effet sur la classification mais impacte la prédiction des masques objets.Le faite que la branche masque a été ajouter trouver que la segmentation améliorer la lo- calisation et la détection.

Trang 22

CHAPITRE 2 ETAT DE LART

FiGure 2.4 — principe de l’architecture Mask R-CNN

2.2.5 Le modéle You Only Look Once(Yolo)

Le modéle You Only Look One(Yolo)(5] est un modéle qui consiste en un seul réseau

de neurone formé bout en bout pour la détection.Contrairement aux modéles étudies

précédemment qui ne prend pas l'image entiére , plutét des régions susceptible de

contenir un objet en utilisant des méthodes comme : recherche sélective et réseau de proposition de région Framework Yolo fusionne des deux étapes(détection et location)

des algorithmes vus ci-haut; détection considére comme un probléme de classification est formule par Yolo comme un tache de régression, qui permettait de séparer le cadre

de sélection et associe les probabilité de classe.ll prend un image en entrée, une grille

de taille $ x $ est appliqué et ensuit les boites englobantes et les scores de confiance prévues(sont prédites) pour chaque boite Pour affecter un cadre de sélection a un ob-

jet, algorithme vérifie si le centre d'objet ce trouve dans le grille et calcul le score le

calcul de score est basée sur IoU(Intersection over Union) Aire de l'intersection / Aire

de l'union Certes, yolo est rapide,qui est un atout pour les algorithmes de détection.I]

viens avec un probleme de localisation.La figure ci-dessous illustre l’architecture.

Trang 23

CHAPITRE 2 ETAT DE LART

Gone Laer Com Laat GW LmAr Site? ảnhHEs£ hh#se? tan Lm, satis: (EU và

\Varso Laer Magoo Lar Manse Laer timocs Layer Maco yee Mage’ ayer SONORA? Mal hoa? Bhed Bad x3

Figure 2.5- principe de l'architecture Yolo

2.2.6 Réseau complément convolutifs (FCNs)

Long et al 20156] présentaient une architecture pour la segmentation sémantique

d'image :les réseaux complétement convolutifs(FCNs).les CNNs utilisaient une archi- tecture pyramidale ou la dimension spatiale de l'image est réduit a chaque passage de

couche profond et la profondeur s’accroit avant qu'il soit transmise a la couche entiére- ment connectée Dans l'architecture FCNs les couches complétement connectées sont

remplacées par un structure pyramidale qui réduit la profondeur et augmente la réso-

lution spatiale par des opérations de sur-échantillonnage La dimension de la couche

de sortie est identique a celle de I’ image en entrée;De méme pour la profondeur et au nombre de classe Les couches entiérement connectées ne conviennent pas a la seg-

mentation pour deux raisons :Limage en entrée doit étre de la méme dimension et elle

entrainent une perte d'information locales trés important en segmentation

12

Trang 24

CHAPITRE 2 ETAT DE LART

Ronneberger et al 2015[7] avaient présenté une architecture basée sur FCN spécia-

lement développé pour la segmentation d'image biomédicale suite aux problémes avec FCN traditionnelle Linconvénient avec le FCN original, il dispose d’une seul opération

de sur-échantillonnage.Cela réduire la complexité et améliorer la prédiction de clas-

sification et de localisation mais un probléme est apparu : faible résolution d'image

en sortie Pour remédier a cela plusieurs variantes de types FCNs ont été proposés,

nous étudierons seulement celle de l'encodeur-décodeur.les modéles FCNs de type

encodeur-décodeur sont formés de deux partie, l'encodeur qui fonctionne avec la struc-

ture pyramidale des CNNs, C’est au niveau de la deuxiéme partie que se trouve la diffé-

rence, au lieu d’une seul opération de sur-échantillonnage comme dans FCN original

Le décodeur est symétrique a! encodeur, les opérations de sous-échantillonnages sont remplacés par des sur-échantillonnages Le but est de retrouver la dimension spatiale

et de récupérer les détails de l'image L’architecture est illustrée par la figure ci-dessous

Trang 25

CHAPITRE 2 ETAT DE LART

Ficure 2.7 - principe de l’architecture du réseau complément convolutifs

2.2.8 Réseau de de-convolution (Auto-encodeur)

Hyeonwoo et al 2015(8] ont proposés un nouvel algorithme de segmentation ap-

pelée réseau de dé-convolution Le but de leur travail est de surmonter les limites des

méthodes basées sur les réseaux entiérement convolutifs en intégrant une partie de de- convolution profonde les algorithmes de segmentation basées sur les CNNs consiste & interprétes les couches complétement connectées en couche de de convolution Cette

méthode développée par Long [4] améliore la classification et détection mais rencontre

certains problémes dti au faible résolution de d'image.Pour surmonter ces limites, ils introduisent un réseau composé de couche de de-convolution et de désengagement,

la figure ci-dessous est une représentation détaillée du réseau Il est composé de deux

parties : le réseau convolution qui extrait les caractéristiques et en sortie ona les cartes

de caractéristique, ces cartes sont ensuite passé dans le réseau de de-convolution pour

régénérer la forme de chaque objet dans l'image

14

Ngày đăng: 31/05/2025, 13:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w