21 [T4 Image de prédiction dilastik pour une boite de Petri de doo brates i 22 26 Tableau résumant Tes résultats du modéle sur Ja varicté résistantc.].. 37 jon du modele pour une boite
Trang 1
UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPIIONE INTERNATIONAL
PIERRE DAVID
IMAGERIE ET DEEP LEARNING APPLIQUES A LA
DETECTION DE MALADIES DES PLANTES
KHOA HOC HINH ANH VA DEEP LEARNING UNG
DUNG CHO PHAT HIEN BENH CAY TRONG
MEMOITRE DE FIN ETUDES DU MASTER INFORMATIQUE
Tlanoi — 2019
Trang 2
=
Betterave2020
IMAGERIE ET DEEP LEARNING APPLIQUES A LA DETECTION
DE MALADIES DES PLANTES
RAPPORT DE STAGE
David PIERRE Stagiaire au LARIS, Université d’Angers
Encadré par Professeur David ROUSSEAU
31 octobre 2019
@ Tous droits réservés
Trang 3Table des matiéres
[22 Comptage des kystes par une approche de sélection manuclle des caractéristiques en]
19
19
20
GE Architecture deTasotution propose] 24
[ELT _Variétés Résistantes - Modéle de Densité Résistante (30 Kysfes] + 37
(4.1.2 Varictés Résistantes Intermédiaires - Modele de Densité Résistante Intermédiaire
OE a Ses Si SS Gis KS SR Oe Hs Sad aE OS aie ere ào 38
Trang 4
FATE FW SST EATS EPS ESOS
rel ietés.] eer x ee x ¥ « 45
(E43 Modele entrainé sur la densite sensible, teste sur toutes les varietes| 49
Trang 5Table des figures
& dite un cas de nématode sur & racines de Ta betterave sucriere| 13
ECOilifeettiE đe Tapproee expert en piisantTe Traifemenrimaze] 17
Í_ Resume đes rẻsulfats đe Tapproche d'expert en utilisant le traitement d'images 171] 18
TT Tmage đe prẻdicton dilastik pour une boite de Petri de TS kystes] „ è 20
[2 Image de prediction d'ilastik pour une boite de Petri de ST kystes| 21
Tmage de prediction dilastik pour une boite de Petri de tes] 21
[T4 Image de prédiction dilastik pour une boite de Petri de doo brates i 22
(26 Tableau résumant Tes résultats du modéle sur Ja varicté résistantc.] 37
jon du modele pour une boite de e150 Kystes de cet ensemble de données }30 (0_—Tableau résumant les résultats du modele sur la variete sen sẽ ae suersas J
[cai résumant les résultats moyens de chaque modele sur Teurs vai Tespectives 40
(82_Prédiction du modéle pour une boite de Petri de 13 kystes de cet ensemble de données, 41
[83_Tableau résumant les résultats du modéle sur ces jeux de données} $ Š 42
(B4 Tableau rẻsumant les rẻsultats đu modele sur ces jeux đe donnes.j 43
(85 Tableau résumant les rẻsultats du modele sur ces jeux de données, „ 44
(86 Tableau resumant Ies résultats de ce modele sur toutes les varictes TraifZeS tem để
B7_Prédiction du modéle pour unc boite de Petri de 13 kystes de cet ensemble de données] 45
[eau resumant les résultats du modele sur ces jeux de données] 46
(89_Tableau résumant les résultats du modéle sur ces jeux de données} 47 {4Ø Tableau rẻsumant Ïes rẻsultats đu modele sur ces jeux de đonnées.} „48
TC hien rẽ tin les rESuHais de cc mod si Toifz.ES vaieitaiiees tem de]
E—EHSBỦ- sac cố sỉ sẽ Oe Le AURA we Eee ae oe SUNTEEEN) AE eR CHAT 48
(#3_Tableau résumant Tes résultats đe ce modéle sur toutes Tes variétés traitées Jeux de
[Eee sinccasatare cq inigny wie Mb aegis bie Waiune a ace GGT NOL at avy 50
Trang 6
feau resumant Tes ats de ce modele sur toutes Tes vi eS Yeux de
S07) ere te SNA-3)S: 620501 ' ue sia oa ¥ 3 52 (#7_Tableau résumant les résultats de chaque modéle sur toutes Tes varietés traitées (jeux
[48 “Tableau de comparaison de référence]
Trang 7
Remerciements
Je liens & remercier Dicu pour la santé qu'il me donne cl sa protection illimiléc on Lemps ré envers moi et ma famille Merci A ma famille pour leurs encouragements et leur soutien inconditionnel
Je remercie mes superviscurs, Ics Dra Navid ROUSSEAU & Pcjman RAST, pour Icurs conscils,
leurs cncouragements et leurs directives pour faire avancer ce travail
adresse également toute ma reconnaissance a Pequipe ImHorPhen avec laquelle nous avons créé une ambiance positive de partage afin d’allcr vers Favant
Ce (ravail a regu [appui du gouvernement francais, supervisé par LAgence Nationale de la Re- cherehe dang le cadre du programme Investiasements d’Aventr sous la référenes ANR-11-RTBR-0007
(programme AKER).
Trang 8Résumé
La présence de maladics chez le planes cst naturclle Une maladic de la plant val une condition anormale qui modifie 'apparence et / ou la fonction de cette derniére Lidentification des maladies chez lea plantes est importante pour I praduction agricole, damaine dent dépend beauconp Técono- mic Dans le monde de la recherche sur les plantes, loraquiune nouvelle variéte est erééc, clic dott
@lre inscrile duns fe calulogue officiel des variélés
Dans le cadre d’essais visant 4 évaluer la qualité de nouvelles variétés, les pronérhives devaluation
sont généralement cffectuées manuellement par inspection visuelle dirccte Lea progrés réalieés dane
Je domaine de Fintelligence artificielle notamment le Deep Learning, de Facquisilion el du uailement,
dlimages, les progrés matériels, ou les cartes graphiques avec une grande puissance informatique
apéclallséc ont devenucs peu coittcuscs ct omniprésentes, ont motive la recherche de procédures
automatisées a haut-cébic remplacant inspection visuclle dircete
Le but de ce travail est d'utiliser Fapprentissage automatique pour 1a segmentation puis le comp- tage des kystes de némarode de la betterave sucriere
Mots clés : Imagerie, Segmentation, Deep Learning, Shallow Learning, Maladies des Plantes,
‘ystes de Nématndes, Tests đe Ré:
lamee de Nouvelles Variétés,
Trang 91B CHAPITERE 1 - INTRODUCTION
Laboratoire Angevin de Recherche en Ingénierie des Syst?mes - LARIS,
sous tutelle des établissements et organismes : Université d'Angere-UA
1.1.1 Historique et localisation géographique de I'unité
Le Laboratoire Angevin de: Recherche cn Ingénierie des Systémes (LARIS) a été eréé en janvier
2014 [1]; iLale statut dPauipe d’Accueil {EA 7315) et est placé sous la tutelle de Université d'Angers (UA) Lunilé résulle du regroupement de deux Jaborawires créée au débul des années 1990 : le Laboratoire d'Ingénierie des Systémes Automatisés (LISA, TA en 1996) ef Te Laboratoire en Streté
de fonctionnement, Qualité et Organisation (LASQUQ, EA en 2004), Le personnel de l'unité est
TÉparH sur plusicurs sites 4 Angers dont In site principal cst Tinstitut des Sctences ct Techmiques de
Tngénieur (ISTIA), situé sur le campus de UA, qui regroupe environ 78% de Veffectif total Viennent ensulte TIUT d’Angers - Cholet ct Te CHU d’Angers qui accucillent environ 179% des cffcerifis In reste
du personnel est situé a [Université Catholique de POuest (UCO) et A VEcole Supérieure Angevine d'Informalique el de Productique (ESAIP},
1 Télude des systémes dynamique, nelamment & événements discrels, el leur vplimisalion :
2 le traitement du signal et dea images, principalement appliqué aux eciences du vivant;
3 la sreté de foncionnement, principalement avec une eonnolaliongénie mécanique
Trang 10CHAPITRE 1 - INTRODUCTION
1.2 Présentation de la SNES GEVES
Station Nationale d’Essais de Semences [SNES) est le Laboratoire National de Référence Semences et Plants frang
1.2.1 Historique et localisation géographique da I'unité
Le GEVES (SNES) est Luboratoire National de Référence (LNR) désigné par le ministére en charge
de PAgriculture pour Ja certification des semences des espéres des directives 2002/54, 2002/55, 2002/57, 66/401 et 66/402 C'est le lalboratoire d'analyse de la qualité des semences commerciales pour rmportation et 'exportation La station contribue ä V'applicatian de la réglementarion et facilite
Je commerce national et international des semences
Ta Station Nationale d'Tssais de Semences (SNES) a été créée 1884 contrairement au GEVES qui a été cré¢ au sein de Institut National de Recherche Agronomique {INRA} en 1971 Le GEVES nommé INR dans le domaine de la certification des semences et plants selon Varrété de désignation |2{ paru
au Journal Officiel de la République Francaise le 24 mars 2017 Le personnel de la SNES est réparti sur lc site principal A Reaucouzé, Angers depuis 1993 ct 16 ans aprés il y acu la relocalisation du si¢ge du GEVES sur le site de la SNES
et des plants
1.2.3 Missions & Mandats
Le LNR est Iinterlocuteur technique pour les analyses de la qualité des semences pour le ministére, Yautorité compétente, les laboratnires agréés et reconnus [2]
Le GEVES (Station Nationale d’essais de semences) est LNR pour la certification des semences de loutes les espéces couverles par les direclives curopéennes 2002/54, 2002/55 2002/57, 66/401 eL 66/402 |2| Le GEVES a été désigné LNR par arrété du 16 mars 2017 narn au Journal Officiel du
24 mars 2017 : [Arrélé du 16 mars 2017 désignant Ics laboraloires nationaux de référence dans Ic domaine de la certification des semences et plants (NOR : AGRG17083994)] Cette désignation fait suile au décrel n°2016-1496 du 4 novembre 2016 relalif aux laboraloires réalisant des analyses sur Jes acmeners ct plants (NOR : AGRG1610713D) cn application de la lol n°2011-1843 du & décembre
2011 relative aux certificats d’Ohtention végétale (NOR : AGRX11194221)
Trang 11
10 CHAPITRE 1 - INTRODUCTION
mesurer les progris réalisés par la variété cn termes de valcur agronomique et technologique par
rapport aux variétés actuellement en culture
vari
Dans chaque pays une autarité est désignée paur effectuer un ensemble officiel de tests phy- sivlogiques, biochimiques ou biophysiques sur les nouvelles variétés avant de les enregistrer, De telles procédures officielles peuvent étre effectuées manuellement avec ume inspection visuelle par un expert et prennent donc beaucoup de temps Une des problématiques actuelles dans le domaine de Yenregistrement des variétés est donc la conecprion d'une procédure automatique a haut déblt imitant Jes procédures manuelles actuelles La vision artificielle est maintenant de plus en plus utilisée pour
Ja surveillance & haul débil des plantes, grace au progrés réalisé dans le domaine de l'intelligence artificielle notamment le Reep Learning, les progrés matériels, ou les cartes graphiques aver une grande puissance informalique spé sont devenues peu coiilcuscs vl ommipréscntes Les appli- cations de la vision par ordinateur se trouvent & différentes échelles de plantes, y compris les graines, Jes feuilles [2] ou la plante enliére, Pourianl, dans le cadre spécifique de lenregistrement des varieles,
Je passage d'une ingpcetion visuclle directe au trattement d'images numériques soulive de nouvelles questions Lorsque des techniques d'imagerie non conventionnelles travaillant en dehors du spectre visible (hermographic infrarouge, imageric par fluorescence, IRM, par cxcmple] snl utilis
paraison avec l'inspection visuelle directe n'est par exemple pas simple De plus, 'acquisition dimages permet un euregistrement complet du processus, ce qui ouvre de nouvelles possibilités de validation dans la procédure d'enregistrement Cela comprend, par exemple, ‘analyse de la variabilité de 1a nota lion entre experts, qui n'est généralement pas enliérement accessible & parlir d'une inspection đirecLe
com-
Dans ce travail, nous présentons un cas d’étude dans lequel un systéme de vision artificielle est propost pour remplaver unc inspeclion visucllc dirccle de losis de variclés végclales, Sur la basc de cette étude réalisée en collaboration avec l'autorité francaise chargée de lenregistrement de nouvelles variélés de semences, nous repporlons diverses élapes mélhodologiques permetlant d’évaluer te processus d'image et son impact sur la qualité du test de la varieté végétale
Trang 12" CHAPITRE 1 - INTRODUCTION
1.4 Contexte
Parmi les tests requis pour /enregistrement d'une nowvelle variété, il y a la résistance des semences aux agenls palhoyénes ou aux parasiles Le principe de lessai d'une nouvelle variélé est une comparaison de la capacité de développement d'agents pathogénes ou de parasites dans la variété leslée avec une variélé de référence, Il en résulle une classification en trois niveaux comme indiqué dans le tableau suivant
Inlerprélalion des Maycve | mae Mid Bear type sapmiques
Fraure 1 ~ Tableau de contparaison de référence
La variété testée est classée en
1 Témain Résistant si scs résultats (moyenne détcction, maximum détectian, minimum déteetion,
écart type) correspondent aux résultats de la variété de référence Eradica qui est considérée comme ‘Témpin Résislan| que nous appellerons ainsi
2 Témoin Intermédinire si ses résultats (moyenne détection, maximum détection, minimum detection, écarl lype) correspondent aux résullals de la variélé de référence Julieta qui esl considérée comme Témoin Résistant Intermédiaire que nous appellerons ainsi
3, Iémoin Sensible si scs résultats (moyenne détection, maxinyum d¢tecdon, minimum detection, écart type] correspondent aux résultats de la variété de référence Alpage qui est considérée comme Témvin Sensible que nous appellerons ainsi
Dans un pays comme la France, les variélés de grandes cullures Lélles que la bellerave a sucre représentent des défis agronomiques et économiques Les attaques par des agents pathogénes et des parasites Lely que les némalodes & kysles peuvent avoir de graves conséquences sur le rendement de telles cultures Ces pertes de rendement peuvent également étre répérées les années of de nouvelles cultures sont semées sur un sol déja infesté de parasites persistants C’est notamment le cas des nématodes a kystes qui peuvent vivre de nombreuscs annécs dans le sol
On considére aujourd’hui que prés de 100 000 hu (sur les 380 000 hu que comple létendue de terre labourahle destinée A la culture de Ja hetterave en France) sant, concernés par Ie nématnde A kysles H schachlii, lequel provoquerail des dommages notables sur 30 000 ha |4]
Trang 13Certains ravageurs ou maladies sont directement liés aux cultures, d'autres sont occasionnés par
des systémes de rotation C'est le cas des nématodes a kystes de la betterave, Heterodera schachtii
qui peuvent se concentrer autour d'anciens sites sucriers
Fravre 3 - Image d'un kyste de nématodel 17].
Trang 1413
CHAPITRE 1 - INTRODUCTION
Pour se développer, les nématodes a kyste de la betterave (Heterodera schachtii) doivent pénétrer & Vintéricur des racines de la plante Cette phase provoque lémission de nombreuses racines latérales,
entrainant parfois le développement d'un chevelu radiculaire dense et caractéristique Ils vont ensuite
se nourrir aux dépens de la plante pour se transformer soit en males, filiformes et libres dans le sol ; soit en femelles, visibles sur les racines sous la forme de petites boules blanches ou brunes en forme
de citron (les «kystes»)
Froure 4 - Image d'un cas de nématode sur la racines de la betterave sucriére{ 18]
En élevage, ces parasites présents dans toutes les parties du monde, sont rétrouvés notamment chez les ruminants et sont responsables de baisses de performances zootechniques causant de
lourdes pertes économiques II n'existe pas de vaccin contre ces parasites et seuls des traitements
anthelminthiques permettent de lutter efficacement contre ces vers
Figure 5 - Image d'une larve de nématodef19]
Ilexiste une centaine de variétés de nématodes nuisibles pour les plantes cultivées, mais cette étude est portée sur les kystes de nématode de la betterave a sucre, car la betterave a sucre est une source trés importante pour la production de suere en France qui ne possede pas de canne a sucre Les kystes de nematode sont présents dans les racines de la betterave a sucre nécessitant des analyses a la SNES GEVES et leur quantité est utilisée comme indicateur de résistance de variét dou la nécessité d'avoir un outil permettant de les compter efficacement
Trang 1514 CHAPITRE 1 - INTRODUCTION
1.5 Domaine d'étude
Lintérét de ce travail est le comptage automatique des kystes de nématodes de la betterave & suere C'est un (avail muilidiseiplinaire, en plus de la Lechnologie informatique (en particulier Yapprentissage automatique), ce travail concerne un autre domaine quest la biologie
Le travail attendu est un systéme d'apprentissage en profondeur permettant de compter automati- quement Ies kystes de nématode de la betterave & sucre dans le cadre des tests de résistance des nouvelles variétés réalis¢s 4 la SNES GEVES
1.7 Jeu de données dispanible
1.7.1 Données annotées
Dans la perspertive de la réalisation de oe travail, un petit ensemble de dannées annotées de 64
images est disponible
1.7.2 Données non ennotées
Les données non annotées sout au nombre de 200 divisées en 4 ensembles de données de 50 images dillérentes,
Trang 1615
2 CHAPITRE 2 - ETUDE BIBLIOGRAPHIQUE
2.1 Méthode actuelle - expert en biologie
La procédure actuelle de comptage des nématodes a kystes est la suivante Aprés le temps né-
cessaire à la contamination par le parasite, chaque plante avec son substrat est tamisée afin de collecter tous les kystes Le résultat de ce tamisage est placé dans une solution aqueuse La solution résultante est versée dans des boites de Petri pour étre inspectée visuellement a l'aide d'un microscope Lopérateur en charge de l'inspection visuelle doit distinguer les kystes des particules de sable et des
larves et ne prendre en compte que les kystes Cette tache de discrimination et de comptage nécessite
A la fois de la concentration et du soin de lopérateur Une boite contient environ 100 kystes et le
comptage prend environ 2 4 3 minutes Un laboratoire en charge de tels tests a l’échelle nationale
comme la France peut avoir & compter des milliers de boites par an, Par conséquent, cette procédure
peut étre considérée comme fatiguant et prenant beaucoup de temps
Pour compter les kystes de nématodes de la betterave sucre, les biologistes extraient les kystes
de la racine de la plante dans une boite de Petri afin d'identifier les nématodes en fonction de deux caractéristiques principales que sont leur couleur (brun en général) et leur forme (la forme d'un citron) Lors de extraction des kystes collés dans les racines, ils viennent souvent avec du sable et des brindilles, ce qui rend plus difficile lidentification des nématodes similaires au sable et pafois qui se cachent sous les brindilles
Pour éviter de compter des grains de sable pour du nématode, les biologistes bougent la boite de Petri pour s'assurer que la forme de objet est similaire a celle du citron a chaque fois qu‘ils bougent
la boite de Petri, Une telle manipulation constitue une source d’erreur possible car elle augmente le risque de compter plusieurs fois un méme kyste
(a) Exemple de boite de Petri (b) Comptage d'un expert
Figure 6 ~ Méthode actuelle.
Trang 17CHAPITRE 2 - ETUDE BIBLIOGRAPHIQUE
De plus, il y’a une variabilité [5] quand des operateurs différents comptent une meme boite de Petri
camme résume Ie tableau sutvant panr unr série de 20 boites
op I op 2 |] op 3
Frevre 7 - Résultat du comptage de trois experts différents
Colle méthode Urés fonguc el faslidicuse, sur un échantillon de vingt boiles de Pelri, donne des
résultats différents d'un biologiste lautre, cependant le GEVES doit analyser des milliers de boites
de Petri par année; Afin de réaliser cea analyses de maniére objective el reproduclible, une approche
dc vision artificielle eat néceasaire
Trang 18CHAPITRE 2 - ETUDE BIBLIOGRAPHIQUE
2.2 Comptage des kystes par une approche de sélection manuelle des carac-
téristiques en utilisant le traitement d'images
Le traitement d'images [6] est une discipline de informatique et des mathématiques appliquées qui étudie les images numériques et leurs transformations, dans le but d'améliorer leur qualité ou d’en extraire de l'information
Dans cette approche, l'expérience a été faite en acquérant des images pour les segmenter ensuite
en utilisant un seuil aprés l’étape de sélection du canal rouge Dans la quatriéme étape, les objets
lle et de leur forme pour les
(kystes) ont été sélectionnés par un expert en fonetion de critres de
comptabiliser la derniére étape Cette approche peut étre résumée dans la figure suivante
Trang 19
Froure 9 - Résumé des résultats de l'approche dexpert en utilisant le traitement d'images [7]
Pour surmonter les faiblesses de cette approche et toujours dans le besoin d’avoir un outil permettant de compter de maniére objective et reproductible les kystes, il est nécessaire d'utiliser
une approche d’apprentissage automatique
Trang 20
2.3.1 Classification des pixels avec Random Forest
Le forét aléatoire (random forest) est une méthode d’apprentissage d’ensemble qui consiste en
un ensemble d'arbres de décision [9] Il résiste aux données bruyantes et variables en raison de la combinaison de plusieurs arbres avec des caractéristiques variables et des criteres de fractionnement
Le processus de classification des pixels attribue des étiquettes aux pixels en fonction des caracté- ristiques des pixels et des annotations utilisateur, Le flux de travail offre un choix de fonctionnalités
de pixels génériques, telles que l'intensité de pixel lissée, les filtres de bord et les descripteurs de texture Une fois les fonctionnalités sélectionnées par un utilisateur, un elassifieur Random Forest est entrainé de maniére interactive a partir des annotations de l'utilisateur,
Frovre 10 - Labélisation d'une image avec ilastik
Cette approche se résume en une segmentation interactive pour l'annotation d'images [10]
Lidée de cette approche est de labéliser une partie de l'image et de laisser a ilastik de labéliser le
reste de l'image en fonction des caractéristiques des pixels déja étiquetés Une fois que c’est fait, en
utilisant le classifieur Random Forest produit par ilastik aprés la premiere labélisation, il est possible
de faire la classification des kystes de nématode sur des nouvelles images en fonction de ce quiil a été appris lors de la labélisation précédente.
Trang 21Aprés la classification, des boites (petits rectangles) ont été dessinées autour des objets classifiés
(détectés) afin d'avoir une meilleure visualisation des résultats
1 Le premier dataset contient 50 répétitions différentes d'images de boites de Petri contenant 13
kystes qui ont été comptés manuellement
Pour ce jeu de données, Ilastik donne une perfomance đ'environ 90 %
Frovre 11 - Image de prédiction d'ilastik pour une boite de Petri de 13 kystes.
Trang 2221
CHAPITRE 2 - ETUDE BIBLIOGRAPHIQUE
2 Le second dataset contient deux prises differentes de 50 répétitions différentes d'images de boites de Petri contenant 51 kystes chacune qui ont été comptés manuellement
Pour ce jeu de donneés, Hlastik donnerait une perfomance d'environ 57 % si tous les objets classés étaient des kystes
Frovre 12 - Image de prédiction d'ilastik pour une boite de Petri de 51 kystes
3 Le troisiéme dataset contient deux prises differentes de 50 répétitions différentes d'images de boites de Petri contenant 59 kystes chacune qui ont été comptés manuellement
Pour ce jeu de données, lastik donnerait une perfomance d'environ 55 % si tous les objets classés étaient des kystes
Froure 13 - Image de prédiction 'ilastik pour une boite de Petri de 59 kystes.
Trang 2322
CHAPITRE 2 - ETUDE BIBLIOGRAPHIQUE
4, Le quatriéme (dernier) dataset contient deux prises differentes de 50 répétitions différentes
images de boites de Petri contenant 109 kystes chacune qui ont été comptés manuellement
Pour ce jeu de données, Hlastik donnerait une perfomance d’environ 6 % (avec une condition declairage trés difficile) si tous les objets classés étaient des kystes
Froure 14 - Image de prédiction diilastik pour une boite de Petri de 109 kystes
Dans cette approche de classification supervisée ott un utilisateur avait sélectionné les caractéris-
tiques (couleur, taille et forme), le classifieur a pu classer 1 kyste sur 2 avec un pourcentage de 10%
de faux positifs, ce qui donne une performance d'environ 50 % sur les quatre jeux de données
Toujours dans le besoin d’avoir un outil permettant de compter de maniére objective et reproductible les kystes, il est nécessaire d'utiliser une approche d’apprentissage en profondeur dans laquelle les caractéristiques seront automatiquement sélectionnées par la machine Cependant, cette approche nécessite de gros volumes de données et des ressources materielles trés importantes
Trang 2423
3 CHAPITRE 3 - SOLUTION PROPOSÉE
La solution proposée comprend deux étapes principales :
1, Pour résoudre le probléme du volume grand de données, puisqtrl existe un petit jeu de données
de soixante-quatre images annolées, la premiére élape consiate a créer un grand jeu de données synthétiques qui seront générées & partir du petit jeu de données (déja annotées) disponible afin deviter lea couits et le long processus d’annotation manuelle
2, La deuxiéme étape consiste A faire de 'apprentissage supervisé [11] avec une approche dap prenlissage en profondeur en ulilisant les données synLhéliques (simulées) pour 'entrainement d'un yéseau de neurones afin de disposer d'un modéle appris qui sera hni-méme teste en utilisant des données réellcs qui scront acquiscs Dans ocllc approche, les caraclérisliques des kysles seronl automatiquement sélectionnées par la machine afin de prendre en compte tous les détails possibles
Trang 25CHAPITRE 3 - SOLUTION PROPOSEE
3.1 Architecture de la solution proposée
La solution proposée est présentée dans la figure 15 et sa description dans la sous-section d'aprés
1 Sal ndemsoce daaset —L
Trang 2625 CHAPITRE 3 - SOLUTION PROPOSEE
3.1.1 Description de l'architecture du systéme proposé
La réalisation de Ja solution propas
1,
omprend 5 étape
Petit jeu de données de 64 images annotées
Ce petit jou de données a été utills¢ comme donnécs d'entrée au simulatcur d'images
Leg images de 'élape 1 ont élé segmentées Four avoir des images qui ont plus de signifieation
et des données beaucoup phis indépendanres ct plus faciles a analyser
De la segmentation, des imagetley ont élé extrailes pour avoir dev diclionnaires de kysles de
nématades, de sable et de brindilles
De leurs dictionnaires respeclils, les imagelles ont élé ajoulées (addition) dans fa boite de Petri
Génération automatique d’un grand ensemble de 10000 données annotées [images RGB et
masque associ¢) ayanl servi a 'apprenlissage on ulilisant larchilecLure modifié du réscau UNET,
Ala fin de cetie étape, un modéle appris a été produit et utilisé pour tester les performances de
ce modéle sur 900 données (images) réelles
Trang 2726 CHAPITRE 3 - SOLUTION PROPOSEE
83.2 Le simulateur d'images
Le simulateur images est réalisé dans la perspective d'avoir um modele de deep learning [12] capable de détevter Jey kystes (arves) de nématodes Pour ce faire, le modéle d’apprentissage en profondeur doit disposer d'un volume de données annotées considérable afin d’étre efficace dans la déleclion des larves de némalodes
Lannotation de données est le processus d’étiquetage des données pour les rendre utilisable par
lapprentissage automatique Ces données peuvent circ n'importe quel type de données quium humain,
peut comprendre Les annotations / préparations requises peuvent étre trés variées, mais il s’agit
#énéralement de reproduire la Lache que vous saubuilez que le modéle exécule,
Lannotalion des données (également appelée éliquetage des données) el essenlielle pour Tap- prentissage automatique & grande échelle, C'est I'un des moyens les plus fiables d'améliorer Les performances de son modéle (beaucoup plus fiable que le réglage de larchitecture du modéle) i devient done un levier teés Important, mais c’rst.un processus qui prend beaucoup de temps ct qui néressite beaucoup d'argent pour le réalis
Trang 2827 CHAPITRE 3 - SOLUTION PROPOSEE
Lorsque le sysléme esl lancé, limage de la boile de Petri esl chargée el elle esl utilisée comme image d'arriére-plan dans laquelle les autres images seront placées, Trois copies dela taille de cette image avec des piacls a 0 (images noircs) sơnk cr66cs pour élre ulilisces dans l'ajoul (addition) des autres images dans la boite (voir architecture du systéme, étape 3.1
Dans Image de la hoite de Petri, la région d’intérét (ctreulatre, ác la forme de la boite de Petri) a été déterminée dans laquelle les opérations seront effectuées
3.2.2 Images Générées
Le simulateur produit la mimute 50 images RGB et leurs masques associés Le nombre d'images
a générer peut étre paramétré Les images RBG générica contionnent des larves de nématodes plactes dans des posilions aléalires, mais surtout avec de laugmentauion de données (data augmentation)
=
(a) Exemple dimage RGB Ib) Exemple de masque associé,
Frovee 16 — Exemple d'image génerée.
Trang 29CHAPITRE 3 - SOLUTION PROPOSEE
Frovre 17 - Détails sur la position des images dans la boite de Petri,
2 Comparaison d'une image générée et une image réelle
— {a) Exemple dimage simulée (b) Exemple dimage réelle
Froure 18 - Comparaison d'une image générée et une image réelle,
Trang 3029 CHAPITRE 3 - SOLUTION PROPOSEE
Les limites du systéme se r¢sument par Ie falt qui] dipend d'un petit Jon de données annotées en
mité) synthétiques annotées
entrée pour prodnire des images (jen de données i
Ce systéme de génération d'images a eté implémenté dans la nécessité d'avoir um jeu de donneés annolé pour l'apprentissage des réscaux de neurones afin de délecler aves provision les kysles de nématodes tout en évitant le processus fastidieux et trés coateux d’annotation manuelle
A partir de soixante-quarre tmages d'entrée, cx générateur d'images peut produire un nombre infini d'images annotées tout en étant trés proches de la réalité Les images des kystes, des brindilles
el du sable sont plavées (addilionnées) dans une boile de Pelsi pour créer des images similaires aux images réélles
Trang 3130
CHAPITRE 3 - SOLUTION PROPOSEE
3.3 Segmentation - Unet architecture
3.3.1 Le réseau U-Net
C'est un réseau de neurones & convolution développé pour la segmentation d'images biomédicales
au département d'informatique de l'université de Fribourg en Allemagne Le réseau est basé sur
des couches enti¢rement convolutionnelles et son architecture a été modifiée et étendue afin de
fonctionner avec moins d'images d'entrainement et de produire des segmentations plus précises La
segmentation d'une image de taille 512 * 512 [14] prend moins d'une seconde sur un GPU récent
Trang 32a1 CHAPITRE 3 - SOLUTION PROPOSEE
3.3.2 Description de l'architecture du réseau U-Net
Le U-Net dott san nom a sa forme symétrique, son architecture est s¢parée en 3 partics
1 The contracting / downsampling path
Certe partie cst compasée de quatre (4) blacs Chaque bloc est composé de:
Couche de convolution 3x4 + fonction d'activation (with batch normalization]
Couche de convolution 3x3 + fonction d'aclivation (wilh batch normalization)
2x2, Max Pooling
Narez que le nombre de feature maps double a chaque pooling, en commengant par 64 feature maps pour le premier bloc, 128 pour le second, etc Ce processus de contracting path a pour bul de capturer le contexte de limage d’enurée afin de pouvoir effectuer la segmentation, Ces informations contextuelies grossiéres seront ensuitte rranstérées vers upsampling path au moyen de conmexions sautées
2 Bottleneck
Cette partic du réscan se sttuc cntre les chemins contractants (upsampling path) ct les chemins
en expansion (expanding path) Le Bottleneck est construit partir de 2 couches de convolution (with hatch normalization), avec dropout
3 The Expanding /upsampling path
Corte partie cst également composé de 4 blocs Chacun de ces blocs cat compost de :
Couche de déconvolulion avee stride 2 Cuncalénation avec la feature map correspondanle recadrée de la partie eontractante [eotracting path}
Couche de convolution 8x8 + fonction d'activation (with batch normalization)
Couche de convolution 3x3 + fonction d’activation (with batch normalization)
Lobjectif de ce chemin ent expansion (expanding path) esl de permetlre une localisalion précise associée &.des infarmations contextuelles provenant.de la partie contraetande (contracting path)
T faut préciser que T-Net combine les tirformations de localisation du dewnsampling path avec les informations contextuelles du upsampling path pour enfin obtenir une information générale combinant localisation cl contexte, cc qui esl nécessaire pour prédire unc bonne segmentation
de caractéristiques
Aucune couche dense, donc des tmages de différentes tailles peuvent étre otilisées en enrrée
(puisque les seuls parametres & apprendre sur les couches de convolution sont le noyau et que
Ja taflle diz noyau est indépendante de la taille de Image en entrée)
Lunillsation d'une augmentation massive des données cst, tmpartanre dans dea domaines tels que la segmentation biomédicale, car le nombre d'échantillons annotés est genéralement limite
Larchitecture du réseau U-Net a été adaprée en fonction de notre besoin de travailler avec des images inidalement de (aille 2323 * 2042, Je réseau élail ulilisé aver des images de Laille 512 * 512, Comme le nombre de feature map double 4 chaque pooling, nous devrions ajouter 2 autres blocs &
Trang 3332
chaque partie du réseau (down el upsampling), mais nous avons décidé d'ajouler qu'un seul pour gagner en mémoire et pour rester dans la structure du réseau: en fin, nous avons reconverti Ia taille
de nos images d'entrée inidalement ác 2828 * 2042 en 1024 * 1024 Ici, il convient également de
noter que Ics 64 tmages qui ont été utilisées pour pradutre le grand jou de dannées n’ont pas été
utilisées au niveau de lentrainement afin d’éviter un surapprentissage (roverfitting)
Trang 3433 CHAPITRE 3 - SOLUTION PROPOSEE
Pour les entrainements réalisés et les résultats de test présentés dans ce document, 10000 données
s chaque fois pour des densités de ky:
résistantes intermédiaires et aux variétés
expériences ont été réalisées avec des volumes de données plus importants, mais (voir figure 1) Il convient de noter que d'autres ns meilleurs
Pour les tests, 30 nouveaux jeux de donn
chacun 30 répétitions d'images réelles différentes ont été acquises il convient de noter que ces jeux és en 3 variétés de 10 jeux de données contenant
de données ont été manuellement compté par les biologistes
Données acquises Variétés (E, J, A) _|Jeu de données |Répétiion Nombre de kyste Temoin Resistant 10| 30|0<= k <= 15
Trang 35Des expériences ont été réalisées en utilisant un total de 10000 images, réparties en deux ca- tégories images d’entrainement et celles de validation, 80% de la taille du jeu de données utilisé pour 'entrainement et les 20% restant pour la validation Pour l'entrainement, 8000 images ont été utilisées et les 2000 autres images ont été utilisées pour la validation
Les entrainements ont été réalisés en utilisant a chaque fois un jeu de données de méme taille
mais de densité de kyste différente(faible, moyenne et élevée) pour chaque cas afin de réaliser des tests adaptés a chacun de ces cas et de realiser un test général couvrant tous les cas
On parle de densité résistante lorsque le nombre de kystes du jeu de données utilisé ne dépasse pas 30, densité résistante intermédiaire lorsque ce nombre ne dépasse pas 60 kystes et densité sensible lorsqu'll est supérieur 4 60
trech 1/400
foods lols: 6.1011 = dice ccettictert: 0.2090 - val l699: 8:BW75 - VI dice coetticient: 0.6861
th 2/40, “TỦNBt - Voi: 0.0609 = 6icE co9fflClerZ: 8.8136 el Loss: 0.0018 » val đict c®ficlen+ 0.808 och 7400
YEABE Toes: Wows ~ dice ccefFictent? 9.6027 - val Less: 9.07050.04 - vài đicg coetfielonts v.07 pach 47300 “Ấy = long: 8.3001e-06 - wot loss: 7.220904 = vol dice coefficients 0.9206 pach 7800 “0a = Loss: 0.44nde-08 = = val lasts Siastne-04 + val dew coettielent: 0.9474 khach 9/100 2093 Loss: 5.62006-04 val (84%: 3.8088.04 - v6 0ieE caEfficLent: 0.889) Krech 7/400 7569 = Tots: 5.22880.08 = ~ VAL lass: 3.8685-B4 + val dice costtieleat: 8.4675 pach aya "Zou = Toss 4 80n30-08 VI (8S: 4.80196.84 + v91 đlch càfflclent: 6.969) khach 9/400
Froure 22 - Etapes de l'entrainement
La visualisation de l'entrainement a travers Tensorboard
Froure 23 - Etapes de l'entrainement - Tensorboard.