Intégration de connaissances pour améliorer l’apprentissage profond en vision par ordinateur = tích hợp kiến thức Để nâng cao khả năng học sâu trong thị giác máy tính

Intégration de connaissances pour améliorer l’apprentissage profond en vision par ordinateur = Tích hợp kiến thức để nâng cao khả năng học sâu trong thị giác máy tính

Trang 1

UNIVERSITÉ NATIONALE DU VIETNAM À HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

MBIAYA KWUITE Franck Anặl

INTÉGRATION DE CONNAISSANCES POUR AMÉLIORER L’APPRENTISSAGE PROFOND EN VISION PAR ORDINATEUR

MEMOIRE DE FIN D’ETUDES DE MASTER EN INFORMATIQUE

HANỌ-2021

Trang 2

UNIVERSITÉ NATIONALE DU VIETNAM À HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

spécialité : Systèmes Intelligents et Multimédia (SIM)

Code : Programme pilote

Sous la direction de :

— PhD, Professeur des Universités, Christel VRAIN

— PhD, Professeur associé, Frédéric ROS

HANỌ-2021

Trang 3

spécialité : Systèmes Intelligents et Multimédia (SIM)

Code : Programme pilote

Sous la direction de :

— PhD, Professeur des Universités, Christel VRAIN

— PhD, Professeur associé, Frédéric ROS

HANỌ-2021

Trang 4

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données etles résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La

source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOANTơi cam đoan đây là cơng trình nghiên cứu của riêng tơi Các số liệu, kết quả nêu trongLuận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng trình nào khác

Các thơng tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

MBIAYA KWUITE Franck Anặl

Trang 5

Pour terminer, je remercie chaleureusement ma mère, mes frères et mes soeurs pour

le soutien indéfectible qu’ils m’ont apporté, Mes camarades de promotion pour leur sens

de la fraternité et tous ceux et celles qui m’ont permis, d’une manière ou d’une autre, determiner mon cursus de la plus belle des manières

Trang 6

TABLE DES FIGURES

1.1 Sous-échantillonnage d’une image comportant 4 champs récepteurs 5

1.2 Allure de la fonction ReLu 6

1.3 A gauche : architecture neuronale standard, à droite : architecture neuro-nale avec utilisation de l’abandon (Certains neurones désactivés de façon aléatoire) 7

1.4 Neurone biologique (à gauche) et neurone artificiel (à droite) 8

2.1 Architecture LeNet-5 11

2.2 Architecture de base AlexNet 12

2.3 Architecture VGG-19 13

2.4 Bloc GoogleNet 14

2.5 Bloc résiduel ResNet 15

2.6 Architecture Inception-V3 15

2.7 Architecture fractale 16

2.8 Architecture DenseNet avec 4 Blocs denses 17

2.9 Blocs résiduels de Pyramidal Network 18

2.10 Bloc de construction de ResNeXt 19

2.11 Architecture d’un bloc Xception 19

2.12 Bloc de compression et d’excitation 20

2.13 CNN pour l’harmonisation de la connaissance et des données 24

2.14 Processus de dépistage du cancer du sein en utilisant le curriculum learning 25 2.15 Réseau de neurones convolutifs guidés par l’attention (AG-CNN) 26

2.16 Architecture KGZNet 27

2.17 Architecture AG-CNN 28

2.18 Framework Incorporant la connaissance humaine pour la segmentation sé-mantique 28

4.1 Dataset constitué de 3 classes : Asteraceae, Ranunculaceae et Solanaceae 39 4.2 Ontologie utilisée pour structurer la connaissance d’experts 40

Trang 7

4.3 Connaissance d’expert décrivant visuellement des images de fleurs sousforme attribut-valeur 414.4 Projection sur le plan des vecteurs de connaissance du 1er pli issus desvecteurs obtenus à partir des valeurs d’attributs 424.5 Exemple de graphe de connaissance à partir de la description de 2 images 424.6 Projection sur le plan des vecteurs de connaissance du 1er pli issus duplongement 444.7 Vecteurs représentatifs des classes sur le 1er pli après le plongement 454.8 Architecture ResNet-18 464.9 Erreur (Entropie croisée) de classification sur les 6 plis sans utilisation de

la connaissance 474.10 Précision de classification sur les 6 plis sans utilisation de la connaissance 484.11 Précision (a) et erreur (b) de classification avec leurs variances sur les 6plis pour les données d’entraînement et de validation sans utilisation de laconnaissance 484.12 Précision (a) et erreur (b) de classification sur les 6 plis pour les donnéesd’entraînement et de validation avec les vecteurs de connaissance obtenuespar plongement 494.13 Précision (a) et erreur (b) de classification sur les 6 plis pour les donnéesd’entraînement et de validation avec les vecteurs de connaissance obtenues

à partir des valeurs d’attributs 50

A.1 Projection sur le plan des vecteurs de connaissance du 2ème pli 60A.2 Projection sur le plan des vecteurs de connaissance du 3ème pli issus duplongement 61A.3 Projection sur le plan des vecteurs de connaissance du 4ème pli issus duplongement 61A.4 Projection sur le plan des vecteurs de connaissance du 5ème pli issus duplongement 62A.5 Projection sur le plan des vecteurs de connaissance du 6ème pli issus duplongement 62

B.1 Projection sur le plan des vecteurs de connaissance du 2ème pli issus desvecteurs obtenus à partir des valeurs d’attributs 63B.2 Projection sur le plan des vecteurs de connaissance du 3ème pli issus desvecteurs obtenus à partir des valeurs d’attributs 64B.3 Projection sur le plan des vecteurs de connaissance du 4ème pli issus desvecteurs obtenus à partir des valeurs d’attributs 64B.4 Projection sur le plan des vecteurs de connaissance du 5ème pli issus desvecteurs obtenus à partir des valeurs d’attributs 65

Trang 8

B.5 Projection sur le plan des vecteurs de connaissance du 6ème pli issus desvecteurs obtenus à partir des valeurs d’attributs 65

C.1 Arbre de décision obtenu avec les vecteurs de connaissance obtenus enutilisant les valeurs d’attributs 67

Trang 9

LISTE DES TABLEAUX

4.1 Résultats du plongement par descente de gradient pour les 6 plis 434.2 Meilleures précisions de validation et précisions de test correspondants 514.3 Précision des arbres de décision entraîné sur les vecteurs de connaissance 51

Trang 10

GLOSSAIRES ET ACRONYMES

CNN Convolutional neural network.

GPU Graphic Processing Unit.

IA Intelligence Artificielle.

RDF Resource Description Framework.

ReLu Rectified Linear Unit.

Trang 11

Les réseaux de neurones convolutifs profonds permettent d’apprendre des modèlescomplexes à partir d’une grande quantité de données pour obtenir des résultats de gé-néralisation impressionnants Toutefois, en dehors de la nécessité de disposer de grandesquantités de données, ces réseaux ont de nombreux problèmes parmi lesquels la représen-tativité de ces données par rapport à la vie réelle Pour faire face à ces problèmes, destravaux récents exploitent les avantages de l’IA symbolique en utilisant de la connais-sance d’experts pour apporter un raisonnement déductif aux réseaux profonds Dans cerapport, nous proposons une nouvelle méthode d’intégration de la connaissance d’expertsdans le contexte de la vision par ordinateur, représentée sous forme d’ontologie Cetteconnaissance est formalisée en vecteurs de connaissance et ajoutée à la fonction de perte

du réseau comme un facteur de normalisation Pour évaluer expérimentalement notreméthode d’intégration de la connaissance, nous avons créé un jeu de données à partir dedonnées existantes et nous avons intégré de simples connaissances visuelles Nous obtenonsdes performances prometteuses quant à l’utilisation de cette méthode qui peut s’utiliserdans n’importe quelle architecture neuronale

Mots clés : vision par ordinateur, apprentissage automatique, deep learning,

connais-sance, ontologie, graphe de connaissance

Trang 12

The deep convolutional neuronal network makes it possible to study complexes dels from large quantities of data to obtain generalized and impressive results However,despite the need to dispose of a large quantity of data, these networks have lots of pro-blems among which the representativeness of this data in relation to real life To facethese difficulties, new researches try to exploit the advantages of the symbolic IA by usingknowledge from experts to provide a deductive reasoning to the deep network In thisreport, we propose a new method of integrating the expert knowledge in a computeri-zed vision context, represented in an ontological form This knowledge is formalised intoknowledge vectors and added to the network loss function as a normalised partition Toexperimentally evaluate our method of integrating knowledge, we have created a data-base from preexisting data and have intergrade to it simple visual knowledge We obtainpromising performance with the use of this method which can be used in any neuronalarchitecture

mo-Key words : : computer vision, machine learning, deep learning, knowledge, ontology,

knowledge graph

Trang 13

TABLE DES MATIÈRES

1.1 Présentation des laboratoires d’accueil 4

1.2 Quelques définitions 4

1.2.1 Couche de convolution 5

1.2.2 Couche de sous-échantillonnage 5

1.2.3 Fonction d’activation 5

1.2.4 Couches entièrement connectées 6

1.2.5 Normalisation par lots 6

1.2.6 Abandon 6

1.3 Contexte 7

1.3.1 IA symbolique 7

1.3.2 IA connexionniste 8

1.4 Définition du problème 9

2 Etat de l’art 10 2.1 Architectures de deep learning en vision par ordinateur 11

2.1.1 CNNs basés sur l’exploitation spatiale 12

2.1.2 CNNs basés sur la profondeur 14

2.1.3 CNNs basés sur la largeur 17

2.1.4 CNNs basés sur d’autres types d’innovations 20

2.2 Intégration de la connaissance dans les architectures de deep learning 21

2.2.1 Concept de connaissance 21

2.2.2 Intégration de la connaissance 23

2.2.3 Deep learning et intégration de connaissance 23

3 Solution proposée 31 3.1 Formalisation du problème 32

Trang 14

3.2 Intégration de la connaissance dans l’architecture de deep learning 323.3 Calcul de la dissimilarité 333.3.1 Calcul de la dissimilarité en utilisant la représentation attribut-valeur 333.3.2 Calcul de la dissimilarité en utilisant le plongement 333.4 Représentants de classes 353.5 Méthode d’évaluation 353.5.1 Évaluation de l’apprentissage automatique pour le plongement 353.5.2 Évaluation de la classification des fleurs 37

4.1 Jeu des données 394.2 Source de la connaissance 404.3 Formalisation de la connaissance 414.3.1 Vecteurs de connaissance à partir de la représentation attribut-valeur 414.3.2 Vecteurs de connaissance à partir du plongement 424.4 Entraînement 454.5 Résultats 464.5.1 Résultats de classification sans utilisation de la connaissance 464.5.2 Résultats de classification avec le plongement du graphe de connais-

sance 494.5.3 Résultats de classification avec les vecteurs de valeurs 494.6 Discussion 50

Annexe A Projection sur le plan des vecteurs de connaissances issus du

Annexe B Projection sur le plan des vecteurs de connaissances obtenus à

Trang 15

Les réseaux de neurones convolutifs (CNNs) sont devenus la principale approche prentissage automatique pour la classification et la reconnaissance en vision par ordina-teur Bien que l’idée d’utiliser des neurones artificiels existe depuis les années 1940s [38],les améliorations des performances remarquables du matériel informatique et la disponi-bilité de grandes quantités de données n’ont permis la formations de CNNs très profondsque depuis quelques années Ceux-ci ont permis d’atteindre des performances de pointesur les tâches de classification dans plusieurs secteurs d’activités en se basant uniquementsur des pixels bruts

d’ap-Malgré leur grand pouvoir de généralisation, les modèles basés sur les CNNs souffrentgénéralement d’un problème d’expressivité des données En effet, les images utilisées pour

la formation de ces modèles n’expriment pas toutes les possibilités que l’on peut retrouverdans le monde réel Pendant la phase de prédiction, ces modèles auront alors du mal àreconnaître une forme, une texture ou une couleur qu’ils n’auront pas vue dans les imagesd’entraînement En plus, la nécessité d’utiliser d’énormes ensembles de données annotés

se trouve être une limité dans certains contextes dans lesquels, soit les données dont rares,soit il est difficile de les annoter Pour faire face à ces problème, plusieurs techniques [48]comme l’augmentation de données sont généralement utilisées Cependant, ces techniques

ne peuvent pas constituer une solution satisfaisante parce qu’elles se basent sur les imagesexistantes

De nombreuses publications récentes tentent de résoudre ces problèmes en intégrant de

la connaissance experte dans les architectures profondes De ce fait, en plus de l’approcheinductive imposée par les réseaux de neurones profonds, les auteurs de ces publicationsassocient les avantages de l’intelligence artificielle symbolique qui permet aux machines deraisonner comme l’homme en utilisant une approche déductive Les solutions proposéesutilisent la connaissance formalisée sous forme de logique propositionnelle [64], de graphes

de connaissance [4, 10], de logique floue [26, 45] et d’attention [14, 34]

Dans ce rapport, nous proposons une façon d’intégrer la connaissance dans un réseau

Trang 16

de neurones qui est indépendante de l’architecture neuronale Notre solution utilise desinformations hybrides constituées de données et de connaissances d’experts dans le butd’améliorer les performances de généralisation des réseaux profonds Nous formalisons

la connaissance sous forme de vecteurs obtenus sur la base de graphe de connaissance.Cette connaissance est ajoutée comme normalisation dans la fonction de perte pendant leprocessus de formation du réseau

La suite de ce rapport est constitué de 4 parties Nous commençons par présenter lecontexte et la problématique dans lequel se situe notre travail dans le chapitre 1 Lestravaux connexes sont discutés dans le chapitre 2, ó nous faisons une étude bibliogra-phique sur les architectures profondes et sur l’apprentissage informé Dans le chapitre 3,nous présentons les détails de notre méthodologie d’intégration de la connaissance Pourfinir, le chapitre 4 nous permet de présenter les conditions expérimentales et les résultatsobtenues sur lesquels nous discuterons

Trang 17

CHAPITRE 1

CONTEXTE ET PROBLÉMATIQUE

Dans ce chapitre, nous définissons les concepts liés au réseaux de neurones convolutifs Ensuite, nous présentons le contexte et les objectifs de notre travail pour une bonne compréhension de la solution que nous proposons

Contents

1.1 Présentation des laboratoires d’accueil 4

1.2 Quelques définitions 4

1.2.1 Couche de convolution 5

1.2.2 Couche de sous-échantillonnage 5

1.2.3 Fonction d’activation 5

1.2.4 Couches entièrement connectées 6

1.2.5 Normalisation par lots 6

1.2.6 Abandon 6

1.3 Contexte 7

1.3.1 IA symbolique 7

1.3.2 IA connexionniste 8

1.4 Définition du problème 9

Trang 18

1.1 Présentation des laboratoires d’accueil

Financé par le réseau de chercheurs en Région Centre-Val-de-Loire nommé RTR DIAMS, le stage a été effectué dans deux laboratoires de l’université d’Orléans : Le

Laboratoire d’informatique Fondamentale d’Orléans (LIFO) et le Laboratoire plinaire de Recherche en Ingénierie des Systèmes, Mécanique, Energétique (PRISME).Les recherches menées au LIFO concernent la science informatique et les Sciences etTechnologies de l’Information et de la Communication (STIC) Elles vont de l’algorith-mique au traitement des langues naturelles, de l’apprentissage au parallélisme massif, de

Pluridisci-la vérification et Pluridisci-la certification à Pluridisci-la sécurité des systèmes, du Big Data aux systèmesembarqués Le laboratoire est structuré en cinq équipes :

— Contraintes et Apprentissage

— Graphes, Algorithmes et Modèles de Calcul

— Langages, Modèles et Vérification

— Pamda

— Sécurité des Données et des Systèmes

Le laboratoire PRISME est un laboratoire de recherche de l’Université d’Orléans et del’INSA Centre Val de Loire Son champ scientifique et ses approches méthodologiques fontpartie du domaine scientifique Sciences et Technologies (ST) Ils couvrent aussi bien lesSciences Pour l’Ingénieur (SPI) que les Sciences et Technologies de l’Information et de laCommunication (STIC) La vocation du laboratoire PRISME est pluridisciplinaire dans

le domaine général des sciences pour l’Ingénieur et des technologies sur un large spectre

de champs disciplinaires incluant :

— la combustion dans les moteurs, l’énergétique, les explosions

— l’aérodynamique, la mécanique des fluides

— le traitement du signal et de l’image

Trang 19

Un autre concept important des CNNs est le sous-échantillonnage qui est invariant partranslation Cette opération réduit la taille spatiale d’une image intermédiaire en conser-vant les informations importantes (valeurs maximales) des champs récepteurs (figure 1.1).Elle réduit ainsi la quantité de paramètres et le nombre de calcul dans le réseau Il est doncfréquent d’insérer périodiquement une couche de sous-échantillonnage entre deux couchesconvolutives successives d’une architecture neuronale pour réduire le surapprentissage1.

Figure 1.1 – Sous-échantillonnage d’une image comportant 4 champs récepteurs

Trang 20

d’une fonction d’activation appropriée peut aider à accélérer le processus sage d’un CNN Différentes fonctions d’activation telles que sigmọde, tanh et ReLu sontutilisées Cependant, ReLu (figure 1.3) et ses variantes sont préférées car elles aident àsurmonter le problème de fuite du gradient.

d’apprentis-Figure 1.2 – Allure de la fonction ReLu

Source: openclassrooms.com

Les couches entièrement connectées sont toujours utilisées à la fin du réseau rement à la convolution et le sous-échantillonage, il s’agit d’une opération globale Lesneurones dans une couche entièrement connectée ont des connexions vers toutes les sor-ties de la couche précédente

La normalisation par lots [22] est utilisée pou résoudre les problèmes liés au ment de covariance interne dans les cartes de caractéristiques Le décalage de covarianceinterne2 est un changement dans la distribution des valeurs des unités cachées qui ralentit

change-la convergence du réseau La normalisation par lots unifie change-la distribution des valeurs de

la carte de caractéristiques en les définissant sur une moyenne et une variance nulles

L’abandon [50] introduit une régularisation au sein du réseau, ce qui améliore la ralisation en réduisant le surapprentissage Dans les réseaux de neurones, plusieurs unitésqui apprennent une relation non linéaire sont parfois co-adaptées, ce qui provoque ce sur-apprentissage La suppression aléatoire de certaines connexions avec une certaine proba-

géné-2 Effet de l’initialisation des paramètres et le caractère aléatoire des données d’entrée sur la tion des entrées aux couches internes du réseau pendant l’apprentissage

Trang 21

distribu-bilité est la technique utilisé par l’abandon Cela permet de former plusieurs architectures

de réseau différentes en évitant la co-adaptation des neurones

Figure 1.3 – A gauche : architecture neuronale standard, à droite : architecture neuronaleavec utilisation de l’abandon (Certains neurones désactivés de façon aléatoire)

L’idée d’intégrer les connaissances dans l’apprentissage automatique remonte aux nées 1950s Historiquement, la recherche en IA a considéré les approches du symbolisme

an-et du connexionnisme Ces deux approches ont connu des moments de gloire de façonalternés dans l’histoire de l’intelligence artificielle

L’IA symbolique, devenu populaire dans les années 1980s, adopte un paradigme opposé

à celui de l’IA connexionniste Ici, l’intelligence n’est pas acquise en utilisant des techniquesd’optimisation, mais elle est codée dans un langage formel Elle s’appuie notammentsur des moteurs de règles et de faits pour tenter de simuler le raisonnement humain ens’inspirant de notre logique et de notre capacité à se représenter notre environnement

à partir de symboles Elle permet par exemple de créer des ontologies ou des systèmesexperts, dont le but est de reproduire le raisonnement et les connaissances d’un expertdans un domaine précis

L’IA symbolique exploite la manipulation logique de symboles (logique

Trang 22

proposition-Figure 1.4 – Neurone biologique (à gauche) et neurone artificiel (à droite)

Source: deeplylearning.fr

nelle, du premier ordre et du second ordre) pour résoudre des problèmes associant desrègles, faits et raisonnements connus du savoir humain Elle utilise alors une logique dé-ductive, ce qui lui permet d’apporter de l’explicabilité dans son comportement

Malgré son raisonnement explicable, l’IA symbolique manque de souplesse parce qu’ilest difficile, voire impossible, de collecter et structurer les règles du savoir humain De plusles techniques utilisées par cette méthode ne sont pas du tout adaptées pour la perceptiond’objets à partir de données brutes et ne sont donc pas utilisables en vision par ordinateur

Le connexionnisme est une approche utilisée en sciences cognitives, neurosciences,psychologies et philosophie de l’esprit Le mouvement du connexionnisme, qui émergedans les années 1980s, a pour idée centrale qu’un réseau d’unités de calcul simples, définiescomme des neurones (en référence au neurone biologique - fig 1.4), s’excitent pour aboutir

à un comportement intelligent en utilisant des techniques probabilistes pour découvrirdes règles implicites contenues dans des données L’IA connexionniste décompose donc lesproblèmes en sous-éléments connectés entre eux Comme le souligne [47], la connaissancerésultante est constituée des connexions entre ces unités de calcul réparties sur tout leréseau

L’IA connexionniste a connu une renaissance avec les réseaux de convolutions et larétropropagation [31] dont le but est de calculer efficacement le gradient de la fonction

de perte Grâce à ce calcul de gradient, il est possible de mettre à jour les poids duréseau pour minimiser la valeur de perte En conséquence, le processus d’apprentissagepeut être réduit à un problème d’optimisation, dont l’objectif est de trouver une fonctionqui permet d’obtenir la perte minimale De telles avancées méthodologiques, associées

à l’augmentation des ressources de calcul et à la disponibilité de grands ensembles dedonnées, rendent les algorithmes de deep learning particulièrement performants sur les

Trang 23

tâches de vision par ordinateur.

Malgré son grand pouvoir de généralisation des problèmes, l’IA connexionniste tègre pas la possibilité d’utiliser la connaissance d’experts et se base uniquement sur lesdonnées pour fonctionner Cela nécessite donc de disposer d’une grande quantité de don-nées pour alimenter les algorithmes de deep learning De plus, l’utilisation des méthodesprobabilistes par ces algorithmes donne des résultats exprimés le plus souvent sous laforme de pourcentage qui sont loin d’être explicables

Les orientations de recherche récentes montrent que la combinaison d’approches dées sur les données et les connaissances devient pertinente dans de plus en plus de

fon-domaines Un article récent synthétise cela dans un nouveau paradigme d’apprentissage

automatique informé qui décrit l’apprentissage à partir d’une source d’information

hy-bride qui se compose de données et de connaissances préalables [54] L’idée ici est donc deprofiter de la puissance de modélisation des réseaux de neurones profonds et de la logiqueimposée par l’approche symbolique

De telles solutions permettraient non seulement d’améliorer les performances de néralisation des modèles issus de l’apprentissage profond, mais également d’assouplir sescontraintes liées au besoin important de données d’apprentissage et d’apporter de l’expli-cabilité Dans le cadre de ce travail, nous nous concentrerons sur le premier avantage quiest l’amélioration des performances en utilisant des données hybrides

gé-Notre objectif ici est alors de proposer une solution d’intégration de la connaissancedans les architectures de deep learning liées à la vision par ordinateur afin d’améliorer leurpouvoir de généralisation Notre travail s’inscrit dans un contexte particulier des sciencesgéologiques et environnementales, mais nous nous intéressons à une solution générale quipeut être appliquée dans n’importe quel contexte

Trang 24

CHAPITRE 2

ETAT DE L’ART

Dans ce chapitre, nous faisons une étude bibliographique des architectures de deeplearning Nous présentons dans un premier temps les différentes architectures CNNs pro-posées en vision par ordinateur Ensuite, nous présentons dans un cadre un peu plusgénéral les travaux qui intègrent la connaissance dans les architecture profondes

Contents

2.1 Architectures de deep learning en vision par ordinateur 11

2.1.1 CNNs basés sur l’exploitation spatiale 122.1.2 CNNs basés sur la profondeur 142.1.3 CNNs basés sur la largeur 172.1.4 CNNs basés sur d’autres types d’innovations 20

2.2 Intégration de la connaissance dans les architectures de deep

learning 21

2.2.1 Concept de connaissance 21

2.2.1.1 Source des connaissances 212.2.1.2 Représentation de la connaissance 222.2.2 Intégration de la connaissance 232.2.3 Deep learning et intégration de connaissance 23

2.2.3.1 Intégration dans les données d’entraînement 242.2.3.2 Intégration dans l’ensemble d’hypothèses 252.2.3.3 Intégration dans l’algorithme d’apprentissage 292.2.3.4 Intégration dans l’hypothèse finale 30

Trang 25

2.1 Architectures de deep learning en vision par

com-32 × com-32 pixels et sept autres couches dont deux couches de convolution, deux couches desous-échantillonage et trois couches complètement connectées dont la couche de sortie quiutilise une fonction de base radiale pour chacune des dix classes

Figure 2.1 – Architecture LeNet-5

Source: [ 33 ]

Malgré ses performances pour la reconnaissance des chiffres manuscrits, LeNet lisait des images à faible résolution et n’était pas performant pour les autres types deproblèmes en vision par ordinateur Les CNNs avaient besoin de beaucoup de données

uti-et de ressources de calculs puissantes pour fonctionner efficacement De plus, les CNNsétaient considérés comme des boỵtes noires parce qu’ils ne donnaient pas d’informationssur leur fonctionnement

Dans les années 2000s, des efforts ont été faits pour optimiser les CNNs La tion d’activation sigmọde ne convenait pas à la construction d’architecture neuronale etd’autres fonctions d’activation tel que ReLu et tanh [12] ont commencé à être utilisé.Également, des GPU ont commencé à être exploité pour accélérer l’apprentissage desCNNs en exploitant le parallélisme [27] L’utilisation des GPU ainsi que d’autres amélio-

Trang 26

fonc-rations matérielles et la disponibilité de données pour la formation des CNNs ont été lesprincipaux facteurs qui ont relancé l’enthousiasme pour les architectures convolutives.

À partir des années 2010s, différentes améliorations ont été apportées pour améliorer lacapacité de généralisation des CNNs La plupart des innovations ont été faites en relationavec la profondeur et l’exploitation spatiale dans les architectures L’exploitation spatialepermet de capturer les informations dans les couches convolutives en utilisant différentestailles de filtre pour le noyau de convolution La profondeur quant à elle représente lenombre de couches utilisées dans l’architecture du réseau Toutefois, on observe égale-ment des améliorations basées sur l’utilisation de trajets multiples entre les couches etl’exploitation de la largeur du réseau La largeur du réseau représente la taille des cartes

de caractéristiques obtenues après une convolution

Dès les années 2000s, les chercheurs ont exploité différentes tailles de filtres dansles couches de convolution, ceci afin de capturer différents niveaux de granularité Lesnombreuses études menées ont montré que l’ajustement des filtres peut permettre demieux généraliser un problème

Ayant vu le jour en 2012, AlexNet [29] est considéré comme la première architectureCNN profonde qui a montré des résultats révolutionnaires sur les tâches de classification,notamment sur le jeu de données ImageNet [8] Son architecture (fig 2.2) est constituée

de 8 couches et utilise des filtres de taille 3×3, 5×5 et 11×11 Ce réseau utilise la fonctiond’activation ReLu et la normalisation afin d’améliorer la généralisation du réseau

Figure 2.2 – Architecture de base AlexNet

Trang 27

ces résultats, les auteurs ont réduit la taille des filtres et le pas, ce qui a entraỵné uneamélioration du pouvoir de généralisation du réseau En 2014, Simonyan et al [49] ontproposé l’architecture VGG dont l’objectif est est d’analyser l’effet qu’apporte la profon-deur sur la précision du réseau Ce réseau (fig 2.3) a une profondeur pouvant atteindre 19couches parmi lesquelles des couches de max-pooling après les couches convolutives et unecouche entièrement connectée VGG utilise de petits filtres de convolution 3 × 3, ce quilui offre un avantage de faible complexité de calcul Malgré les bons résultats obtenus surles problèmes de classification, VGG est limité par son trop grand nombre de paramètres(138 millions), ce qui rend les calculs cỏteux et difficiles à déployer sur des systèmes àfaibles ressources.

Figure 2.3 – Architecture VGG-19

Source: [ 49 ]

Toujours en 2014, Szegedy et al [53] ont proposé GoogleNet, plus connu sous le nom

de Inception-V1 L’objectif principal de cette architecture était d’obtenir une précisionélevée en ayant un cỏt de calcul réduit contrairement à VGG Les auteurs ont introduit

le concept de bloc dans lequel ils utilisent des transformations convolutives à plusieurséchelles, tout en exploitant l’idée de fractionnement, de transformation et de fusion Ainsi,les couches conventionnelles sont remplacées par de petits blocs (fig 2.4) qui contiennentdes filtres de différentes tailles (1 × 1, 3 × 3, 5 × 5) pour capturer les informations spatiales

à différentes échelles Les convolutions 1×1 [35] permettent de réduire le cỏt de calcul duréseau Contrairement aux architectures précédentes qui utilisent des couches entièrementconnectées, GoogleNet utilise un global average pooling au niveau de la dernière couche.Cette modification diminue de façon significative le nombre de paramètres qui est de 4millions Une autre innovation ajoutée à GoogleNet est l’utilisation de la normalisationpar lots [22] et l’optimiseur RmsProp [7] Le principal inconvénient de GoogleNet est satopologie hétérogène qui doit être personnalisée d’un réseau à l’autre

Trang 28

Figure 2.4 – Bloc GoogleNet

Source: [ 53 ]

Les architectures CNNs basées sur la profondeur se basent sur l’hypothèse selon quelle avec la profondeur, un réseau peut mieux se rapprocher de la fonction cible avecune grande quantité d’activations non linéaires [27] Des études théoriques ont montréque les réseaux profonds ont un meilleur pouvoir de généralisation que les réseaux moinsprofonds [42] Toutefois, lorsque la profondeur commence à dépasser un certain nombre

la-de couches, le réseau souffre d’un problème la-de fuite du gradient1 Les architectures qui sebasent sur la profondeur pour augmenter le pouvoir de généralisation se différencient parles techniques qu’elles utilisent pour éviter cette fuite de gradient Bien que les différentesapproches varient en matière de topologie du réseau et de procédure de formation, ellespartagent toutes une caractéristique commune qui est la création de chemins courts pourrelier les différentes couches

La première architecture qui essaie de gagner en profondeur en essayant de régler leproblème de fuite de gradient est Highway Network [51] proposée en 2015 Cette archi-

tecture exploite l’idée de connexions cross-layer en combinant les informations de la ` ieme

couche et des ` − j précédentes afin de créer un effet de régularisation facilitant

l’appren-tissage basé sur le gradient malgré la profondeur du réseau Ce croisement de couchespermet la formation d’un réseau avec plus de 100 couches avec un algorithme de descente

de gradient stochastique Une autre architecture profonde nommée ResNet [18] a tionné la compétition architecturale des CNNs en introduisant le concept d’apprentissagerésiduel Publié en 2015, ResNet dispose d’une architecture pouvant atteindre 152 couchesregroupées en blocs résiduels (fig 2.5) Ce réseau a montré moins de complexité de calcul

révolu-1 Diminution très rapide des valeurs des gradients pendant la rétropropagation entraînant l’annulation

du gradient et l’arrêt de l’apprentissage

Trang 29

et produit moins d’erreurs que les réseaux précédents sur les tâches de classification.

Figure 2.5 – Bloc résiduel ResNet

Source: [ 18 ]

En 2016, Szegedy et al [52] ont introduit V3, V4 et ResNet Inception-V3 et Inception-V4 sont des architectures de réseau de neurones convo-lutifs de la famille Inception qui apportent plusieurs améliorations, notamment l’utilisation

Inception-du lissage d’étiquettes et l’utilisation d’un classifieur auxiliaire pour propager les tions d’étiquettes plus bas dans le réseau Les filtres de grande taille (5 × 5 et 7 × 7) ontété remplacés par de petits filtres asymétriques de tailles 1 × 7 et 1 × 7 Inception-V4 sedémarque en utilisant plus de modules Inception que Inception-v3 Inception-ResNet rem-place la concaténation des filtres par des connexions résiduelles Les auteurs ont montréque Inception-V4 avec des connexions résiduelles (Inception-ResNet) a le même pouvoir

informa-de généralisation que Inception-V4 ordinaire mais avec une profoninforma-deur et une largeurplus grande Cependant, ils ont observé que Inception-ResNet converge plus rapidementque Inception-V4, ce qui montre que la formation avec des connexions résiduelles accélèreconsidérablement la formation des réseaux

Figure 2.6 – Architecture Inception-V3

Source: [ 52 ]

Toujours en 2016, Larsson et al [30] ont proposé FractalNet Il s’agit d’un type de

Trang 30

réseau neuronal convolutif qui évite les connexions résiduelles au profit d’une conceptionfractale2 Ce réseau contient des sous-chemins récursifs de différentes longueurs, maisn’inclut aucune connexion intermédiaire ou résiduelle La profondeur est obtenue en em-pilant plusieurs blocs de fractale (fig 2.7), mais des chemins courts sont conservés dans leréseau Cette architecture a produit les mêmes performances expérimentales que ResNetsur les données CIFAR-10, CIFAR-100 [28] et ImageNet.

Figure 2.7 – Architecture fractale

Source: [ 30 ]

En 2017, Huang et al [20] ont introduit DenseNet, un réseau neuronal convolutif quiutilise des connexions entre les couches à travers des blocs denses, et ainsi chaque coucheest reliée aux autres couches de manière directe Les cartes de caractéristiques des couchesprécédentes sont utilisées comme entrées dans toutes les couches qui suivent (fig 2.8)

2 Objet mathématique qui présente une structure similaire à toutes les échelles

Trang 31

Figure 2.8 – Architecture DenseNet avec 4 Blocs denses

Source: [ 20 ]

Bien que le pouvoir de généralisation des réseaux très profonds puisse être un avantage,

la formation de ces réseaux comporte un problème de temps d’entraînement Pour résoudre

ce problème, Huang et al [21] proposent la profondeur stochastique, une procédure deformation qui permet de former des réseaux courts et d’utiliser des réseaux profonds aumoment du test Pour cela, les auteurs suppriment aléatoirement un sous-ensemble decouches et les contournent avec la fonction identité3 Cette approche simple complète lesuccès récent des réseaux résiduels Cela réduit considérablement le temps d’apprentissage

et améliore le pouvoir de généralisation du réseau

[36], [17] et [43] ont montré expérimentalement que la largeur affecte l’expressivitédes réseaux de neurones avec la fonction d’activation ReLu Un problème majeur lié auxarchitectures profondes est que certaines couches peuvent ne pas apprendre des fonction-nalités utiles Pour faire face à ce problème, des expérimentations ont été faites pour voir

le comportement de réseaux moins profonds et plus larges

C’est dans ce but qu’en 2017, Zagoruyko et al [61] ont mené une étude expérimentalesur l’architecture des blocs ResNet et ont ainsi créé une nouvelle architecture nomméeWide ResNet Cette architecture a exploité la puissance des blocs résiduels en diminuant

la profondeur du réseau et en augmentant la largeur des blocs résiduels Wide ResNet amontré que l’élargissement des couches pourrait fournir un moyen plus efficace d’améliorerles performances des réseaux résiduels De même, Huang et al [21] qui ont introduit leconcept de profondeur stochastique en exploitant les ablations pour résoudre les problèmes

3 La fonction identité est la fonction qui renvoie toujours la valeur qui est utilisée comme argument,

c’est-à-dire f (x) = x

Trang 32

de fuite de gradient et d’apprentissage lent, ont observé qu’une amélioration partielle desperformances d’un réseau très profond pourrait nécessiter l’ajout de nombreuses nouvellescouches Cela montre la pertinence d’ajouter de la largeur aux réseaux profonds pouraméliorer leur pouvoir de généralisation.

Toujours dans la logique d’augmenter la capacité d’apprentissage de ResNet, D Han

et al [16] ont proposé le Pyramidal Network Contrairement à la diminution de la geur spatiale avec une augmentation de la profondeur par ResNet, Pyramidal Networkaugmente progressivement la largeur par bloc résiduel comme le montre la figure 2.9.Cependant, le problème majeur avec Pyramidal Network est que l’augmentation de lalargeur se traduit par une augmentation du temps d’entraînement

lar-Figure 2.9 – Blocs résiduels de Pyramidal Network

Source: [ 16 ]

Une autre approche pour améliorer les performances de ResNet proposée par Xie et

al [58] en 2017 est ResNeXt, également connu sous le nom de réseau de transformationrésiduelle agrégée En plus des dimensions de profondeur et de largeur, cette architec-ture propose la cardinalité, une dimension supplémentaire qui fait référence à la taille del’ensemble des transformations ResNeXt exploite à la fois les architectures de VGG etGoogleNet en fixant la résolution spatiale à des filtres 3×3 dans le bloc de fractionnement,

de transformation et de fusion Il utilise également l’apprentissage résiduel pour rer la convergence d’un réseau profond et large Le bloc de construction de ResNeXt estillustré à la figure 2.10

Trang 33

amélio-Figure 2.10 – Bloc de construction de ResNeXt

Source: [ 58 ]

Également en 2017, l’auteur de Xception [5] propose une amélioration des modulesInception-V3 en introduisant des convolutions séparables en profondeur Xception modifie

le bloc d’origine d’Inception-V3 en l’élargissant et en remplaçant les différentes opérations

de convolution (1 × 1, 5 × 5, 3 × 3) par une seule convolution 3 × 3 suivie d’une convolution

1 × 1 pour réguler la complexité de calcul Également, dans Inception, les opérations deconvolution sont suivies d’une non-linéarité ReLu, cependant les convolutions séparables

en profondeur sont généralement implémentées sans non-linéarités L’architecture d’unbloc Xception est illustrée sur la figure 2.11

Figure 2.11 – Architecture d’un bloc Xception

Source: [ 5 ]

Trang 34

2.1.4 CNNs basés sur d’autres types d’innovations

Dans les CNNs, les fonctionnalités peuvent être sélectionnées dynamiquement en tant les poids associés à un noyau de convolution pendant la formation du réseau Plusieurscartes de caractéristiques peuvent être créées grâce à ces noyaux, mais celles-ci ne jouentpas toujours leur rơle de discrimination des objets Ces cartes de caractéristiques peuventcréer des bruits et ainsi conduire à un sur-ajustement du réseau Il serait donc intéres-sant de sélectionner des cartes de caractéristiques qui concourent à l’amélioration de lagénéralisation du réseau C’est dans cette perspective que Hu et al [19] ont proposé en

ajus-2018 le réseau de compression et d’excitation (SE-Network) Ce réseau est constitué deblocs SE (fig 2.12) qui permettent la sélection de cartes de caractéristiques pertinentespour la discrimination d’objets dans des images Un bloc SE comporte une convolution

en entrée Les canaux issus de cette convolution sont compressés et chaque canal produitune seule valeur numérique en utilisant un average pooling Une couche dense suivie d’unenon-linéarité ReLu ajoute ensuite de la complexité au vecteur de sortie Une autre couchedense suivie d’une fonction sigmọde donne à chaque canal une fonction de déclenchement.Pour finir, chaque carte de caractéristique est excitée en pondérant la sortie précédente enfonction du réseau latéral Les auteurs ont également proposé la même année l’utilisationdes blocs SE pour améliorer l’apprentissage des réseaux résiduels profonds

Figure 2.12 – Bloc de compression et d’excitation

Source: [ 19 ]

D’autres approches utilisent le mécanisme d’attention pour capturer les tiques pertinentes en fonction du contexte C’est le cas de Wang et al [55] qui, en 2017,ont proposé le réseau d’attention résiduelle (RAN) qui utilise l’attention4 pour créer unréseau capable d’apprendre des caractéristiques sensibles aux objets

caractéris-4 C’est une technique qui imite l’ attention cognitive pour améliorer les parties importantes des données d’entrée et atténuer le reste

Trang 35

2.2 Intégration de la connaissance dans les

architec-tures de deep learning

L’idée d’intégrer des connaissances dans les modèles d’apprentissage automatique nedate pas d’aujourd’hui Mais ce n’est que récemment que de nombreux travaux par-viennent à diffuser la connaissance dans les architectures d’apprentissage automatique

en la formalisant de différentes manières

La définition de connaissance est difficile à établir dans un cadre général Pour Linda

Zagzebski [62], la connaissance est un état hautement valorisé dans lequel une personneest en contact cognitif avec la réalité Il s’agit donc d’une relation dans laquelle, d’un côté

se trouve un sujet conscient, et de l’autre, une portion de réalité à laquelle le connaissantest directement ou indirectement lié Nous supposons ici une perspective informatique etscientifique telle que définie dans [54], qui définit la connaissance comme une informationvalidée sur les relations entre entités dans certains contextes

Outre les données de formation habituellement utilisées, on peut intégrer des sances dite à priori dans le pipeline de l’apprentissage automatique Un aspect important

connais-de cette connaissance est exprimé par sa formalisation [54] Le degré de formalisation pend du fait que les connaissances ont été mises à l’écrit, de la structure de l’écriture et dudegré de formalité et de rigueur du langage utilisé Plus les connaissances sont représen-tées de manière formelle, plus elles peuvent être intégrées facilement dans l’apprentissageautomatique

dé-Le processus d’intégration de connaissance dans le pipeline de l’apprentissage tique nécessite que l’on identifie la source de cette connaissance et comment la formaliser

automa-2.2.1.1 Source des connaissances

La source de connaissance fait référence à l’origine des connaissances à intégrer dansl’apprentissage automatique La source des connaissances peut être un domaine de connais-sances ou encore des connaissances d’un groupe de personnes ayant une expérience respec-tive Comme mentionné par [54], les approches fréquentes d’intégration des connaissancesdans l’apprentissage automatique utilisent les sources de connaissances suivantes :

— Sciences naturelles : il s’agit ici de la science, de la technologie, de l’ingénierie

et des mathématiques Ces connaissances sont généralement validées explicitement

par des expériences scientifiques (Exemple : les lois universelles de la physique)

— Sciences sociales : il s’agit des sujets comme la psychologie sociale, l’économie

et la linguistique Ces connaissances sont souvent explicitement validées par des

études empiriques (Exemple : les effets sur les réseaux sociaux)

Trang 36

— Connaissance experte : il s’agit des connaissances détenues par un groupe

d’ex-perts en particulier Ces connaissances peuvent être validées implicitement par un

groupe de spécialistes expérimentés (Exemple : les connaissances acquises par un

médecin sur plusieurs années d’expérience)

— Connaissance du monde : il s’agit des faits de la vie quotidienne qui sont connus

de presque tout le monde et peuvent donc également être appelés connaissancesgénérales Une telle connaissance peut être intuitive et validée implicitement par

le raisonnement humains dans le monde réel Par conséquent, la connaissance dumonde décrit souvent les relations d’objets ou de concepts apparaissant dans le

monde perçu par les humains (Exemple : Un oiseau a des plumes et peut voler )

2.2.1.2 Représentation de la connaissance

La façon dont la connaissance est représentée détermine la façon dont elle pourrătre intégrée dans le pipeline de l’apprentissage automatique La connaissance peut êtrereprésentée de plusieurs manières d’après [54], :

— Équations algébriques : elles représentent la connaissance comme des relations

d’égalité ou d’inégalité entre des expressions mathématiques constituées de riables

va-— Règles de logique : la logique fournit un moyen de formaliser les connaissances

sur les faits et les dépendances et permet de traduire les déclarations du langageordinaire

— Résultats de la simulation : ils décrivent le résultat numérique d’une simulation

informatique, qui est une imitation approximative du comportement d’un processusréel

— Équations différentielles : elles sont un sous-ensemble d’équations algébriques,

qui décrivent les relations entre les fonctions et leurs dérivées spatiales ou relles

tempo-— Graphes de connaissances : un graphe est une paire (V, E), ó V représente

l’ensemble des sommets et E désigne l’ensemble des arêtes Dans un graphe de

connaissances, les sommets (ou nœuds) décrivent généralement des concepts tandisque les arêtes représentent des relations (abstraites) entre ces concepts

— Relations probabilistes : le concept central ici est une variable aléatoire X à

partir de laquelle des échantillons x peuvent être tirés selon une distribution de probabilité P (X)

— Invariances : Les invariances décrivent des propriétés qui ne changent pas sous

les transformations mathématiques

Trang 37

2.2.2 Intégration de la connaissance

L’intégration de connaissances précise ó les connaissances sont intégrées dans le peline d’apprentissage automatique Les différentes approches d’intégration peuvent êtrestructurées en quatre composantes :

pi-— Données d’entraỵnement : une manière standard d’incorporer des connaissances

dans l’apprentissage automatique consiste à les ajouter dans les données ment Il s’agit ici d’utiliser un ensemble de données d’entraỵnement et une sourcesupplémentaire et distincte de connaissances Cette source distincte de connais-sances peut être considérée comme un deuxième jeu de données qui sera utilisé enentrée du modèle à former, en plus des données d’apprentissage d’origine

d’entraỵne-— Ensemble d’hypothèses : l’intégration des connaissances dans l’ensemble

d’hy-pothèses est courante, par exemple, à travers la définition de l’architecture etdes hyperparamètres d’un réseau neuronal Plus généralement, les connaissancespeuvent être intégrées en choisissant la structure du modèle (architecture du réseau,sélection de neurones particuliers, )

— Algorithme d’apprentissage : les algorithmes d’apprentissage utilisent

généra-lement une fonction de perte qui peut être modifiée en fonction des connaissancessupplémentaires Une approche typique de l’apprentissage automatique informé estque les connaissances antérieures (sous forme d’équations algébriques) sont inté-grées au moyen de termes de perte supplémentaires

— Hypothèse finale : le résultat d’un pipeline d’apprentissage, c’est-à-dire

l’hy-pothèse finale, peut être comparé aux connaissances existantes Par exemple, lesprédictions qui ne correspondent pas aux contraintes connues peuvent être reje-tées ou marquées comme suspectes afin que les résultats soient cohérents avec lesconnaissances

L’idée d’intégrer les connaissances dans les architectures de deep learning a suscitéebeaucoup d’intérêt ces dernières années pour améliorer le pouvoir de généralisation desarchitectures et apporter de l’explicabilité Les différents travaux exploitent les différentesfaçons d’intégrer la connaissance dans le pipeline de l’apprentissage automatique

Dans la grande majorité des travaux, l’intégration de la connaissance se fait en créantplusieurs branches dans l’architecture du réseau Chacune des branches est spécialiséedans l’apprentissage d’un sous-problème, puis toutes les branches sont concaténées pourrésoudre le problème principal Cette utilisation de plusieurs branches s’inspire souvent de

la façon dont les experts raisonnent pour faire face aux problèmes dans leur domaine decompétence Cette façon d’intégrer la connaissance peut nécessiter une base de connais-sance et/ou amener le réseau à raisonner comme un expert en utilisant des couches spé-

Trang 38

D’autres travaux intègrent la connaissance dans la fonction de perte en y ajoutant unterme de normalisation Cette façon d’intégrer la connaissance est limitée parce qu’ellen’influence pas de façon considérable la mise à jour des poids du réseau Cependant,elle apporte une grande plus valeur lorsque toutes les données à disposition ne sont pasétiquetées

2.2.3.1 Intégration dans les données d’entraînement

En 2019, Yang et al [60] ont proposé une solution pour faire face au manque de donnéesdans un problème de classification pour la science des matériaux Leur solution consiste

à utiliser de la connaissance experte formalisée sous la forme de fonction de corrélation

en deux points5 Cette fonction de corrélation produit, pour chaque instance du jeu dedonnées, une matrice de description Leur réseau est constitué de deux branches identiquescomportant des couches de convolution et de pooling (fig 2.13) L’ensemble des matricesobtenues grâce à la fonction de corrélation sont fournies en entrée de l’architecture enmême temps que les données brutes, chacune alimentant une branche Les deux branchessont ensuite fusionnées après un average pooling pour alimenter des couches entièrementconnectées

Figure 2.13 – CNN pour l’harmonisation de la connaissance et des données

Source: [ 60 ]

Également en 2019, Maicas et al [37] proposent une méthode de classification desIRMs pour le dépistage du cancer du sein en utilisant le curriculum learning [2] donc leprincipe consiste à former un modèle d’apprentissage automatique en insérant progres-sivement les aspects difficiles du problème L’idée est de mettre sur pied une méthode

de formation qui s’inspire de la manière dont les radiologues sont formés Pour cela, les

5 Probabilité qu’un vecteur avec une longueur et une orientation donnée tombe dans deux états locaux spécifiques dans une image

Trang 39

auteurs mettent sur pied une méthodologie qui se compose de deux étapes La premièreétape consiste à former de petits modèles en utilisant des sous-ensembles de données d’ap-prentissage La connaissance est utilisée ici dans la constitution de ces sous-ensembles dedonnées qui est faite de façon à transformer le problème de 2 classes principales (sain

et bénigne ou maligne) en 5 problèmes de 2 classes, tel que présenté dans la figure 2.14.Ces sous-ensembles de données sont obtenus en regroupant les classes de façon à créerdes sous-problèmes à partir du problème de classification principal Dans la deuxièmeétape, les petits modèles formés sont utilisés pour initialiser le processus d’entraỵnement

du problème général qui est le dépistage du cancer du sein D’autres travaux exploitentl’idée de curriculum learning pour des problèmes de déséquilibre extrême de classe [23] etpour des problèmes de classification dans le domaine médical [15, 24, 25,57]

Figure 2.14 – Processus de dépistage du cancer du sein en utilisant le curriculum learning

Source: [ 37 ]

Nous pouvons remarquer de façon générale que l’intégration de la connaissance dansles données d’entraỵnement peut se faire en suivant 2 méthodologies La première consiste

à considérer 2 sources d’entrées ó l’une représente les données brutes et l’autre représente

la connaissance qui peut elle même être obtenue à partir des données brutes La deuxièmeméthodologie consiste à réorganiser les données brutes en se basant sur la connaissanced’experts

2.2.3.2 Intégration dans l’ensemble d’hypothèses

Comme précisé dans la section 2.2.2, la connaissance peut être intégrée dans l’ensembled’hypothèses de plusieurs manières La plus utilisée est l’intégration à travers la définition

de l’architecture du réseau C’est le cas pour Guan et al [14] qui, en 2018, ont effectuéune classification des maladies du thorax à partir d’images de radiographies pulmonaires

en raisonnant comme un radiologue Pour identifier si un patient est malade du thorax

Trang 40

à partir d’une radiographie, un radiologue se base sur les informations générales de laradiographie et du la zone potentielle pouvant contenir la maladie sur cette radiographie.Dans ce même ordre d’idée, les auteurs proposent un réseau neuronal à convolution guidéepar l’attention (AG-CNN) à trois branches Une branche globale qui utilise l’image entière,une branche locale obtenue à partir de la branche globale qui se focalise sur la zone malade

et une troisième branche qui concatène les deux premières branches (fig 2.15)

Figure 2.15 – Réseau de neurones convolutifs guidés par l’attention (AG-CNN)

Source: [ 14 ]

Sur le même problème de classification des maladies du thorax, Wang et al [56] posent en 2020 un réseau de neurones à zoom profond guidé par les connaissances (KGZ-Net) pour faire face aux problèmes de régions de bruit d’imagerie et de similitude descaractéristiques visuelles entre les maladies et leur environnement Leur approche utilisedes connaissances médicales antérieures par transfert learning pour guider le processus

pro-de formation pro-de leur réseau KGZNet (fig 2.16) part d’images globales formées à l’aipro-ded’un modèle U-Net [46] modifié (GlobalNet) De cette image, un réseau (LungNet) estutilisé pour générer une partie discriminante (région pulmonaire) Cette partie est ensuiteutilisée dans un réseau (LesionNet) à échelle plus fine guidée par carte thermique pourobtenir des régions de lésion discriminante Enfin, les connaissances sur les caractéris-tiques les plus discriminantes sont fusionnées et les informations complémentaires sur lescaractéristiques sont apprises pour la prédiction finale de la maladie

Tiêu đề	Intégration De Connaissances Pour Améliorer L’apprentissage Profond En Vision Par Ordinateur
Tác giả	Franck Anặl
Người hướng dẫn	PhD, Professeur Des Universités, Christel Vrain, PhD, Professeur Associé, Frédéric Ros
Trường học	Université Nationale Du Vietnam À Hanoï
Chuyên ngành	Systèmes Intelligents Et Multimédia
Thể loại	Mémoire
Năm xuất bản	2021
Thành phố	Hanoï

Định dạng
Số trang	81
Dung lượng	6,38 MB