1. Trang chủ
  2. » Luận Văn - Báo Cáo

Analyse d’émotions animales

95 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 8,02 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nous avons retenu la méthode yolo v3 une méthode à base de réseau de neuroneconvolutif pour effectuer la détection de la tête de l’oiseau.. Pour extraire les caractéristiques liées au r

Trang 1

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ INSTITUT FRANCOPHONE INTERNATIONAL

Djahlin Hervé NIKUE AMASSAH

Analyse d’émotions animales

MÉMOIRE DE FIN D’ÉTUDES DU MASTER

INFORMATIQUE

HANỌ - 2020

Trang 2

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

Djahlin Hervé NIKUE AMASSAH

Analyse d’émotions animales

Spécialité : Systèmes Intelligents et Multimédia

Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DU MASTER

INFORMATIQUE

Sous la direction de :

M Bruno EMILE (Directeur de l’IUT de l’Indre, Maỵtre de conférence - HDR)

HANỌ - 2020

Trang 3

Attestation sur l’honneur

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données

et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs Lasource des informations citées dans ce mémoire a bien été précisée

Signature de l’étudiant

Djahlin Hervé NIKUE AMASSAH

Trang 4

♥ A mes très chers parents

Pour leur soutien, leur amour, leur patience et leur encouragement durant tout monparcours scolaire Que DIEU le tout puissant vous préserve, vous accorde santé, bon-heur, quiétude de l’esprit et vous protège de tout mal

♥ A tous mes professeurs

C’est une grande fierté pour moi d’être votre étudiant En témoignage de mon respect

et de ma grande affection

♥ A mes encadrants de stage

Je voudrais vous adresser ma gratitude, mes sincères reconnaissances pour tout ce quevous aviez fait pour moi durant mon stage Votre patience, votre disponibilité et surtout

la confiance que vous avez porté à mon égard m’a beaucoup aidé dans l’avancement

de mes travaux

♥ A tous mes amis

J’ai l’honneur d’avoir des amis, surtout de la promotion 23 SIM de l’IFI, si gentils, dèles, sincères et qui n’ont jamais hésité de partager avec moi mes soucis, mon mal-heur et mon bonheur

Trang 5

Je remercie Dieu le tout Puissant, très Miséricordieux, qui m’a donné la santé, le rage et la persévérance durant ces deux années C’est avec une certaine émotion et une grande reconnaissance que je remercie l’Université Nationale du Vietnam à travers l’Ins- titut Francophone International et toute son équipe pédagogique Je remercie les profes- seurs pour les valeurs et méthodes inculquées durant le cursus : la curiosité, le gỏt du travail, de l’effort, le sens de la persévérance, la volonté de se remettre en question etc Autant de trésors qui me seront, sans nul doute, utiles toute ma vie.

cou-Je tiens à adresser mes profonds remerciements à tous mes encadrants du toire PRISME à l’IUT de l’Indre, très chaleureusement Mlle Helène LAURENT, M Bruno EMILE, M Xavier DESQUESNES qui m’ont beaucoup aidés lors de ce stage ; leurs conseils

labora-et leur coaching m’ont permis de cibler labora-et de m’orienter tout au long de ce stage Ils m’ont donné envie de persévérer dans ce métier pour lequel ils ont le plus grand respect, la re- cherche et l’innovation.

Un grand merci à mon père M Amoni NIKUE AMASSAH , à ma mère Mme Ayaba NIKUE AMASSAH, à mes soeurs et à mon frère pour leurs conseils ainsi que pour leur soutien inconditionnel Je voudrais profiter de cet espace pour leur exprimer toute ma gratitude et ma reconnaissance.

Grâce à vous, j’aborde une nouvelle étape de ma vie avec confiance et dynamisme.

Djahlin Hervé NIKUE AMASSAH

Trang 7

Le sujet de ce stage s’inscrit dans le contexte de l’analyse automatique des vidéospour la détection d’émotions chez les animaux, qui est l’un des axes de recherche del’INRA En effet, des travaux sont menés, depuis quelques années, sur des animauxd’élevages mais également sur des animaux en captivité De récentes études ont réussi

à mettre en évidence des émotions positives chez les oiseaux, à travers des ments et des modifications du plumage au niveau de la tête Ces modifications ont étéobservées dans le cadre d’interactions entre les animaux et les animaliers Pour arriver

rougisse-à ces résultats, les chercheurs sont amenés rougisse-à traiter, manuellement, de nombreuses déos Le travail de ce stage a été réalisé dans le but d’aider ces chercheurs en mettant

vi-en place un système d’analyse automatique des vidéos permettant la reconnaissanced’émotions chez les oiseaux, plus précisément chez les perroquets L’ensemble du tra-vail a été scindé en deux grandes parties Dans la première partie, nous avons détecté

et isolé, dans les vidéos, la zone d’intérêt (la tête de l’oiseau) ó se manifeste tion Nous avons retenu la méthode yolo v3 (une méthode à base de réseau de neuroneconvolutif ) pour effectuer la détection de la tête de l’oiseau Dans la seconde partie,nous avons extrait, sur la tête de l’oiseau, les caractéristiques permettant de détecterles émotions positives chez l’oiseau Ces caractéristiques sont principalement : le re-dressement des plumes sur la tête et les rougissements au niveau de la joue, autourdes yeux et des narines de l’oiseau Pour extraire les caractéristiques liées au redresse-ment des plumes, nous avons d’abord segmenté la zone de redressement des plumespar une méthode de détection de couleur et ensuite utilisé les descripteurs de forme,

l’émo-de textures et les l’émo-descripteurs HOG comme caractéristiques liées à cette zone Une foisles caractéristiques extraites, nous avons formé un classificateur afin d’effectuer, dans

un premier temps, une détection d’émotion basée sur le redressement des plumes.Pour cela, nous avons implémenté et testé plusieurs classificateurs à savoir : la ma-chine à vecteur de support, la forêt aléatoire et le deep learning (ResNet 50 et VGG 16).Pour extraire les caractéristiques liées au rougissement, nous avons d’abord segmenté

la zone de rougissement par la méthode de segmentation sémantique U-Net Une foiscette zone segmentée, nous avons extrait les caractéristiques de couleurs en utilisantl’histogramme de couleur des composant Teinte et Saturation de l’espace de couleurTeinte Saturation Valeur et le masque de segmentation Avec ces caractéristiques, nousavons formé et testé deux classificateurs (la machine à vecteur de support et la forêtaléatoire) afin d’effectuer une seconde détection d’émotion basée sur le rougissement.Toutes les méthodes implémentées ont été testées, avec une technique de validationcroisée, sur des bases d’images de vérité de terrain, afin d’évaluer leur performance.Nous avons obtenu de très bonnes précisions pour la détection d’émotions basée sur

le redressement des plumes ainsi que sur le rougissement

Mots clés : détection d’objets, détection d’émotions, deep learning, segmentation

sémantique

Trang 8

The subject of this internship is in the context of automatic video analysis for thedetection of emotions in animals, which is one of the axes of research at INRA Indeed,work has been carried out for several years on farm animals but also on animals incaptivity Recent studies have shown positive emotions in birds through the reddeningand plumage changes on the head These changes have been observed in interactionsbetween animals and animal handlers To achieve these results, the researchers had

to manually process a large number of videos The work of this internship was carriedout with the aim of helping these researchers by setting up an automatic video analysissystem allowing the recognition of emotions in birds, more precisely in parrots Theentire work was divided into two (2) major parts In the first part, we have detected andisolated, in the videos, the region of interest (the head of the bird) where the emotionmanifests itself We used the yolo v3 method (a Convolutional Neural Network-basedmethod) to perform the detection of the bird’s head In the second part, we extracted,

on the bird’s head, the characteristics that allow us to detect positive emotions in thebird These features are mainly : the raising of the feathers on the head and the redde-ning of the cheeks, around the eyes and nose of the bird To extract the features related

to feather straightening, we first segmented the feather straightening area using a colordetection method and then used shape, texture and HOG descriptors as features rela-ted to this area Once the features were extracted, we trained a classifier to perform, in

a first step, an emotion detection based on feather raising For this, we implementedand tested several classifiers, namely : the support vector machine, the random forestand deep learning (ResNet 50 and VGG 16) In order to extract the features related toreddening, we first segmented the reddening area using the U-Net semantic segmenta-tion method Once this area was segmented, we extracted the color features using thecolor histogram of the Hue and Saturation components of the Hue Saturation Value co-lor space and the segmentation mask With these features, we trained and tested two(2) classifiers (the support vector machine and the random forest) in order to perform

a second emotion detection based on reddening All the implemented methods havebeen tested, with a cross-validation technique, on ground truth image databases, inorder to evaluate their performance We obtained very good accuracy for the detection

of emotions based on feather raising as well as reddening

Keywords : objects detection, emotion detection, deep learning, semantic

segmen-tation

Trang 9

Table des matières

1 Présentation du cadre d’étude et du projet de stage 2

1.1 Introduction 2

1.2 Présentation du cadre d’étude : IFI 2

1.2.1 Objectifs 3

1.2.2 Conditions d’accès et mode de recrutement 3

1.2.3 Organigramme de l’IFI 4

1.2.4 Formation 4

1.2.4.1 Parcours systèmes intelligents et multimédia 4

1.2.4.2 Parcours systèmes et réseaux communicants 5

1.2.4.3 Master en Banque, Finance et Fintech 5

1.2.4.4 Master en Information - Communication, Spécialité Com-munication digitale et éditoriale 5

1.3 Structure d’accueil 5

1.4 Contexte et problématique du projet 7

1.5 Objectifs du stage 10

1.6 Conclusion 10

2 Etat de l’art 11 2.1 Introduction 11

2.2 Détection de la tête de l’oiseau 11

2.2.1 Yolo v3 : méthode de détection d’objets [10] [11] 11

2.2.2 Localisation et détection des parties locales par un apprentissage fortement supervisé : annotation de parties [6] 13

2.2.3 Localisation et détection des parties locales avec Masque CNN [8] 14 2.3 Segmentation d’images 15

Trang 10

TABLE DES MATIÈRES

2.3.1 Segmentation par détection de couleur 15

2.3.2 Segmentation de couleur avec K-means Clusturing 16

2.3.3 Segmentation sémantique à base de deep learning 16

2.3.3.1 U-Net 16

2.3.3.2 Réseau convolutif entièrement connecté (FCN) 18

2.3.3.3 FastFCN [20] 18

2.4 Extraction de caractéristiques 19

2.4.1 Descripteurs de textures 19

2.4.1.1 Gray Level Cooccurrence Matrix (GLCM) [22] 19

2.4.1.2 Les descripteurs LBP (Local Binary Patterns) 20

2.4.2 Descripteurs de formes [23] 20

2.4.3 Descripteurs HOG [24] 21

2.4.4 Descripteurs de couleurs [25] 21

2.5 Méthodes de classification 21

2.5.1 Machine à vecteur de Support (SVM) [26] 22

2.5.2 Forêt aléatoire [28] 22

2.5.3 Perceptron multi couche [30] 23

2.5.4 Réseaux de neurones convolutifs [31] 26

2.5.4.1 La convolution [31] 27

2.5.4.2 La fonction d’activation ou de la non-linéarité [31] 27

2.5.4.3 La mise en commun ou regroupement (pooling) [31] 28

2.5.4.4 Couche entièrement connectée [31] 29

2.5.4.5 Quelques exemples d’architectures de réseaux de neurones convolutifs 29

2.5.5 Réseaux de neurones récurents 33

2.6 Conclusion 33

3 Proposition de solution 34 3.1 Introduction 34

3.2 Détection de la tête de l’oiseau 35

3.3 Segmentation des zones d’intérêts 36

3.3.1 Segmentation de la zone de redressement des plumes 36

3.3.2 Segmentation de la zone de rougissement 37

3.4 Extraction de caractéristiques 38

3.5 Classification de l’émotion 38

3.6 Conclusion 39

4 Implémentation et analyse des résultats 40 4.1 Introduction 40

4.2 Détection de la tête de l’oiseau avec yolo v3 40

4.2.1 Préparation des données 40

4.2.2 Formation du modèle 41

4.2.3 Résultat 42

Trang 11

TABLE DES MATIÈRES

4.3 Détection d’émotion basée sur le redressement des plumes 44

4.3.1 Segmentation de la zone de redressement des plumes par détec-tion de couleur 44

4.3.2 Extraction des caractéristiques liées au redressement des plumes 45 4.3.3 Classification de l’émotion basée sur le redressement des plumes 46 4.3.3.1 Classification avec la forêt aléatoire 46

4.3.3.2 Classification avec la machine à vecteur de support 48

4.3.4 Classification avec les CNN 50

4.3.4.1 Le modèle préformé VGG 16 50

4.3.4.2 Le modèle préformé ResNet 50 52

4.4 Détection d’émotion basée sur le rougissement 55

4.4.1 Segmentation de la zone de rougissement avec la méthode U-Net 55 4.4.1.1 Préparation des données 55

4.4.1.2 Entraînement du modèle et résultat 56

4.4.2 Extraction des caractéristiques liées au rougissement 58

4.4.3 Classification de l’émotion basée sur le rougissement 59

4.5 Conclusion 61

Trang 12

Table des figures

1.1 IFI, vue satellite 3

1.2 Organigramme IFI 4

1.3 Organigramme du laboratoire PRISME [5] 7

1.4 Capture d’une vidéo à analyser 8

1.5 Exemple de perroquet sans émotion positive 8

1.6 Exemple de perroquet avec émotion positive 8

2.1 Architecture du modèle yolo v3 [12] 12

2.2 Localisation des différentes parties de l’oiseau[6] 13

2.3 Comparaison de la précision de la localisation de parties par yolo v3 par rapport aux autres approches sur la base CUB-200-2011[6] 14

2.4 Procédure d’apprentissage du masque par un réseau entièrement convo-lutif (FCN) [8] 15

2.5 Comparaison de la précision de la localisation des parties par masque CNN par rapport aux autres approches sur la base CUB-200-2011[8] 15

2.6 Résultats de segmentation (IoU) sur le défi de suivi des cellules de l’ISBI 2015 [17] 17

2.7 Architecture du modèle U-Net [18] 17

2.8 Architecture du modèle FCN pour la segmentation [19] 18

2.9 Architecture du modèle FastFCN [20] 19

2.10 Fonctionnement de l’algorithme forêt aléatoire [29] 23

2.11 Perceptron [30] 24

2.12 Perceptron multi classe [30] 25

2.13 Descente de Gradient [30] 25

2.14 Fonction d’erreur [30] 26

2.15 Convolution [31] 27

2.16 A gauche la Fonction Sigmoid et à droite ReLU [32] 28

2.17 Le regorupement (ou mise en commun maximale)[31] 29

2.18 Architecture LeNet-5[31] 30

2.19 Architecture de AlexNet[34] 30

Trang 13

TABLE DES FIGURES

2.20 Architecture de VGGNet[35] 31

2.21 Bloc résiduel du réseau ResNet[38] 32

2.22 Architecture d’un RNN[39] 33

3.1 Diagramme représentant la solution proposée 35

3.2 Zone de redressement des plumes 37

3.3 Zone de rougissement 38

4.1 Annotation de la tête de l’oiseau 41

4.2 Evolution de la perte moyenne (avg loss) 43

4.3 Evaluation du modèle sur les données de test 43

4.4 Résultat du modèle formé sur une image test 44

4.5 Segmentation de la zone de redressement 45

4.6 Image de la classe "sans_redressement" 45

4.7 Image de la classe "avec_redressement" 45

4.8 Evaluation du modèle forêt aléatoire avec les descripteurs LBP sur les données de test 47

4.9 Evaluation du modèle forêt aléatoire avec les descripteurs GLCM sur les données de test 47

4.10 Evaluation du modèle forêt aléatoire avec les descripteurs HOG sur les données de test 48

4.11 Evaluation du modèle SVM avec les descripteurs LBP sur les données de test 48

4.12 Evaluation du modèle SVM avec les descripteurs GLCM sur les données de test 49

4.13 Evaluation du modèle SVM avec les descripteurs HOG sur les données de test 49

4.14 Matrice de confusion du modèle SVM avec les descripteurs HOG sur les données de test 50

4.15 Résultat de l’entraînement du modèle 51

4.16 Evaluation du modèle VGG 16 sur les données de test 51

4.17 Résultat de l’entraînement du modèle ResNet 50 52

4.18 Evaluation du modèle ResNet 50 sur les données de test 52

4.19 Matrice de confusion du modèle ResNet 50 sur les données de test 53

4.20 Résultat de l’application du modèle yolo v3 et de ResNet 50 55

4.21 Annotation de la zone de rougissement avec labelme 56

4.22 Image d’un masque de segmentation générer à partir du fichier d’anno-tation 56

4.23 Evolution de l’erreur et du score F1 (Dice Coefficient) 57

4.24 Prédiction du masque avec notre modèle U-Net sur une image test 57

4.25 Zone de rougissement segmentée 58

4.26 Image de la classe "sans_rougissement" 58

4.27 Image de la classe "avec_rougisseent" 58

Trang 14

TABLE DES FIGURES

4.28 Résultat de l’évaluation du modèle SVM et forêt aléatoire sur les données

de test 594.29 Matrice de confusion du modèle SVM et forêt aléatoire sur les données

de test 604.30 Sortie de la classification des deux types d’émotions sur une frame d’unevidéo de test 60

Trang 15

Liste des tableaux

4.1 Paramètres du réseau 424.2 Paramètres du réseau VGG 16 514.3 Récaputilatif des méthodes et des résultats pour la classification de l’émo-tion basée sur le redressement des plumes 54

Trang 16

Liste des sigles et acronymes

FCN Fully Convolutional Network

IoU Intersection over Union

CNN Convolutional Neural Network

SSD Single Shot Detector

HOG Histogram of Oriented Gradients

Yolo You only look once

Trang 17

Introduction Générale

De nos jours, de grands progrès ont été réalisés dans le domaine de la vision par ordinateur1 qui est un ensemble d’outils permettant à un ordinateur de voir et decomprendre son environnement et d’en tirer des conclusions Ces progrès ont beau-coup bénéficié des méthodes d’apprentissage en profondeur (le deep learning), baséesprincipalement sur les réseaux de neurones, de l’augmentation de la puissance de cal-cul des ordinateurs actuels et aussi de la disponibilité d’une grande quantité de don-nées Plusieurs domaines tels que l’imagerie médicale, l’automobile, l’ắronautique, lemultimédia, l’agriculture, l’élevage et pleins d’autres s’appuient sur les techniques de

la vision par ordinateur afin de réduire l’erreur humaine et de fournir des résultats plusefficaces

A l’INRAE (Institut National de Recherche pour l’Agriculture, l’Alimentation et vironnement), notamment sur le site de Tours, des recherches sont menées par deschercheurs sur l’analyse du comportement animal et ont permis de mettre en évidencedes émotions positives chez les oiseaux (les perroquets) à travers des rougissements

l’En-et des modifications du plumage au niveau de la tête Pour arriver à ces résultats, leschercheurs sont amenés à traiter de nombreuses vidéos manuellement ce qui est trèscỏteux en temps et peut entraỵner des erreurs dans leur analyse Ce stage a été réaliséafin de proposer une solution basée sur la vision par ordinateur permettant l’analyseautomatique de ces vidéos Cette solution permettra d’analyser automatiquement lesvidéos et d’extraire les informations sur l’émotion des perroquets afin d’aider les cher-cheurs dans leur futur travail sur l’analyse d’émotions des oiseaux

Le travail de ce stage a été réalisé en collaboration avec l’INRAE et le Zoo de Beauvalqui nous ont fourni la base d’images et de vidéos mettant en évidence les émotionspositives chez les perroquets

Dans les lignes qui suivent dans ce document, je vais vous présenter le travail fectué tout au long de ce stage à travers les sections suivantes : l’état de l’art des mé-thodes, les différents choix des méthodes, l’implémentation des méthodes, l’évalua-tion des modèles, puis un bref résumé des résultats obtenus et les perspectives à venirpour ce travail

Trang 18

1.2 Présentation du cadre d’étude : IFI

L’Institut Francophone International (IFI) a été créé en 1993 sur la base du loppement de l’Institut de la Francophonie pour l’Informatique, et de l’intégration duPôle Universitaire Français à Hanoi, fondé en 2006 Il se situe dans l’enceinte de l’Uni-versité Nationale du Vietnam (Hanoi) Officiellement nommé "Institut FrancophoneInternational" à compter du 18 novembre 2014, l’IFI est un organisme international derecherche et de formation de haute qualité, rattaché à l’Université Nationale du Viet-nam, Hanoi Il a pour mission d’apporter un appui logistique et technique en informa-tique aux différentes entreprises, laboratoires de recherche etc Il offre aussi un cadre

déve-de formation en informatique Cette offre déve-de formation est constituée déve-de déve-deux filières

à savoir : Systèmes Intelligents et Multimédia (SIM) et Réseau et Systèmes cants (RSC)

Communi-Depuis sa création en 2009, l’IFI forme ses étudiants en vue de l’obtention d’undouble diplôme de master recherche La figure1.1présente une vue satellite de l’Ins-titut Francophone International

Trang 19

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

FIGURE1.1 – IFI, vue satellite

1.2.1 Objectifs

Etant une école de rénommée en informatique, l’IFI a pour principaux objectifs de :

— doter les étudiants de connaissances en intelligence artificielle, machine ning, deep learning, traitement d’images et de vidéos, vision par ordinateur, mo-délisation et simulation des systèmes complexes, fouille de données, etc ;

lear-— former les étudiants aux méthodes et à la pensée de la recherche scientifique,pour être capables de résoudre indépendamment les problèmes techniques

1.2.2 Conditions d’accès et mode de recrutement

Trang 20

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

1.2.3 Organigramme de l’IFI

1L’Institut Francophone International est constitué d’une direction et de divisions

La direction s’appuie sur une Direction, un conseil scientifique, des services, des ratoires et presse et des centres comme l’indique plus clairement l’organigramme1.2ci-dessous

labo-FIGURE1.2 – Organigramme IFI

1.2.4 Formation

L’IFI offre, pour sa formation, quatre filières au choix : systèmes intelligents et timédia, systèmes et réseaux communicants, master en banque finance et fintech ,master en information - communication, spécialité communication digitale et édito-riale

mul-1.2.4.1 Parcours systèmes intelligents et multimédia

Le master informatique : option systèmes intelligents et multimédia combine desconnaissances issues de différents domaines d’études en Informatique (modélisation

et simulation, intelligence artificielle, fouille de données, interaction homme-machine,génie logiciel, etc.) Le programme vise à concevoir et à construire des systèmes intel-ligents d’aide à la décision basés sur l’exploitation des informations multimédia Leprogramme s’oriente vers l’amélioration du potentiel scientifique, intellectuel et de

la vision des étudiants en réponse aux innovations croissantes dans le domaine dessciences et de la technologie, en particulier dans la révolution industrielle 4.0 [1]

1 http://www.ifi.edu.vn/fr/about/Organigramme.html

Trang 21

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

1.2.4.2 Parcours systèmes et réseaux communicants

Le master informatique : option réseaux systèmes communicants combine desconnaissances issues de différents domaines d’études (réseaux avancés stockage, cloud

et virtualisation, sécurité des réseaux, réseaux ad-hoc avances, réseaux sans fil et bile, administration des systèmes et des réseaux, etc.) Le programme vise à conce-voir et à construire des plateformes de communication durable qui assurent un ser-vice transparent et permanent Le programme s’oriente vers l’amélioration du poten-tiel scientifique, intellectuel et de la vision des étudiants en réponse aux innovationsconstantes dans le domaine des sciences et de la technologie, en particulier dans larévolution industrielle 4.0 [2]

mo-1.2.4.3 Master en Banque, Finance et Fintech

Ce parcours a pour objectifs de fournir aux étudiants des connaissances dies et les plus récentes dans le secteur bancaire et financier à l’ère d’industrie 4.0 Leprogramme Fintech en partenariat entre IFI et EM Normandie est le premier mis enœuvre au Vietnam et le deuxième en Asie Il bénéficie de la participation d’enseignants

approfon-et experts internationaux ayant une grande expérience de formation approfon-et de conseil venant des centres mondiaux en marché financier et en Fintech [3]

pro-1.2.4.4 Master en Information - Communication, Spécialité Communication

digi-tale et éditoriale

Le programme de formation de master information et communication, spécialitécommunication digitale et éditoriale en cotutelle de l’Université de Toulon et de l’Insti-tut Francophone International (Université Nationale du Vietnam à Hanoi) financé parl’Agence Universitaire de la Francophonie (AUF) a pour objectif de former des spécia-listes en communication en se fondant sur des techniques informatiques et d’ :

- aider les diplômés en français et en Sciences humaines et sociales souhaitant vailler dans le domaine de la communication à acquérir des connaissances complé-mentaires de communication digitale et éditoriale ainsi que des techniques informa-tiques utilisées dans ce domaine ;

tra aider les diplômés en Sciences et en Sciences technologiques à acquérir des connaistra sances complémentaires de communication ;

connais aider les diplômés en Journalismeconnais Éditation, les correspondants et les éditeurs à moconnais derniser leur procédure professionnelle [4]

mo-1.3 Structure d’accueil

Le Laboratoire PRISME (EA 4229)2est un laboratoire de l’université d’Orléans et

de l’INSA-Centre Val de Loire La vocation du laboratoire PRISME est

pluridiscipli-2 https://www.orleans-grandcampus.fr/highlights/laboratoire-prisme/

Trang 22

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

naire dans le domaine général des sciences pour l’Ingénieur sur un large spectre dechamps disciplinaires incluant la combustion dans les moteurs, l’énergétique, l’aéro-dynamique, la mécanique des fluides, le traitement du signal et de l’image, l’automa-tique et la robotique

Le laboratoire a choisi de se structurer avec des départements scientifiques ganisés en axes thématiques Le département Fluides, Energie, Combustion, Moteur(FECP) développe des actions de recherche dans le domaine des transports (automo-bile, aéronautique), le domaine des systèmes énergétiques (combustion, matériauxénergétiques, matériaux haute température, etc) L’impact environnemental est l’undes objectifs communs : cela va par exemple, des émissions d’espèces polluantes dues

or-à des combustions contrôlées ou non (motorisation, explosion ) or-à la fiabilité desstructures (risques) Les trois axes thématiques du département FECP sont :

— Axe Combustion Explosion (CE)

— Axe Energie Combustion Moteur (ECM)

— Axe Ecoulement et Systèmes Aérodynamiques (ESA)

Le département Images, Robotiques, Automatique et Signal (IRAuS) développe desactions de recherche concernant l’ingénierie des systèmes et les systèmes de traite-ment de l’information Les domaines d’applications sont multiples puisque cette spé-cification scientifique peut intervenir dans tous les volets des sciences pour l’ingénieur.Les Axes thématiques du département sont :

— Axe Automatique (Autom)

— Axe Image Vision (IV)

— Axe Robotique (Robot)

— Axe Signal (Signal)

Ce stage a été effectué dans le département IRAuS, axe Image Vision La figure1.3montre l’organigramme de la structure d’accueil

Trang 23

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

FIGURE1.3 – Organigramme du laboratoire PRISME [5]

1.4 Contexte et problématique du projet

Ce sujet de stage est né d’une problématique autour d’une étude réalisée par leschercheurs de l’INRAE sur l’émotion des oiseaux, plus précisément sur les perroquets3.Cette étude se base sur l’analyse visuelle de plusieurs vidéos, montrant les interactionsentre différents perroquets avec les soigneurs animaliers, afin de détecter les caracté-ristiques liées à la présence d’émotions positives chez ces oiseaux Quelques observa-tions telles que : le rougissement et la modification de plumages au niveau de la têteont mené à une hypothèse sur la présence d’émotions positives chez les perroquets enprésence des animaliers

Pour effectuer l’analyse des vidéos, les chercheurs ont utilisé un protocole constitué

de 3 phases :

— L’entrée de l’animalier dans la salle avec l’oiseau L’oiseau est alors posé sur unperchoir ;

— L’animalier sort de la salle en laissant l’oiseau tout seul ;

— L’animalier revient dans la salle, auprès de l’oiseau

Pour chaque phase, les chercheurs observent et analysent le comportement de seau afin de relever les principales caractéristiques que manifeste l’oiseau en présence

l’oi-et en absence de l’animalier Ce scénario est répété plusieurs fois sur plusieurs oiseauxdifférents Ci-dessous, sur la figure1.4, nous avons la capture d’une vidéo que les cher-cheurs ont analysé

3 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0201762

Trang 24

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

FIGURE1.4 – Capture d’une vidéo à analyser

L’analyse des vidéos se faisant manuellement, cela devenait couteux en temps et enpersonnel et pouvait entraîner des erreurs dans les résultats d’analyse

C’est ainsi que nous proposons, à travers ce stage, une solution d’analyse et de tection automatique d’émotions positives chez les perroquets au travers des vidéos Lebut principal de notre travail est de fournir aux chercheurs, un système d’analyse devidéos pouvant détecter automatiquement les émotions positives chez les oiseaux en

dé-se basant sur les caractéristiques midé-ses en évidence au préalable par les chercheurs

FIGURE 1.5 – Exemple de

per-roquet sans émotion positive

FIGURE 1.6 – Exemple de roquet avec émotion positive

per-Sur la figure1.5, ci-dessus, nous avons l’exemple de la tête d’un perroquet avec unplumage lisse et couché au dessus de la tête ainsi que l’absence de rougissement dans

la zone blanche de la tête Il s’agit là d’un perroquet sans présence d’émotion positive.Par contre, sur la figure 1.6, nous avons l’exemple de la tête d’un perroquet pré-sentant les caractéristiques liées à une émotion positive Nous pouvons remarquer unredressement des plumes (avec changement de la texture) sur sa tête et aussi l’appari-

Trang 25

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

tion d’un léger rougissement dans la zone blanche de la tête

Notre objectif est donc extraire ces différentes caractéristiques et les classer afin

de détecter la présence ou non d’émotion positive Les principales difficultés pour cetravail sont :

— la localisation précise de la tête de l’oiseau : dans les vidéos, les oiseaux sont trèsmobiles avec la tête qui bouge dans tous les sens ;

— la position de la tête pour l’extraction des caractéristiques : l’extraction des ractéristiques ne peut se faire correctement que dans la position de profil de latête de l’oiseau ;

ca-— la détection du rougissement qui reste souvent moins marqué que la tion du plumage ;

modifica-— la faible quantité de données disponibles

Trang 26

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

1.5 Objectifs du stage

Les objectifs du sujet de stage étaient donc multiples :

— Détecter la zone d’intérêt (la tête de l’oiseau), ó sont présentes les tiques principales liées aux émotions positives, dans les images et les vidéos

caractéris-— Extraire, de la tête de l’oiseau, les caractéristiques liées aux rougissements poureffectuer une détection d’émotion basée du rougissement

— Extraire les caractéristiques liées à la modification du plumage c’est-à-dire le dressement des plumes sur la tête de l’oiseau et effectuer une détection d’émo-tion basée sur le redressement des plumes

re-— Construire les bases d’images de vérité de terrain afin d’évaluer et de valider lesdifférentes méthodes implémentées

1.6 Conclusion

L’Institut Francophone International (IFI) est une institution de l’Université nale du Vietnam ayant pour mission de former les étudiants en master international.C’est aussi un cadre de formation disposant de quatres filières : systèmes intelligents

Natio-et multimédia, systèmes Natio-et réseaux communicants, banque finance Natio-et fintech, munication digitale et éditoriale Il accueille aussi des stagiaires en fin de formation

com-De même, le laboratoire PRISME est un laboratoire de recherche français qui offre desstages de recherche à tout étudiant désirant poursuivre ses recherche au sein de ce der-nier Pour ma part, j’ai fait mon stage de fin de formation dans le département IRAuS,axe Image Vision, sur le site de Châteauroux

Trang 27

la tête de l’oiseau Nous nous intéresserons ensuite à quelques méthodes de tation pour la segmentation des différentes régions d’intérêts (zone de la tête ó sontprésentes les caractéristiques que nous recherchons) pour mieux extraire les caracté-ristiques Ensuite, nous ferons une études des méthodes existantes pour l’extractiondes caractéristiques Enfin la dernière partie traitera des approches existantes pour laclassification d’émotion à partir des caractéristiques extraites.

segmen-2.2 Détection de la tête de l’oiseau

2.2.1 Yolo v3 : méthode de détection d’objets [ 10 ] [ 11 ]

Yolo v3 est une méthode de détection d’objets à une étape souvent utilisée dans

la détection des objets en temps réel Elle considère le problème de détection d’objetcomme étant un problème de régression afin de séparer, dans l’espace, les boỵte englo-bantes et les probabilités de classes associées

Un réseau de neurone est appliqué sur l’ensemble de l’image Ce réseau divisel’image en plusieurs cellules et prédit une boỵte englobante et la probabilité de pré-sence d’un objet pour chaque cellule Il fournit également un score de confiance pourchaque boỵte englobante qui représente l’intersection sur union (IoU) de la boỵte pré-dite par rapport à la vérité de terrain, au cours de la phase d’entraỵnement Les boỵtesenglobantes sont pondérées par les probabilités prédites Si le centre d’un objet tombedans une cellule, cette cellule est responsable de la détection de l’objet prédit

Trang 28

CHAPITRE 2 ETAT DE L’ART

Cette méthode utilise les images ainsi que les annotations correspondant à chaqueimage Ces annotations contiennent les coordonnées (longueur, largeur, centre (x, y))

de la zone qu’on souhaite détecter dans l’image et correspondent donc à la vérité rain Chaque boîte englobante prédite est un vecteur de 6 valeurs (la probabilité deprésence d’un objet, x, y, w, h et le score de confiance de chaque classe) ; x, y, w, et hreprésentent respectivement le centre de la boîte englobante prédite, sa largeur et sahauteur

ter-FIGURE2.1 – Architecture du modèle yolo v3 [12]

Le modèle yolo v3 est un réseau entièrement convolutif (il ne contient que descouches de convolutions) Il utilise un réseau Darknet-53 de 53 couches convolutivespour l’extraction de caractéristiques 53 couches supplémentaires sont ajoutées poureffectuer la détection, ce qui donne un total de 106 couches convolutives utilisées dansyolo v3

Pour effectuer la détection, yolo v3 utilise trois niveaux d’échelles différentes, comme

le montre la figure2.1, et applique des noyaux de convolution de taille 1x1 sur les troiscartes de caractéristiques issues des trois niveaux d’échelles du réseau

L’image d’entrée est divisée en plusieurs cellules Cette division ainsi que les dictions sont effectuées à chaque niveau d’échelle du réseau Par exemple avec uneimage de taille 416x416 pixels, au premier niveau celle ci sera divisée en 13x13 cellulesavec une foulée de 32 Ainsi on aura 26 cellules et chaque cellule peut détecter un objet

pré-La carte de caractéristiques correspondante sera aussi divisée en 13x13 cellules

Chaque cellule de la carte de caractéristiques peut prédire un objet à travers l’une

de ses boîtes englobantes si le centre de l’objet tombe dans le champ récepteur de cettecellule (région de l’image d’entrée visible par la cellule (neurone))

Trang 29

CHAPITRE 2 ETAT DE L’ART

2.2.2 Localisation et détection des parties locales par un

apprentis-sage fortement supervisé : annotation de parties [ 6 ]

Il s’agit d’une méthode de détection des différentes parties d’un objet Elle est vent utilisée pour la reconnaissance d’objets à grains fins telle que la classification desespèces d’oiseaux Le but est d’utiliser les différentes parties de l’oiseau, comme la tête,

sou-la queue et sou-la poitrine, pour déterminer sou-la csou-lasse à sou-laquelle l’oiseau appartient

Cette méthode est basée principalement sur les annotations de parties permettant

de générer une région d’intérêt pour chaque partie de l’objet Hui et al [6] ont utilisécette méthode pour comparer les résultats de la classification des espèces d’oiseaux enutilisant l’oiseau entier d’une part et d’autre part en utilisant les différentes parties del’oiseau Ils ont utilisé les annotations de parties, qui correspondent aux points d’inté-rêts caractérisant chaque partie de l’oiseau (le bec, l’œil droit, l’œil gauche, la poitrine,

le dos, l’aile gauche, l’aile droite, le front etc.) issues de la base d’images CUB200-2011[7] (base de données de différentes espèces d’oiseaux)

Grâce ces annotations de parties, ils ont pu générer les différentes parties telles que

la tête, la poitrine, la queue et l’aile de l’oiseau Pour la tête et la poitrine, ils ont lisé un rectangle minimal qui va inclure tous les points d’intérêts annotés sur la tête del’oiseau La taille du rectangle est réglée automatiquement en fonction de la largeur et

uti-de la hauteur du rectangle minimal comme suit :

½ W head = (1 + λ w ) · W mi ni −r ect

H head = (1 + λ h ) · H mi ni −r ect

ó W mi ni −r est et H mi ni −r est sont, respectivement, la largeur et la hauteur du

rec-tangle minimal incluant les points d’intérêts, et W head , H head sont respectivement lalargeur et la hauteur de la région de la tête générée,λ wetλ hsont les facteurs de réglagequi sont utilisés pour remplir la région de la tête La figure2.2montre les résultats de ladétection et localisation des parties obtenus avec cette méthode

FIGURE2.2 – Localisation des différentes parties de l’oiseau[6]

Les parties générées ont été ensuite utilisées comme vérité de terrain pour former

Trang 30

CHAPITRE 2 ETAT DE L’ART

un modèle de détection d’objets qui pourra prédire les parties de l’oiseau sur de velles images Pour former le modèle ils ont utilisé la méthode de détection d’objet yolov3

nou-FIGURE2.3 – Comparaison de la précision de la localisation de parties par yolo v3 parrapport aux autres approches sur la base CUB-200-2011[6]

Sur la figure4.1, nous pouvons voir que la méthode proposée par les auteurs dans[6] a une précision de 88.20% pour la détection de la tête de l’oiseau sur la base CUB-200-2011

2.2.3 Localisation et détection des parties locales avec Masque CNN

[ 8 ]

Il s’agit d’une méthode utilisée pour la détection des parties d’un objet en utilisant

le Masque CNN Elle se base un réseau de neurones entièrement connecté (FCN) [9]pour non seulement localiser l’objet et ses parties, mais aussi pour générer les masques

de segmentation des différentes parties localisées

Cette méthode a été utilisée par Xiu-Shen et al [8] pour la détection des différentesparties d’un oiseau (la tête et le torse) dans la classification des espèces d’oiseaux Ilsont généré les masques de segmentation correspondant à chaque partie de l’oiseau enutilisant les points d’intérêts de chaque partie de l’oiseau fournis dans la base d’imagesCUB200-2011 [7] qui contient les points d’intérêts extraits de chaque partie de l’oiseau.Ces point d’intérêts sont divisés en deux ensembles, comprenant les points d’intérêts

de la tête (c’est-à-dire le bec, le front, la couronne, l’œil gauche, l’œil droit, la nuque

et la gorge) et les points d’intérêts du torse (c’est-à-dire le dos, la poitrine, le ventre,

la jambe gauche, la jambe droite, l’aile gauche, la nuque, l’aile droite, la queue et lagorge) Sur la base de ces points d’intérêts, deux masques partiels, correspondant à latête et au torse, ont été générés et ont été utilisés comme vérité de terrain pour for-mer le modèle FCN Une fois le modèle FCN formé, il a été utilisé pour prédire, sur denouvelles images, le masque de segmentation correspondant à la tête et au torse del’oiseau Sur la figure2.4nous avons la procédure d’apprentissage du masque par unFCN

Trang 31

CHAPITRE 2 ETAT DE L’ART

FIGURE2.4 – Procédure d’apprentissage du masque par un réseau entièrement lutif (FCN) [8]

convo-FIGURE2.5 – Comparaison de la précision de la localisation des parties par masqueCNN par rapport aux autres approches sur la base CUB-200-2011[8]

Sur la figure4.2, nous pouvons voir qu’avec la méthode proposée à base de masqueCNN, les auteurs obtiennent une précision de 84.62% pour la détection de la tête del’oiseau sur la base CUB-200-2011

2.3 Segmentation d’images

La segmentation d’images est une opération de traitement d’images qui a pour but

de rassembler des pixels entre eux suivant des critères pré-définis Les pixels sont ainsiregroupés en régions, qui constituent un pavage ou une partition de l’image Il peuts’agir par exemple de séparer les objets du fond Si le nombre de classes est égal à deux,elle est appelée aussi binarisation [15]

Dans cette partie, nous allons voir quelques méthodes de segmentation d’imagesutilisées pour extraire les zones d’intérêts présentant les caractéristiques recherchées

2.3.1 Segmentation par détection de couleur

Il s’agit d’un type de segmentation basée sur la détection de couleur des pixels posant l’image En effet, lors de la segmentation par couleur, on utilise les valeurs despixels de l’image, dans un espace de couleur donné (RGB, HSV ou YCbCr), afin de fil-trer l’image pour avoir au final une image avec les valeurs de pixels recherchées Cetteméthode a été utilisée plusieurs fois dans la littérature K Shaik et al [13] ont effec-tué une étude comparative de la détection et de la segmentation de la couleur de la

Trang 32

com-CHAPITRE 2 ETAT DE L’ART

peau dans l’espace de couleur HSV et YCbCr D’après leur résultat, l’espace de couleurYCbCr a été le meilleur pour la segmentation de la peau Nous disposons également del’espace de couleur RGB, mais les résultats de segmentation de la peau obtenus aveccette représentation sont moins bons En effet, l’espace colorimétrique RGB n’est paspréféré pour la détection et l’analyse des couleurs en raison du mélange des informa-tions sur la couleur (chrominance) et l’intensité (luminance) et de ses caractéristiquesnon uniformes [13]

2.3.2 Segmentation de couleur avec K-means Clusturing

L’algorithme K-means est un algorithme d’apprentissage non supervisé permettant

de regrouper les données en des clusters Il est utilisé pour partitionner N observations

en K clusters dans lesquels chaque observation appartient au cluster ayant la moyenne

la plus proche Un cluster fait référence à une collection de points de données pées en raison de certaines similarités Pour la segmentation d’images, les clusters sontici les différentes couleurs d’images On peut renseigner le nombre de clusters souhaité

regrou-au préalable [14] En effet, en fonction du nombre K de clusters fourni, l’algorithme means va créer K couleurs différentes (en se basant sur les couleurs présentes dansl’image) et va regrouper chaque pixel de l’image dans la couleur de laquelle il se rap-proche le plus

K-Cette méthode permet de détecter plusieurs couleurs sans pour autant connaîtreleurs valeurs au préalable, tandis que la méthode à base de détection de couleur né-cessite une connaissance préalable des valeurs exactes des couleurs ou d’un intervalcontenant ces valeurs

2.3.3 Segmentation sémantique à base de deep learning

La segmentation sémantique consiste à associer, à chaque pixel, une classe parmi

un ensemble de classes prédéfinies Le but final est de prédire un masque de tation qui indique la classe de chaque pixel Les pixels sont classés à partir de caracté-ristiques locales comme la couleur, la texture et autres [16]

segmen-Plusieurs méthodes existent pour effectuer la segmentation sémantique en sant les réseaux de neurones

Trang 33

CHAPITRE 2 ETAT DE L’ART

FIGURE2.6 – Résultats de segmentation (IoU) sur le défi de suivi des cellules de l’ISBI

2015 [17]

Ci-dessous, nous avons l’image correspondante à l’architecture du modèle U-Net :

FIGURE2.7 – Architecture du modèle U-Net [18]

U-Net est un réseau de neurones entièrement convolutif (ne contient que des couches

de convolution) Comme nous pouvons le voir sur la la figure2.7, l’architecture de cemodèle contient principalement 2 chemins :

— Premier chemin : il s’agit d’un chemin de contraction (encodeur) utilisé pourcapturer le contexte de l’image (les descripteurs) Dans ce chemin sont utiliséesdes couches de convolution et de mise en commun maximale

— Second chemin : il s’agit du décodeur pour permettre une localisation précise enutilisant des convolutions transposées

Trang 34

CHAPITRE 2 ETAT DE L’ART

2.3.3.2 Réseau convolutif entièrement connecté (FCN)

Il s’agit d’un modèle de réseau de neurone avec des couches entièrement tées utilisé pour les tâches de segmentation Le modèle FCN était, au préalable, prévupour des tâches de classification E Shelhamer et al ont proposé, dans leur travail [19],

connec-un modèle de réseaux entièrement connectés qui prennent connec-une image de n’importequelle taille et génèrent une sortie correspondante aux dimensions spatiales de l’imaged’entrée Ils ont, pour cela, adapté les réseaux de classification existants (AlexNet1, leréseau VGG2et GoogLeNet3) en réseaux entièrement convolutifs et transféré leurs re-présentations apprises en les ajustant à la tâche de segmentation Ils ont ensuite définiune architecture de saut qui combine les informations sémantiques d’une couche pro-fonde et générale avec les informations d’apparence d’une couche fine et peu profondeafin de produire des segmentations précises et détaillées

Avec leur réseau entièrement convolutif, ils ont obtenu de meilleurs résultats desegmentation que l’état de l’art sur le PASCAL VOC4(amélioration relative de 30 % parrapport à 67,2 % d’IoU moyenne en 2012) Sur la figure4.7nous avons l’architecture dumodèle FCN que les auteurs dans [20] ont proposé pour la segmentation

FIGURE2.8 – Architecture du modèle FCN pour la segmentation [19]

2.3.3.3 FastFCN [ 20 ]

Les approches modernes de la segmentation sémantique utilisent généralementdes convolutions dilatées dans le réseau pour extraire des cartes de caractéristiques àhaute résolution, ce qui entraîne une grande complexité de calcul et une grande oc-cupation mémoire Dans la nouvelle méthode, appelée FastFCN, les chercheurs pro-

1 https://fr.qwe.wiki/wiki/AlexNet

2 https://neurohive.io/en/popular-networks/vgg16/

3 https://arxiv.org/pdf/1409.4842.pdf

4 http://host.robots.ox.ac.uk/pascal/VOC/

Trang 35

CHAPITRE 2 ETAT DE L’ART

posent de remplacer les convolutions dilatées consommatrices de temps et de moire par un module de suréchantillonnage commun nommé JPU (Joint Pyramid Up-sampling) Ils ont montré que la méthode peut être appliquée à d’autres approchesexistantes pour réduire la complexité et améliorer les performances

mé-Leur méthode a atteint des performances de pointe sur l’ensemble de données cal Voc (mIoU de 53,13%) et sur l’ensemble de données ADE20K5(score final de 0,5584)tout en fonctionnant 3 fois plus vite La figure2.9nous avons l’architecture du modèleFastFCN pour la segmentation d’image

Pas-FIGURE2.9 – Architecture du modèle FastFCN [20]

2.4.1 Descripteurs de textures

Nous allons voir dans cette partie quelques méthodes existantes permettant de ractériser une image par rapport à sa texture

ca-2.4.1.1 Gray Level Cooccurrence Matrix (GLCM) [ 22 ]

Il s’agit d’une méthode de texture statistique analysant la distribution spatiale desvaleurs de gris, en calculant les caractéristiques locales à chaque point de l’image et en

5 https://groups.csail.mit.edu/vision/datasets/ADE20K/

Trang 36

CHAPITRE 2 ETAT DE L’ART

déduisant un ensemble de statistiques à partir des distributions des caractéristiqueslocales Cette methode s’appuie sur la recherche de motif particulier dans une image

et sur la quantification de l’apparition de ces derniers pour caractériser la texture Ellecompte donc le nombre d’occurence de deux (02) pixels dans l’image à une même dis-tance pour une même direction

Une fois les caractéristiques GLCM extraites, nous pouvons les utiliser pour calculerles différents paramètres pour caractériser nos images Ces paramètres sont principa-lement : l’énergie, la dissimilarité, l’homogénéité, le contraste, la corrélation et l’en-tropie Ces paramètres sont ensuite utilisés comme descripteurs de texture des imagespour la classification

2.4.1.2 Les descripteurs LBP (Local Binary Patterns)

Ce sont des caractéristiques utilisées en vision par ordinateur pour reconnaître destextures ou pour la détection d’objet dans des images numériques [21]

Contrairement aux fonctionnalités de texture d’Haralick qui calculent une sentation globale de la texture basée sur la matrice de co-occurrence de niveau de gris,les LBP calculent plutôt une représentation locale de la texture Cette représentationlocale est construite en comparant chaque pixel avec son voisinage environnant depixels [22]

repré-La première étape de la construction du descripteur de texture LBP consiste à tir l’image en niveaux de gris Pour chaque pixel de l’image en niveaux de gris, noussélectionnons un voisinage de taille r entourant le pixel central Pour chaque pixel cen-tral, si l’intensité est supérieure ou égal à son voisin, on définit sa valeur sur 1 ; sinon,c’est 0 Une valeur LBP est ensuite calculée pour ce pixel central et stockée dans le ta-bleau 2D de sortie avec la même largeur et la même hauteur que l’image d’entrée [22]

conver-2.4.2 Descripteurs de formes [ 23 ]

La forme est l’un des éléments discriminants les plus importants pour la recherched’images basée sur le contenu et le plus difficile à quantifier et à décrire Les descrip-teurs de Fourier sont une méthode de description de forme très efficace utilisée dansles tâches de récupération d’images basées sur la forme

Afin d’obtenir une invariance en cas de rotation et de changement du point de part, la plupart des implémentations du descripteur de Fourier ne tiennent pas compte

dé-de la phase dé-des coefficients dé-de Fourier, ce qui entraîne la perte d’informations cieuses sur la forme Ainsi, dans leur travail [23], E Sokic et al ont proposé une nou-velle méthode d’extraction des descripteurs de Fourier qui préserve la phase des co-efficients de Fourier Leur méthode utilise des points spécifiques, appelés points depseudo-miroir, et sont utilisés comme référence d’orientation de la forme

pré-A part le descripteur Fourier, nous avons d’autres descripteurs de formes : chaîne

de Freeman, description polaire, indices de formes, histogrammes de projection CPT,signature polaire etc

Trang 37

CHAPITRE 2 ETAT DE L’ART

2.4.3 Descripteurs HOG [ 24 ]

Ce sont des descripteurs souvent utilisés pour extraire des caractéristiques des images

Il est largement utilisé dans les tâches de vision par ordinateur pour la détection jets Ces descripteurs se concentrent sur la forme ou la structure de l’objet en identi-fiant si un pixel est un contour de l’image ou non et également le sens de ce contour.L’image complète est décomposée en régions plus petites et pour chaque région, lesgradients et l’orientation sont calculés Un histogramme est également calculé pourchaque région en utilisant les gradients et les orientations des valeurs des pixels Ceshistogrammes sont ensuite combinés ensemble pour avoir les caractéristiques de l’imageentière

d’ob-2.4.4 Descripteurs de couleurs [ 25 ]

Les progrès de l’imagerie et du matériel informatique ont conduit à une explosion

de l’utilisation des images couleurs dans une variété d’applications comprenant gerie médicale, la recherche d’images basée sur le contenu, le numérique en peinture,

l’ima-le numérique multimédia et contrôl’ima-le de la qualité visuell’ima-le La coul’ima-leur est un indiceimportant pour la compréhension de l’image La couleur est un phénomène purementpsychologique

Le modèle de couleur est également appelé espace de couleur ou système de leur Un modèle de couleur est un modèle mathématique abstrait décrivant la façondont les couleurs peuvent être représentées sous forme de tuples de nombres, géné-ralement sous forme de trois ou quatre valeurs de composantes de couleur Il existedifférents types d’espaces de couleur qui sont : RGB, CMYK, HSV, HSI, etc La caracté-ristique de couleur est extraite par l’histogramme de couleur et le descripteur de cou-leur L’histogramme de couleur spécifie la répartition de la couleur des pixels dans uneimage

Le descripteur de couleur est constitué de trois (03) éléments : l’espérance de leur, la variance et l’asymétrie des couleurs L’espérance de couleur est la moyenne del’intensité dans l’image La variance des couleurs est la racine carrée de l’écart type.L’asymétrie des couleurs est une mesure de l’asymétrie de la distribution de probabi-lité d’une variable aléatoire à valeur réelle Il existe deux types d’asymétrie : l’asymétriepositive et l’asymétrie négative

cou-2.5 Méthodes de classification

Dans cette partie, nous allons voir quelques algorithmes de classification d’imagesbasée sur l’utilisation des descripteurs précédents

Trang 38

CHAPITRE 2 ETAT DE L’ART

2.5.1 Machine à vecteur de Support (SVM) [ 26 ]

Le classificateur SVM est un algorithme d’apprentissage automatique qui fonctionne

en générant un ensemble d’ hyperplans qui sépare les différentes classes à entraỵner.Les hyperplans sont des limites de décision qui aident à classer les points de données.Les points de données tombants de chaque cơté de l’hyperplan peuvent être attribués àdifférentes classes De plus, la dimension de l’hyperplan dépend du nombre de classe

Si le nombre de classe en entrée est de 2, l’hyperplan n’est qu’une ligne En outre, gorithme SVM, comme la plupart des techniques d’apprentissage machine, est géné-ralement divisé en deux étapes indépendantes : l’entraỵnement et la classification

l’al-Il s’agit d’un algorithme d’apprentissage supervisé car les classes sont connues d’avance.SVM est bien adapté pour les problèmes de classification avec peu de données

Dans l’algorithme SVM, nous cherchons à maximiser la marge entre les points dedonnées et l’hyperplan La fonction de perte qui aide à maximiser la marge est la pertecharnière Après avoir ajouté le paramètre de régularisation, les fonctions de cỏt seprésentent comme ci-dessous :

mi n w λkwk2+Pn

i =1 (1 − y i 〈x i , w 〉)+: fonction de perte de SVM

Maintenant qu’on a la fonction de perte, on prend des dérivées partielles par port aux poids pour trouver les gradients En utilisant les gradients, nous pouvonsmettre à jour nos poids Ces gradients sont :

w = w +α·(y i · x i −2λw) : mise à jour du gradient - Aucune erreur de classification.

Lorsqu’il y a une erreur de classification, c’est-à-dire que notre modèle fait une reur sur la prédiction de la classe de notre point de données, on inclut la perte avec leparamètre de régularisation pour effectuer la mise à jour du gradient

er-w = er-w − α · (2λer-w) : mise à jour du gradient - Avec erreur de classification.

2.5.2 Forêt aléatoire [ 28 ]

L’algorithme de forêt aléatoire est une technique d’apprentissage automatique quiest de plus en plus utilisée pour la classification des images La forêt aléatoire est unmodèle d’ensemble, ce qui signifie qu’il utilise les résultats à partir de nombreux mo-

Trang 39

CHAPITRE 2 ETAT DE L’ART

dèles différents pour calculer une réponse Plusieurs arbres de décision sont donc créés

et la réponse est calculée sur la base du résultat de tous les arbres de décision Dans lecas de la classification, la classe la plus prédite par les arbres est celle qui est attribuée

à cet objet

Les arbres de décision sont des modèles prédictifs qui utilisent un ensemble derègles binaires pour calculer une valeur cible Deux types d’arbres de décision sontles arbres de classification et les arbres de régression Les arbres de classification sontutilisés pour créer des ensembles de données catégorielles telles que la classification de

la couverture terrestre et les arbres de régression sont utilisés pour créer des ensembles

de données continues telles que la biomasse et le pourcentage de couverture forestière

FIGURE2.10 – Fonctionnement de l’algorithme forêt aléatoire [29]

2.5.3 Perceptron multi couche [ 30 ]

Le MLP (Multi Layer Perceptron), perceptron multicouche, est un type de réseaux

de neurones formels organisé en plusieurs couches au sein desquelles une informationcircule de la couche d’entrée vers la couche de sortie uniquement Il s’agit donc d’unréseau à propagation directe (feedforward) Chaque couche (de la première et dernièrecouche) est constituée d’un nombre variable de neurones Les neurones de la dernièrecouche dite « de sortie » étant les sorties du système global Le MLP est formé d’unepremière couche d’unités (ou neurones) qui permettent de « lire » les données Chaqueunité correspond à une des variables d’entrée On peut rajouter une unité appelée biaisqui est toujours activée (voir figure2.11) dont l’intérêt est de déterminer si un neuroneest activé et d’augmenter la flexibilité du modèle Ces unités sont reliées à une seule etunique unité de sortie, qui reçoit la somme des unités qui lui sont reliées, pondérée par

Trang 40

CHAPITRE 2 ETAT DE L’ART

des poids de connexion w j L’unité de sortie applique alors une fonction d’activation àcette sortie

Dans le cas d’un problème de régression, il n’est pas nécessaire de transformer

la somme pondérée reçue en entrée La fonction d’activation est la fonction identité

nommée a, elle retourne ce qu’elle a reçu en entrée.

Soient : a la fonction identité, w0le biais, w j le j i eme poids, x j la j i eme entrée, y (i )

percep-aura donc ainsi K · (p + 1) poids de connexion, ó K est le nombre de classes.

Ngày đăng: 01/04/2021, 15:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w