amélioration de la recherche dimages par le contenu grâce à la mesure de dissimilarité contextuelle

Dans ce mémoire, je fais une recherche sur la Mesure de la Dissimilarité Contextuelle pour l’amélioration de la recherche d'images par le contenu.. Le logiciel fait une suite des actions

Trang 3

Résumé :

Le besoin de la recherche documentaire existe depuis longtemps Parallèlement au développement, ce besoin est également indispensable dans la recherche de documents visuels Depuis plusieurs années, l'humain a fait efficacement beaucoup de recherches pour une méthode de la recherche d'images par le contenu pour l'appliquer aux nombreux travaux chaque jour

Dans ce mémoire, je fais une recherche sur la Mesure de la Dissimilarité Contextuelle pour l’amélioration de la recherche d'images par le contenu Et puis l'appliquer sur un logiciel qui marche avec une grande base d'images Chaque image dans la base est calculée son signature et indexée dans une base de données Le calcul des signatures consiste en l'extraction de caractéristiques visuelles des images (telles que : la texture, la forme des objets ) Ensuite, l'utilisateur donne au logiciel une image (appelé l'image de requête) Le logiciel fait une suite des actions pour comparer la signature de cette image de requête avec celui des images de base et retourner à l'utilisateur des images les plus similaires

Trang 4

Abstract

Necessitate of document searching existed long times ago As digital development, this need becomes more indispensable in case of visual documents Years ago, human has efficacy done many researches for a method of image searching by content and apply it to lots of works every day

In this thesis, I did a research of Contextual Dissimilarity Measure to improve image searching by content Then I applied it to an application which can well function with a big image database Each image in the database is calculated its signature and indexed in a signature database That signature computation consists of extraction of image’s visual characteristic (such as: texture, object form inside image…) User loads then an image (called request image) The application will perform a series of action to compare the signature of this request image with those of images in base, and finally return similar images in list-formed

Trang 5

Les mots-clés

ANR : Rang Normalisée Moyenne (Average Normalized Rank)

MDC : Méthode de Dissimilarité Contextuelle

NS : Nistér-Stewénius (base d’images)

PLA : Analyse Sémantique Latente (Latent Semantic Analysis)

PLSA : Analyse Sémantique Latente Probabiliste (Probabilistic Latent Semantic Analysis)

RIC : Recherche d’Image par le Contenu

Trang 6

1

Table des matières

1.1 Introduction 6

1.2 Recherche d’Images par le Contenu 6

1.3 Objectif 7

1.4 Solution 7

2 Chapitre 2 9 La Mesure de Dissimilarité Contextuelle pour la Recherche d’Image par le Contenu 9 2.1 Représentation d’une image 9

2.1.1 Extraction du contenu visuel d’une image 9

2.1.2 Agrégation des descripteurs locaux 11

2.2 Mesure de dissimilarité 12

2.3 Indexation et recherche d’images par la MDC 13

2.3.1 Voisinage irréversible 13

2.3.2 Voisinage avec réversibilité 15

2.3.3 L’algorithme 15

2.4 Métriques d’évaluation 17

2.5 Des limites 19

3 Chapitre 3 20 Résultats expérimentaux 20 3.1 Implémentation de la MDC 20

3.2 Expérimentation 20

3.2.1 Base d’images 20

3.2.2 Mesures d’évaluations 22

3.3 Démonstrations 25

3.3.1 Configurations 25

3.3.2 L’interface principale du système 26

Trang 7

2

Trang 8

3

Liste des figures

FIGURE 1.1: Principe général de la recherche d'images par le contenu 7

FIGURE 2.1: Structure d'un descripteur SIFT 9

FIGURE 2.2: Construction de l'histogramme des orientations 10

FIGURE 2.3: L’illustration des ellipses des points-clés 10

FIGURE 2.4: Les 3 plus proches voisins du vecteur 5 avec MDC (tiret) et sans MDC (solide) Les cercles signifient la distance moyenne du vecteur 3 (en bleu) et du vecteur 5 (en rouge) à ses voisinages 14

FIGURE 2.5: Illustration du voisinage non-réversible 14

FIGURE 3.1: Images extraites de la base N-S 21

FIGURE 3.2: Images extraites de la base Caltech4 22

FIGURE 3.3: La courbe de précision-rappel de la base de caltech4 (en haut), de caltech101 (au milieu) et de N-S (en bas) 24

FIGURE 3.4: L'interface de configuration 25

FIGURE 3.5: L'interface principale 26

FIGURE 3.6: L'affichage des résultats de la base caltech4 27

FIGURE 3.7: L'affichage des résultats de la base caltech101 28

FIGURE 3.8: L'affichage des résultats de la base NS 29

Trang 9

4

Liste des tableaux

TABLEAU 1: Mesures d'évaluations de la base NS 23

TABLEAU 2:Mesures d'évaluations de la base Caltech 101 23

TABLEAU 3:Mesures d'évaluations de la base Caltech 4 23

Trang 10

5

Remerciements :

Je remercie tout d'abord mes enseignants de la Faculté des technologies de l'information et de la télécommunication de l’Université de Cantho qui m'ont donne des connaissances précieuses et des savoir-faire professionnels très nécessaires

Je remercie tout particulièrement Monsieur PHAM Nguyen Khang, mon tuteur de mémoire, qui m'a construit une base solide de connaissance et m’a aidé à résoudre les difficultés que j'ai rencontrées au cours de la réalisation de ce mémoire

Je voudrais remercier aussi Madame PHAM Thi Ngoc Diem et Madame TRAN Nguyen Minh Thu, responsables de la filière francophone de la faculté de l'informatique de l’Université de Cantho, qui m’ont beaucoup aidé pour les informations

Je souhaiterais remercier mes enseignants du département de français de l’Université

de Cantho pour les connaissances très utiles sur le français et la France Je remercie aussi Monsieur TRAN Thanh Ai pour la correction de français de ce mémoire

Je remercie enfin ma famille de m'avoir éduqué et m'avoir fourni des conditions favorables à mes études

Trang 11

6

1 Chapitre 1

Introduction générale

1.1 Introduction

Depuis longtemps, l’exigence de la recherche de l’information a posé des problèmes

en raison de la grande quantité de données que le développement incroyable des technologies d’information nous fournit chaque jour La recherche devient de plus en plus convenable aux genres de donnée La recherche d’image n’est pas une exception

La recherche d’images par le contenu (RIC) est une boucle des travaux qui visent à rechercher, dans une base d’images, les images les plus proches d’une image de requête Cette dernière est automatiquement traitée par ses informations visuelles extraites Comme

la pertinence des images retournées sont objective, au lieu de retourner un ensemble d’images pertinentes, le système de RIC retourne une liste d’images classées par pertinence décroissante par rapport à l’image de requête

Depuis plusieurs années, l'humain a fait beaucoup de recherches pour des méthodes de recherche d'images par le contenu et a bien résolu nombreux problèmes de la société En effet, la méthode de traitement selon le modèle de sac-de-mots atteint un résultat très satisfaisant après une étape du prétraitement d’extraction des descripteurs d’une image et celle de l’application de la MDC

1.2 Recherche d’Images par le Contenu

Dans un système RIC typique, le principe général (2013) contient deux étapes :

 L’étape de l’Indexation (hors ligne) :

o Extraire le contenu visuel de chaque image de base et le stoker

o Appliquer le k-moyennes (k-means), une méthode de fouille de données, pour obtenir la donnée prétraitée (appelée vocabulaire)

o Construire un tableau de contingence à partir des résultats

 L’étape de la Recherche (en ligne) :

o Donner une requête, l’extraire en même méthode que celle de la première étape

Trang 12

Le système traite cette requête en signature Les mesures de similarité/dissimilarité entre la signature de la requête et celle de toutes les images de la base sont calculées et comparées

Le résultat est souvent présenté dans une liste d’images similaires à la requête en ordre de similarité descendante

1.3 Objectif

Une fois les signatures extraites, la comparaison consiste généralement à définir une mesure de similarité/dissimilarité entre ces signatures Par rapport au calcul traditionnel de

la distance entre deux images, l’application de la MDC améliore positivement le résultat

La MDC, présentée dans le chapitre 2, est la problématique générale du sujet de recherche C’est la partie la plus importante dans ce travail de RIC parce qu’elle donne un résultat très satisfaisant avec la méthode qui n’a pas recours à la MDC

1.4 Solution

J’ai fait des recherches et appliqué tout d’abord le sift, les descripteurs, et les outils pour extraire le contenu d’une image à la signature Les connaissances de fouille de données

L’Indexation (hors ligne)

Calcul des signatures

La recherche (en ligne)

Image de requête

Calcul de signature Comparateur

Le résultat

Trang 13

8

ont été bien appliquées, le k-moyennes J’ai fait aussi des recherches de sac-de-mot, une méthode populaire dans le domaine de recherche des documents Enfin, je construis l’interface homme-machine dans l’environnement de Qt sous Linux, en programmant en C++ pour tout le système entier

Trang 14

9

2 Chapitre 2

La Mesure de Dissimilarité Contextuelle pour la

Recherche d’Image par le Contenu

Par la nature de RIC, le système tente de résoudre deux problèmes : (i) comment décrire mathématiquement le contenu visuel d’une image ; et (ii) comment évaluer la similarité entre deux images en n’utilisant que ses descriptions extraites Ce chapitre vise à résoudre ces deux problèmes et à présenter des métriques d’évaluations appliquées pour ce système RIC

2.1 Représentation d’une image

2.1.1 Extraction du contenu visuel d’une image

La recherche d’images n’est pas exactement comme la recherche d’informations régulières On ne peut pas appliquer la méthode consacrée à la recherche de textes Une autre proposition est qu’on extrait une image à sa signature et puis on travaille sur cette signature

L’extraction d’une image à sa signature comporte quelques étapes Tout d’abord, c’est

la détection des points-clés Simplement, les points-clés (ou points d’intérêt) sont des

contours, des coins des objets (ou de partie des objets) qui se situent dans une image La détection des points-clés est une recherche de caractéristiques locales Chaque image, dépendante de son contenu, a une quantité déterminée de points-clés Autour du point-clé,

on considère une région de 16x16 pixels, dite un descripteur, subdivisée en 4x4 zones de 4x4 pixels Sur chaque zone est calculé un histogramme des orientations comportant 8 intervalles (figure 2.2) Ensuite,

les 16 histogrammes à 8

intervalles chacun sont concaténés

et normalisés pour finalement

fournir le descripteur SIFT du

point-clé, de 128 dimensions (ou

établissent ainsi une véritable

signature numérique du contenu

de celle-ci

Trang 15

10

Scale-invariant feature transform (SIFT) (2013) est un algorithme utilisé dans le

domaine de la vision par l’ordinateur En ce dernier, l’extraction de caractéristiques visuelles consiste en des transformations mathématiques calculées sur les pixels d'une image numérique

Bref, chaque image est extraite de son contenu visuel aux descripteurs SIFT Ou, plus simplement, l’ensemble des descripteurs d’une image est sa signature numérique Après l’extraction d’une image, on obtient sa signature sous forme de fichier sift Par exemple :

(*) : u,v,a,b,c dans avec (u,v) les coordonnées du centre de l’ellipse

Détecteur Hessian-Affine

Paramètres de l’équation cartésienne

de l’ellipse d’un point-clé (*)

128 chiffres (0-255)

Trang 16

11

Dans ce mémoire, on n’a pas besoin d’illustrer des points-clés trouvés dans une image

Le fichier sift est donc traité pour éliminer des données inutiles

Fichier sift après le traitement :

Un autre problème concerne la comparaison entre deux signatures À partir de deux images distinctes, on obtient deux signatures avec différentes structures en raison de différent nombre de points-clés Il est impossible de comparer ces deux signatures On doit donc convertir tous les descripteurs en un vecteur de même dimension et calculer ensuite la mesure de dissimilarité entre les deux vecteurs

2.1.2 Agrégation des descripteurs locaux

Pour convertir une signature d’une image en vecteur, le modèle sac-de-mots est le plus

efficace pour résoudre le problème de structure différent Le vocabulaire est créé par la

fouille de donnée des descripteurs L'algorithme des k-moyennes est utilisé(Do, 2011)

K-moyennes, une méthode de partitionnement de données, a partitionné des descripteurs en K partitions (clusters) dans lesquelles chaque descripteur appartient à la partition avec la moyenne plus proche

Trang 17

12

Assigner les descripteurs aux mots visuels : Chaque descripteur de SIFT d’une image

est assigné au plus proche mot visuel À partir du fichier de sift et de celui de vocabulaire,

on calcule la distance et obtient un vecteur (comme le modèle de sac-de-mots)

Donc, chaque image de base est finalement traitée en un seul vecteur En combinant toutes les images de la base d’images, on obtient enfin une table de contingence

Il existe nombreux détecteurs pour extraire une image Dans ce mémoire, j’ai appliqué

le détecteur de Hessian-Affine pour extraire l’image Le système de RIC est apposé par la base de données d’images Nistér-Stewénius (qui donne une somme de plus de 3 millions de descripteurs pour le cas de seuil de 200), Caltech 101, Caltech 4

Toutes les étapes ci-dessus sont prétraitées par une boucle des outils que mon tuteur PHAM Nguyen Khang m’avait fournis

2.2 Mesure de dissimilarité

Actuellement, les recherches acquièrent de nombreuses réalisations sur le calcul de la mesure de similarité La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à dimensions en déterminant l'angle entre eux (2013) La similarité cosinus est fréquemment utilisée en tant que mesure de ressemblance entre deux documents En règle générale, pour mesurer finement la similarité entre des séquences de texte, les vecteurs sont construits d'après un calcul de type TF-IDF

Le TF-IDF(2013) (de l'anglais Term Frequency-Inverse Document Frequency) est une méthode de pondération souvent utilisée en recherche d'information Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement

à une collection ou un corpus Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document Il varie également en fonction de la fréquence du mot dans le corpus

Trang 18

13

Quelques autres méthodes qui sont ainsi utilisées sont la LSA(2013) (de l'anglais : Latent semantic analysis), qui a été introduite en 1988 Elle permet d'établir des relations entre un ensemble de documents et les termes qu'ils contiennent La LSA utilise une matrice qui décrit l'occurrence de certains termes dans les documents

En 1999, Thomas Hofmann a présenté la PLSA (2013) (de l'anglais, Probabilistic latent semantic analysis), qui possède des liens avec la factorisation de matrices positives Comme la RIC est basée sur le modèle sac-de-mots avec lequel ces méthodes sont bien utilisées, le système RIC de ce mémoire est appliqué aussi une méthode de dissimilarité, la MDC, qui est présentée dans la section suivante

2.3 Indexation et recherche d’images par la MDC

La Mesure de Dissimilarité Contextuelle est proposée par Hervé Jégou et ses partenaires (Accurate image search using the contextual dissimilarity measure, 2011) en

2008 (publication en 2011) Cette recherche a prouvé que la MDC améliore bien la précision de la recherche d’images basée sur le sac-de-mots Essentiellement, au lieu de calculer la distance normale , on multiplie la norme par une facteur de scalaire

Le facteur de correction pondérera les résultats retournés Plus précisément, il favorise les points qui sont isolés et pénalise ceux qui sont fréquentés Cette caractéristique est détaillée dans la section ensuite

2.3.1 Voisinage irréversible

Une de deux questions cruciales, mentionnées au début, d’un travail de RIC est comment évaluer la similarité entre deux images Chaque image est représentée par un vecteur (selon le modèle de sac-de-mots qu’on a appliqué et cité dans la section 2.1.2) Dans

un voisinage des vecteurs, on cherche d’autres qui sont les plus proches en calculant la distance entre eux

La figure 4 illustre l’irréversibilité du voisinage pour une recherche des k plus proches Plus précisément, le vecteur 3 est un des trois voisins les plus proches du vecteur 5 (2, 3, 7) ; mais le contraire est faux (les 3 voisins les plus proche du vecteur 3 sont 1, 2, et 4) L’application de la MDC au voisinage assurera cette réversibilité C’est-à-dire que les vecteurs isolés seront favorisés et vice versa pour que le résultat retourné soit amélioré

Định dạng
Số trang	36
Dung lượng	1,48 MB