Dans ce mémoire, je fais une recherche sur la Mesure de la Dissimilarité Contextuelle pour l’amélioration de la recherche d'images par le contenu.. Le logiciel fait une suite des actions
Trang 3Résumé :
Le besoin de la recherche documentaire existe depuis longtemps Parallèlement au développement, ce besoin est également indispensable dans la recherche de documents visuels Depuis plusieurs années, l'humain a fait efficacement beaucoup de recherches pour une méthode de la recherche d'images par le contenu pour l'appliquer aux nombreux travaux chaque jour
Dans ce mémoire, je fais une recherche sur la Mesure de la Dissimilarité Contextuelle pour l’amélioration de la recherche d'images par le contenu Et puis l'appliquer sur un logiciel qui marche avec une grande base d'images Chaque image dans la base est calculée son signature et indexée dans une base de données Le calcul des signatures consiste en l'extraction de caractéristiques visuelles des images (telles que : la texture, la forme des objets ) Ensuite, l'utilisateur donne au logiciel une image (appelé l'image de requête) Le logiciel fait une suite des actions pour comparer la signature de cette image de requête avec celui des images de base et retourner à l'utilisateur des images les plus similaires
Trang 4Abstract
Necessitate of document searching existed long times ago As digital development, this need becomes more indispensable in case of visual documents Years ago, human has efficacy done many researches for a method of image searching by content and apply it to lots of works every day
In this thesis, I did a research of Contextual Dissimilarity Measure to improve image searching by content Then I applied it to an application which can well function with a big image database Each image in the database is calculated its signature and indexed in a signature database That signature computation consists of extraction of image’s visual characteristic (such as: texture, object form inside image…) User loads then an image (called request image) The application will perform a series of action to compare the signature of this request image with those of images in base, and finally return similar images in list-formed
Trang 5Les mots-clés
ANR : Rang Normalisée Moyenne (Average Normalized Rank)
MDC : Méthode de Dissimilarité Contextuelle
NS : Nistér-Stewénius (base d’images)
PLA : Analyse Sémantique Latente (Latent Semantic Analysis)
PLSA : Analyse Sémantique Latente Probabiliste (Probabilistic Latent Semantic Analysis)
RIC : Recherche d’Image par le Contenu
Trang 61
Table des matières
1.1 Introduction 6
1.2 Recherche d’Images par le Contenu 6
1.3 Objectif 7
1.4 Solution 7
2 Chapitre 2 9 La Mesure de Dissimilarité Contextuelle pour la Recherche d’Image par le Contenu 9 2.1 Représentation d’une image 9
2.1.1 Extraction du contenu visuel d’une image 9
2.1.2 Agrégation des descripteurs locaux 11
2.2 Mesure de dissimilarité 12
2.3 Indexation et recherche d’images par la MDC 13
2.3.1 Voisinage irréversible 13
2.3.2 Voisinage avec réversibilité 15
2.3.3 L’algorithme 15
2.4 Métriques d’évaluation 17
2.5 Des limites 19
3 Chapitre 3 20 Résultats expérimentaux 20 3.1 Implémentation de la MDC 20
3.2 Expérimentation 20
3.2.1 Base d’images 20
3.2.2 Mesures d’évaluations 22
3.3 Démonstrations 25
3.3.1 Configurations 25
3.3.2 L’interface principale du système 26
Trang 72
Trang 83
Liste des figures
FIGURE 1.1: Principe général de la recherche d'images par le contenu 7
FIGURE 2.1: Structure d'un descripteur SIFT 9
FIGURE 2.2: Construction de l'histogramme des orientations 10
FIGURE 2.3: L’illustration des ellipses des points-clés 10
FIGURE 2.4: Les 3 plus proches voisins du vecteur 5 avec MDC (tiret) et sans MDC (solide) Les cercles signifient la distance moyenne du vecteur 3 (en bleu) et du vecteur 5 (en rouge) à ses voisinages 14
FIGURE 2.5: Illustration du voisinage non-réversible 14
FIGURE 3.1: Images extraites de la base N-S 21
FIGURE 3.2: Images extraites de la base Caltech4 22
FIGURE 3.3: La courbe de précision-rappel de la base de caltech4 (en haut), de caltech101 (au milieu) et de N-S (en bas) 24
FIGURE 3.4: L'interface de configuration 25
FIGURE 3.5: L'interface principale 26
FIGURE 3.6: L'affichage des résultats de la base caltech4 27
FIGURE 3.7: L'affichage des résultats de la base caltech101 28
FIGURE 3.8: L'affichage des résultats de la base NS 29
Trang 94
Liste des tableaux
TABLEAU 1: Mesures d'évaluations de la base NS 23
TABLEAU 2:Mesures d'évaluations de la base Caltech 101 23
TABLEAU 3:Mesures d'évaluations de la base Caltech 4 23
Trang 105
Remerciements :
Je remercie tout d'abord mes enseignants de la Faculté des technologies de l'information et de la télécommunication de l’Université de Cantho qui m'ont donne des connaissances précieuses et des savoir-faire professionnels très nécessaires
Je remercie tout particulièrement Monsieur PHAM Nguyen Khang, mon tuteur de mémoire, qui m'a construit une base solide de connaissance et m’a aidé à résoudre les difficultés que j'ai rencontrées au cours de la réalisation de ce mémoire
Je voudrais remercier aussi Madame PHAM Thi Ngoc Diem et Madame TRAN Nguyen Minh Thu, responsables de la filière francophone de la faculté de l'informatique de l’Université de Cantho, qui m’ont beaucoup aidé pour les informations
Je souhaiterais remercier mes enseignants du département de français de l’Université
de Cantho pour les connaissances très utiles sur le français et la France Je remercie aussi Monsieur TRAN Thanh Ai pour la correction de français de ce mémoire
Je remercie enfin ma famille de m'avoir éduqué et m'avoir fourni des conditions favorables à mes études
Trang 116
1 Chapitre 1
Introduction générale
1.1 Introduction
Depuis longtemps, l’exigence de la recherche de l’information a posé des problèmes
en raison de la grande quantité de données que le développement incroyable des technologies d’information nous fournit chaque jour La recherche devient de plus en plus convenable aux genres de donnée La recherche d’image n’est pas une exception
La recherche d’images par le contenu (RIC) est une boucle des travaux qui visent à rechercher, dans une base d’images, les images les plus proches d’une image de requête Cette dernière est automatiquement traitée par ses informations visuelles extraites Comme
la pertinence des images retournées sont objective, au lieu de retourner un ensemble d’images pertinentes, le système de RIC retourne une liste d’images classées par pertinence décroissante par rapport à l’image de requête
Depuis plusieurs années, l'humain a fait beaucoup de recherches pour des méthodes de recherche d'images par le contenu et a bien résolu nombreux problèmes de la société En effet, la méthode de traitement selon le modèle de sac-de-mots atteint un résultat très satisfaisant après une étape du prétraitement d’extraction des descripteurs d’une image et celle de l’application de la MDC
1.2 Recherche d’Images par le Contenu
Dans un système RIC typique, le principe général (2013) contient deux étapes :
L’étape de l’Indexation (hors ligne) :
o Extraire le contenu visuel de chaque image de base et le stoker
o Appliquer le k-moyennes (k-means), une méthode de fouille de données, pour obtenir la donnée prétraitée (appelée vocabulaire)
o Construire un tableau de contingence à partir des résultats
L’étape de la Recherche (en ligne) :
o Donner une requête, l’extraire en même méthode que celle de la première étape
Trang 12Le système traite cette requête en signature Les mesures de similarité/dissimilarité entre la signature de la requête et celle de toutes les images de la base sont calculées et comparées
Le résultat est souvent présenté dans une liste d’images similaires à la requête en ordre de similarité descendante
1.3 Objectif
Une fois les signatures extraites, la comparaison consiste généralement à définir une mesure de similarité/dissimilarité entre ces signatures Par rapport au calcul traditionnel de
la distance entre deux images, l’application de la MDC améliore positivement le résultat
La MDC, présentée dans le chapitre 2, est la problématique générale du sujet de recherche C’est la partie la plus importante dans ce travail de RIC parce qu’elle donne un résultat très satisfaisant avec la méthode qui n’a pas recours à la MDC
1.4 Solution
J’ai fait des recherches et appliqué tout d’abord le sift, les descripteurs, et les outils pour extraire le contenu d’une image à la signature Les connaissances de fouille de données
L’Indexation (hors ligne)
Calcul des signatures
La recherche (en ligne)
Image de requête
Calcul de signature Comparateur
Le résultat
Trang 138
ont été bien appliquées, le k-moyennes J’ai fait aussi des recherches de sac-de-mot, une méthode populaire dans le domaine de recherche des documents Enfin, je construis l’interface homme-machine dans l’environnement de Qt sous Linux, en programmant en C++ pour tout le système entier
Trang 149
2 Chapitre 2
La Mesure de Dissimilarité Contextuelle pour la
Recherche d’Image par le Contenu
Par la nature de RIC, le système tente de résoudre deux problèmes : (i) comment décrire mathématiquement le contenu visuel d’une image ; et (ii) comment évaluer la similarité entre deux images en n’utilisant que ses descriptions extraites Ce chapitre vise à résoudre ces deux problèmes et à présenter des métriques d’évaluations appliquées pour ce système RIC
2.1 Représentation d’une image
2.1.1 Extraction du contenu visuel d’une image
La recherche d’images n’est pas exactement comme la recherche d’informations régulières On ne peut pas appliquer la méthode consacrée à la recherche de textes Une autre proposition est qu’on extrait une image à sa signature et puis on travaille sur cette signature
L’extraction d’une image à sa signature comporte quelques étapes Tout d’abord, c’est
la détection des points-clés Simplement, les points-clés (ou points d’intérêt) sont des
contours, des coins des objets (ou de partie des objets) qui se situent dans une image La détection des points-clés est une recherche de caractéristiques locales Chaque image, dépendante de son contenu, a une quantité déterminée de points-clés Autour du point-clé,
on considère une région de 16x16 pixels, dite un descripteur, subdivisée en 4x4 zones de 4x4 pixels Sur chaque zone est calculé un histogramme des orientations comportant 8 intervalles (figure 2.2) Ensuite,
les 16 histogrammes à 8
intervalles chacun sont concaténés
et normalisés pour finalement
fournir le descripteur SIFT du
point-clé, de 128 dimensions (ou
établissent ainsi une véritable
signature numérique du contenu
de celle-ci
Trang 1510
Scale-invariant feature transform (SIFT) (2013) est un algorithme utilisé dans le
domaine de la vision par l’ordinateur En ce dernier, l’extraction de caractéristiques visuelles consiste en des transformations mathématiques calculées sur les pixels d'une image numérique
Bref, chaque image est extraite de son contenu visuel aux descripteurs SIFT Ou, plus simplement, l’ensemble des descripteurs d’une image est sa signature numérique Après l’extraction d’une image, on obtient sa signature sous forme de fichier sift Par exemple :
(*) : u,v,a,b,c dans avec (u,v) les coordonnées du centre de l’ellipse
Détecteur Hessian-Affine
Paramètres de l’équation cartésienne
de l’ellipse d’un point-clé (*)
128 chiffres (0-255)
Trang 1611
Dans ce mémoire, on n’a pas besoin d’illustrer des points-clés trouvés dans une image
Le fichier sift est donc traité pour éliminer des données inutiles
Fichier sift après le traitement :
Un autre problème concerne la comparaison entre deux signatures À partir de deux images distinctes, on obtient deux signatures avec différentes structures en raison de différent nombre de points-clés Il est impossible de comparer ces deux signatures On doit donc convertir tous les descripteurs en un vecteur de même dimension et calculer ensuite la mesure de dissimilarité entre les deux vecteurs
2.1.2 Agrégation des descripteurs locaux
Pour convertir une signature d’une image en vecteur, le modèle sac-de-mots est le plus
efficace pour résoudre le problème de structure différent Le vocabulaire est créé par la
fouille de donnée des descripteurs L'algorithme des k-moyennes est utilisé(Do, 2011)
K-moyennes, une méthode de partitionnement de données, a partitionné des descripteurs en K partitions (clusters) dans lesquelles chaque descripteur appartient à la partition avec la moyenne plus proche
Trang 1712
Assigner les descripteurs aux mots visuels : Chaque descripteur de SIFT d’une image
est assigné au plus proche mot visuel À partir du fichier de sift et de celui de vocabulaire,
on calcule la distance et obtient un vecteur (comme le modèle de sac-de-mots)
Donc, chaque image de base est finalement traitée en un seul vecteur En combinant toutes les images de la base d’images, on obtient enfin une table de contingence
Il existe nombreux détecteurs pour extraire une image Dans ce mémoire, j’ai appliqué
le détecteur de Hessian-Affine pour extraire l’image Le système de RIC est apposé par la base de données d’images Nistér-Stewénius (qui donne une somme de plus de 3 millions de descripteurs pour le cas de seuil de 200), Caltech 101, Caltech 4
Toutes les étapes ci-dessus sont prétraitées par une boucle des outils que mon tuteur PHAM Nguyen Khang m’avait fournis
2.2 Mesure de dissimilarité
Actuellement, les recherches acquièrent de nombreuses réalisations sur le calcul de la mesure de similarité La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à dimensions en déterminant l'angle entre eux (2013) La similarité cosinus est fréquemment utilisée en tant que mesure de ressemblance entre deux documents En règle générale, pour mesurer finement la similarité entre des séquences de texte, les vecteurs sont construits d'après un calcul de type TF-IDF
Le TF-IDF(2013) (de l'anglais Term Frequency-Inverse Document Frequency) est une méthode de pondération souvent utilisée en recherche d'information Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement
à une collection ou un corpus Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document Il varie également en fonction de la fréquence du mot dans le corpus
Trang 1813
Quelques autres méthodes qui sont ainsi utilisées sont la LSA(2013) (de l'anglais : Latent semantic analysis), qui a été introduite en 1988 Elle permet d'établir des relations entre un ensemble de documents et les termes qu'ils contiennent La LSA utilise une matrice qui décrit l'occurrence de certains termes dans les documents
En 1999, Thomas Hofmann a présenté la PLSA (2013) (de l'anglais, Probabilistic latent semantic analysis), qui possède des liens avec la factorisation de matrices positives Comme la RIC est basée sur le modèle sac-de-mots avec lequel ces méthodes sont bien utilisées, le système RIC de ce mémoire est appliqué aussi une méthode de dissimilarité, la MDC, qui est présentée dans la section suivante
2.3 Indexation et recherche d’images par la MDC
La Mesure de Dissimilarité Contextuelle est proposée par Hervé Jégou et ses partenaires (Accurate image search using the contextual dissimilarity measure, 2011) en
2008 (publication en 2011) Cette recherche a prouvé que la MDC améliore bien la précision de la recherche d’images basée sur le sac-de-mots Essentiellement, au lieu de calculer la distance normale , on multiplie la norme par une facteur de scalaire
Le facteur de correction pondérera les résultats retournés Plus précisément, il favorise les points qui sont isolés et pénalise ceux qui sont fréquentés Cette caractéristique est détaillée dans la section ensuite
2.3.1 Voisinage irréversible
Une de deux questions cruciales, mentionnées au début, d’un travail de RIC est comment évaluer la similarité entre deux images Chaque image est représentée par un vecteur (selon le modèle de sac-de-mots qu’on a appliqué et cité dans la section 2.1.2) Dans
un voisinage des vecteurs, on cherche d’autres qui sont les plus proches en calculant la distance entre eux
La figure 4 illustre l’irréversibilité du voisinage pour une recherche des k plus proches Plus précisément, le vecteur 3 est un des trois voisins les plus proches du vecteur 5 (2, 3, 7) ; mais le contraire est faux (les 3 voisins les plus proche du vecteur 3 sont 1, 2, et 4) L’application de la MDC au voisinage assurera cette réversibilité C’est-à-dire que les vecteurs isolés seront favorisés et vice versa pour que le résultat retourné soit amélioré