Dans ce rapport, nous présentonsune première tentative de combinaison de la visualisation hyperbolique ainsi que de nouvellesapproches d’étiquetage afin de visualiser précisément les rés
Trang 1Combinaison de m´ ethodes avanc´ ees de
d’information pour la fouille et
M´ emoire de fin d’´ etudes
pr´esent´ee et soutenue publiquement le 06 D´ecembre 2007
Trang 2La combinaison de méthodes avancées de visualisation et d’étiquetage des clusters joue un rôleimportant non seulement pour donner un avis global des résultats du clustering, mais aussipour l’évaluation précise desdits résultats Mais aujourd’hui encore, aucune solution précise sur
la façon de combiner de telles méthodes n’a été proposée Dans ce rapport, nous présentonsune première tentative de combinaison de la visualisation hyperbolique ainsi que de nouvellesapproches d’étiquetage afin de visualiser précisément les résultats d’analyses de données issues
de méthodes de clustering toutes les fois que les clusters sont à l’origine représentés dans unespace fortement multidimensionnel Le modèle de visualisation se fonde sur un algorithmehiérarchique qui est employé pour récapituler le contenu de clusters sous forme hiérarchique.Cet algorithme préserve la densité de données issue de l’espace de description des clusters ori-ginaux Dans ce mémoire sont présentées différentes stratégies d’étiquetage qui peuvent êtreemployées aussi bien pour décrire le contenu de base des clusters que pour propager précisé-ment les étiquettes dans les différents niveaux de l’hyperbolique résultant Ce travail s’attacheensuite à améliorer les défauts des méthodes de visualisation hyperbolique en embarquant lemodèle de Spring à l’hyperbolique afin de mieux montrer les relations entre les clusters Plu-sieurs expérimentations sont proposées sur différents types de données documentaires
Mots-clés : analyse de données multi-vues, fouille de données, clustering numérique, tion de qualité du clustering, étiquetage des clusters, visualisation hyperbolique, visualisationhiérarchique
évalua-AbstractCombining the visualization and the labeling methods plays an important role not only forgiving an overall view of the clustering results but also for the precise evaluation of the saidresults But at this point, no accurate solution on how to combine such methods has been pro-posed In this report we present a first attempt of combination of hyperbolic visualization andnovel labeling approaches for accurately visualizing data analysis results issued for clusteringapproach whenever the clusters are originally represented in a highly multidimensional space.The visualization model relies on a hierarchical algorithm that is used for summarizing thecluster contents in the form on a hypertree in which information on data density issued fromthe original clusters description space is preserved The core of this work presents differentnovel labeling strategies that can be used for describing the basic cluster contents as well asfor accurately propagating labels into the different levels of the resulting hypertree This workthen aims to improve the defects of hypertree visualization by embedding the model of Spring
to hyperbolic for better showing the relations between the clusters Several realistic test riments of our proposals are achieved on different kinds of documentary data
expe-Keywords : multiview data analysis, data mining, clustering, cluster labeling, clustering lity evaluation, hyperbolic visualization, hierarchical visualization
Trang 3qua-Mes premiers remerciements vont à mon encadrant Jean-Charles Lamirel pour le tempsqu’il m’a consacré durant ce stage, son soutien, ses conseils scientifiques, sa disponibilité et sonaide précieuse pour améliorer et aller jusqu’au bout de ce travail de stage Il m’a vraiementimpressionné de par ses qualités humaines et son esprit ouvert.
Je tiens à remercier tous les membre de l’équipe CORTEX : Randa, Maxime, Jéremy pourleur soutien et leur accueil et les membres de l’équipe KIWI, Geoffray, Ilham
Je tiens à remercier Pascal Cuxac et Claire François de l’INIST pour leurs évaluations
Je tiens à remercier Mohammed Attik, un ancien doctorant de l’équipe Cortex pour sacoopération, sa conversation et son soutien
Je tiens à remercier mes Professeurs de l’IFI, qui m’ont donné des connaissances et m’ontaidé à bien suivre la formation de master de l’IFI
Mes grands remerciement à ma grande famille, en particulier ma femme et mon fils, pourleur encouragement, leurs prières pour réussir ma vie professionnelle
Trang 4Table des matières
Liste des algorithmes xiii Chapitre 1
Introduction générale
1.1 Motivation 1
1.2 Contexte et Problématique 2
1.3 Contribution 3
1.4 Plan du mémoire 3
Chapitre 2 L’état de l’art 2.1 Visualisation d’information 8
2.1.1 Dimension intrinsèque des données multidimensionnelles 8
2.1.2 Visualisation par projection cartographique linéaire 10
2.1.3 Visualisation par projection cartographique non linéaire 12
2.1.4 Visualisation par l’analyse de graphe 15
2.1.5 Visualisation hyperbolique 16
2.2 Étiquetage des clusters 19
2.2.1 Approches traditionnelles 19
2.2.2 Étiquetage des clusters par la sélection d’information (variable) 19 2.3 Traitement de données documentaires multidimensionnels 20
2.3.1 Représentation de données documentaires 20
Trang 52.3.2 Notion de point de vue 23
2.3.3 Clustering numérique 24
2.4 Conclusion 25
Chapitre 3 Combinaison de méthodes avancées de visualisation et de sélection d’in-formation pour la fouille et l’analyse de données 3.1 Introduction 30
3.2 Nouvelles mesures de qualité du clustering basées sur la distribution d’éti-quettes 30
3.3 Nouvelles stratégies d’étiquetage des clusters 32
3.3.1 Stratégie locale d’étiquetage des clusters 33
3.3.2 Stratégie globale d’étiquetage des clusters 34
3.3.3 Stratégie hybride d’étiquetage des clusters 35
3.3.4 Stratégie d’étiquetage des clusters par les mesures d’entropie 35
3.3.5 Étiquetage des clusters par Gain d’Information 36
3.4 Combinaison des méthodes d’étiquetage des clusters et de visualisation hyperbolique 36
3.5 Communication multi-vues entre les arbres hyperboliques 37
3.5.1 Modèle de réseau bayésien pour la communication inter-cartes 37
3.5.2 Communication multi-vues entre les arbres hyperboliques 39
3.6 Intégration de graphe à l’hyperbolique 39
3.7 Organisation des branches de l’hyperbolique 41
3.8 Conclusion 41
Chapitre 4 Expérimentations et évaluations 4.1 Interprétation des résultats du clustering 43
4.2 Communication multi-vues entre les arbres hyperboliques 45
4.3 Intégration de modèle de Spring à l’hyperbolique 46
4.4 Évaluations 46 Conclusion générale
Trang 6Annexe A
Description des données pour le Corpus Brevets
A.1 Introduction 55
A.2 Analyse des brevets 55
A.2.1 Définition des points de vue 55
A.2.2 Multi-indexation des brevets 56
Annexe B Description des données pour le Corpus PASCAL B.1 Introduction 59
B.2 Extrait de données 59
B.2.1 Définition des points de vue 59
Trang 71.1 Paradigme de traitement de l’information orienté par les points de vue
(MVDA) 5
2.1 Distribution du « fer à cheval » 9
2.2 évolution du volume de sphère en fonction de nombre de dimensions 10
2.3 Distribution en « fer à cheval » : (a) Distribution et plan principal trouvé par l’ACP 11
2.4 Projection faite par CCA de IR3 à IR2 de la distribution du « fer à cheval » 13 2.5 (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux points et (c) la distance curviligne ou géodésique 14
2.6 Approximation de la distance curviligne à l’aide du chemin le plus court par l’intermédiaire des liens entre les centrọdes (ici la distance entre les deux centrọdes noircis) 14
2.7 CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 3 à 1) 14 2.8 Isomap : Exemple du « rouleau suisse »(à droite) et de la projection de 20000 échantillons tirés du rouleau par Isomap 15
2.9 BibTechMon : réseau de mots baséesur les relations entre eux Ce réseau contient 28 nœuds et 131 connexions 16
2.10 Deux types de géodésique : un diamètre passant par O et P et un arc de cercle AB orthogonal au cercle unité 17
2.11 La visualisation de l’arbre hyperbolique (Hypertree) 18
3.1 Cette figure montre le principe d’étiquetage d’arbre hyperbolique par la stratégie F-leaveOneOut 37
3.2 La structure de réseau bayésien pour la communication inter-topographies 38 3.3 Deux masses de points et leurs connexions par l’élasticité cij est l’élement de matrice des indices de Jaccard 40
4.1 Méthode Dominant d’étiquetage d’arbre hyperbolique 44
4.2 Méthode ThemostFrequent d’étiquetage d’arbre hyperbolique 45
4.3 Méthode χ2 d’étiquetage d’arbre hyperbolique 46
4.4 Étiquetage d’arbre hyperbolique par la moyenne de F-mesure (F-moyenne) 47 4.5 Étiquetage d’arbre hyperbolique par la F-LeaveOneOut 48
Trang 8Liste des figures
4.6 Une part vue de l’arbre qui présente le cluster source activé (en blue)pour la propagation 494.7 Résultat de la propagation du cluster activé dans le figure 4.6, les clusters
en blue sont trouvé par la propagation bayesien 494.8 Cette figure montre le graphe utilisant le modèle de Spring pour visualiserles relations natureles entre les clusters d’enfants d’un père de l’arbrehyperbolique 50A.1 Exemple de notice de brevet L’indexation qui a été générée pour ce brevetest matérialisé par le contenu du champ «Final indexation» Ces termesd’indexation sont préfixés par le nom du point de vue auquel ils sontassociés : «adv.» pour le point de vue Avantages, «titre» pour le point
de vue Titres, «use» pour le point de vue Utilisations, «soc.» pour lepoint de vue Déposants 57
Trang 92.1 Tableau de contingences pour l’absence ou la présence d’un terme dansles documents d’une classe 202.2 Notations de DBHC 253.1 Ce tableau présente un exemple de 6 clusters (C1, , C6) annotés par
7 étiquettes, e1, , e7 Le cluster C1 est annoté par les étiquettes e1,
e2,e3,e4,e5 L’étiquette e4 est présente dans les clusters C1 et C4 414.1 Ce tableau présente un exemple d’utilisation de la fonction g (cf équation4.1) 484.2 Ce tableau présente la comparaison de différentes approches d’étiquetaged’arbre hyperbolique 50A.1 Tableau résumé des caractéristiques résultantes de brevets 57
Trang 10Liste des algorithmes
1 Algorithme de classification hiérarchique orienté par la densité (DBHC) 26
2 Procédure 1 : élimination de classes parents répétées 26
3 Procédure 2 : éviter les classes recouvrantes 27
Trang 12Chapitre 1 Introduction générale
Sommaire
1.1 Motivation 1
1.2 Contexte et Problématique 2
1.3 Contribution 3
1.4 Plan du mémoire 3
“ Savoir ce que tout le monde sait, c’est ne rien savoir Le savoir commence là ó
commence ce que le monde ignore ”
Remy de Gourmont, “ Promenades philosophiques ”
D’un cơté, les techniques de visualisation hyperbolique représentent un excellent compromis pour mener à bien de manière parallèle des tâches de fouilles et d’analyse
de données En effet, ces techniques permettent de répondre à de nombreux problèmes posés par les techniques de visualisation traditionnelles Elles traitent les problèmes de surcharge cognitive des représentations à base de graphes et ceux liés aux artefacts de représentation des méthodes de projection des données multidimensionnelles sur un plan d’interprétation Elles permettent de plus d’exploiter les résultats des méthodes de clas-sification très performantes, plutơt que d’utiliser des méthodes moins performantes qui intègrent leur propre fonction de projection
D’un autre cơté, l’étude des méthodes d’analyse des étiquettes associées aux classes issues d’une méthode de classification ouvre de nouvelles perspectives en analyse de don-nées En effet, les étiquettes qu’il est possible d’associer aux classes peuvent représenter
à la fois des propriétés endogènes au processus de classification, et des propriétés exo-gènes, propres aux données qui ont été classifiées L’analyse de leur distribution dans les
Trang 13classes et leur catégorisation permet donc à la fois de résoudre des problèmes de fouille
de données, des problèmes de prédiction et des problèmes de filtrage d’information
L’étude de l’optimisation et de la combinaison de ces techniques, qui sont à la foiscomplémentaires et en synergie l’une avec l’autre dans le contexte général de l’analyse
de données, s’avère donc être une voie de recherche extrêmement prometteuse Elle doitpermettre de résoudre de nombreux problèmes liés à l’analyse des données complexes,comme les données documentaires ou les données bioinformatiques
Premièrement, la visualisation des résultats du clustering reste un problème tivement ouvert, malgré l’importance qu’il peut avoir dans la compréhension desditsrésultats Les techniques de projection les plus performantes, comme les techniques deprojection non linéaires, montrent rapidement leurs limites dans le cas ó les données
rela-à visualiser sont initialement représentées dans un espace fortement multidimensionnel
De plus, la prise en compte de relations entre ces données pose des problèmes mentaires de surcharge cognitive propres à la représentation des graphes
supplé-Deuxièmement, le problème de l’étiquetage des clusters avec des étiquettes multiplesdans le cas ó les clusters partagent les étiquettes (propriétés) globales a très peu étéabordé dans la recherche jusqu’à présent Les techniques exitantes d’étiquetage des clus-ters, à savoir de méthodes basées sur les profils de classes et celles basées sur le profils dedonnées, ne sont pas capables de traiter le problème de surcharge cognitive (des donnéesfortement multidimensionnelles) En effet, l’étiquetage, que nous considérons comme undes problèmes majeurs de l’exploitation des modèles de clustering, peut nous aider à :– valider le modèle de clustering ;
– fournir une interprétation intuitive des résultats par l’intermédiaire de la sation ;
visuali-– identifier rapidement les clusters pertinents ;
– faciliter les tâches de recherche d’information
Une étude de la qualité du clustering basé sur la distribution d’étiquettes pour tage des clusters est donc nécessaire
l’étique-Notre travail se focalise sur les études de deux problèmes : la visualisation mation avec des données fortement multidimensionnelles et les méthodes de sélectiond’information (variable) pour étiqueter des clusters avec des étiquettes multiples, avectoutefois pour objectif l’interprétation des résultats du clustering
d’infor-Ce travail s’est déroulé dans l’équipe INRIA-CORTEX ó de nombreux de travauxont déjà été développés sur le thème de la fouille de données Nous avons apporté notrecontribution et amélioré quelques parties dans le modèle d’analyse de données multi-vues(MVDA, cf figure 1.1 et la section 2.3.2) développé par l’équipe CORTEX
Trang 14Contribution aux théories
– Définition de nouvelles mesures de qualité du clustering avec le modèle vectoriel(cf section 2.3.1) de représentation de données Elles sont à la base de notre ap-proche pour introduire les différentes stratégies d’étiquetage des clusters et d’arbrehyperbolique,
– Proposition de nouvelles stratégies d’étiquetage des clusters avec des éqtiquettesmultiples,
– Présentation d’un mécanisme de communication en multi-vues entre les arbreshyperboliques,
– Intégration du modèle de Spring (cf section 2.1.4) à l’hyperbolique pour mieuxmontrer la relation entre les clusters
Contribution aux logiciels
– Construction d’un module de classification hiérarchique par l’algorithme DBHC(cf voir l’algorithme 1),
– Contribution au modèle MVDA (cf figure 1.1), le module de visualisation bolique et le module de visualisation de graphe
hyper-– Construction de module d’étiquetage automatique des clusters
Après cette introduction générale, nous présentons, dans le chapitre 2, un état del’art relatif au rérences pertinentes permettant d’appuyer le propos de ce stage Dans lapremière section, nous commençons par la présentation du problème de la visualisationdes données multidimensionnelles Nous présentons alors plusieurs techniques connuesutilisées pour visualiser ce type de données, à savoir la projection linéaire, la projectionnon linéaire, et la visualisation hyperbolique Nous détaillons en particulier la visuali-sation hyperbolique qui sera choisie dans notre propos pour la validation de modèle declustering Nous introduisons dans la deuxième section, quelques approches existantesd’étiquetage des clusters Nous terminons ce chapitre par un résumé du traitement dedonnées documentaires multidimensionnelles comme la représentation de données et laclassification non supervisée de données
Le troisième chapitre de ce mémoire présente la contribution que représente ce travail,
il s’agit de proposer et de mettre en place la combinaison d’une méthode de visualisation
Trang 15hyperbolique avec de nouvelles stratégies d’étiquetage des clusters pour l’analyse et lafouille de données orientée par les points de vue.
Le quartrième chapitre a pour but de présenter nos expérimentations et les tions d’approches proposées par rapport aux approches existantes Enfin, le cinquièmechapitre conclut en donnant des perspectives à ce travail de stage
évalua-Nous utiliserons deux types de corpus différents dans nos expérimentations, à savoir
un corpus de notice de brevets, et le corpus de données bibliographiques plinaire et multilingue PASCAL de l’INIST (INstitut de l’Information Scientifique etTechnique) Une description détaillée du premier corpus est fournie en annexe et lesecond est décrit dans le site web de l’INIST
Trang 16multidisci-1.4 Plan du mémoire
Fig 1.1 – Paradigme de traitement de l’information orienté par les points de vue(MVDA)
Trang 18Chapitre 2 L’état de l’art
Sommaire
2.1 Visualisation d’information 8
2.1.1 Dimension intrinsèque des données multidimensionnelles 8
2.1.2 Visualisation par projection cartographique linéaire 10
2.1.3 Visualisation par projection cartographique non linéaire 12
2.1.4 Visualisation par l’analyse de graphe 15
2.1.5 Visualisation hyperbolique 16
2.2 Étiquetage des clusters 19
2.2.1 Approches traditionnelles 19
2.2.2 Étiquetage des clusters par la sélection d’information (variable) 19 2.3 Traitement de données documentaires multidimensionnels 20 2.3.1 Représentation de données documentaires 20
2.3.2 Notion de point de vue 23
2.3.3 Clustering numérique 24
2.4 Conclusion 25
“If I have seen further than the others, it is because I have stood on the shoulders of
giants ”
Isaac Newton
Résumé
L’objectif de ce chapitre est de dresser un état de l’art des principales approches
de visualisation d’information et d’étiquetage du résultat de clustering Étant donnés
la diversité et le nombre important de travaux disponibles dans le domaine, il est im-possible de réaliser une étude bibliographique exhaustive Nous pensons que ce chapitre doit plutôt rassembler les références pertinentes permettant d’appuyer le propos de ce
Trang 19stage Dans ce chapitre, nous abordons plus précisement trois aspects du problème.Tout d’abord, nous verrons quels sont les méthodes utilisées pour la visualisation d’in-formation Nous nous posons ensuite la question de l’étiquetage des clusters Enfin, nousétudions les traitements de données documentaires multidimentionnels.
La plupart du temps les classes issues des méthodes de classification sont représentéesdans le même espace de description que celui des données sources, qui peut s’avérer for-tement multidimensionnel La représentation synthétique des résultats de ces méthodes
se ramène donc à un problème de visualisation sur un plan de représentation Le maine des techniques de visualisation est un domaine très riche Différentes techniquespeuvent être appliquées en fonction du but recherché et des propriétés des donnéeselles-mêmes Les techniques les plus couramment utilisées sont la projection sur un planbidimensionnel, l’organisation en arbres, et l’organisation en réseau ou en graphe.Les techniques de projection sur un plan bidimensionnel, à savoir les méthodes li-néaires et non linéaires, ont pour but d’optimiser le dépliage en deux dimensions de lastructure de données originale Les techniques de visualisation de données en arbre, enréseau ou en graphe sont, quant à elles, spécialisées dans la représentation conjointe desdonnées et de leurs relations potentielles
do-Plusieurs facteurs importants, liés à l’ergonomie, sont également à prendre en comptedans le choix d’une technique de visualisation En effet, une technique de visualisationappropriée doit, dans la mesure du possible, répondre au contraintes suivantes [Bouthier,2004] :
1 avoir une vue globale : permet de se faire une idée de l’ensemble des données,
2 zoomer : permet d’accéder, dans le contexte, à une donnée spécifique,
3 avoir une vue détaillée : permet d’accéder à tous les détails d’une donnée spécifique,
4 voir les relations : permet de se concentrer sur les relations entre les données etnon pas sur les données elles-mêmes
Nous présenterons plus spécifiquement dans cette section les problèmes liés à la lisation des données fortement multidimensionnelles et les solutions ou les techniquesutilisées pour visualiser ce type de données Nous présenterons ci-après trois famillesimportantes de techniques, à savoir la visualisation par la projection linéaire, la visua-lisation par la projection non linéaire, et la visualisation hyperbolique
visua-2.1.1 Dimension intrinsèque des données multidimensionnelles
Dans cette section nous abordons succinctement quelques problèmes de fond poséspar la projection des données multidimensionnelles, qui peut être considérée comme unprocessus central pour la visualisation
Trang 202.1 Visualisation d’information
Avant toute opération de projection de données multidimensionnelles, il est rellement important d’évaluer la dimension idéale de l’espace cible pour représenter cesdonnées En effet, si la dimension de l’espace cible est trop faible, une partie de l’infor-mation sera perdue lors de la projection Si elle est trop grande, l’intérêt de la projectionsera en partie perdu Le concept de dimension intrinsèque est le plus souvent employépour évaluer cette dimension La dimension intrinsèque correspond au nombre effectif dedegrés de liberté d’un ensemble des données [Lendasse et al., 2001] Ce concept est pré-senté ici en prenant comme exemple la distribution bien connue du fer à cheval (cf figure2.1) : pour cette distribution de données, la dimension intrinsèque est égale à deux, cardeux degrés de liberté sont suffisants pour déterminer de manière univoque n’importequelles données appartenant à la distribution, bien que ces données soient initialementdéfinies dans IR3 La détermination de la dimension intrinsèque reste cependant trèsproblématique dans le cas des données fortement multidimensionnelles
natu-Fig 2.1 – Distribution du « fer à cheval »
Un phénomène important est également à prendre en compte lors du traitementdes données multidimensionnelles Ce phénomène est appelé « phénomène de l’espacevide »[Verleysen, 2003] Considérons par exemple une hyper-sphère de n dimensions Levolume de cette hyper-sphère en fonction du rayon r vaut :
de comportement représente un problème supplémentaire pour la visualisation
Les remarques précédentes montrent que la projection des données fortement dimensionnelles représente un problème très difficile à traiter directement Cependant,toutes les variables ou tous les descripteurs de l’espace de description ne sont pas d’égaleimportance pour comprendre la structure intrinsèque qui sous-tend une distribution de
Trang 21multi-Fig 2.2 – évolution du volume de sphère en fonction de nombre de dimensions.
données multidimensionnelles Une manière de contourner les problèmes posés par laprojection d’un tel type de distribution consiste donc éliminer ou atténuer l’effet desvariables ou des descripteurs marginaux Ce principe est appliqué dans l’ensemble desméthodes de projection que nous décrivons ci-après
2.1.2 Visualisation par projection cartographique linéaire
L’analyse en composantes principales
L’analyse en composantes principales (ACP) est une méthode de réduction sionnelle linéaire [Jolliffe, 1986] Son principe est la description des données aux combi-naisons linéaires orthogonales (les CP) des variables originales possédant la plus grandevariance La première CP, est la combinaison linéaire avec la plus grande variance Ladeuxième CP est la combinaison linéaire avec la deuxième plus grande variance, or-thogonale à la première CP, et ainsi de suite Le nombre de CP est égal au nombre dedimensions de l’espace de description des données originales Pour beaucoup d’ensembles
dimen-de données, les premiers CP expliquent la partie majeure dimen-de la variance, donc le restepeut être négligé, la perte d’informations étant minime
Étant donnée la matrice de covariance :
S = UTX (2.2)
Trang 222.1 Visualisation d’information
Le nombre de CP à conserver peut être choisi, soit en fixant un nombre k tel que
k < n, soit en fixant un seuil λ0, ensuite, soit en ne gardant que les vecteurs propresdont les valeurs propres sont supérieures à λ0 C’est cette dernière méthode qui a étéutilisée par [Jolliffe, 1972]
Fig.2.3 – Distribution en « fer à cheval » : (a) Distribution et plan principal trouvé parl’ACP
(b) Projection de la distribution sur ce plan
Cette méthode de projection prend en compte uniquement les dépendances linéairesentre les variables Donc, elle n’est pas capable de projeter correctement une distributionnon linéaire, comme la distribution en « fer à cheval »(cf figure 2.3) La figure montre quecette méthode est incapable de restituer une information pertinente sur cette distribution
en considérant sa projection selon les deux premiers CP dans ce type d’exemple
La projection aléatoire (Random Mapping)
La méthode linéaire la plus simple est celle du Random Mapping (projection toire) [Kaski, 1998; Lagus et al., 1999] Le Random Mapping consiste simplement àmultiplier le vecteur descriptif initial d’un document par une matrice aléatoire pourproduire un vecteur descriptif transformé de plus faible dimension, soit :
aléa-y = R × x (2.3)
ó x ∈ IRn est un vecteur de document R est une matrice aléatoire de valeurs dedimension k × n, et la longueur euclidienne de chaque colonne de cette matrice a éténormalisée à l’unité y ∈ IRk est le vecteur résultat de cette multiplication, k < n.L’interprétation de projection aléatoire doit considŕer ce qui arrive à chaque di-mension de l’espace original IRn dans l’espace de projection Si la ième
colonne de R estdénotée par ril’opération de la projection aléatoire (cf équation 2.3) peut être expriméecomme :
Trang 23si-dimension originale des données est très grande En dehors de son efficacité nelle cette méthode souffre cependant des mêmes limitations que l’ACP.
opération-2.1.3 Visualisation par projection cartographique non linéaire
Comme nous l’avons mentionné précédemment, les méthodes linéaires prennent quement en compte les dépendances linéaires entre les variables Elles ne sont doncpas capables de projeter correctement une distribution non linéaire Plusieurs méthodes
uni-de projection non linéaires ont été proposées pour palier les problèmes uni-des méthouni-deslinéaires
Méthodes de projection
De nombreuses méthodes de projection non linéaires des données ont été proposéesdans la littérature Parmi celles-ci, on peut citer les cartes de Kohonen (SOMs) (cf.section ??) utilisées pour projeter les données sur une ou deux dimensions, les méthodesbasées sur la conservation de la distance (telles que le Multidimensional Scaling (MDS)[Shepard, 1962], la projection de Sammon (NLM) [Sammon, 1969], l’analyse en com-posantes curvilignes (CCA) [Demartines and Hérault, 1997] et ses extensions, telle quel’analyse par distance curviligne (CDA) [Lee et al., 2000], et Isomap [Tenenbaum et al.,2000]) Ces méthodes sont basées sur le principe général suivant : considérons n pointsdans l’espace de dimension d, il s’agit alors d’essayer de placer ces points dans un espace
de faible dimension m (m < d) en préservant les distances mutuelles entre les pointsissus de l’espace original et les points correspondants dans l’espace de projection Cettedernière condition est naturellement impossible à réaliser dans l’absolu, du fait qu’il y an(n−1) conditions à satisfaire avec nm degrés de liberté [Verleysen, 2003] Ces méthodescherchent donc en priorité à conserver, lors de la projection, l’intégrité des distances lesplus courtes de manière à préserver au mieux la topologie originale
Multidimensional Scaling (MDS) Dans le cas du Multidimensional Scaling (MDS),
ó la fonction-objectif est simplement basée sur la minimisation de la somme des ports des distances entre les données d’entrée et les données projetées
rap-Projection non linéaire de Sammon (NLM) D’une manière similaire au MDS,
la projection de Sammon (NLM), est basée sur une fonction objectif qui est l’erreurquadratique des différences entre les distances des données d’entrée et les distancesdes données projetées Cette méthode cherche donc à minimiser la fonction d’erreursuivante :
E = 1cX
i
X
j<i
(Xij − Yij)2F (Xij) (2.5)ó
Trang 24Analyse en composantes curvilignes (CCA) L’analyse en composantes lignes (CCA) opère en deux phases distinctes La première phase est une quantificationvectorielle de l’espace de données d’entrée Cette phase est importante pour utiliser unnombre k de points inférieur au nombre n de points original La seconde phase est uneprojection non linéaire des vecteurs d’entrée dans un espace de dimension m < d quiminimise l’erreur quadratique entre les distances Mais contrairement aux méthodes pré-cédemment décrites, cette minimisation s’opère relativement aux distances dans l’espace
curvi-de projection D’après Démartines, ces principes augmentent la qualité curvi-de projection[Demartines and Hérault, 1997] Ainsi, la méthode CCA consiste à optimiser le critèresuivant :
la projection de la distribution du « fer à cheval »par CCA Cette méthode détecte donc
le caractère uniforme de cette distribution en la dépliant Un des inconvénients de cetteméthode est le choix des paramètres De plus, malgré les améliorations apportées parrapport aux méthodes précédemment décrites, elle continue à souffrir d’une mauvaisecapacité de dépliage des structures complexes
Fig 2.4 – Projection faite par CCA de IR3 à IR2 de la distribution du « fer à cheval »
Trang 25Analyse par distance curviligne (CDA) Afin d’améliorer la méthode de CCA,Lee et al [Lee et al., 2000] ont proposé une analyse par distance curviligne (CDA) enutilisant un type de « distance curviligne »δij au lieu de la distance euclidienne standardpour Xij (cf figure 2.5) La distance curviligne est mesurée sur le chemin le plus courtpassant par des liens liant des centrọdes adjacents (cf figure 2.6) Les centrọdes sonteux-mêmes obtenus par un processus de quantification vectorielle [Kohonen, 2001] :
Fig.2.5 – (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux points
et (c) la distance curviligne ou géodésique
Fig 2.6 – Approximation de la distance curviligne à l’aide du chemin le plus court parl’intermédiaire des liens entre les centrọdes (ici la distance entre les deux centrọdesnoircis)
La figure 2.7 montre un exemple de « nœud de tresse »qui est un objet sionnel inclus dans un espace tridimensionnel Dans un espace unidimensionnel, la CDA
unidimen-le déplie rapidement et automatiquement
Fig.2.7 – CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 3 à 1)
Trang 262.1 Visualisation d’information
Isomap Tenenbaum et al [Tenenbaum et al., 2000] ont proposé la méthode Isomapqui utilise, d’une façon analogue à la CDA, la distance géodésique à la place de la distanceeuclidienne Ainsi le voisinage de chaque point est calculé en utilisant, soit la notion de
k plus proches voisins, soit le rayon fixé Ensuite, après avoir établi le graphe de liensentre tous les points voisins, la distance géodésique entre deux points est approximéepar le plus court chemin de la somme des longueurs des arcs liant les deux points Leplus court chemin est calculé en utilisant l’algorithme de Dijkstra [Dijkstra, 1959]
La figure 2.8 montre un exemple de la projection d’un « rouleau suisse »sur une cartepar Isomap La CDA détecte le caractère uniforme de cette distribution en la dépliant,tandis qu’Isomap produit des trous étranges comme une tranche de fromage suisse !D’après Lee et al [Lee et al., 2002], ce problème pourrait être résolu en ajoutant uneétape de quantification vectorielle, comme dans de la CDA
Fig.2.8 – Isomap : Exemple du « rouleau suisse »(à droite) et de la projection de 20000échantillons tirés du rouleau par Isomap
2.1.4 Visualisation par l’analyse de graphe
Nous présentons dans cette section la méthode BibTechMon (Bibliometric TechnologyMonitoring) qui représente une méthode bibliomètrique graphique [Kopcsa and Schie-bel, 1998] Cette méthode repose sur le calcul des co-occurrences des termes apparaissantdans les documents (Kostoff, 1993) Les termes représentent donc des données d’entrée
La relation entre deux termes est considérée comme forte s’ils apparaissent souvent semble (i.e souvent co-occurrent) dans les documents Les valeurs de co-occurrence determes sont normalisés par des indices tels que « Jaccard », « Cosinus », etc., afin detravailler sur des valeurs relatives dans l’intervalle [0, 1] Le réseau de relation est en-suite déterminé à partir des relations individuelles entre les termes, puis transcrit sousforme graphique en utilisant le « modèle de Spring »(cf figure 2.9) Le « modèle deSpring »est un modèle d’équilibre des forces qui représente une alternative au Multidi-mensionnal Scaling (MDS) [Morrison and Chalmers, 2003] Selon cette représentation,chacun de n termes de l’espace de description sera associé à un point fixe (ou nœud)
en-dj ∈ IR2, j = 1, , n La taille de chaque nœud représentera le nombre d’occurrences
de ce terme Les positions des nœuds sur la carte seront calculés en se basant sur leurs
Trang 27relations avec tous les autres nœuds Les nœuds les plus centraux de la représentationseront donc ceux dont les termes associés partagent les co-occurrences normalisées lesplus fortes.
Fig 2.9 – BibTechMon : réseau de mots baséesur les relations entre eux Ce réseaucontient 28 nœuds et 131 connexions
L’intérêt principal de cette approche est qu’elle fournit à l’analyste une vue globale del’interaction entre les données, mais au prix une structure très complexe et surchargée
De fait, pour pouvoir effectuer une quelconque analyse des résultats, un filtrage sur lesliens privilégiant seulement les liens les plus forts ou d’autres critères spécifiques estsouvent nécessaire Ce type de méthodologie est cependant susceptible de faire perdre àl’analyste des informations utiles pour l’analyse
2.1.5 Visualisation hyperbolique
La visualisation hyperbolique est connue pour ses capacités à traiter le problème
de la surcharge cognitive produite par les approches basées sur les graphes ou sur laprojection cartographique précédemment décrites En effet, cette technique permet devisualiser des relation complexes entre les données par les mécanismes de focus et decontexte [Bergé and Bouthier, 2003]
L’espace hyperbolique
L’espace hyperbolique H2 représente un élément important de la géométrie euclidienne C’est un candidat idéal pour manipuler de grandes structures hiérarchiquesgrâce à ses propriétés géométriques spécifiques [Lamping and Rao, 1994] En effet, cetespace peut être projeté sur un plan bidimensionnel de l’espace euclidien sous la forme
Trang 28non-2.1 Visualisation d’information
d’un disque unité également appelé disque de Poincaré [Henle, 2001; Ratcliffe, 1994]
Le disque Poincaré a un certain nombre de propriétés commodes pour la visualisation :premièrement, il préserve la forme originale de distribution de H2, deuxièmement, lemodèle permet de matérialiser la translation de H2 original d’une manière très élégante.Ainsi, la fovéa peut être déplacée vers l’ensemble des parties du disque hyperboliqueinfini Ceci permet à l’utilisateur de se concentrer sur les parties intéressantes d’unedistribution originale dans H2 tout en gardant toujours une vue générale de son contexte.Arbre hyperbolique (Hypertree)
La technique de visualisation en arbre hyperbolique, aussi appelée visualisation pertree, a été inventée par Lamping et Rao [Lamping J and P., 1995; Lamping and Rao,1996] dans le but de représenter et de manipuler de larges structures hiérarchiques dansl’espace hyperbolique
hy-La visualisation hypertree permet de représenter des données structurées sous formed’arbre L’arbre est dessiné de manière radiale - la racine au centre, les nœuds fils setrouvant sur un cercle ayant pour centre leur père dans le plan hyperbolique Puis, unefois chacun des nœuds de l’arbre placé dans l’espace hyperbolique, l’arbre tout entierest projeté sur le disque de Poincaré La racine est projetée au centre du disque unité.Les branches de l’arbre deviennent des géodésiques du modèle de Poincaré, c’est-à-diresoit des diamètres, soit des arcs de cercle (cf figure 2.10) [Bergé and Bouthier, 2003;Bouthier, 2004]
Fig 2.10 – Deux types de géodésique : un diamètre passant par O et P et un arc decercle AB orthogonal au cercle unité
La visualisation hypertree est une technique de visualisation « focus + contexte » :elle donne une vue détaillée sur une petite surface (focus), tout en gardant une vueglobale de la structure (contexte) Puisque l’ensemble du plan hyperbolique est projetédans le disque unité, une distorsion de l’espace apparaît : plus on s’approche du bord
du disque, plus les distances sont compressées Ainsi, le centre du disque fournit unevue détaillée sur une partie des nœuds de l’arbre (focus), tandis que le bord du disquefournit une vue globale du reste de la structure de l’arbre (contexte)
La visualisation hypertree est une technique interactive L’arbre peut être déplacé defaçon à avoir une vue détaillée au centre du disque de n’importe laquelle de ses parties
Trang 29Un nœud peut être sélectionné pour être placé directement au centre (cf figure 2.11).Une animation de la transition permet à l’utilisateur de suivre le déplacement de l’arbre.
Fig 2.11 – La visualisation de l’arbre hyperbolique (Hypertree)
La visualisation hypertree est particulièrement adaptée pour la navigation dans degrandes hiérarchies Plusieurs propriétés aident l’utilisateur pendant sa navigation Toutd’abord, la visualisation hypertree présente l’ensemble de la hiérarchie dans le disqueunité La géométrie hyperbolique rend aussi la navigation plus efficace que dans lagéométrie euclidienne, car la distance parcourue en un clic ou un mouvement est plusgrande, et il y a plus de nœuds affichés à chaque déplacement [Bergé and Bouthier, 2003;Bouthier, 2004] Les fonctionnalités principales de l’abre hyperbolique sont :
– l’arbre est dessiné dans le disque unité, comme si l’arbre avait été tiré dans l’espacehyperbolique, puis projeté sur le disque de Poincaré
– l’arbre entier peut être dragué par la souris pour placer une partie de cet arbre aumilieu du disque
– un clic sur un nœud le déplace automatiquement au centre du disque
Les bases mathématiques de l’hyperbolique sont très complexes, elles se composentdes algorithmes de placement et ceux de déplacement Dans le carde de ce rapport,nous ne pouvons pas présenter tous ici ces algorithmes Pour pouvoir implanter l’arbrehyperbolique, nous avons bien étudié les comportements de l’hyperbolique dans [Bergéand Bouthier, 2003; Bouthier, 2004]
Trang 302.2 Étiquetage des clusters
L’opération d’étiquetage des données est également une opération importante pourl’interprétation intuitive et synthétique d’un résultat de visualisation Elle s’avère mêmecruciale dans le cadre spécifique de la visualisation de résultats d’analyse et de fouille
de données documentaires
Bien qu’il y ait eu beaucoup de recherche en clustering de documents, quelques vaux seulement se sont concentré sur l’étiquetage de résultat du clustering de document.D’ailleurs, les algorithmes traditionnels se fondent habituellement sur des caractéris-tiques très basiques On considère d’abord deux approches traditionnelles
tra-2.2.1 Approches traditionnelles
Stratégie d’étiquetage basée sur le profil de classe
La première approche est d’utiliser des profils decrivant les classes obtenues [Lin etal., 1991] Le principe est d’attribuer à chaque classe (cluster) un nom qui représente lacomposition des labels des composantes dominantes de son vecteur de profil Ces stra-tégies sont particulièrement adaptées pour mettre en évidence les thématiques majeuresisolées par le processus de classification
Stratégie d’étiquetage basée sur le profil de données
La seconde approche est d’utiliser des profils de données (les termes les plus quents) [Cutting et al., 1993] Le principe est d’attribuer à chaque classe un nom quireprésente la combinaison des labels des composantes dominantes (élément dominant),qui est le membre le plus caractéristique de la classe
fré-Ces stratégies sont utiles pour fournir des informations complémentaires pour terprétation des thématiques En effet, les profils de classes représente une informationindirecte, issue du processus de classification proprement dit, alors que les profils desdocuments représentent une information directe issue du contenu des documents
l’in-En général, les deux stratégies ci-dessus ne fournissent pas de résultats convaincantsdans le traitement multidimentionnel de données ó les clusters partagent des étiquettesglobales Pour résoudre ce problème, on utilise la méthode χ2 introduite par l’ensembled’auteurs [Yang and Pedersen, 1997] [Popescul and Ungar, ][Treeratpituk and Callan,2006]
2.2.2 Étiquetage des clusters par la sélection d’information
(va-riable)
Dans cette partie, nous présentons une méthode souvente utilisée pour la sélection determes lors de la catégorisation de textes Cette méthode s’appuie sur la contribution du
Trang 31χ2d’indépendance et se démarque des méthodes univariées par la nature de l’informationutilisée.
La statistique du χ2 mesure l’écart à l’indépendance entre un descripteur tk (présent
ou absent) et un thème ci (présent ou absent) ; elle est donc calculée sur un tableau
2 × 2 Cette mesure a été utilisée pour la sélection des descripteurs (variable) dans[Yang and Pedersen, 1997] et pour étiqueter des clusters dans [Popescul and Ungar, ;Treeratpituk and Callan, 2006] Ce calcul nécessite la construction d’un tableau decontingence (2 × 2) pour chaque descripteur tk du corpus et pour chaque classe ci (voirtableau 2.1) Dans ce tableau, on compte les documents ; par exemple, dans la premièrecellule, a est le nombre de documents de la classe ci dans lesquels le terme tkest présent
T erme tk prsent T erme tk absent
T erme ci prsent a c a + c
T erme ci absent b d b + d
a + b c + d N = a + b + c + dTab 2.1 – Tableau de contingences pour l’absence ou la présence d’un terme dans lesdocuments d’une classe
Dans le cas d’un tableau de contingence (2 × 2), la statistique du χ2 peut se mettresous la forme
χ2(tk, ci) vaut N, ce qui est sa valeur maximale Cette valeur est également atteinte si undescripteur apparaît dans tous les textes non pertinents et jamais dans l’ensemble destextes pertinents Entre ces deux valeurs extrêmes, plus la valeur de χ2(tk, ci) est grande,plus tket cisont liés Les descripteurs du corpus sont ensuite classés par ordre décroissant
de χ2(tk, ci), les plus discriminants figurant en tête de liste [Yang and Pedersen, 1997]
multidimen-sionnels
2.3.1 Représentation de données documentaires
Le problème de la représentation des données est un enjeu important dans le blème d’analyse et de la fouille de données L’indexation d’un document a pour butl’extraction de termes les plus importants et sa représentation sous forme d’un modèle
Trang 32pro-2.3 Traitement de données documentaires multidimensionnels
conceptuel Cette opération d’indexation, qui passe par une phase d’analyse et prétation du contenu des documents, peut s’avérer plus ou moins complexe en fonction
d’inter-du modèle conceptuel retenu pour représenter les documents Les contraintes d’efficacité
et les difficultés liées à l’interprétation du contenu des documents originaux, amènentune grande partie des systèmes de recherche documentaire (SRD) et des systèmes d’ex-traction de connaissances dans les bases documentaires (ECBD) à utiliser un modèleconceptuel simplifié et à procéder à une analyse de surface plutôt qu’à une analyse
en profondeur des documents Nous priviléligierons donc ci-après la description de cepremier type d’analyse
L’analyse de surface des documents
Les analyses de surface ne permettent d’isoler que des caractéristiques élémentairesdes documents Ces analyses peuvent être basées sur un langage contrôlé ou sur unlangage libre [Lamirel, 1995]
– Dans les analyses basées sur un langage contrôlé des listes de candidats descripteurssusceptibles de représenter le contenu des documents sont construites a priori Lasynthèse de contenu d’un document consiste alors à rechercher dans ces listes lescandidats décrivant le mieux le contenu du document
– Dans les analyses basées sur un langage libre, les descripteurs sont choisis a riori à partir de l’analyse du contenu des documents La forme la plus simple de cetype d’analyse est l’extraction de termes d’index simples, ou unitermes Cette mé-thode consiste à construire la liste des descripteurs d’un document en sélectionnantdans le contenu du document les mots ne relevant pas d’une liste de mots-outils(articles, prépositions, pronoms, ) L’extraction d’unitermes a cependant pourinconvénient de produire des listes de descripteurs de taille importante De plus,l’émiettement d’un texte en unité minimales a pour effet d’entraîner une polysémiemaximale [Lamirel, 1995] Des méthodes d’analyse plus sophistiquées permettent
poste-de conserver en partie l’intégrité poste-des concepts En effet, un concept est souventexprimé comme une association de formes simples (par exemple, un cerf-volant,une base de données) A titre d’exemple, dans l’approche LEXINET, Chartron[Chartron, 1988] propose de repérer des groupes de termes fortement associés enutilisant des méthodes statistiques basées sur la variance L’ensemble des groupes
de termes possibles est construit de manière incrémentale en partant de l’ensembledes unitermes adjacents, aux termes outils près
Sélection des descripteurs La sélection de descripteurs comprend habituellementplusieurs étapes de prétraitement de type d’anayse lexicale (élimination des suffixes,détection des racines équivalentes, etc.), dans le but de normaliser les termes extraitsdes documents Elle fait également appel à des mécanismes de pondération, eux-mêmesbasés sur la fréquence des termes d’index Selon un premier objectif, la pondérationpourra être utilisée comme une stratégie de sélection : seuls les termes les plus im-portants (c’est-à-dire les termes de plus forts poids) seront retenus parmi une liste de
Trang 33termes candidats Selon un second objectif, qui peut être complémentaire du premier,
la pondération servira à identifier l’importance de termes : à la fois, les uns vis à vis desautres (pondération inter documents), et vis à vis de chaque document (pondérationintra document) Nous décrivons ci-après les deux mécanismes de pondération les pluscouramment utilisés
Pondération par T F ∗ IDF : La fonction de pondération IDF (Inverse cument Frequency weighting) [Salton, 1971; Salton, 1989] consiste à attribuer les plusgrands poids de pertinence aux termes d’index apparaissant dans un faible nombre dedocuments, ces derniers termes étant considérés comme portant le plus fort pouvoird’information La fonction IDF est définie comme :
Do-IDF (t) = log( N
df (t)) (2.9)Tel que t est un terme d’index, N est le nombre total de documents dans la collection,
et df(t) est le nombre de documents qui contiennent le terme d’index t Le poids du termed’index t dans un document d est alors défini comme :
W (d, t) = T F (d, t).IDF (t) (2.10)Tel que T F (d, t) = log(f(t, d)) 1
, et f(t, d) représente la fréquence d’apparition duterme d’index t dans le document d Ainsi, un terme qui a une valeur de T F/IDFélevée doit être à la fois important dans le document auquel ce terme est associé, et doitapparaître peu souvent dans les autres documents
Pondération par l’entropie : La méthode de pondération par l’entropie est uneméthode de pondération inter documents Elle fonctionne selon un principe analogue
à la méthode de pondération T F ∗ IDF Elle s’inspire de la fonction d’entropie deShannon pour donner les poids les plus importants aux termes qui discriminent le mieuxdifférentes zones de sujet Elle est définie de la façon suivante [Kohonen et al., 1996] :Soit rd(t) la fréquence d’occurrence du terme t dans le document d de n dimensions
d = {t1, t2, , tn} et Pd(t) la probabilité que le terme t appartienne au document d.L’entropie H de ce terme est définie comme :
d ′rd ′(t)log
rd(t)P
Trang 342.3 Traitement de données documentaires multidimensionnelsModèles de représentation des documents
Les modèles de représentation élémentaire de documents sont principalement deuxtypes :
– Modèle booléen : Ce modèle a été initialement proposé par Salton [Salton, 1971]
Un document y est représenté par une liste de termes associés, tous les termes de
la liste étant considérés comme des propriétés vraies, au sens booléen, pour ledocument Ce principe rend cependant inexploitable la pondération des termesdans la représentation des documents
– Modèle vectoriel : Ce modèle a également été proposé par Salton [Salton, 1971]
Un document y est représenté par un vecteur de termes pondéré dont la dimensioncorrespond au nombre total de termes utilisés pour représenter les documents.Ainsi, un document d sera représenté par le vecteur de termes d = (t1, t2, , tn)
de dimension n
2.3.2 Notion de point de vue
Afin d’augmenter la qualité et la granularité de l’analyse de données documentaires,Lamirel [Lamirel, 1995] a introduit la notion de points de vue multiples Le principe deconstruction des points de vue est de séparer l’espace de description des documents endifférents sous-espaces rattachés à des sous-ensembles de termes descriptifs différents.L’ensemble V des différents points de vue issus du sous-espace de description D d’unensemble de documents peut être défini comme :
Où chaque vi représente un point de vue et P (D) représente l’ensemble des parties
de l’espace de description D des documents ; l’union des points de vue recompose alorsl’espace initial D de description des documents
Les différents points de vue correspondront alors aux différents sous-ensembles dex rattachés aux différents champs de la description des documents : ainsi, si les champs
d’in-« termes », d’in-« titre »et d’in-« auteurs »sont utilisés comme champs descripteurs d’un ensemble
de documents, ils peuvent représenter trois points de vue différents sur cet ensemble dedocuments
Cependant, Lamirel [Lamirel, 1995] a montré qu’il existe de nombreuses autres nières de définir des points de vue, comme par exemple, d’utiliser des relations nondescriptives entre les données, telles que des liens de citations ou des relations de proxi-mité
ma-Le principe général des points de vue s’applique particulièrement bien au modèlevectoriel, et permet, comme nous le montrons ci-après, d’en améliorer le comportement
Trang 35né-Approches neuromimétiques pour la classification
Les réseaux de neurones représentent une transposition simplifiée du fonctionnement
de cerveau humain Ils peuvent êre considérés comme une organisation cohérente tés de traitement élémentaires L’organisation des unités élémentaires en réseau induitl’émergence de nouvelles propriétés, analogues à celles que l’on attribue habituellement
d’uni-à l’intelligence humaine Un réseau neuromimétique se caractérise par les types de sesneurones constituants, par son comportement, par son architecture et par sa dynamique.Les réseaux de neurones apprennent sur une population d’origine et sont par la suitecapables d’exprimer des résultats sur des données inconnues Ils sont utilisés dans laprédiction et la classification, dans le cadre de découverte dirigée des connaissances.Certaines variantes, comme les réseaux de Kohonen, permettent également l’explorationdes séries temporelles et des analyses non dirigées Cependant, on leur reproche souventd’être des « boites noires » : il est difficile de savoir comment les résultats sont produits,
ce qui rend leur explication délicate, même si ces résultats sont bons
Les réseaux de neurones se divisent en deux classes principales, : les réseaux à tissage supervisé (supervised learning) (Perceptron [Rosenblatt, 1958], Hopfield [Hop-field, 1982], etc.) et les réseaux à apprentissage non supervisé (unsupervised learning).Dans nos expérimentations, nous utilisons les réseaux à apprentissage non supervisédans l’esprit des modèles suivants de Kohonen [Kohonen, 1984], Neural Gas [Martinetz,Thomas and Schulten, Klaus, 1991], Growing Neural Gas [Fritzke, 1995; Fritzke, 1997]
appren-Un résumé plus détaillé de ces méthodes est également disponible dans [Shehabi, 2006].Clustering hiérarchique multi-niveaux orienté par la densité (DBHC)
Les méthodes hiérarchiques classiques nécessitent le calcul d’une matrice de distance
ou matrice de similarité La complexité en temps de calcul résultante rend ces méthodesdifficilement utilisables pour des classifications portant sur un grand volume de données
Il est de plus difficile, voire impossible, de contrôler le nombre de classes obtenues par cesméthodes En effet, le seuil de coupure ne correspond lui-même qu’à un niveau d’arrêtdans le niveau de hiérarchisation et ne fixe donc pas le nombre de classes obtenues.Selons nous, le choix d’un algorithme de classification hiérarchique s’avère détermi-nant, aussi bien dans le cadre de l’analyse de données que dans celui de la fouille dedonnées En effet, un bon algorithme doit permettre d’obtenir une synthèse incrémentaledes relations entre les données à classifier, tout en préservant des informations cohérentessur la densité de ces données dans leur espace de description original Nous présentons
Trang 362.4 Conclusion
Vi représente le ième
niveau de l’arbre hiérarchique ; 0 ≤ i ≤ n
Mi représente un ensemble de classes non agglomérées
de manière à préserver un degré de densité fixe pour chaque niveau hiérarchique Selon
ce principe, les propriétés suivantes seront vérifiées :
– Les données originales représenteront les feuilles de l’arbre hiérarchique
– La racine de l’arbre représentera l’ensemble global des données
– Une classe intermédiaire de l’arbre qui aura beaucoup de liens (c’est-à-dire, coup de fils), par rapport aux autres classes du même niveau hiérarchique, repré-sentera une zone plus dense par rapport à celles représentées par ces dernières.– Toutes les feuilles qui auront la racine de l’arbre comme classe parente directepourront être considérées comme des données marginales (outliers)
Nous avons présenté dans ce chapitre plusieurs types de techniques de visualisation
de données La visualisation par projection cartographique linéaire montre rapidementses limites dans le cas des distributions complexes Les méthodes de visualisation parprojection non linéaires permettent de mieux traiter la visualisation de tels types dedistribution, sans pour autant s’affranchir entièrement des problèmes liés au pliage et à
la compression de l’information dans le cas de distributions de données fortement tidimensionnelles De plus, ces méthodes doivent compenser l’effet de complexificationsupplémentaire dû au phénomène de l’espace vide (cf section 2.1.1) quand le nombre
mul-de dimensions mul-de l’espace mul-de mul-description mul-devient très grand Ils se ramènent égalementaux problèmes de surcharge cognitive propres à la représentation en graphes Ces pro-blèmes se compliquent encore si une représentation des liens entre les données est prise
en compte
La visualisation hyperbolique représente une alternative très intéressante car elle
Trang 37Algorithme 1 Algorithme de classification hiérarchique orienté par la densité (DBHC)Entrée :
– Un ensemble de données
– n : le nombre maximal attendu de niveaux hiérarchiques
Construire la matrice des distances entre les classes de M0
Extraire de cette matrice deux valeurs :
– Dmin : la distance minimale,
– Dmax : la distance maximale
– Définir le seuil T comme : T = Dmax−Dmin
n
/∗ Construire les nouveaux parents de classes dans les différents niveaux /∗
pour chaque niveau Vi faire
Mi+1 = φ
Dmin = Dmin + T
si (Dmin > Dmax) alors Arrêt
pour chaque Cj ∈ Mi faire
Construire une classe parente initiale C∗
j : P arent(Cj)pour chaque Ck ∈ Mi\Cj faire
si ||Cj − Ck|| ≤ Dmin alorsAssocier Ck à C∗
j
fin sifin pour
le profil de C∗
j est le profil moyen des classes-filles associées
Mi+1 = Mi+1∪ {C∗
j}fin pour
Sortie : un arbre hiérarchique
Algorithme 2 Procédure 1 : élimination de classes parents répétées
Les classes parentes initiales répétées dans le nouveau niveau (i.e les classes initiales
du nouveau niveau qui partagent les mêmes classes-filles) sont résumées en une seuleclasse parente initiale
permet de s’affranchir de ces problèmes, au prix d’une faible perte d’information, ceci
en utilisant un mécanisme spécifique de présentation par dépliage dynamique (focus +contexte) Nous nous intéresserons en particulier aux mécanismes d’organisation hyper-boliques des résultats de classification et aux mécanismes de validation d’analyses et defouille basés sur l’interaction entre des représentations visuelles différentes