Combinaison de méthodes avancées de visualisation et de sélection d’information pour la fouille et l’analyse de données

Dans ce rapport, nous présentonsune première tentative de combinaison de la visualisation hyperbolique ainsi que de nouvellesapproches d’étiquetage afin de visualiser précisément les rés

Trang 1

Combinaison de m´ ethodes avanc´ ees de

d’information pour la fouille et

M´ emoire de fin d’´ etudes

présentée et soutenue publiquement le 06 Décembre 2007

Trang 2

La combinaison de méthodes avancées de visualisation et d’étiquetage des clusters joue un rôleimportant non seulement pour donner un avis global des résultats du clustering, mais aussipour l’évaluation précise desdits résultats Mais aujourd’hui encore, aucune solution précise sur

la façon de combiner de telles méthodes n’a été proposée Dans ce rapport, nous présentonsune première tentative de combinaison de la visualisation hyperbolique ainsi que de nouvellesapproches d’étiquetage afin de visualiser précisément les résultats d’analyses de données issues

de méthodes de clustering toutes les fois que les clusters sont à l’origine représentés dans unespace fortement multidimensionnel Le modèle de visualisation se fonde sur un algorithmehiérarchique qui est employé pour récapituler le contenu de clusters sous forme hiérarchique.Cet algorithme préserve la densité de données issue de l’espace de description des clusters ori-ginaux Dans ce mémoire sont présentées différentes stratégies d’étiquetage qui peuvent êtreemployées aussi bien pour décrire le contenu de base des clusters que pour propager précisé-ment les étiquettes dans les différents niveaux de l’hyperbolique résultant Ce travail s’attacheensuite à améliorer les défauts des méthodes de visualisation hyperbolique en embarquant lemodèle de Spring à l’hyperbolique afin de mieux montrer les relations entre les clusters Plu-sieurs expérimentations sont proposées sur différents types de données documentaires

Mots-clés : analyse de données multi-vues, fouille de données, clustering numérique, tion de qualité du clustering, étiquetage des clusters, visualisation hyperbolique, visualisationhiérarchique

évalua-AbstractCombining the visualization and the labeling methods plays an important role not only forgiving an overall view of the clustering results but also for the precise evaluation of the saidresults But at this point, no accurate solution on how to combine such methods has been pro-posed In this report we present a first attempt of combination of hyperbolic visualization andnovel labeling approaches for accurately visualizing data analysis results issued for clusteringapproach whenever the clusters are originally represented in a highly multidimensional space.The visualization model relies on a hierarchical algorithm that is used for summarizing thecluster contents in the form on a hypertree in which information on data density issued fromthe original clusters description space is preserved The core of this work presents differentnovel labeling strategies that can be used for describing the basic cluster contents as well asfor accurately propagating labels into the different levels of the resulting hypertree This workthen aims to improve the defects of hypertree visualization by embedding the model of Spring

to hyperbolic for better showing the relations between the clusters Several realistic test riments of our proposals are achieved on different kinds of documentary data

expe-Keywords : multiview data analysis, data mining, clustering, cluster labeling, clustering lity evaluation, hyperbolic visualization, hierarchical visualization

Trang 3

qua-Mes premiers remerciements vont à mon encadrant Jean-Charles Lamirel pour le tempsqu’il m’a consacré durant ce stage, son soutien, ses conseils scientifiques, sa disponibilité et sonaide précieuse pour améliorer et aller jusqu’au bout de ce travail de stage Il m’a vraiementimpressionné de par ses qualités humaines et son esprit ouvert.

Je tiens à remercier tous les membre de l’équipe CORTEX : Randa, Maxime, Jéremy pourleur soutien et leur accueil et les membres de l’équipe KIWI, Geoffray, Ilham

Je tiens à remercier Pascal Cuxac et Claire François de l’INIST pour leurs évaluations

Je tiens à remercier Mohammed Attik, un ancien doctorant de l’équipe Cortex pour sacoopération, sa conversation et son soutien

Je tiens à remercier mes Professeurs de l’IFI, qui m’ont donné des connaissances et m’ontaidé à bien suivre la formation de master de l’IFI

Mes grands remerciement à ma grande famille, en particulier ma femme et mon fils, pourleur encouragement, leurs prières pour réussir ma vie professionnelle

Trang 4

Table des matières

Liste des algorithmes xiii Chapitre 1

Introduction générale

1.1 Motivation 1

1.2 Contexte et Problématique 2

1.3 Contribution 3

1.4 Plan du mémoire 3

Chapitre 2 L’état de l’art 2.1 Visualisation d’information 8

2.1.1 Dimension intrinsèque des données multidimensionnelles 8

2.1.2 Visualisation par projection cartographique linéaire 10

2.1.3 Visualisation par projection cartographique non linéaire 12

2.1.4 Visualisation par l’analyse de graphe 15

2.1.5 Visualisation hyperbolique 16

2.2 Étiquetage des clusters 19

2.2.1 Approches traditionnelles 19

2.2.2 Étiquetage des clusters par la sélection d’information (variable) 19 2.3 Traitement de données documentaires multidimensionnels 20

2.3.1 Représentation de données documentaires 20

Trang 5

2.3.2 Notion de point de vue 23

2.3.3 Clustering numérique 24

2.4 Conclusion 25

Chapitre 3 Combinaison de méthodes avancées de visualisation et de sélection d’in-formation pour la fouille et l’analyse de données 3.1 Introduction 30

3.2 Nouvelles mesures de qualité du clustering basées sur la distribution d’éti-quettes 30

3.3 Nouvelles stratégies d’étiquetage des clusters 32

3.3.1 Stratégie locale d’étiquetage des clusters 33

3.3.2 Stratégie globale d’étiquetage des clusters 34

3.3.3 Stratégie hybride d’étiquetage des clusters 35

3.3.4 Stratégie d’étiquetage des clusters par les mesures d’entropie 35

3.3.5 Étiquetage des clusters par Gain d’Information 36

3.4 Combinaison des méthodes d’étiquetage des clusters et de visualisation hyperbolique 36

3.5 Communication multi-vues entre les arbres hyperboliques 37

3.5.1 Modèle de réseau bayésien pour la communication inter-cartes 37

3.5.2 Communication multi-vues entre les arbres hyperboliques 39

3.6 Intégration de graphe à l’hyperbolique 39

3.7 Organisation des branches de l’hyperbolique 41

3.8 Conclusion 41

Chapitre 4 Expérimentations et évaluations 4.1 Interprétation des résultats du clustering 43

4.2 Communication multi-vues entre les arbres hyperboliques 45

4.3 Intégration de modèle de Spring à l’hyperbolique 46

4.4 Évaluations 46 Conclusion générale

Trang 6

Annexe A

Description des données pour le Corpus Brevets

A.1 Introduction 55

A.2 Analyse des brevets 55

A.2.1 Déﬁnition des points de vue 55

A.2.2 Multi-indexation des brevets 56

Annexe B Description des données pour le Corpus PASCAL B.1 Introduction 59

B.2 Extrait de données 59

B.2.1 Déﬁnition des points de vue 59

Trang 7

1.1 Paradigme de traitement de l’information orienté par les points de vue

(MVDA) 5

2.1 Distribution du « fer à cheval » 9

2.2 évolution du volume de sphère en fonction de nombre de dimensions 10

2.3 Distribution en « fer à cheval » : (a) Distribution et plan principal trouvé par l’ACP 11

2.4 Projection faite par CCA de IR3 à IR2 de la distribution du « fer à cheval » 13 2.5 (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux points et (c) la distance curviligne ou géodésique 14

2.6 Approximation de la distance curviligne à l’aide du chemin le plus court par l’intermédiaire des liens entre les centrọdes (ici la distance entre les deux centrọdes noircis) 14

2.7 CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 3 à 1) 14 2.8 Isomap : Exemple du « rouleau suisse »(à droite) et de la projection de 20000 échantillons tirés du rouleau par Isomap 15

2.9 BibTechMon : réseau de mots baséesur les relations entre eux Ce réseau contient 28 nœuds et 131 connexions 16

2.10 Deux types de géodésique : un diamètre passant par O et P et un arc de cercle AB orthogonal au cercle unité 17

2.11 La visualisation de l’arbre hyperbolique (Hypertree) 18

3.1 Cette ﬁgure montre le principe d’étiquetage d’arbre hyperbolique par la stratégie F-leaveOneOut 37

3.2 La structure de réseau bayésien pour la communication inter-topographies 38 3.3 Deux masses de points et leurs connexions par l’élasticité cij est l’élement de matrice des indices de Jaccard 40

4.1 Méthode Dominant d’étiquetage d’arbre hyperbolique 44

4.2 Méthode ThemostFrequent d’étiquetage d’arbre hyperbolique 45

4.3 Méthode χ2 d’étiquetage d’arbre hyperbolique 46

4.4 Étiquetage d’arbre hyperbolique par la moyenne de F-mesure (F-moyenne) 47 4.5 Étiquetage d’arbre hyperbolique par la F-LeaveOneOut 48

Trang 8

Liste des figures

4.6 Une part vue de l’arbre qui présente le cluster source activé (en blue)pour la propagation 494.7 Résultat de la propagation du cluster activé dans le ﬁgure 4.6, les clusters

en blue sont trouvé par la propagation bayesien 494.8 Cette ﬁgure montre le graphe utilisant le modèle de Spring pour visualiserles relations natureles entre les clusters d’enfants d’un père de l’arbrehyperbolique 50A.1 Exemple de notice de brevet L’indexation qui a été générée pour ce brevetest matérialisé par le contenu du champ «Final indexation» Ces termesd’indexation sont préﬁxés par le nom du point de vue auquel ils sontassociés : «adv.» pour le point de vue Avantages, «titre» pour le point

de vue Titres, «use» pour le point de vue Utilisations, «soc.» pour lepoint de vue Déposants 57

Trang 9

2.1 Tableau de contingences pour l’absence ou la présence d’un terme dansles documents d’une classe 202.2 Notations de DBHC 253.1 Ce tableau présente un exemple de 6 clusters (C1, , C6) annotés par

7 étiquettes, e1, , e7 Le cluster C1 est annoté par les étiquettes e1,

e2,e3,e4,e5 L’étiquette e4 est présente dans les clusters C1 et C4 414.1 Ce tableau présente un exemple d’utilisation de la fonction g (cf équation4.1) 484.2 Ce tableau présente la comparaison de diﬀérentes approches d’étiquetaged’arbre hyperbolique 50A.1 Tableau résumé des caractéristiques résultantes de brevets 57

Trang 10

Liste des algorithmes

1 Algorithme de classiﬁcation hiérarchique orienté par la densité (DBHC) 26

2 Procédure 1 : élimination de classes parents répétées 26

3 Procédure 2 : éviter les classes recouvrantes 27

Trang 12

Chapitre 1 Introduction générale

Sommaire

1.1 Motivation 1

1.2 Contexte et Problématique 2

1.3 Contribution 3

1.4 Plan du mémoire 3

“ Savoir ce que tout le monde sait, c’est ne rien savoir Le savoir commence là ó

commence ce que le monde ignore ”

Remy de Gourmont, “ Promenades philosophiques ”

D’un cơté, les techniques de visualisation hyperbolique représentent un excellent compromis pour mener à bien de manière parallèle des tâches de fouilles et d’analyse

de données En eﬀet, ces techniques permettent de répondre à de nombreux problèmes posés par les techniques de visualisation traditionnelles Elles traitent les problèmes de surcharge cognitive des représentations à base de graphes et ceux liés aux artefacts de représentation des méthodes de projection des données multidimensionnelles sur un plan d’interprétation Elles permettent de plus d’exploiter les résultats des méthodes de clas-siﬁcation très performantes, plutơt que d’utiliser des méthodes moins performantes qui intègrent leur propre fonction de projection

D’un autre cơté, l’étude des méthodes d’analyse des étiquettes associées aux classes issues d’une méthode de classiﬁcation ouvre de nouvelles perspectives en analyse de don-nées En eﬀet, les étiquettes qu’il est possible d’associer aux classes peuvent représenter

à la fois des propriétés endogènes au processus de classiﬁcation, et des propriétés exo-gènes, propres aux données qui ont été classiﬁées L’analyse de leur distribution dans les

Trang 13

classes et leur catégorisation permet donc à la fois de résoudre des problèmes de fouille

de données, des problèmes de prédiction et des problèmes de ﬁltrage d’information

L’étude de l’optimisation et de la combinaison de ces techniques, qui sont à la foiscomplémentaires et en synergie l’une avec l’autre dans le contexte général de l’analyse

de données, s’avère donc être une voie de recherche extrêmement prometteuse Elle doitpermettre de résoudre de nombreux problèmes liés à l’analyse des données complexes,comme les données documentaires ou les données bioinformatiques

Premièrement, la visualisation des résultats du clustering reste un problème tivement ouvert, malgré l’importance qu’il peut avoir dans la compréhension desditsrésultats Les techniques de projection les plus performantes, comme les techniques deprojection non linéaires, montrent rapidement leurs limites dans le cas ó les données

rela-à visualiser sont initialement représentées dans un espace fortement multidimensionnel

De plus, la prise en compte de relations entre ces données pose des problèmes mentaires de surcharge cognitive propres à la représentation des graphes

supplé-Deuxièmement, le problème de l’étiquetage des clusters avec des étiquettes multiplesdans le cas ó les clusters partagent les étiquettes (propriétés) globales a très peu étéabordé dans la recherche jusqu’à présent Les techniques exitantes d’étiquetage des clus-ters, à savoir de méthodes basées sur les profils de classes et celles basées sur le profils dedonnées, ne sont pas capables de traiter le problème de surcharge cognitive (des donnéesfortement multidimensionnelles) En effet, l’étiquetage, que nous considérons comme undes problèmes majeurs de l’exploitation des modèles de clustering, peut nous aider à :– valider le modèle de clustering ;

– fournir une interprétation intuitive des résultats par l’intermédiaire de la sation ;

visuali-– identiﬁer rapidement les clusters pertinents ;

– faciliter les tâches de recherche d’information

Une étude de la qualité du clustering basé sur la distribution d’étiquettes pour tage des clusters est donc nécessaire

l’étique-Notre travail se focalise sur les études de deux problèmes : la visualisation mation avec des données fortement multidimensionnelles et les méthodes de sélectiond’information (variable) pour étiqueter des clusters avec des étiquettes multiples, avectoutefois pour objectif l’interprétation des résultats du clustering

d’infor-Ce travail s’est déroulé dans l’équipe INRIA-CORTEX ó de nombreux de travauxont déjà été développés sur le thème de la fouille de données Nous avons apporté notrecontribution et amélioré quelques parties dans le modèle d’analyse de données multi-vues(MVDA, cf ﬁgure 1.1 et la section 2.3.2) développé par l’équipe CORTEX

Trang 14

Contribution aux théories

– Déﬁnition de nouvelles mesures de qualité du clustering avec le modèle vectoriel(cf section 2.3.1) de représentation de données Elles sont à la base de notre ap-proche pour introduire les diﬀérentes stratégies d’étiquetage des clusters et d’arbrehyperbolique,

– Proposition de nouvelles stratégies d’étiquetage des clusters avec des éqtiquettesmultiples,

– Présentation d’un mécanisme de communication en multi-vues entre les arbreshyperboliques,

– Intégration du modèle de Spring (cf section 2.1.4) à l’hyperbolique pour mieuxmontrer la relation entre les clusters

Contribution aux logiciels

– Construction d’un module de classiﬁcation hiérarchique par l’algorithme DBHC(cf voir l’algorithme 1),

– Contribution au modèle MVDA (cf ﬁgure 1.1), le module de visualisation bolique et le module de visualisation de graphe

hyper-– Construction de module d’étiquetage automatique des clusters

Après cette introduction générale, nous présentons, dans le chapitre 2, un état del’art relatif au rérences pertinentes permettant d’appuyer le propos de ce stage Dans lapremière section, nous commençons par la présentation du problème de la visualisationdes données multidimensionnelles Nous présentons alors plusieurs techniques connuesutilisées pour visualiser ce type de données, à savoir la projection linéaire, la projectionnon linéaire, et la visualisation hyperbolique Nous détaillons en particulier la visuali-sation hyperbolique qui sera choisie dans notre propos pour la validation de modèle declustering Nous introduisons dans la deuxième section, quelques approches existantesd’étiquetage des clusters Nous terminons ce chapitre par un résumé du traitement dedonnées documentaires multidimensionnelles comme la représentation de données et laclassiﬁcation non supervisée de données

Le troisième chapitre de ce mémoire présente la contribution que représente ce travail,

il s’agit de proposer et de mettre en place la combinaison d’une méthode de visualisation

Trang 15

hyperbolique avec de nouvelles stratégies d’étiquetage des clusters pour l’analyse et lafouille de données orientée par les points de vue.

Le quartrième chapitre a pour but de présenter nos expérimentations et les tions d’approches proposées par rapport aux approches existantes Enﬁn, le cinquièmechapitre conclut en donnant des perspectives à ce travail de stage

évalua-Nous utiliserons deux types de corpus diﬀérents dans nos expérimentations, à savoir

un corpus de notice de brevets, et le corpus de données bibliographiques plinaire et multilingue PASCAL de l’INIST (INstitut de l’Information Scientiﬁque etTechnique) Une description détaillée du premier corpus est fournie en annexe et lesecond est décrit dans le site web de l’INIST

Trang 16

multidisci-1.4 Plan du mémoire

Fig 1.1 – Paradigme de traitement de l’information orienté par les points de vue(MVDA)

Trang 18

Chapitre 2 L’état de l’art

Sommaire

2.1 Visualisation d’information 8

2.1.1 Dimension intrinsèque des données multidimensionnelles 8

2.1.2 Visualisation par projection cartographique linéaire 10

2.1.3 Visualisation par projection cartographique non linéaire 12

2.1.4 Visualisation par l’analyse de graphe 15

2.1.5 Visualisation hyperbolique 16

2.2 Étiquetage des clusters 19

2.2.1 Approches traditionnelles 19

2.2.2 Étiquetage des clusters par la sélection d’information (variable) 19 2.3 Traitement de données documentaires multidimensionnels 20 2.3.1 Représentation de données documentaires 20

2.3.2 Notion de point de vue 23

2.3.3 Clustering numérique 24

2.4 Conclusion 25

“If I have seen further than the others, it is because I have stood on the shoulders of

giants ”

Isaac Newton

Résumé

L’objectif de ce chapitre est de dresser un état de l’art des principales approches

de visualisation d’information et d’étiquetage du résultat de clustering Étant donnés

la diversité et le nombre important de travaux disponibles dans le domaine, il est im-possible de réaliser une étude bibliographique exhaustive Nous pensons que ce chapitre doit plutôt rassembler les références pertinentes permettant d’appuyer le propos de ce

Trang 19

stage Dans ce chapitre, nous abordons plus précisement trois aspects du problème.Tout d’abord, nous verrons quels sont les méthodes utilisées pour la visualisation d’in-formation Nous nous posons ensuite la question de l’étiquetage des clusters Enﬁn, nousétudions les traitements de données documentaires multidimentionnels.

La plupart du temps les classes issues des méthodes de classiﬁcation sont représentéesdans le même espace de description que celui des données sources, qui peut s’avérer for-tement multidimensionnel La représentation synthétique des résultats de ces méthodes

se ramène donc à un problème de visualisation sur un plan de représentation Le maine des techniques de visualisation est un domaine très riche Diﬀérentes techniquespeuvent être appliquées en fonction du but recherché et des propriétés des donnéeselles-mêmes Les techniques les plus couramment utilisées sont la projection sur un planbidimensionnel, l’organisation en arbres, et l’organisation en réseau ou en graphe.Les techniques de projection sur un plan bidimensionnel, à savoir les méthodes li-néaires et non linéaires, ont pour but d’optimiser le dépliage en deux dimensions de lastructure de données originale Les techniques de visualisation de données en arbre, enréseau ou en graphe sont, quant à elles, spécialisées dans la représentation conjointe desdonnées et de leurs relations potentielles

do-Plusieurs facteurs importants, liés à l’ergonomie, sont également à prendre en comptedans le choix d’une technique de visualisation En eﬀet, une technique de visualisationappropriée doit, dans la mesure du possible, répondre au contraintes suivantes [Bouthier,2004] :

1 avoir une vue globale : permet de se faire une idée de l’ensemble des données,

2 zoomer : permet d’accéder, dans le contexte, à une donnée spéciﬁque,

3 avoir une vue détaillée : permet d’accéder à tous les détails d’une donnée spéciﬁque,

4 voir les relations : permet de se concentrer sur les relations entre les données etnon pas sur les données elles-mêmes

Nous présenterons plus spéciﬁquement dans cette section les problèmes liés à la lisation des données fortement multidimensionnelles et les solutions ou les techniquesutilisées pour visualiser ce type de données Nous présenterons ci-après trois famillesimportantes de techniques, à savoir la visualisation par la projection linéaire, la visua-lisation par la projection non linéaire, et la visualisation hyperbolique

visua-2.1.1 Dimension intrinsèque des données multidimensionnelles

Dans cette section nous abordons succinctement quelques problèmes de fond poséspar la projection des données multidimensionnelles, qui peut être considérée comme unprocessus central pour la visualisation

Trang 20

2.1 Visualisation d’information

Avant toute opération de projection de données multidimensionnelles, il est rellement important d’évaluer la dimension idéale de l’espace cible pour représenter cesdonnées En effet, si la dimension de l’espace cible est trop faible, une partie de l’infor-mation sera perdue lors de la projection Si elle est trop grande, l’intérêt de la projectionsera en partie perdu Le concept de dimension intrinsèque est le plus souvent employépour évaluer cette dimension La dimension intrinsèque correspond au nombre effectif dedegrés de liberté d’un ensemble des données [Lendasse et al., 2001] Ce concept est pré-senté ici en prenant comme exemple la distribution bien connue du fer à cheval (cf figure2.1) : pour cette distribution de données, la dimension intrinsèque est égale à deux, cardeux degrés de liberté sont suffisants pour déterminer de manière univoque n’importequelles données appartenant à la distribution, bien que ces données soient initialementdéfinies dans IR3 La détermination de la dimension intrinsèque reste cependant trèsproblématique dans le cas des données fortement multidimensionnelles

natu-Fig 2.1 – Distribution du « fer à cheval »

Un phénomène important est également à prendre en compte lors du traitementdes données multidimensionnelles Ce phénomène est appelé « phénomène de l’espacevide »[Verleysen, 2003] Considérons par exemple une hyper-sphère de n dimensions Levolume de cette hyper-sphère en fonction du rayon r vaut :

de comportement représente un problème supplémentaire pour la visualisation

Les remarques précédentes montrent que la projection des données fortement dimensionnelles représente un problème très diﬃcile à traiter directement Cependant,toutes les variables ou tous les descripteurs de l’espace de description ne sont pas d’égaleimportance pour comprendre la structure intrinsèque qui sous-tend une distribution de

Trang 21

multi-Fig 2.2 – évolution du volume de sphère en fonction de nombre de dimensions.

données multidimensionnelles Une manière de contourner les problèmes posés par laprojection d’un tel type de distribution consiste donc éliminer ou atténuer l’eﬀet desvariables ou des descripteurs marginaux Ce principe est appliqué dans l’ensemble desméthodes de projection que nous décrivons ci-après

2.1.2 Visualisation par projection cartographique linéaire

L’analyse en composantes principales

L’analyse en composantes principales (ACP) est une méthode de réduction sionnelle linéaire [Jolliﬀe, 1986] Son principe est la description des données aux combi-naisons linéaires orthogonales (les CP) des variables originales possédant la plus grandevariance La première CP, est la combinaison linéaire avec la plus grande variance Ladeuxième CP est la combinaison linéaire avec la deuxième plus grande variance, or-thogonale à la première CP, et ainsi de suite Le nombre de CP est égal au nombre dedimensions de l’espace de description des données originales Pour beaucoup d’ensembles

dimen-de données, les premiers CP expliquent la partie majeure dimen-de la variance, donc le restepeut être négligé, la perte d’informations étant minime

Étant donnée la matrice de covariance :

S = UTX (2.2)

Trang 22

Le nombre de CP à conserver peut être choisi, soit en ﬁxant un nombre k tel que

k < n, soit en ﬁxant un seuil λ0, ensuite, soit en ne gardant que les vecteurs propresdont les valeurs propres sont supérieures à λ0 C’est cette dernière méthode qui a étéutilisée par [Jolliﬀe, 1972]

Fig.2.3 – Distribution en « fer à cheval » : (a) Distribution et plan principal trouvé parl’ACP

(b) Projection de la distribution sur ce plan

Cette méthode de projection prend en compte uniquement les dépendances linéairesentre les variables Donc, elle n’est pas capable de projeter correctement une distributionnon linéaire, comme la distribution en « fer à cheval »(cf ﬁgure 2.3) La ﬁgure montre quecette méthode est incapable de restituer une information pertinente sur cette distribution

en considérant sa projection selon les deux premiers CP dans ce type d’exemple

La projection aléatoire (Random Mapping)

La méthode linéaire la plus simple est celle du Random Mapping (projection toire) [Kaski, 1998; Lagus et al., 1999] Le Random Mapping consiste simplement àmultiplier le vecteur descriptif initial d’un document par une matrice aléatoire pourproduire un vecteur descriptif transformé de plus faible dimension, soit :

aléa-y = R × x (2.3)

ó x ∈ IRn est un vecteur de document R est une matrice aléatoire de valeurs dedimension k × n, et la longueur euclidienne de chaque colonne de cette matrice a éténormalisée à l’unité y ∈ IRk est le vecteur résultat de cette multiplication, k < n.L’interprétation de projection aléatoire doit considŕer ce qui arrive à chaque di-mension de l’espace original IRn dans l’espace de projection Si la ième

colonne de R estdénotée par ril’opération de la projection aléatoire (cf équation 2.3) peut être expriméecomme :

Trang 23

si-dimension originale des données est très grande En dehors de son eﬃcacité nelle cette méthode souﬀre cependant des mêmes limitations que l’ACP.

opération-2.1.3 Visualisation par projection cartographique non linéaire

Comme nous l’avons mentionné précédemment, les méthodes linéaires prennent quement en compte les dépendances linéaires entre les variables Elles ne sont doncpas capables de projeter correctement une distribution non linéaire Plusieurs méthodes

uni-de projection non linéaires ont été proposées pour palier les problèmes uni-des méthouni-deslinéaires

Méthodes de projection

De nombreuses méthodes de projection non linéaires des données ont été proposéesdans la littérature Parmi celles-ci, on peut citer les cartes de Kohonen (SOMs) (cf.section ??) utilisées pour projeter les données sur une ou deux dimensions, les méthodesbasées sur la conservation de la distance (telles que le Multidimensional Scaling (MDS)[Shepard, 1962], la projection de Sammon (NLM) [Sammon, 1969], l’analyse en com-posantes curvilignes (CCA) [Demartines and Hérault, 1997] et ses extensions, telle quel’analyse par distance curviligne (CDA) [Lee et al., 2000], et Isomap [Tenenbaum et al.,2000]) Ces méthodes sont basées sur le principe général suivant : considérons n pointsdans l’espace de dimension d, il s’agit alors d’essayer de placer ces points dans un espace

de faible dimension m (m < d) en préservant les distances mutuelles entre les pointsissus de l’espace original et les points correspondants dans l’espace de projection Cettedernière condition est naturellement impossible à réaliser dans l’absolu, du fait qu’il y an(n−1) conditions à satisfaire avec nm degrés de liberté [Verleysen, 2003] Ces méthodescherchent donc en priorité à conserver, lors de la projection, l’intégrité des distances lesplus courtes de manière à préserver au mieux la topologie originale

Multidimensional Scaling (MDS) Dans le cas du Multidimensional Scaling (MDS),

ó la fonction-objectif est simplement basée sur la minimisation de la somme des ports des distances entre les données d’entrée et les données projetées

rap-Projection non linéaire de Sammon (NLM) D’une manière similaire au MDS,

la projection de Sammon (NLM), est basée sur une fonction objectif qui est l’erreurquadratique des diﬀérences entre les distances des données d’entrée et les distancesdes données projetées Cette méthode cherche donc à minimiser la fonction d’erreursuivante :

E = 1cX

i

X

j<i

(Xij − Yij)2F (Xij) (2.5)ó

Trang 24

Analyse en composantes curvilignes (CCA) L’analyse en composantes lignes (CCA) opère en deux phases distinctes La première phase est une quantiﬁcationvectorielle de l’espace de données d’entrée Cette phase est importante pour utiliser unnombre k de points inférieur au nombre n de points original La seconde phase est uneprojection non linéaire des vecteurs d’entrée dans un espace de dimension m < d quiminimise l’erreur quadratique entre les distances Mais contrairement aux méthodes pré-cédemment décrites, cette minimisation s’opère relativement aux distances dans l’espace

curvi-de projection D’après Démartines, ces principes augmentent la qualité curvi-de projection[Demartines and Hérault, 1997] Ainsi, la méthode CCA consiste à optimiser le critèresuivant :

la projection de la distribution du « fer à cheval »par CCA Cette méthode détecte donc

le caractère uniforme de cette distribution en la dépliant Un des inconvénients de cetteméthode est le choix des paramètres De plus, malgré les améliorations apportées parrapport aux méthodes précédemment décrites, elle continue à souﬀrir d’une mauvaisecapacité de dépliage des structures complexes

Fig 2.4 – Projection faite par CCA de IR3 à IR2 de la distribution du « fer à cheval »

Trang 25

Analyse par distance curviligne (CDA) Afin d’améliorer la méthode de CCA,Lee et al [Lee et al., 2000] ont proposé une analyse par distance curviligne (CDA) enutilisant un type de « distance curviligne »δij au lieu de la distance euclidienne standardpour Xij (cf figure 2.5) La distance curviligne est mesurée sur le chemin le plus courtpassant par des liens liant des centrọdes adjacents (cf figure 2.6) Les centrọdes sonteux-mêmes obtenus par un processus de quantification vectorielle [Kohonen, 2001] :

Fig.2.5 – (a) deux points d’un spirale, (b) la distance euclidienne entre ces deux points

et (c) la distance curviligne ou géodésique

Fig 2.6 – Approximation de la distance curviligne à l’aide du chemin le plus court parl’intermédiaire des liens entre les centrọdes (ici la distance entre les deux centrọdesnoircis)

La ﬁgure 2.7 montre un exemple de « nœud de tresse »qui est un objet sionnel inclus dans un espace tridimensionnel Dans un espace unidimensionnel, la CDA

unidimen-le déplie rapidement et automatiquement

Fig.2.7 – CDA : Projection non-linéaire d’un « nœud de tresse »(de dimension 3 à 1)

Trang 26

Isomap Tenenbaum et al [Tenenbaum et al., 2000] ont proposé la méthode Isomapqui utilise, d’une façon analogue à la CDA, la distance géodésique à la place de la distanceeuclidienne Ainsi le voisinage de chaque point est calculé en utilisant, soit la notion de

k plus proches voisins, soit le rayon ﬁxé Ensuite, après avoir établi le graphe de liensentre tous les points voisins, la distance géodésique entre deux points est approximéepar le plus court chemin de la somme des longueurs des arcs liant les deux points Leplus court chemin est calculé en utilisant l’algorithme de Dijkstra [Dijkstra, 1959]

La ﬁgure 2.8 montre un exemple de la projection d’un « rouleau suisse »sur une cartepar Isomap La CDA détecte le caractère uniforme de cette distribution en la dépliant,tandis qu’Isomap produit des trous étranges comme une tranche de fromage suisse !D’après Lee et al [Lee et al., 2002], ce problème pourrait être résolu en ajoutant uneétape de quantiﬁcation vectorielle, comme dans de la CDA

Fig.2.8 – Isomap : Exemple du « rouleau suisse »(à droite) et de la projection de 20000échantillons tirés du rouleau par Isomap

2.1.4 Visualisation par l’analyse de graphe

Nous présentons dans cette section la méthode BibTechMon (Bibliometric TechnologyMonitoring) qui représente une méthode bibliomètrique graphique [Kopcsa and Schie-bel, 1998] Cette méthode repose sur le calcul des co-occurrences des termes apparaissantdans les documents (Kostoﬀ, 1993) Les termes représentent donc des données d’entrée

La relation entre deux termes est considérée comme forte s’ils apparaissent souvent semble (i.e souvent co-occurrent) dans les documents Les valeurs de co-occurrence determes sont normalisés par des indices tels que « Jaccard », « Cosinus », etc., afin detravailler sur des valeurs relatives dans l’intervalle [0, 1] Le réseau de relation est en-suite déterminé à partir des relations individuelles entre les termes, puis transcrit sousforme graphique en utilisant le « modèle de Spring »(cf figure 2.9) Le « modèle deSpring »est un modèle d’équilibre des forces qui représente une alternative au Multidi-mensionnal Scaling (MDS) [Morrison and Chalmers, 2003] Selon cette représentation,chacun de n termes de l’espace de description sera associé à un point fixe (ou nœud)

en-dj ∈ IR2, j = 1, , n La taille de chaque nœud représentera le nombre d’occurrences

de ce terme Les positions des nœuds sur la carte seront calculés en se basant sur leurs

Trang 27

relations avec tous les autres nœuds Les nœuds les plus centraux de la représentationseront donc ceux dont les termes associés partagent les co-occurrences normalisées lesplus fortes.

Fig 2.9 – BibTechMon : réseau de mots baséesur les relations entre eux Ce réseaucontient 28 nœuds et 131 connexions

L’intérêt principal de cette approche est qu’elle fournit à l’analyste une vue globale del’interaction entre les données, mais au prix une structure très complexe et surchargée

De fait, pour pouvoir effectuer une quelconque analyse des résultats, un filtrage sur lesliens privilégiant seulement les liens les plus forts ou d’autres critères spécifiques estsouvent nécessaire Ce type de méthodologie est cependant susceptible de faire perdre àl’analyste des informations utiles pour l’analyse

2.1.5 Visualisation hyperbolique

La visualisation hyperbolique est connue pour ses capacités à traiter le problème

de la surcharge cognitive produite par les approches basées sur les graphes ou sur laprojection cartographique précédemment décrites En eﬀet, cette technique permet devisualiser des relation complexes entre les données par les mécanismes de focus et decontexte [Bergé and Bouthier, 2003]

L’espace hyperbolique

L’espace hyperbolique H2 représente un élément important de la géométrie euclidienne C’est un candidat idéal pour manipuler de grandes structures hiérarchiquesgrâce à ses propriétés géométriques spéciﬁques [Lamping and Rao, 1994] En eﬀet, cetespace peut être projeté sur un plan bidimensionnel de l’espace euclidien sous la forme

Trang 28

non-2.1 Visualisation d’information

d’un disque unité également appelé disque de Poincaré [Henle, 2001; Ratcliﬀe, 1994]

Le disque Poincaré a un certain nombre de propriétés commodes pour la visualisation :premièrement, il préserve la forme originale de distribution de H2, deuxièmement, lemodèle permet de matérialiser la translation de H2 original d’une manière très élégante.Ainsi, la fovéa peut être déplacée vers l’ensemble des parties du disque hyperboliqueinﬁni Ceci permet à l’utilisateur de se concentrer sur les parties intéressantes d’unedistribution originale dans H2 tout en gardant toujours une vue générale de son contexte.Arbre hyperbolique (Hypertree)

La technique de visualisation en arbre hyperbolique, aussi appelée visualisation pertree, a été inventée par Lamping et Rao [Lamping J and P., 1995; Lamping and Rao,1996] dans le but de représenter et de manipuler de larges structures hiérarchiques dansl’espace hyperbolique

hy-La visualisation hypertree permet de représenter des données structurées sous formed’arbre L’arbre est dessiné de manière radiale - la racine au centre, les nœuds ﬁls setrouvant sur un cercle ayant pour centre leur père dans le plan hyperbolique Puis, unefois chacun des nœuds de l’arbre placé dans l’espace hyperbolique, l’arbre tout entierest projeté sur le disque de Poincaré La racine est projetée au centre du disque unité.Les branches de l’arbre deviennent des géodésiques du modèle de Poincaré, c’est-à-diresoit des diamètres, soit des arcs de cercle (cf ﬁgure 2.10) [Bergé and Bouthier, 2003;Bouthier, 2004]

Fig 2.10 – Deux types de géodésique : un diamètre passant par O et P et un arc decercle AB orthogonal au cercle unité

La visualisation hypertree est une technique de visualisation « focus + contexte » :elle donne une vue détaillée sur une petite surface (focus), tout en gardant une vueglobale de la structure (contexte) Puisque l’ensemble du plan hyperbolique est projetédans le disque unité, une distorsion de l’espace apparaît : plus on s’approche du bord

du disque, plus les distances sont compressées Ainsi, le centre du disque fournit unevue détaillée sur une partie des nœuds de l’arbre (focus), tandis que le bord du disquefournit une vue globale du reste de la structure de l’arbre (contexte)

La visualisation hypertree est une technique interactive L’arbre peut être déplacé defaçon à avoir une vue détaillée au centre du disque de n’importe laquelle de ses parties

Trang 29

Un nœud peut être sélectionné pour être placé directement au centre (cf ﬁgure 2.11).Une animation de la transition permet à l’utilisateur de suivre le déplacement de l’arbre.

Fig 2.11 – La visualisation de l’arbre hyperbolique (Hypertree)

La visualisation hypertree est particulièrement adaptée pour la navigation dans degrandes hiérarchies Plusieurs propriétés aident l’utilisateur pendant sa navigation Toutd’abord, la visualisation hypertree présente l’ensemble de la hiérarchie dans le disqueunité La géométrie hyperbolique rend aussi la navigation plus eﬃcace que dans lagéométrie euclidienne, car la distance parcourue en un clic ou un mouvement est plusgrande, et il y a plus de nœuds aﬃchés à chaque déplacement [Bergé and Bouthier, 2003;Bouthier, 2004] Les fonctionnalités principales de l’abre hyperbolique sont :

– l’arbre est dessiné dans le disque unité, comme si l’arbre avait été tiré dans l’espacehyperbolique, puis projeté sur le disque de Poincaré

– l’arbre entier peut être dragué par la souris pour placer une partie de cet arbre aumilieu du disque

– un clic sur un nœud le déplace automatiquement au centre du disque

Les bases mathématiques de l’hyperbolique sont très complexes, elles se composentdes algorithmes de placement et ceux de déplacement Dans le carde de ce rapport,nous ne pouvons pas présenter tous ici ces algorithmes Pour pouvoir implanter l’arbrehyperbolique, nous avons bien étudié les comportements de l’hyperbolique dans [Bergéand Bouthier, 2003; Bouthier, 2004]

Trang 30

2.2 Étiquetage des clusters

L’opération d’étiquetage des données est également une opération importante pourl’interprétation intuitive et synthétique d’un résultat de visualisation Elle s’avère mêmecruciale dans le cadre spéciﬁque de la visualisation de résultats d’analyse et de fouille

de données documentaires

Bien qu’il y ait eu beaucoup de recherche en clustering de documents, quelques vaux seulement se sont concentré sur l’étiquetage de résultat du clustering de document.D’ailleurs, les algorithmes traditionnels se fondent habituellement sur des caractéris-tiques très basiques On considère d’abord deux approches traditionnelles

tra-2.2.1 Approches traditionnelles

Stratégie d’étiquetage basée sur le profil de classe

La première approche est d’utiliser des profils decrivant les classes obtenues [Lin etal., 1991] Le principe est d’attribuer à chaque classe (cluster) un nom qui représente lacomposition des labels des composantes dominantes de son vecteur de profil Ces stra-tégies sont particulièrement adaptées pour mettre en évidence les thématiques majeuresisolées par le processus de classification

Stratégie d’étiquetage basée sur le profil de données

La seconde approche est d’utiliser des proﬁls de données (les termes les plus quents) [Cutting et al., 1993] Le principe est d’attribuer à chaque classe un nom quireprésente la combinaison des labels des composantes dominantes (élément dominant),qui est le membre le plus caractéristique de la classe

fré-Ces stratégies sont utiles pour fournir des informations complémentaires pour terprétation des thématiques En effet, les profils de classes représente une informationindirecte, issue du processus de classification proprement dit, alors que les profils desdocuments représentent une information directe issue du contenu des documents

l’in-En général, les deux stratégies ci-dessus ne fournissent pas de résultats convaincantsdans le traitement multidimentionnel de données ó les clusters partagent des étiquettesglobales Pour résoudre ce problème, on utilise la méthode χ2 introduite par l’ensembled’auteurs [Yang and Pedersen, 1997] [Popescul and Ungar, ][Treeratpituk and Callan,2006]

2.2.2 Étiquetage des clusters par la sélection d’information

(va-riable)

Dans cette partie, nous présentons une méthode souvente utilisée pour la sélection determes lors de la catégorisation de textes Cette méthode s’appuie sur la contribution du

Trang 31

χ2d’indépendance et se démarque des méthodes univariées par la nature de l’informationutilisée.

La statistique du χ2 mesure l’écart à l’indépendance entre un descripteur tk (présent

ou absent) et un thème ci (présent ou absent) ; elle est donc calculée sur un tableau

2 × 2 Cette mesure a été utilisée pour la sélection des descripteurs (variable) dans[Yang and Pedersen, 1997] et pour étiqueter des clusters dans [Popescul and Ungar, ;Treeratpituk and Callan, 2006] Ce calcul nécessite la construction d’un tableau decontingence (2 × 2) pour chaque descripteur tk du corpus et pour chaque classe ci (voirtableau 2.1) Dans ce tableau, on compte les documents ; par exemple, dans la premièrecellule, a est le nombre de documents de la classe ci dans lesquels le terme tkest présent

T erme tk prsent T erme tk absent

T erme ci prsent a c a + c

T erme ci absent b d b + d

a + b c + d N = a + b + c + dTab 2.1 – Tableau de contingences pour l’absence ou la présence d’un terme dans lesdocuments d’une classe

Dans le cas d’un tableau de contingence (2 × 2), la statistique du χ2 peut se mettresous la forme

χ2(tk, ci) vaut N, ce qui est sa valeur maximale Cette valeur est également atteinte si undescripteur apparaît dans tous les textes non pertinents et jamais dans l’ensemble destextes pertinents Entre ces deux valeurs extrêmes, plus la valeur de χ2(tk, ci) est grande,plus tket cisont liés Les descripteurs du corpus sont ensuite classés par ordre décroissant

de χ2(tk, ci), les plus discriminants ﬁgurant en tête de liste [Yang and Pedersen, 1997]

multidimen-sionnels

2.3.1 Représentation de données documentaires

Le problème de la représentation des données est un enjeu important dans le blème d’analyse et de la fouille de données L’indexation d’un document a pour butl’extraction de termes les plus importants et sa représentation sous forme d’un modèle

Trang 32

pro-2.3 Traitement de données documentaires multidimensionnels

conceptuel Cette opération d’indexation, qui passe par une phase d’analyse et prétation du contenu des documents, peut s’avérer plus ou moins complexe en fonction

d’inter-du modèle conceptuel retenu pour représenter les documents Les contraintes d’eﬃcacité

et les diﬃcultés liées à l’interprétation du contenu des documents originaux, amènentune grande partie des systèmes de recherche documentaire (SRD) et des systèmes d’ex-traction de connaissances dans les bases documentaires (ECBD) à utiliser un modèleconceptuel simpliﬁé et à procéder à une analyse de surface plutôt qu’à une analyse

en profondeur des documents Nous priviléligierons donc ci-après la description de cepremier type d’analyse

L’analyse de surface des documents

Les analyses de surface ne permettent d’isoler que des caractéristiques élémentairesdes documents Ces analyses peuvent être basées sur un langage contrôlé ou sur unlangage libre [Lamirel, 1995]

– Dans les analyses basées sur un langage contrôlé des listes de candidats descripteurssusceptibles de représenter le contenu des documents sont construites a priori Lasynthèse de contenu d’un document consiste alors à rechercher dans ces listes lescandidats décrivant le mieux le contenu du document

– Dans les analyses basées sur un langage libre, les descripteurs sont choisis a riori à partir de l’analyse du contenu des documents La forme la plus simple de cetype d’analyse est l’extraction de termes d’index simples, ou unitermes Cette mé-thode consiste à construire la liste des descripteurs d’un document en sélectionnantdans le contenu du document les mots ne relevant pas d’une liste de mots-outils(articles, prépositions, pronoms, ) L’extraction d’unitermes a cependant pourinconvénient de produire des listes de descripteurs de taille importante De plus,l’émiettement d’un texte en unité minimales a pour eﬀet d’entraîner une polysémiemaximale [Lamirel, 1995] Des méthodes d’analyse plus sophistiquées permettent

poste-de conserver en partie l’intégrité poste-des concepts En eﬀet, un concept est souventexprimé comme une association de formes simples (par exemple, un cerf-volant,une base de données) A titre d’exemple, dans l’approche LEXINET, Chartron[Chartron, 1988] propose de repérer des groupes de termes fortement associés enutilisant des méthodes statistiques basées sur la variance L’ensemble des groupes

de termes possibles est construit de manière incrémentale en partant de l’ensembledes unitermes adjacents, aux termes outils près

Sélection des descripteurs La sélection de descripteurs comprend habituellementplusieurs étapes de prétraitement de type d’anayse lexicale (élimination des suﬃxes,détection des racines équivalentes, etc.), dans le but de normaliser les termes extraitsdes documents Elle fait également appel à des mécanismes de pondération, eux-mêmesbasés sur la fréquence des termes d’index Selon un premier objectif, la pondérationpourra être utilisée comme une stratégie de sélection : seuls les termes les plus im-portants (c’est-à-dire les termes de plus forts poids) seront retenus parmi une liste de

Trang 33

termes candidats Selon un second objectif, qui peut être complémentaire du premier,

la pondération servira à identiﬁer l’importance de termes : à la fois, les uns vis à vis desautres (pondération inter documents), et vis à vis de chaque document (pondérationintra document) Nous décrivons ci-après les deux mécanismes de pondération les pluscouramment utilisés

Pondération par T F ∗ IDF : La fonction de pondération IDF (Inverse cument Frequency weighting) [Salton, 1971; Salton, 1989] consiste à attribuer les plusgrands poids de pertinence aux termes d’index apparaissant dans un faible nombre dedocuments, ces derniers termes étant considérés comme portant le plus fort pouvoird’information La fonction IDF est déﬁnie comme :

Do-IDF (t) = log( N

df (t)) (2.9)Tel que t est un terme d’index, N est le nombre total de documents dans la collection,

et df(t) est le nombre de documents qui contiennent le terme d’index t Le poids du termed’index t dans un document d est alors déﬁni comme :

W (d, t) = T F (d, t).IDF (t) (2.10)Tel que T F (d, t) = log(f(t, d)) 1

, et f(t, d) représente la fréquence d’apparition duterme d’index t dans le document d Ainsi, un terme qui a une valeur de T F/IDFélevée doit être à la fois important dans le document auquel ce terme est associé, et doitapparaître peu souvent dans les autres documents

Pondération par l’entropie : La méthode de pondération par l’entropie est uneméthode de pondération inter documents Elle fonctionne selon un principe analogue

à la méthode de pondération T F ∗ IDF Elle s’inspire de la fonction d’entropie deShannon pour donner les poids les plus importants aux termes qui discriminent le mieuxdiﬀérentes zones de sujet Elle est déﬁnie de la façon suivante [Kohonen et al., 1996] :Soit rd(t) la fréquence d’occurrence du terme t dans le document d de n dimensions

d = {t1, t2, , tn} et Pd(t) la probabilité que le terme t appartienne au document d.L’entropie H de ce terme est déﬁnie comme :

d ′rd ′(t)log

rd(t)P

Trang 34

2.3 Traitement de données documentaires multidimensionnelsModèles de représentation des documents

Les modèles de représentation élémentaire de documents sont principalement deuxtypes :

– Modèle booléen : Ce modèle a été initialement proposé par Salton [Salton, 1971]

Un document y est représenté par une liste de termes associés, tous les termes de

la liste étant considérés comme des propriétés vraies, au sens booléen, pour ledocument Ce principe rend cependant inexploitable la pondération des termesdans la représentation des documents

– Modèle vectoriel : Ce modèle a également été proposé par Salton [Salton, 1971]

Un document y est représenté par un vecteur de termes pondéré dont la dimensioncorrespond au nombre total de termes utilisés pour représenter les documents.Ainsi, un document d sera représenté par le vecteur de termes d = (t1, t2, , tn)

de dimension n

2.3.2 Notion de point de vue

Afin d’augmenter la qualité et la granularité de l’analyse de données documentaires,Lamirel [Lamirel, 1995] a introduit la notion de points de vue multiples Le principe deconstruction des points de vue est de séparer l’espace de description des documents endifférents sous-espaces rattachés à des sous-ensembles de termes descriptifs différents.L’ensemble V des différents points de vue issus du sous-espace de description D d’unensemble de documents peut être défini comme :

Où chaque vi représente un point de vue et P (D) représente l’ensemble des parties

de l’espace de description D des documents ; l’union des points de vue recompose alorsl’espace initial D de description des documents

Les différents points de vue correspondront alors aux différents sous-ensembles dex rattachés aux différents champs de la description des documents : ainsi, si les champs

d’in-« termes », d’in-« titre »et d’in-« auteurs »sont utilisés comme champs descripteurs d’un ensemble

de documents, ils peuvent représenter trois points de vue diﬀérents sur cet ensemble dedocuments

Cependant, Lamirel [Lamirel, 1995] a montré qu’il existe de nombreuses autres nières de déﬁnir des points de vue, comme par exemple, d’utiliser des relations nondescriptives entre les données, telles que des liens de citations ou des relations de proxi-mité

ma-Le principe général des points de vue s’applique particulièrement bien au modèlevectoriel, et permet, comme nous le montrons ci-après, d’en améliorer le comportement

Trang 35

né-Approches neuromimétiques pour la classification

Les réseaux de neurones représentent une transposition simpliﬁée du fonctionnement

de cerveau humain Ils peuvent êre considérés comme une organisation cohérente tés de traitement élémentaires L’organisation des unités élémentaires en réseau induitl’émergence de nouvelles propriétés, analogues à celles que l’on attribue habituellement

d’uni-à l’intelligence humaine Un réseau neuromimétique se caractérise par les types de sesneurones constituants, par son comportement, par son architecture et par sa dynamique.Les réseaux de neurones apprennent sur une population d’origine et sont par la suitecapables d’exprimer des résultats sur des données inconnues Ils sont utilisés dans laprédiction et la classiﬁcation, dans le cadre de découverte dirigée des connaissances.Certaines variantes, comme les réseaux de Kohonen, permettent également l’explorationdes séries temporelles et des analyses non dirigées Cependant, on leur reproche souventd’être des « boites noires » : il est diﬃcile de savoir comment les résultats sont produits,

ce qui rend leur explication délicate, même si ces résultats sont bons

Les réseaux de neurones se divisent en deux classes principales, : les réseaux à tissage supervisé (supervised learning) (Perceptron [Rosenblatt, 1958], Hopﬁeld [Hop-ﬁeld, 1982], etc.) et les réseaux à apprentissage non supervisé (unsupervised learning).Dans nos expérimentations, nous utilisons les réseaux à apprentissage non supervisédans l’esprit des modèles suivants de Kohonen [Kohonen, 1984], Neural Gas [Martinetz,Thomas and Schulten, Klaus, 1991], Growing Neural Gas [Fritzke, 1995; Fritzke, 1997]

appren-Un résumé plus détaillé de ces méthodes est également disponible dans [Shehabi, 2006].Clustering hiérarchique multi-niveaux orienté par la densité (DBHC)

Les méthodes hiérarchiques classiques nécessitent le calcul d’une matrice de distance

ou matrice de similarité La complexité en temps de calcul résultante rend ces méthodesdiﬃcilement utilisables pour des classiﬁcations portant sur un grand volume de données

Il est de plus difficile, voire impossible, de contrôler le nombre de classes obtenues par cesméthodes En effet, le seuil de coupure ne correspond lui-même qu’à un niveau d’arrêtdans le niveau de hiérarchisation et ne fixe donc pas le nombre de classes obtenues.Selons nous, le choix d’un algorithme de classification hiérarchique s’avère détermi-nant, aussi bien dans le cadre de l’analyse de données que dans celui de la fouille dedonnées En effet, un bon algorithme doit permettre d’obtenir une synthèse incrémentaledes relations entre les données à classifier, tout en préservant des informations cohérentessur la densité de ces données dans leur espace de description original Nous présentons

Trang 36

2.4 Conclusion

Vi représente le ième

niveau de l’arbre hiérarchique ; 0 ≤ i ≤ n

Mi représente un ensemble de classes non agglomérées

de manière à préserver un degré de densité ﬁxe pour chaque niveau hiérarchique Selon

ce principe, les propriétés suivantes seront vériﬁées :

– Les données originales représenteront les feuilles de l’arbre hiérarchique

– La racine de l’arbre représentera l’ensemble global des données

– Une classe intermédiaire de l’arbre qui aura beaucoup de liens (c’est-à-dire, coup de ﬁls), par rapport aux autres classes du même niveau hiérarchique, repré-sentera une zone plus dense par rapport à celles représentées par ces dernières.– Toutes les feuilles qui auront la racine de l’arbre comme classe parente directepourront être considérées comme des données marginales (outliers)

Nous avons présenté dans ce chapitre plusieurs types de techniques de visualisation

de données La visualisation par projection cartographique linéaire montre rapidementses limites dans le cas des distributions complexes Les méthodes de visualisation parprojection non linéaires permettent de mieux traiter la visualisation de tels types dedistribution, sans pour autant s’aﬀranchir entièrement des problèmes liés au pliage et à

la compression de l’information dans le cas de distributions de données fortement tidimensionnelles De plus, ces méthodes doivent compenser l’eﬀet de complexiﬁcationsupplémentaire dû au phénomène de l’espace vide (cf section 2.1.1) quand le nombre

mul-de dimensions mul-de l’espace mul-de mul-description mul-devient très grand Ils se ramènent égalementaux problèmes de surcharge cognitive propres à la représentation en graphes Ces pro-blèmes se compliquent encore si une représentation des liens entre les données est prise

en compte

La visualisation hyperbolique représente une alternative très intéressante car elle

Trang 37

Algorithme 1 Algorithme de classiﬁcation hiérarchique orienté par la densité (DBHC)Entrée :

– Un ensemble de données

– n : le nombre maximal attendu de niveaux hiérarchiques

Construire la matrice des distances entre les classes de M0

Extraire de cette matrice deux valeurs :

– Dmin : la distance minimale,

– Dmax : la distance maximale

– Déﬁnir le seuil T comme : T = Dmax−Dmin

n

/∗ Construire les nouveaux parents de classes dans les diﬀérents niveaux /∗

pour chaque niveau Vi faire

Mi+1 = φ

Dmin = Dmin + T

si (Dmin > Dmax) alors Arrêt

pour chaque Cj ∈ Mi faire

Construire une classe parente initiale C∗

j : P arent(Cj)pour chaque Ck ∈ Mi\Cj faire

si ||Cj − Ck|| ≤ Dmin alorsAssocier Ck à C∗

j

fin sifin pour

le proﬁl de C∗

j est le proﬁl moyen des classes-ﬁlles associées

Mi+1 = Mi+1∪ {C∗

j}fin pour

Sortie : un arbre hiérarchique

Algorithme 2 Procédure 1 : élimination de classes parents répétées

Les classes parentes initiales répétées dans le nouveau niveau (i.e les classes initiales

du nouveau niveau qui partagent les mêmes classes-ﬁlles) sont résumées en une seuleclasse parente initiale

permet de s’aﬀranchir de ces problèmes, au prix d’une faible perte d’information, ceci

en utilisant un mécanisme spécifique de présentation par dépliage dynamique (focus +contexte) Nous nous intéresserons en particulier aux mécanismes d’organisation hyper-boliques des résultats de classification et aux mécanismes de validation d’analyses et defouille basés sur l’interaction entre des représentations visuelles différentes

Định dạng
Số trang	75
Dung lượng	4,8 MB