Classification de documents médicaux à l’aide de cartes auto organisatrices (SOM) basée sur une ontologie

Résumé Pour regrouper un ensemble de documents médicaux au format numérique, trois aspects importants peuvent affecter l’efficacité de la méthode: la méthode de représentation des docume

Trang 1

Classification de documents médicaux

à l’aide de cartes auto-organisatrices

(SOM) basée sur une ontologie

Mémoire de fin d’études rédigé par PHAM Minh Hai, promotion IX-IFI

20 novembre 2005

sous la direction de:

Michel SIMONET Delphine BERNHARD

Equipe OSIRIS Laboratoire TIMC-IMAG Institut d'Ingénierie de l'Information de Santé

Faculté de Médecine,

38700 La Tronche – France

Le travail décrit dans ce mémoire a été effectué dans le cadre du projet européen NOESIS auquel participe l’équipe OSIRIS (IST-2002-507960-NOESIS)

Trang 2

REMERCIEMENTS I RESUME II ABSTRACT III LISTE DES FIGURES IV LISTE DES TABLEAUX VI

CHAPITRE 1: INTRODUCTION 1

I.PROBLEMATIQUE 1

II.MOTIVATION 3

III.CONTRIBUTION 3

IV.ENVIRONNEMENT DE STAGE 4

CHAPITRE 2: ETAT DE L’ART 5

I.INTRODUCTION 5

II.METHODES DE REGROUPEMENT 5

1 Introduction 5

2 Etat de l’art 6

3 Notre choix 7

III.METHODES DE REPRESENTATION DE DOCUMENTS 8

1 Modèle de l'espace vectoriel [12] 10

2 Latent Semantic Indexing –LSI [13] 11

3 Méthodes particulières aux SOM 13

a Cartes de catégories de mots 13

b Correspondance aléatoire 16

c Autre approche 18

4 Méthodes d’indexation multilingue 18

5 Ontologie pour la représentation de documents 19

IV.VISUALISATION DES RESULTATS DE LA RECHERCHE 19

1 Motivation 19

2 Etiquetage des groupes générés par la SOM 21

a Étiquetage manuel 21

b Étiquetage basé sur des groupes prédéfinis 22

c Etiquetage par les étiquettes des entrées 24

d Méthode LabelSOM[6] 25

Trang 3

CHAPITRE 3: CLASSIFICATION DE DOCUMENTS MEDICAUX A L’AIDE DE SOM EN

UTILISANT UNE ONTOLOGIE 30

I.REGROUPEMENT DE DOCUMENTS BASE SUR LA SOM 30

1 Introduction de l’algorithme de SOM 30

a Structure de SOM 30

b Apprentissage 33

c Classification 35

2 SOM pour regrouper des documents : Etat de l’art 36

a SOM classique 36

b SOM de taille flottante 37

c SOM hiérarchique 39

d Remarque 41

II.SOM ET ONTOLOGIE: TRAVAUX CONCERNES 43

1 Introduction 43

2 Ontologie pour la représentation de documents 44

III.UTILISATION D’UNE ONTOLOGIE POUR LA CLASSIFICATION DE DOCUMENTS BASEE SUR LA SOM 45 1 Introduction 45

2 Sources de documents 46

3 Prétraitement 47

CHAPITRE 4: EVALUATION 50

I.RÉSULTATS 50

II.CONCLUSION 53

REFERENCES 55

Trang 5

Remerciements

J’adresse tout d’abord mes remerciements à Michel Simonet, responsable de l’équipe OSIRIS du laboratoire TIMC, qui m’a accueilli et m’a donné des conseils précieux Sans lui, mon stage n’aurait pas existé

Je souhaite ensuite remercier spécialement Delphine Bernhard qui a bien voulu écouter avec attention toutes mes idées et m’a donné des conseils très concrets Les discussions entre nous étaient très ouvertes et efficaces

Enfin, je tiens à remercier mes soeurs, mon père et mon frère qui m’ont énormément encouragé pendant mon stage en France et spécialement à ma mère pour tout l’amour qu’elle a réservé pour moi jusqu’à son dernier souffle

Trang 6

Résumé

Pour regrouper un ensemble de documents médicaux au format numérique, trois aspects importants peuvent affecter l’efficacité de la méthode: la méthode de représentation des documents, l’algorithme de regroupement et la méthode de représentation des résultats La méthode de regroupement doit être suffisamment puissante pour pouvoir grouper un grand ensemble de documents et permettre à l’utilisateur de visualiser des résultats Les cartes auto-organisatrices – SOM - ont été choisies pour cette raison La méthode de représentation de documents doit produire des vecteurs de documents de faible dimension et posséder la capacité d'indexer des documents multilingues C’est la raison pour laquelle la méthode basée sur une ontologie a été choisie La méthode LabelSOM a quant à elle été choisie pour étiqueter des groupes de SOM Nous prouvons par des expériences que la méthode qui combine

la SOM et une ontologie peut aider à réduire les dimensions et produire des résultats encourageants avec des documents multilingues

Trang 7

Abstract Clustering similar documents is a difficult task for text data mining Difficulties stem especially from the way documents are numerically encoded In this paper, we will present a method which uses Self Organizing Map (SOM) to cluster medical documents The originality of the method is that it does not rely on the words shared by documents but rather on concepts taken from an ontology Our goal is to cluster various medical documents in thematically consistent groups (e.g grouping all the documents related

to cardiovascular diseases) Before applying the SOM algorithm, documents have to go through several pre-processing steps First, textual data have to be extracted from the documents, which can be either in the PDF or HTML format Documents are then indexed, using several kinds of indexing units: words, stems, and concepts After indexing, documents can be numerically represented by vectors whose dimensions correspond to indexing units These vectors store the weight of the indexing unit within the document they represent They are given as inputs to a SOM which arranges the corresponding documents on a two-dimensional map We have compared the results for two indexing schemes: stem-based indexing and conceptual indexing We will show that using an ontology for document clustering has several advantages It is possible

to cluster documents written in several languages since concepts are independent This is especially helpful in the medical domain where research done is often presented in several languages Another advantage is that the use of concepts helps reduce the size of the vectors, which, in turn, reduces processing time

Trang 8

language-Liste des figures

Figure 1 : La recherche sur google.com avec le mot clé «vélo» 2

Figure 2: Représentation de chaque document sous forme de vecteur d’éléments sémantiques Ce vecteur est établi en se basant sur le dictionnaire et le document original 9

Figure 3: Représentation des documents par des vecteurs des termes 11

Figure 4 : Une décomposition en valeurs singulières 12

Figure 5: Un exemple de représentation du contexte du mot « aime » 14

Figure 6: Carte de catégories de mots avec des mots des contes de Grimm 15

Figure 7: extraite à partir de [15] L'architecture de base de la méthode Websom La carte de documents est construite à partir des documents indexés par des catégories de mots générées par la carte de catégories de mots Les deux cartes sont produites avec l'algorithme SOM 16

Figure 8: Formes d'I et de ε : I a des valeurs 0 pour les composants qui ne sont pas sur sa diagonale Les composants sur la diagonale d'I correspondent à ceux de la diagonale de RT R ε a des valeurs 0 pour les composantes situées sur sa diagonale Ses composants qui ne sont pas sur la diagonale sont ceux qui ne sont pas sur la diagonale de RT R 17

Figure 9: Un exemple de recherche : c'est la SOM résultante avec différents groupes de documents Avec le mot-clé «vélo», comment peut-on savoir quel groupe à pour sujet les vélos (c'est à dire les bicyclettes)? Si chaque groupe a sa propre étiquette il sera plus facile pour l'utilisateur de choisir 20

Figure 10 : Un exemple d’étiquetage manuel extrait à partir de [27] Le but de ceci est de déterminer si l'organisation des documents sur la carte est bien faite ou pas Ce n'est pas utile du tout dans le but de la recherche d’information 21

Figure 11: Structure des vecteurs en entrée 22

Figure 12: Un exemple de l’étiquetage basé sur les groupes prédéfinis extrait du site Web du projet de WEBSOM : http://websom.hut.fi/websom/comp.ai.neural-nets-new/html/root.html 23

Figure 13:Un exemple des cartes de catégories de mots Cette figure est extraite de [28] 25

Figure 14: Erreurs de quantisation avec M=2 26

Trang 9

Figure 15: deux types de seuil 27

Figure 16 : Le composant représentant un terme trop commun devrait être exclu de la liste de candidat 28

Figure 17: Le premier composant est plus petit que T2 celui-ci est donc éliminé 28

Figure 18 : Une 7x8 SOM de topologie carrée 31

Figure 19: Une 8x8 SOM de topologie hexagonale 31

Figure 20: Un exemple d'une carte de topologie carrée Les vecteurs de neurones ont M dimensions La carte a deux dimensions avec 6 neurones verticaux et 4 neurones horizontaux Chaque neurone a une couleur différente des autres Ceci signifie que les vecteurs de neurones sont différents 32

Figure 21: La forme du chapeau mexicain 34

Figure 22: Dans cet exemple, 10 données d'entrée (cercles) sont classifiées dans deux groupes L’espace de données a 2 dimensions et, après l'apprentissage, deux neurones (carrés) ont des positions montrées dans le graphique Après la classification, une entrée a une couleur du groupe auquel elle appartient La ligne dans la figure sépare deux groupes 36

Figure 23: La carte finale d'un processus d’apprentissage (extraite de [9]) Il y a beaucoup de noeuds mais seulement 5 groupes (chaque groupe est dans un modèle de fond différent) Il y a un groupe dont les noeuds ne se relient à aucun noeud d'autres groupes 39

Figure 24: Une hiérarchie des cartes auto-organisatrices (Extraite de [10]) 40

Figure 25: Une SOM hiérarchique croissante (Extraite à partir de [11]) Sur la couche 1, il y a 6 groupes au début Chaque noeud de la carte de la première couche a une SOM indépendante à la deuxième couche Cependant, seulement deux noeuds d'une carte de la deuxième couche ont des cartes indépendantes de la troisième couche 41

Figure 26: Une partie de la structure hiérarchique de l'ontologie dans le domaine de "cancer." 43

Trang 10

Liste des tableaux Tableau 1: La carte obtenue avec l’ontologie 51 Tableau 2: La carte obtenue avec la pleine représentation 52

Trang 11

Chapitre 1: Introduction

I Problématique

Le développement de l’informatique a permis l'échange et la transmission rapides de l'information L'ère des documents numériques a succédé à l'ère des documents papiers L’abondance de documents textuels est une caractéristique commune à tous les domaines Il existe plusieurs types d’outils qui peuvent faciliter l’exploitation des documents La recherche d'informations est une des utilisations courantes d'Internet Certains moteurs de recherche sont très populaires et efficaces Cependant, les résultats sont affichés sous forme de liste que l'utilisateur doit parcourir pour vérifier si

un des résultats correspond à son besoin Par exemple, en utilisant le moteur de recherche Google, on peut trouver une liste d’environ 5.800.000 résultats pour la requête “vélo” Les résultats ne sont pas regroupés dans des catégories et il est difficile pour l’utilisateur de les exploiter (voir la figure 1 à la page suivante)

La même situation se présente dans tous les domaines En médecine par exemple, les documents textuels ne sont pas seulement nombreux mais aussi écrits en plusieurs langues Diverses méthodes de traitement d'une même maladie peuvent avoir été élaborés dans différent pays et consignées dans des articles écrits en diverses langues Cela peut produire des ensembles immenses de documents médicaux écrits dans des langues différentes qui doivent être exploités Afin de faciliter la recherche, il est nécessaire de grouper les documents De plus, les groupes doivent être étiquetés pour guider l’utilisateur dans le choix de ceux qui conviennent le plus à ses besoins

Pour résoudre le problème, il y a trois problèmes à surmonter (voir [100]) Premièrement, la méthode de représentation de documents utilisée doit convenir au traitement des documents écrits dans des langues différentes De plus, il est nécessaire que les résultats obtenus par cette méthode, qui sont très souvent des vecteurs de caractéristiques, ne soient pas d'une dimension trop importante Ainsi, la meilleure méthode est celle qui peut produire, pour un document, les caractéristiques qui le représentent au mieux Deuxièmement, les résultats produits par la méthode de représentation de documents doivent être traités par une méthode de regroupement efficace pour distribuer les documents dans des groupes Troisièmement, il faut que les groupes de documents obtenus soient automatiquement étiquetés par des descriptions créées à partir des caractéristiques des documents appartenant à chaque groupe L’étiquetage d’un groupe de documents peut donner à l’utilisateur une idée du contenu

du groupe

Trang 12

Figure 1 : La recherche sur google.com avec le mot clé

«vélo»

Il y a d’environ 5.800.000 résultats qui peuvent être classifiés en quelques groupes, par exemple : les communautés de vélos, les guides touristiques de vélo, les guides techniques

de vélo Les résultats ne sont pas ordonnés et on peut perdre beaucoup de temps pour trouver les meilleurs résultats

Dans le cadre de mon stage, je me suis concentré sur les deux derniers aspects: la méthode de regroupement de documents et la méthode d’étiquetage des groupes de documents La SOM – une méthode de regroupement – est le centre de mon stage alors que la méthode d’étiquetage a pour but de faciliter la visualisation des résultats

de la SOM Au niveau de l’implémentation, j’ai implémenté tous les trois aspects

Trang 13

Supposons que l’on ait un corpus D de N documents que l’on va regrouper en G groupes Un document di( 0 < i ≤ N , di ∈ D ) est représenté par une liste E de M éléments sémantiques M est la quantité d’éléments sémantiques qui apparaissent dans N documents Si l’index j est la position d’un élément sémantique dans la liste E,

E e et M j avec

ej, 0 ≤ < j∈ est la fréquence globale de cet élément sémantique – i.e son nombre d’occurrences dans les N documents d,j, avec 0 ≤ i < N , 0 ≤ j < M

représente le poids de l’élément sémantique ayant l’index j dans le document di Le groupe Ck, avec 0 ≤ k < G est un ensemble des index de documents qui sont classifiés dans le groupe Dans ce rapport, j’utilise le terme «élément sémantique» dans le cas général au lieu des termes «mot», «concept» ou «groupe de mots» qui correspondent

à des cas particuliers

De plus, le sujet m’a donné l'occasion de travailler sur un problème regroupant plusieurs disciplines, notamment l'informatique et la médecine

III Contribution

Le stage s'est déroulé dans le cadre du projet européen NOESIS (eu.org/) auquel participe l’équipe OSIRIS de laboratoire TIMC-IMAG Durant mon stage qui s'est déroulé du 1er mars au 15 novembre 2005 (dont la période du 1er mars au 18 aỏt en France et le reste au Vietnam), j'ai abordé les tâches suivantes :

http://www.noesis-1 Étude de la carte auto organisatrice (la SOM) Il s’agit de comprendre le fonctionnement de l’algorithme et son application pour le regroupement de documents

2 Étude de certaines méthodes de représentation de documents et leur utilisation avec la SOM

3 Étude de l’application d’une ontologie pour la représentation des documents Le processus de construction d’ontologie n’est pas intégré à cette tâche

4 Étude de certaines méthodes de représentation de groupes de documents pour faciliter l’exploitation de la carte après le processus d’apprentissage Le but de

Trang 14

cette tâche est de visualiser les résultats sur la SOM

5 Implémentation d’un programme de regroupement de documents médicaux dont l’algorithme de regroupement est la SOM Deux méthodes de représentation de documents ont été implémentées dont une méthode qui utilise une ontologie

6 Rédaction de deux rapports en anglais Ce sont les rapports de résultats d’études dans le cadre du projet NOESIS

IV Environnement de stage

Le stage s'est déroulé sous la direction de M Michel SIMONET, responsable de l’équipe OSIRIS du laboratoire IMAG-TIMC et Mlle Delphine BERNHARD – une doctorante de troisième année L'IMAG est une fédération d'unités de recherche (FR 071) du CNRS,

de l'INPG et de l'UJF, implantées sur plusieurs sites de l'agglomération grenobloise L'IMAG regroupe une communauté d'environ 700 personnes (voir le site web de l’IMAG: http://www.imag.fr) Le laboratoire de Techniques de l'Imagerie, de la Modélisation et de la Cognition (TIMC - http://www-timc.imag.fr/) est un laboratoire d'ingénierie médicale, qui désire profiter des avancées récentes en modélisation biomédicale et en théorie de la complexité pour résoudre des problèmes liés à la santé

Le laboratoire comprend 9 équipes dont l’équipe OSIRIS dont les travaux principaux concernent les projets ISIS (Aide à la modélisation conceptuelle pour les bases de données) et Osiris (SGBD-BC) (https://cms-timc.imag.fr/timc/equipes/osiris/)

NOESIS est un projet européen qui regroupe 2 catégories principales d’associés : Associés utilisateurs et opérateurs cliniques et associés scientifiques et techniques L'équipe OSIRIS du laboratoire de TIMC participe à ce projet ambitieux en tant qu’associé scientifique et technique

Dans le cadre du projet NOESIS, je travaille principalement à l’application de la SOM dans le projet Nous sommes intéressés par l'interface de recherche ó l'utilisateur reçoit les résultats Les résultats retournés par la recherche sont des documents médicaux L'indexation des documents originaux, qui sont les documents médicaux, se base sur la structure sémantique fournie par une ontologie de sorte que nous disposons de vecteurs qui représentent ces documents Nous évaluerons, de manière pratique, cette représentation en comparaison avec une méthode que nous appelons méthode de «pleine représentation»

Trang 15

Chapitre 2: Etat de l’art

I Introduction

Soit un ensemble de documents, que l'on souhaite regrouper de sorte que les documents similaires appartiennent au même groupe Une méthode qui peut résoudre

ce problème doit comprendre les trois éléments suivants :

• La méthode de représentation de documents

• La méthode de regroupement

• La technique de représentation des résultats

Il y a plusieurs différentes propositions qui donnent la solution au problème Cependant, dans ce chapitre, je présente l’état de l’art des méthodes qui résolvent le problème en suivant les règles ci-dessous:

• Je présente tout d'abord les méthodes de regroupement Puis, je présente la méthode que nous avons choisie et j’explique notre choix

• Ensuite, j’aborde les méthodes de représentation des documents ainsi que les techniques de présentation des résultats selon la méthode de regroupement choisie

Les méthodes de regroupement sont abordées dans la section II Les méthodes de représentation de documents sont discutées dans la section III La section IV est réservée aux techniques de représentation des résultats

II Méthodes de regroupement

1 Introduction

Le «regroupement» est une division de données en groupes d'objets similaires [22] Chaque groupe comprend des objets qui sont similaires entre eux et différents des objets appartenant aux autres groupes Le regroupement de textes envisage les

Trang 16

documents comme des objets Les documents sont regroupés dans des groupes de telle sorte que les documents qui appartiennent au même groupe sont très similaires les uns aux autres et très différents des autres documents

De point de vue d’apprentissage Automatique, un regroupement est une méthode d’apprentissage non supervisé, c.à.d les groupes d’objets résultant ne sont pas prédéfinis [23] Les relations cachées entre les documents sont détectées pendant le processus d’apprentissage Plusieurs méthodes ont été proposées pour regrouper des données en général et les données textuelles en particulier Je détaille ces méthodes dans la prochaine sous-section

2 Etat de l’art

Plusieurs méthodes peuvent être utilisées pour regrouper un ensemble de documents Selon [22] et [23], les méthodes peuvent être classées en diverses catégories:

• Regroupement hiérarchique: Cette méthode génère un arbre hiérarchique

de groupes appelés dendrogramme Il y a deux manières de construire l’arbre:

à partir des éléments ou à partir de l’ensemble de tous les éléments Si on se base sur les éléments, chaque document est au début mis dans un groupe et un groupe ne contient qu’un document Puis, les deux groupes les plus similaires sont fusionnés pour former un nouveau groupe Ce processus se répète itérativement jusqu’à ce qu'une certaine condition d'arrêt soit satisfaite Une méthode qui fonctionne de cette manière est appelée « regroupement agglomératif » Par contre, si on se base sur l’ensemble de documents, la méthode est appelée « regroupement par division » Au début du processus de regroupement par division, il n’y a qu’un groupe de tous les documents Le groupe est divisé en deux sous-groupes lors de l’itération suivante Le processus continue jusqu’à ce que la condition d’arrêt soit satisfaite La similarité entre deux documents se base sur la distance entre ces documents

• Regroupement basé sur une partition: Un document est mis dans un groupe parmi un nombre fixe de groupes La méthode des K–moyens est un exemple de ce type Le nombre de groupes est prédéfini Un document est mis dans un groupe si la distance entre le vecteur de document et le centre du groupe est la plus petite en comparaison avec les distances entre le vecteur et les centres des autres groupes Il y a deux types de méthodes de ce genre: le

«crisp clustering» et le «fuzzy clustering»

Trang 17

• Méthodes basées sur la densité ou une grille: Si une méthode se base sur

la densité, l’espace euclidien est divisé en un ensemble des composantes jointes Trois concepts sont importants pour implémenter cette idée: densité, connectivité et frontière Un groupe est une composante dense jointe Pour les méthodes basées sur grille, 4 pas sont nécessaires L’espace de données est d’abord divisé en cellules Puis la procédure de regroupement est appliquée aux cellules au lieu des données Les groupes finaux se basent sur l’appartenance

de chaque donnée à chaque cellule et les résultats du processus de regroupement de cellules

• Méthodes basées sur un modèle: Selon ces méthodes, l’appartenance d’un document à un groupe suit une distribution de probabilités La carte auto organisatrice est un représentant de ce type de méthode Le détail de cet algorithme sera donné plus tard

Les méthodes de représentation de documents abordées dans ce rapport sont celles qui ont été utilisées avec la SOM ou qui sont très courantes dans le domaine du regroupement de textes ou qui concernent l’indexation multilingue Une de ces méthodes sera comparée à la méthode de représentation de documents basée sur une ontologie En outre, les méthodes de représentation des résultats sur la carte discutées seront aussi limitées aux méthodes proposant des solutions sur les cartes obtenues par la SOM

Trang 18

III Méthodes de représentation de documents

Les documents ne peuvent pas être interprétés directement par une méthode de regroupement À cause de cela, une procédure d'indexation qui fait correspondre au texte une représentation compacte de son contenu doit être appliquée Il y a plusieurs choix pour représenter des documents textuels La solution la plus souvent utilisée est

de se baser sur des vecteurs de caractéristiques des documents [21] En général, les composants des vecteurs décrivent le contenu de documents Le modèle de l'espace vectoriel [12] sert de base à cette représentation Les différentes méthodes décrivent

un document en se basant sur différentes caractéristiques et critères de sorte que l'objectif final de décrire au mieux le sens du document tout en assurant toujours une dimensionnalité acceptable de son vecteur de représentation soit respecté Un des plus grands défis dans la fouille de données en général et dans le domaine du regroupement de documents numériques par les SOM en particulier est la grande dimension des vecteurs lors de traitement d’un ensemble de documents

Un document est caractérisé par un ensemble d'éléments sémantiques permettant de

le représenter sous forme de vecteur Le nombre de dimensions du vecteur d’un document est différent de celui du vecteur d'un autre document Cependant, pour grouper un ensemble de documents, il est nécessaire que les documents aient des représentations comparables Or, un élément sémantique peut apparaître dans un document mais pas dans un autre Pour résoudre ce problème, un dictionnaire doit être construit Ce dictionnaire contient tous éléments sémantiques trouvés dans l'ensemble des documents de sorte qu'aucun d'eux n'apparaisse plus d'une fois dans le dictionnaire Un vecteur basé sur ce dictionnaire sera alors produit pour chaque document Le vecteur produit a la même dimension que le dictionnaire et les éléments sémantiques y figurent dans le même ordre Comme cela a été abordé dans le chapitre 1, un élément sémantique peut être un terme, un mot, une catégorie de mots

Trang 19

nous avons un ensemble de vecteurs représentant les documents Il peut y avoir d'autres tâches de pré-traitement comme l’application de la mesure de EFIDF, normalisation… à accomplir avant que l'ensemble de vecteurs puisse être employé comme entrées pour l'algorithme de regroupement

☻

Figure 2: Représentation

de chaque document sous forme de vecteur d’éléments sémantiques

Ce vecteur est établi en

se basant sur le dictionnaire et le document original

Pour calculer l'importance d'un élément sémantique, il y a plusieurs méthodes Les méthodes les plus couramment utilisées sont les suivantes (voir ): EF et EFIDF:

• ef (element frequency): Fréquence de l’élément sémantique Le nombre d'occurrences d'un élément sémantique dans un document sera employé pour représenter son importance Plus la valeur ef est grande, plus l'élément est important Il y a des cas ó un élément a une valeur ef élevée pour tous documents de la collection Il est clair que cet élément ne peut permettre de distinguer différents groupes de documents C’est un inconvénient de la méthode Par exemple, dans une collection de documents médicaux, le mot

«traitement» peut avoir des valeurs ef élevées (dans ce cas-ci, un élément est

un terme) pour tous les documents dans cette collection

• efidf: Element Frequency-Inverse Document Frequency Cette méthode a été proposée pour surmonter l'inconvénient de la méthode ef : un élément sémantique qui apparaỵt dans tous les documents doit avoir un poids petit

Où i est l'index du document courant, j est l'index de l'élément sémantique courant, ef(i,j) est la valeur ef de l'élément j dans le document i, df(j) est le nombre de documents ó l'élément j apparaỵt Si un élément sémantique est

j df

N j

i ef j i efidf

Trang 20

présent dans plusieurs documents, sa valeur df(j) sera grande En conséquence, sa valeur efidf sera petite

1 Modèle de l'espace vectoriel [12]

Le modèle de l'espace vectoriel (Vector Space Model – VSM) sert de base à la représentation des données textuelles par des vecteurs dans l'espace euclidien Selon [12], un document est représenté par un vecteur des termes Soit on donne un poids

au terme (voir ef ou efidf ci-dessus), soit on l'enregistre simplement comme «présent»/« non présent » dans le document courant en assignant la valeur 1 s’il est présent et 0 autrement Un terme peut être un mot simple ou un mot composé L'extraction des termes s'effectue après élimination des mots outils (les mots outils incluent des articles, des conjonctions de coordination, etc ) Les autres mots sont alors indexés Nous appelons ceci la pleine représentation des documents Dans cette méthode, les éléments sémantiques sont des termes qui apparaissent dans les documents Cette approche est très courante

Comment un terme peut-il être extrait à partir d'un document donné? Une solution commune pour ceci est d'employer un dictionnaire prédéfini des termes et un autre dictionnaire prédéfini des mots outils Les mots outils se trouvant dans les documents

ne sont pas pris en compte pour construire la représentation Un nouveau dictionnaire est construit à partir de l'intersection des termes se trouvant dans les documents et appartenant au dictionnaire de termes Ce dictionnaire a une taille égale ou inférieure

à celle du dictionnaire prédéfini de termes

Trang 21

Sachant qu'un document peut contenir beaucoup de termes, l'ensemble de tous les documents peut produire un dictionnaire de grande dimension Pour un grand ensemble de textes, il est impossible d'utiliser la pleine représentation D'ailleurs, elle

ne prend pas en compte le contexte de chaque mot dans les documents et pour cette raison, la polysémie et la synonymie ne sont pas traitées

Notez que l’utilisation des vecteurs pour représenter des documents sert également de base à d’autres méthodes Dans cette sous-section, nous traitons seulement la pleine représentation des documents

2 Latent Semantic Indexing –LSI [13]

L'objectif de la méthode LSI[13] est de réduire la dimension des représentations de documents Premièrement, chaque document est également entièrement représenté par un vecteur Lorsque tous les documents sont caractérisés par des vecteurs, on obtient une matrice dont les colonnes sont des vecteurs de document et ó chaque rangée correspond à un terme Souvent, un terme n'apparaỵt que dans quelques documents et pour cette raison il y a beaucoup de composants ayant la valeur 0 dans

la matrice de sorte que la matrice est très clairsemée (creuse) Ensuite, la décomposition en valeurs singulières (SVD – Singular Value Decomposition) est appliquée pour réduire la taille des vecteurs colonnes de sorte qu'enfin, les vecteurs résultants aient une dimension faible

Créer dictionnaire

Trang 22

Au début, nous avons N documents et M termes pour une collection de documents Les documents sont représentés (en utilisant le modèle de l’espace vectoriel) par des vecteurs de M dimensions de sorte que nous obtenons une matrice de taille MxN appelée la matrice «termes-documents» Supposons que l’on doit ramener le nombre

de dimensions de ces vecteurs à M’ dimensions (ó M'< M) L'algorithme SVD est appliqué de sorte qu'à partir de la matrice des termes-documents que l’on appelle la matrice A, on obtienne le produit de trois autres matrices B, C, et D

N M M

M M M N

Avec M'< M, cette décomposition revient à grouper plusieurs termes dans un concept

et à représenter les documents par des vecteurs de concepts au lieu de vecteurs de termes Parmi des matrices résultat, B et D sont des matrices avec des colonnes ortho-normales C est une matrice diagonale des valeurs singulières triées par ordre décroissant Pour construire la SVD, B est une matrice des vecteurs propres dérivés de

T

M

M • tandis que D est une matrice des vecteurs propres dérivés deMT • M La matrice D contenant N colonnes et M rangées peut être vue comme une matrice concepts-documents Chaque colonne de cette matrice est un vecteur des poids des

«concepts» et peut être considérée un vecteur de document En conséquence, une réduction de dimensions a été effectuée

Trang 23

matrices B, C, et D sont justes des matrices de nombres et aucune signification propre n'est attachée au concept auquel un terme appartient

3 Méthodes particulières aux SOM

a Cartes de catégories de mots

Dans [3], Kohonen et ses collègues ont proposé les cartes de catégories de mots qui peuvent grouper les mots ayant des contextes d'occurrence semblables dans une catégorie Un document, au lieu d’être représenté par un vecteur des occurrences de mots, est caractérisé par un vecteur des occurrences de catégories de mots, qui a peu

de dimensions En appliquant cette approche, il est nécessaire d'employer deux types

de SOM: une pour des catégories de mots et une autre pour des groupes de documents

Tout d'abord, un dictionnaire de tous les mots qui apparaissent dans la collection entière de documents est construit de sorte que chaque mot ait son propre et unique index Puis, un vecteur de P dimensions, dont les composants sont des valeurs aléatoires, code chaque mot Une fenêtre glissante de mots est définie, appelé fenêtre

de contexte La largeur de la fenêtre est W qui est habituellement un nombre impair Parmi les mots de W, il y a un mot-clé, qui est quelque part au milieu de la fenêtre Si W=3 et P=90, la fenêtre est:

“successeur” “mot-clé” “prédécesseur”

Un vecteur de 90 dimensions code chaque mot dans la fenêtre ainsi un vecteur de 270 dimensions représente la fenêtre Un mot dans le dictionnaire ayant l’index l est représenté par vecteur rl Le prédécesseur de rl est représenté par vecteur pl, et le successeur par le vecteur sl xl est le vecteur représentant cette fenêtre et il a la forme suivante :

l l l

x = ( ε ) (2)

Où pl (ou sl) est un vecteur moyen de tous les prédécesseurs (ou des successeurs)

du mot-clé dans la collection de documents Par exemple, si le mot clé est «aime», il est représenté par un vecteur rl de P composants aléatoires Dans la collection de documents, il y a 3 contextes pour ce mot :

- «il aime les chiens»

Trang 24

- «l’enfant aime nager»

- «le garçon aime nager»

Ici, les mots «il», «enfant », «chiens », «garçon» et «natation» ont leurs propres vecteurs de représentation que nous appelons relativementril,renfant ,rchiens, rgarçon et

natation

r Pour obtenir la m − ième composante du vecteur pl , on calcule la valeur moyenne des m − ième composantes des vecteurs ril , renfant et rgarçon :

3 / )

Figure 5: Un exemple de représentation du contexte du mot « aime »

L'analyse des relations contextuelles des mots dans les contes de Grimm [14] est l’un des exemples d'application de cette méthode Comme nous pouvons le voir sur la figure extraite à partir de [14] ci-dessous, il y a beaucoup de différentes catégories sur

la carte Mais ces catégories se répartissent dans 3 régions distinctes : verbes, noms,

Trang 25

Figure 6: Carte de catégories

de mots avec des mots des contes de Grimm

Pour représenter un document, chaque mot de ce document sera ramené à sa catégorie Au lieu des occurrences de mots ou de termes, le vecteur de document se base sur des occurrences de catégories L'élément sémantique dans cette méthode est

la catégorie de sorte que l'on utilise la fréquence de catégorie (CF) ou la fréquence de catégorie – fréquence de document inversée (CFIDF) pour représenter l'importance d'une catégorie dans un document Puisque la quantité de catégories est plus petite que le nombre de mots, cette méthode peut résoudre le problème du nombre élevé de dimensions De plus, comme les mots de contexte semblable appartiennent à la même catégorie, le problème de la synonymie est également résolu

Voici le diagramme du système de classification proposé par Kohonen et ses collègues

Verbes

Noms Autres

Trang 26

Cette figure est extraite à partir [15]

b Correspondance aléatoire

Pour une grande collection de documents, la dimension des vecteurs de document joue

un rôle très important et une petite réduction de cette dimension peut induire une grande réduction de la durée de traitement Pour cette raison, S Kaski dans [16] a proposé la correspondance aléatoire de sorte que la réduction de la précision soit acceptable lorsque le nombre de dimensions diminue considérablement Au début, un document est représenté dans un vecteur des occurrences de termes Ce vecteur est alors multiplié avec une matrice dont les composants sont aléatoirement produits de sorte que le vecteur résultat ait une plus petite dimension

Sidiest le vecteur de document à M dimensions, R est une matrice de taille MxP dont

Figure 7: extraite à partir de [15] L'architecture de base de la méthode Websom La carte

de documents est construite à partir des documents indexés par des catégories de mots générées par la carte de catégories

de mots Les deux

produites avec l'algorithme SOM

Trang 27

les composants sont des valeurs aléatoires et dont la longueur des vecteurs est l’unité après normalisation et P<<M.di est alors remplacé par d 'i à P dimensions:

d 'i R di

Naturellement, plus P est petit, plus la durée de traitement est réduite Mais on ne peut pas choisir une valeur de P=10, par exemple, alors que M=5000 Ainsi quelle valeur de P est acceptable ? Il est possible d’utiliser les similitudes mutuelles des vecteurs de données Pour évaluer cela, il faut mesurer la similitude de deux vecteurs

de documents originaux diet djet celle de deux vecteurs réduits par correspondance

aléatoire d 'i et d 'j Supposons que ces vecteurs sont déjà normalisés dans des

vecteurs unité de sorte que le cosinus puisse être calculé par le produit intérieur de deux vecteurs de chaque couple

j T T i j T

0

0 0

Trang 28

Si tous les composants de matrice ε ont la valeur 0, la similitude est préservée par correspondance aléatoire Cependant, avec P<M, ils ne sont jamais égaux à zéro mais ont de petites valeurs

Dans [16], on nous montre que la correspondance aléatoire peut donner un bon résultat par rapport à la pleine représentation des documents si la dimension des vecteurs est d’environ cent ou plus tandis que le cỏt de calcul et la durée de traitement sont sensiblement réduits

4 Méthodes d’indexation multilingue

Il y a deux types de collection de documents multilingues [24] La première contient certaines collections de documents monolingues La deuxième contient des documents multilingues Une vue d’ensemble des méthodes d’indexation de documents multilingues a été donnée dans [29] et voici les possibilités pour l’indexation de documents multilingues:

• Traduction de texte: Les documents multilingues sont traduits dans une langue intermédiaire – l’anglais par exemple Les documents intermédiaires sont alors

Trang 29

indexés et représentés par des vecteurs de caractéristiques La qualité de la traduction détermine la qualité d’indexation des documents

• Thésaurus multilingues: Plusieurs types de thésaurus peuvent être construits Pour une liste de concepts, l’espace de termes est divisé en classes de concepts Pour une liste de termes, un terme dans une langue est associé au terme correspondant dans une autre langue On peut aussi construire une hiérarchie de termes ó il y a des relations associatives entre les termes Une ontologie est aussi un thésaurus dans ce cas La définition de l’ontologie sera donnée plus tard dans ce rapport

• Techniques basées sur un corpus: C’est une direction de recherche plus directe pour indexer des documents multilingues Les vecteurs de termes d’une langue sont traduits grâce aux correspondances produites pendant le traitement des ensembles de termes de chaque langue Dans d’autres expériences, la méthode LSI (Latent Semantic Indexing – voir la section III.2 de ce chapitre) est aussi une technique de ce genre Une limite de ces techniques est que le nombre de calculs mathématiques est grand

5 Ontologie pour la représentation de documents

Il faut noter qu’une ontologie peut être utilisée pour indexer des documents La définition d’une ontologie et les détails de son utilisation seront donnés plus tard dans

a besoin

Est-il possible de présenter les résultats de sorte que le temps nécessaire à leur analyse soit réduit? Avec la SOM, on espère que la réponse soit "Oui." On a un ensemble énorme de documents numériques et on veut trouver tous les documents de cette collection correspondant à une requête La tâche de la SOM dans ce cas est de

Trang 30

classer les documents dans des groupes de sorte que les documents appartenant à un groupe ont un contenu similaire De plus, ce contenu doit permettre une meilleure visualisation des résultats et ainsi aider l'utilisateur dans sa tâche

Figure 9: Un exemple de recherche : c'est la SOM résultante avec différents groupes

de documents Avec le mot-clé «vélo», comment peut-on savoir quel groupe à pour sujet les vélos (c'est à dire les bicyclettes)? Si chaque groupe a sa propre étiquette il sera plus facile pour l'utilisateur de choisir

Ainsi, une carte bien étiquetée peut permettre à l'utilisateur de choisir le groupe qui est le plus approprié à sa demande Cet objectif devrait être atteint par une bonne méthode d’étiquetage automatique Après avoir été formée, la SOM devrait être étiquetée et les étiquettes devraient représenter aussi exactement que possible la teneur des groupes qu'ils représentent

Les méthodes d’étiquetage des groupes de documents ne sont pas le centre de ce rapport ou de mon stage Les méthodes d’étiquetage considérées sont celles qui ont déjà été utilisées pour étiqueter la SOM car on a décidé a priori de choisir la SOM Dans la prochaine section, nous discuterons quelques méthodes qui ont été employées pour étiqueter la SOM

90

20 -10

Trang 31

2 Etiquetage des groupes générés par la SOM

Étiqueter des groupes des documents sur la SOM a été considéré comme une étape auxiliaire visant à nommer les groupes sur la carte Cependant, peu de travaux s'intéressent à l'étiquetage des SOMs Dans cette section, nous décrivons ces travaux

a Étiquetage manuel

Dans ce cas, on assigne manuellement une étiquette à chaque groupe de documents Dans [27], l'étiquetage d’un groupe est effectué juste après que l'auteur ait lu tous les textes de ce groupe et l'étiquette est simplement un mot utilisé pour faire la différence entre les groupes L'étiquetage est alors une étape auxiliaire Cependant, l’étiquetage manuel peut devenir vraiment utile pour rechercher l'information si après lecture de tous les documents, nous faisons un sommaire pour chaque groupe sur la carte Ce sommaire peut guider l'utilisateur dans son processus de recherche

Figure 10 : Un exemple d’étiquetage manuel extrait à partir de [27]

Le but de ceci est de

l'organisation des documents sur la carte est bien faite ou pas Ce n'est pas utile du tout dans le but de la recherche d’information

Trang 32

Cette méthode semble convenir à la vérification de la SOM plutơt qu'à l'aide à la recherche En fait, manuellement, nous pouvons produire des étiquettes aussi exactes

et utiles que nous souhaitons Cependant, cette procédure n’est pas automatique et donc cỏteuse en temps Pour une petite collection de documents, il est possible de faire cela Mais pour un énorme ensemble de documents, l’étiquetage manuel est impossible Ces inconvénients peuvent empêcher cette méthode d'être employée pour l’aide à la recherche l'information En outre, cette approche peut donner des étiquettes variables selon la personne qui a effectué l'étiquetage et le moment ó cela a été réalisé

b Étiquetage basé sur des groupes prédéfinis

La SOM est une méthode de classification non supervisée, c'est à dire elle n'utilise pas

de classes données a priori Cependant, la SOM peut être employée de manière manuellement supervisée de sorte que des étiquettes sur la SOM puissent être apprises à partir groupes originaux Les documents utilisés pour la SOM sont des ensembles de documents qui ont été pré-classifiés Par exemple, dans [15], les articles

du groupe de discussion Usenet "comp_ai_neural_nets" ont été employés Un document, qui est un article, est représenté de telle manière que l'information de son groupe prédéfini soit incluse dans le vecteur de document Le terme "supervision partielle" est alors employé pour impliquer cette inclusion Si d est un vecteur de document, alors les composants de d sont: d = d1 dmdm+1 dM ó d1 dm sont des composants représentant le contenu de document et dm+1 dM sont des composants encodant le groupe prédéfini du document

le vecteur d:

Figure 11: Structure des vecteurs en entrée

ó m est le nombre de dimensions du vecteur qui représente le contenu du document,

m

d

Trang 33

(M-m) est le nombre de dimensions du vecteur qui représente le groupe prédéfini du document En plus de jouer un rôle très important en séparant les groupes sur la SOM les uns des autres, les composants dm+1 dM peuvent être employés pour impliquer une étiquette pour le groupe sur la carte

Après plusieurs itérations, presque tous les documents d'un groupe prédéfini tombent dans un secteur sur la carte (c'est également le but de la SOM partiellement supervisée) La tâche d’étiquetage correspond alors simplement à copier les étiquettes des groupes prédéfinis sur ces secteurs Le nombre de groupes prédéfinis est plus petit que le nombre de groupes sur la carte C'est pourquoi en employant cette méthode, plusieurs groupes peuvent avoir la même étiquette de groupe prédéfini Dans [15], 20 groupes de nouvelles ont été employés tandis que la taille de la carte était 24x32

Figure 12: Un exemple de l’étiquetage basé sur les groupes prédéfinis extrait du site Web du projet de

http://websom.hut.fi/websom/comp.ai.neural-nets-new/html/root.html

Avec le facteur de supervision, des secteurs dans les cartes peuvent être clairement distingués Cependant, la méthode utilisée est triviale Dans le but de la recherche d’information, l'utilisateur peut ne pas obtenir l’aide nécessaire pour trouver les bons

Trang 34

documents et en fait, les groupes prédéfinis peuvent ne pas être disponibles Il semble que cette méthode d’étiquetage est juste employée pour aider à faire la différence entre les secteurs sur la carte

c Etiquetage par les étiquettes des entrées

Cette approche est un peu similaire à celle basée sur les groupes prédéfinis Une de ces applications est la carte de catégories de mots [28], qui est employée pour grouper des mots en se basant sur leur contexte d'occurrence dans la collection de documents

Le principe de cette application est qu'un mot a une signification particulière dans un contexte particulier et dans un document, il y a peut-être beaucoup de mots ayant la même signification (phénomène de synonymie) Une catégorie des mots ayant la même signification peut alors être employée au lieu des mots eux-mêmes pour représenter le document (voir la description de ce codage dans la section II.2.c ci-dessus) Premièrement, tous les mots apparaissant dans la collection courante de documents sont insérés dans un dictionnaire Un vecteur P dont les éléments sont produits aléatoirement code chaque mot Le mot considéré appelé le mot-clé doit être placé dans son contexte, qui est une expression (ou une fenêtre) contenant W mots consécutifs (il peut y avoir W=2, 3, 4,5 mots dans une expression) ó le mot-clef est

au milieu de l'expression Pour représenter tout le contexte, un vecteur de P.W éléments appelé le vecteur de contexte, est nécessaire En fait, comme dans II.2.c, les vecteurs d'entrée sont les vecteurs des contextes moyens

L’étiquetage est effectué en employant l'étiquette du mot-clef du vecteur d'entrée Les vecteurs qui représentent un contexte semblable tombent dans un groupe sur la carte L'étiquette du mot-clef appartenant à un de ces vecteurs sera employée pour étiqueter

le groupe Pour cette raison, l'étiquette est tout à fait simple Bien que cette méthode

ne fasse pas l'étiquetage d'une collection de document et en conséquence, ne soit pas employée pour aider à recherche l'information, elle peut nous donner une idée de ce qui peut être fait pour l’étiquetage sur la SOM C'est pour cette raison que nous la considérons toujours dans ce rapport

Định dạng
Số trang	68
Dung lượng	728,08 KB