mémoire de fin d’études Extraction de sous trajectoires d’abeilles Rédigé par NGUYEN Van Tho Promotion 17 IFI Encadrant Karell BERTET La Rochelle, Avril – Octobre, 2014 Ce stage a été réalisé au Lab[.]
Trang 1m´emoire de fin d’´etudes
Extraction de sous-trajectoires
d’abeilles
Rédigé par :NGUYEN Van ThoPromotion 17 - IFI
Encadrant :Karell BERTET
La Rochelle, Avril – Octobre, 2014
Ce stage a été réalisé au Laboratoire Informatique, Image et Interaction L3i et a été
financé par la région Poitou-Charentes
Trang 2Je tiens tout d’abord à remercier Madame Karell Bertet, responsable de mon stage pour
le temps qu’elle m’a consacré durant ce stage, ses conseils précieux pendant 6 mois demon stage
Je tiens à remercier également les professeurs et les personnels de l’Institut de laFrancophonie pour l’Informatique, des professeurs invités de m’avoir donné des cours
de haut qualité et pour leur soutien tout au long de mes études
Je tiens à remercier Monsieur Bruno Lescalier pour le fournissement de données.Mes remerciements vont aussi aux ma femme, ma famille et mes amis pour leurencouragement
Trang 3RésuméL’objectif de ce stage est de rechercher les sous-trajectoires maximales fré-quentes d’abeilles L’Analyse Formelle de Concepts (AFC) est souvent utiliséepour analyser les données décrivant la relation entre un ensemble d’objets et d’unensemble d’attributs Les fondements mathématiques derrières l’AFC, le treillis
de Galois et le système de fermeture permettent d’en étendre le cadre applicatif àdes descriptions plus sophistiquées, telles que les séquences Dans ce stage nousprésentons une méthode d’analyse formelle de concepts séquentiels ; une extension
de l’AFC et la recherche de concepts pertinents en utilisant les treillis de Galois Elleconsiste d’abord à discrétiser les trajectoires d’abeilles en séquences Et puis, calcu-ler le treillis de Galois du contexte séquentiel (une extension du contexte formel)qui consiste à rechercher les sous-séquences communes maximales à l’ensemble
de séquences Des expérimentations et de nombreuses évaluations ont été effectuéspour valider la faisabilité de l’approche et illustrent la possibilité d’une applicationdes méthodes d’apprentissage supervisé ou non-supervisé
Mots-clés.treillis de Galois, analyse formelle de concepts, trajectoire,données tielles, fouille de données
séquen-AbstractThe aim of this thesis is to mine the frequent closed sub-trajectories of bees.The Formal Concept Analysis (FCA) is often used to analyze the data describingthe relationship between a set of objects and a set of attributes The mathematicalfoundation behind the FCA, the Galois lattice and closure system allow to extendthe application of FCA to more sophisticated data descriptions, such as sequence
In this work, we present a formal analysis of sequential concepts; an extension ofthe FCA and its application for mining relevant concepts Firstly, we discretizethe trajectories of bees to sequences Then, we construct the Galois lattice ofsequential context (an extension of the formal context) which consists of searchingthe maximum common sub-sequences of a set of sequences Experiments wereconducted to validate the feasible of the proposed approach, as well as illustrate thepossibility of applying the supervised or unsupervised learning methods
Keywords Galois lattices, formal concept analysis, trajectory, sequential data, datamining
Trang 4Table des matières
Page
1.1 Contexte 1
1.2 Problématique 1
1.3 Principales contributions 2
1.4 Organisation du mémoire 3
2 État de l’art 4 2.1 Analyse formelle de concepts 4
2.1.1 Contexte formel 4
2.1.2 Structure de treillis 5
2.1.3 Calcul du treillis 8
2.2 Recherche des motifs séquentiels 8
2.2.1 Préliminaires 9
2.2.2 Recherche des motifs séquentiels maximaux 10
2.2.3 Recherche des motifs séquentiels fermés 10
2.3 Arbre des suffixes généralisés 11
2.3.1 Définitions 11
2.3.2 Construction de arbre des suffixes généralisés 12
2.3.3 Arbre des suffixes généralisés (GST) 14
2.4 Recherche des sous-séquences communes maximales 15
2.4.1 Définitions 15
2.4.2 Calcul de U(v) pour chaque noeud interne v 16
2.4.3 Algorithme pour calculer lca(x,y) 17
3 Analyse formelle de concepts séquentiels 24 3.1 Treillis de Galois des contextes séquentiels 24
3.1.1 Définitions 24
3.1.2 Treillis de Galois des séquences 26
3.1.3 Calcul de treillis de Galois de contexte séquentiel 27
3.1.4 Recherche des concepts pertinents 29
Trang 54 Application aux trajectoires d’abeilles 31
4.1 Discrétisation des trajectoires d’abeilles 31
4.1.1 Discrétisation selon la vitesse 31
4.1.2 Discrétisation selon la direction 33
4.2 Expérimentations 34
5 Conclusion et perspectives 38 5.1 Conclusion 38
5.2 Perspectives 38
Trang 6List of Figures
2.1 Le treillis des concepts du contexte formel 2.1 7
2.2 Arbre des suffixes de la chaîne xabxac [Gus97] 11
2.3 Arbre des suffixes et arbre des suffixes implicites de la séquence xabxa 14 2.4 Arbre des suffixes généralisés de "xabxa" et "babxba"[Gus97], le premier nombre indique la séquence, le deuxième nombre indique la position du commencement du suffixe 14
2.5 Les feuilles en rectangle ayant identifieur i, les nœuds en cercle sont lcas des feuilles deΓi [Gus97] 17
2.6 Les nombres de chemin d’un arbre binaire entier de 15 noeuds 21
2.7 Les partitions des noeuds 22
3.1 Contexte séquentiel et treillis de Galois 26
3.2 Treillis de concepts du contexte de table 3.1 26
3.3 Intégration de méthode proposée à la bibliothèque java-lattices : Le diagramme de paquetages avec principales classes 29
3.4 Les bordures et les concepts pertinents avec min_sup= 30% et min_long=3 30 4.1 Un vecteur vitesse avec ses trois composants 32
4.2 Un exemple de trajectoires en 3D et un exemple de contexte séquentiel des vitesses 33
4.3 Angle entre deux vecteurs créés par trois points d’une fenêtre 33
4.4 Nombre des concepts pertinents et nombre total de concepts avec une taille de fenêtre de 3 35
4.5 Ratio entre le nombre de concepts pertinents et le nombre total de con-cepts (pour des séquences de vitesse) 36
4.6 Ratio entre le nombre de concepts pertinents et le nombre total de con-cepts (pour des séquences de direction) 36
4.7 Treillis des concepts des séquences de direction 37
Trang 7List of Tables
2.1 La table binaire décrivant la relation I du contexte (O, S, I) 5
2.2 Un exemple de concept formel 6
2.3 Base de données transactionnelles des clients 9
2.4 Version séquentielle de la base de données 9
3.1 Un exemple de contexte séquentiel 25
4.1 Correspondant entre les vitesses et les codes 32
4.2 Correspondance entre les directions et les codes 34
4.3 Un exemple de contexte séquentiel des directions 34
Trang 8de Guillaume Chiron permettent de suivre individuellement en 3D chaque abeille envol devant la ruche, et ainsi extraire les trajectoires des abeilles à partir d’une carte deprofondeur L’idée de ce stage est d’étudier la faisabilité des méthodes d’extraction
de motifs séquentiels aux trajectoires des abeilles Ces méthodes ont pour objectifd’extraire les sous-séquences fréquentes dans un contexte supervisé ou non Ainsi, unetelle extraction est envisageable à partir de l’ensemble des trajectoires des abeilles pour
en extraire les sous-séquences fréquentes, ou bien à partir d’une base d’apprentissage detrajectoires préalablement catégorisées (abeilles normales ou anormales par exemple),permettant ainsi d’identifier ou de caractériser les sous-trajectoires fréquentes ou nonfréquentes par catégorie
Alors que les premiers travaux d’extraction de motifs fréquents visaient à calculer tousles sous-ensembles de motifs pour en extraire les plus pertinents [AS+94], de récentesméthodes issues de l’analyse formelle des concepts (AFC) reposent sur l’extraction demotifs fermés L’AFC, outil de représentation et d’extraction des connaissances sous
1 http://l3i.univ-larochelle.fr/APIALERTE
2 Laboratoire Informatique, Image et Interaction (L3i), Université de La Rochelle
Trang 9forme de règles d’association ou de concepts, ainsi la possibilité de classification dans
le cas supervisé et de segmentation dans le cas non supervisé Malgré des traitementssouvent exponentiels, les fondements mathématiques de l’AFC, qui reposent sur lathéorie des treillis [Bir67] et des fermetures, garantissent des algorithmes efficaces etsouvent optimaux La plupart de ces algorithmes sont implémentés dans la bibliothèquejava-lattices [Ber14] développée au laboratoire L3i ó ce stage est réalisé L’AFCanalyse les données décrit par la relation entre un ensemble d’objets et d’un ensembled’attributs Alors que les objets sont classiquement décrits par des ensembles d’attributs,les propriétés d’un opérateur de fermeture permettent d’en étendre le cadre applicatif
à des descriptions plus sophistiquées, telles que les graphes [GK01], les intervalles[Pol98], les formules logiques [FR04], les séquences, et plus généralement aux patterns[Kuz01] Plus formellement, ces extensions sont rendues possibles par la mise en placed’un opérateur de fermeture dans l’espace de description considéré Dans le cas desséquences, il est nécessaire de définir un opérateur de fermeture qui correspond au calculdes sous-séquences communes maximales à un ensemble de séquences Les objets sontalors décrits par des séquences, formant ainsi un contexte séquentiel à partir duquel il estpossible de générer le treillis de Galois de séquences
L’objectif de ce stage est donc d’implémenter le calcul des sous-séquences communesmaximales qui possède les propriétés d’un opérateur de fermeture Puis de l’intégrer ausein de la bibliothèque java-lattices par la mise en place d’un opérateur de fermeture surles séquences, et d’un contexte séquentiel Des expérimentations seront menées sur destrajectoires d’abeilles qu’il s’agira de discrétiser en séquences
Le travail de ce stage présente les contributions suivantes :
(1) Deux méthodes de discrétisation de discrétiser les trajectoires d’abeilles en séquences: discrétisation selon la vitesse et discrétisation selon la direction
(2) Implémentation du calcul des sous-séquences communes, puis mise en place d’uncontexte séquentiel, extension d’un contexte classique, avec les sous-séquencescommunes comme opérateur de fermeture La construction du treillis de Galois ducontexte séquentiel est ainsi rendue possible en utilisant l’algorithme de Bordat[Bor86] ou l’algorithme Next Closure [Gan84] déjà implémentés au sein de labibliothèque java-lattices
(3) Expérimentations sur 20 trajectoires d’abeilles et accompagnées de quelquesmesures d’évaluation Bien que l’apprentissage est non-traité dans le carde de ceprojet, nos résultats montrent que l’apprentissage supervisé/non-supervisé sur lestrajectoires sont faisables
Trang 101.4 Organisation du mémoire
Le mémoire est organisé de la manière suivante :
Dans le chapitre 2, nous présentons un état de l’art sur l’analyse formelle de concepts(AFC) et la recherche de sous-séquences communes maximales
Dans le chapitre 3, nous décrivons la méthode proposée, le treillis de Galois ducontexte séquentiel et la recherche des concepts pertinents
Le chapitre 4 présente les expérimentations et ses résultats
Trang 11L’Analyse Formelle de Concepts (AFC) [Wil82; GWW99] a été présentée comme undomaine de mathématiques appliquées qui consiste à restructurer la théorie des treillis[Bir67] L’AFC analyse les données décrivant la relation entre un ensemble d’objets
et un ensemble d’attributs Ces données apparaissent couramment dans de nombreuxdomaines de l’activité humaine tels que la psychologie, la sociologie, l’anthropologie,
la médecine, la biologie, linguistique, sciences informatiques, mathématiques et génieindustriel Nous présentons dans cette section les notions de base de l’AFC et quelquesalgorithmes pour l’extraction de motifs séquentiels
2.1.1 Contexte formel
Définition 2.1.1(Contexte formel) Un contexte formel est un triplet K= (O, S, I) ó Oest un ensemble d’objets, S est un ensemble d’attributs et I est une relation binaire entre
Oet S i.e I ∈ OxS (o, s) ∈ I signifie que l’objet o possède l’attribut s
Graphiquement, nous pouvons représenter un contexte formel par une table binaire(cross-table) mettant en relation objets et attributs Les lignes de la table correspondentaux objets, les colonnes de la table correspondent aux attributs (i, j) prend la valeur 1,vrai ou encore × si l’objet i possède l’attribut j
Trang 12Table 2.1 – La table binaire décrivant la relation I du contexte (O, S, I)
Exemple 2.1.1 Le contexte C décrit par la figure 2.1 consiste l’ensemble des objets
O= {1, 2, 3, 4, 5} et l’ensemble des attributs S = {a, b, c, d}
2.1.2 Structure de treillis
La notion de concept formel est fondamentale pour AFC Pour définir le concept formeld’un contexte formel (O, S, I) nous avons besoins des opérateurs de dérivation définispour les sous-ensembles arbitraires A ⊆ O et B ⊆ S :
Définition 2.1.2 Pour un contexte formel (O, S, I) pour tout A ⊆ O et B ⊆ S , on défini:(1) A0 = α(A) = {o ∈ O | oIs ∀s ∈ A}
Trang 13– réflexivité : pour tout x ∈ S , on a xIx
– antisymétrie : pour tous x, y ∈ S , xIy et yIx impliquent x= y
– transitivité : pour tous x, y, z ∈ S , xIy et yIz impliquent xIz
• toute paire d’éléments x, y de S admet à la fois une borne inférieure et une borne
supérieure
– la borne inférieure de x et y, notée x ∧ y, est l’unique élément maximal (plus
grand élément) de l’ensemble des prédécesseurs (ou minorants) de x et y
(ensemble des éléments z ∈ S tels que z ≤ x et z ≤ y)
– la borne supérieure de x et y, notée x ∨ y, est l’unique élément minimal (i.e.plus petit élément) de l’ensemble des successeurs (ou majorants) de x et y
(ensemble des éléments z ∈ S tels que z ≥ x et z ≥ y)
Définition 2.1.5 (Treillis des concepts) Le treillis des concepts se défini pour une
relation binaire I entre un ensemble O d’objets et un ensemble S d’attributs, encore
appelé contexte Le treillis des concepts d’un contexte (O, S, I) est une paire (C, ≤) ó :
• C est un ensemble de concepts défini sur P(O) × P(S ) par :
(A, B) ∈ C ⇐⇒ A ⊆ O, B ⊆ S, B= α(A) et A = β(B)
avec
α(A) = {b ∈ S : aIb pour tout a ∈ A} β(B) = {a ∈ O : aIb pour tout b ∈ B}
• ≤est une relation binaire définie sur l’ensemble des concepts C, pour (A1, B1) et (A2, B2) ∈
C :
(A1, B1) ≤ (A2, B2) ⇐⇒ B1 ⊆ B2 ⇐⇒ A1 ⊇ A2
Trang 14La figure 2.1 montre le diagramme de Hasse du treillis de Galois du contexte 2.1.Une éclipse représente un concept et les arcs entre les éclipses matérialisent la relationd’ordre du plus général (en bas) vers le plus spécifique (en haut).
Figure 2.1 – Le treillis des concepts du contexte formel 2.1
Définition 2.1.6 (Treillis de Galois) Un treillis de Galois se définit à partir d’unecorrespondance de Galois (α, β) entre deux ensembles O et S Soient A ⊆ O et B ⊆ S ,
on définit α et β comme suit:
α : P(O) → P(S ) α(A) = {s ∈ S/(o, s) ∈ I, ∀o ∈ A} (2.1)
β : P(S ) → P(O) α(B) = {o ∈ O/(o, s) ∈ I, ∀s ∈ B} (2.2)
• α est une application isotone de P(O) vers P(S ) : X ⊆ Y implique α(X) ⊆ α(Y),
• β est une application antitone de P(S ) vers P(O) : X ⊆ Y implique β(X) ⊇ β(Y),
• (β ◦ α) est une application extensive sur P(S ) : X ⊆ O implique X ⊆ (β ◦ α)(X),
• (α ◦ β) est une application extensive sur P(O) : X ⊆ S implique X ⊆ (α ◦ β)(X)
ó :
P(X) est l’ensemble des parties de X