1. Trang chủ
  2. » Ngoại Ngữ

FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES DECOUVERTE DE PHENOMENES PERIODIQUES ET EXCEPTIONNELS

40 132 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 5,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

R´ecemment, face `a l’h´et´erog´en´eit´e des sources de donn´ees continues comme par exempledes donn´ees temporelles provenant de diff´erents types de capteurs e.g., temp´erature, humidi

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

DUONG Minh Duc

FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES

DECOUVERTE DE PHENOMENES PERIODIQUES ET

Trang 2

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

DUONG Minh Duc

FOUILLE DE GRAPHES DYNAMIQUES ATTRIBUES

DECOUVERTE DE PHENOMENES PERIODIQUES ET

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de:

Marc PLANTEVIT, Maître de conférences au LIRIS, équipe DM2L

Céline ROBARDET, professeur au LIRIS, équipe DM2L

HANOI – 2015

Trang 3

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn

đã được chỉ rõ nguồn gốc

Signature de l’étudiant

DUONG Minh Duc

Trang 4

Table des mati` eres

1.1 Contexte g´en´eral et probl´ematique 2

1.2 Motivation et objectifs 3

1.3 Approche propos´ee 3

1.4 Contributions 4

1.5 Organisation du m´emoire 4

2 Etat de l’art´ 5 2.1 Revue de la bibliographie 5

2.1.1 Chromatic correlation clustering 5

2.1.2 Exceptional Model Mining 8

2.1.3 Discussions 10

2.2 S´erie temporelle et mesures de distance 11

2.2.1 Introduction de s´erie temporelle 11

2.2.2 Dynamic Time Warping 11

2.2.3 Symbolic Aggregate approXimation 14

3 M´ethodes et solutions propos´ees 18 3.1 Graphe arˆetes attribu´ees et mod´elisation du probl`eme 18

3.2 Formulation du probl`eme 19

3.2.1 D´efinitions pr´ealables 19

3.2.2 Evaluation statistique d’une arˆ´ ete 19

3.2.3 Contexte particuli`ere 20

3.2.4 Formulation la tˆache de fouille des motifs 20

3.3 Algorithme FastRabbit 20

4 Exp´erimentation et r´esultats 22 4.1 R´esultats quantitatives 22

Trang 5

4.2 R´esultats qualitatives et Comparaison avec EMM 234.2.1 R´esultats qualitatives 234.2.2 Comparaison avec EMM 27

Trang 6

Je remercie ´egalement Albrecht Zimmermann ainsi que tous les membres de l’´equipe DM2L pour desdiscussions et suggestions.

Finalement, je remercie sinc`erement mes parents et mes camarades pour leurs soutiens pendant cettep´eriode

Trang 7

R´ esum´ e

Les graphes sont une abstraction math´ematique qui permet de repr´esenter naturellement de nombreuxph´enom`enes r´eels La fouille de graphes est un domaine majeur de la fouille de donn´ees De nombreuxtravaux se sont int´eress´es `a fournir des m´ethodes pour analyser des grands graphes en se focalisant sur

sa structure R´ecemment, face `a l’h´et´erog´en´eit´e des sources de donn´ees continues comme par exempledes donn´ees temporelles provenant de diff´erents types de capteurs (e.g., temp´erature, humidit´e, vent,position), des propositions visant `a travailler sur des structures de graphes plus sophistiqu´ees telles queles graphes arˆetes-attribu´ees sont apparues, apportant des ´eclairages nouveaux sur de telles donn´ees.L’objectif de ce stage de master est de concevoir une m´ethode originale d’extraction de connaissancespertinentes dans des donn´ees temporelles et h´et´erog`enes que nous mod´eliserons sous forme de graphesarˆetes-attribu´ees Il s’agit donc de d´efinir une m´ethode g´en´erique permettant d’extraire des comporte-ments p´eriodiques dans des graphes arˆetes-attribu´ees Le mod`ele global ainsi construit pourra ˆetre ensuiteutilis´e pour d´ecouvrir et expliquer des comportements anormaux/exceptionnels dans les donn´ees Ce sujet

de master qui s’inscrit dans le domaine de l’extraction de connaissances dans des grandes bases de donn´eess’appuiera donc sur une mod´elisation sous forme de graphes arˆete-attribu´es L’approche d´evelopp´ee devrafaire avancer l’´etat de l’art sur la fouille de donn´ees sous contraintes, les m´ethodes d’extraction de motifs,

la fouille de donn´ees interactive Des exp´erimentations sur des donn´ees issues de centrales photovolta¨ıquesseront men´ees

Mots-cl´es : graphe arˆetes-attribu´ees, s´eries temporelles, FastRabbit, fouille des motifs locaux

Trang 8

Graph is a mathematical abstraction that can naturally represent many real phenomena The graphmining is a major field of data mining Many studies have focused on providing methods to analyzelarge graphs by focusing on its structure Recently, the heterogeneity of continuous sources of data such

as temporal data from different types of sensors (eg, temperature, humidity, wind, position), proposals

to work on more sophisticated graph structures such as edge-attributed graphs The aim of this masterintership is to design an original method of extraction knowledge in temporal and heterogeneous datathat we will model as edge-attributed graphs It is therefore to define a generic method for extractingperiodic behavior in the edge-attributed graphs The global model thus constructed can then be used toexplore and explain abnormal/exceptional behavior in the data This topic master who is in the field ofknowledge discovery in large databases will rely on modeling as edge-attributed graphs The developedapproach will advance the state of the art data mining with constraints, the methods of motif extraction,interactive data mining Experiments on data from photovoltaic central will be conducted

Keywords : edge-attributed graphs, time series, FastRabbit, local pattern mining

Trang 9

Table des figures

1.1 Structure des capteurs photovolta¨ıques [1] 2

1.2 Des arbres devant la fa¸cade et sur l’horizon [1] 3

2.1 Un exemple de Chromatic correlation clustering [2] 5

2.2 Un exemple de r´eseau social [3] 6

2.3 Une partition de Chromatic Correlation Clustering [3] 6

2.4 Coˆut de Chromatic Correlation Clustering [3] 6

2.5 Un exemple de graphe arˆetes-´etiquett´es [2] 7

2.6 Un exemple de clustering par Chromatic pivot [3] 7

2.7 Un exemple de clustering par Lazy Chromatic pivot [3] 8

2.8 Exemple d’un r´eseau bay´esien [4] 9

2.9 Exemple d’une s´erie temporelle 11

2.10 La diff´erence entre distance Euclidienne et distance DTW [5] 12

2.11 Un grid DTW [6] 12

2.12 Condition monotone [5] 13

2.13 Condition de continuit´e [5] 13

2.14 Condition de fronti`ere [5] 13

2.15 Condition de Warping Window [5] 14

2.16 Condition d’angle [5] 14

2.17 Une s´equence de la taille 128 est r´eduite en 8 dimensions [7] 15

2.18 Le tableau statistique pour diviser la courbe Gaussienne [7] 16

2.19 Discretisation avec le nombre de symbol a = 3 [7] 16

2.20 Distance mesur´ee sur la repr´esentation symbolique [7] 16

2.21 Le tableau utilis´e par la fonction MINDIST [7] 17

4.1 Performance de l’algorithme FastRabbit 22

4.2 Nombre de motifs avant et apr`es post-traitement 23

4.3 Visualisation des positions de capteurs 24

4.4 Graphe arˆetes-attribu´ees avec contexte g´en´erale ? 24

4.5 Un motif d´etect´e par l’algorithme FastRabbit 25

4.6 Un motif d´etect´e par l’algorithme FastRabbit 25

4.7 Un graphe qui a seulement 2 sommets 26

4.8 Un motif avec le jour type ”Ensoleill´ee” 26

Trang 10

4.9 Un motif avec le jour type ”non Vent´ee” 26

4.10 R´eseau bay´esien du jeu de donn´ees Juillet 2012 27

4.11 Un groupe exceptionnel d´etect´e par EMM 27

4.12 Un autre r´esultat exceptionnel 27

4.13 Conditions pour d´eterminer un groupe 28

Trang 11

Chapitre 1

Introduction

1.1 Contexte g´ en´ eral et probl´ ematique

Les travaux de ce stage se sont d´eroul´es au sein de l’´equipe Data Mining et Machine Learning (DM2L)

du laboratoire informatique LIRIS UMR 5205, et sont en collaboration avec laboratoire solaire et mique CETHIL UMR 5008 Les physiciens du CETHIL ont install´e un r´eseau de capteurs qui collecte desdonn´ees temporelles et h´et´erog`enes L’installation des sondes (des capteurs) est effectu´ee sur face ouest

ther-du bˆatiment HBS-Technal, `a Toulouse Nous avons environ 150 capteurs qui mesurent diff´erents types dedonn´ees (e.g., la temp´erature, l’humidit´e, le vent) L’´echantillon se compose de la s´equence de donn´eesr´ecup´er´ees en juillet 2012, le mois o`u on a constat´e un ph´enom`ene d’ombrage vers 18h tous les jours.Des sondes de temp´erature sont install´ees sur les surfaces, la structure ”peignes” est utilis´ee pourles mesures de vitesse L’´etat des capteurs est bon vieillissement g´en´eral, beaucoup de toiles d’araign´ees(gˆenant pour la circulation d’air), certains des sondes d´econnect´ees ou partiellement d´ecoll´ees des surfaces

Figure 1.1 – Structure des capteurs photovolta¨ıques [1]

Trang 12

L’objectif de cette installation est d’observer l’´evolution de r´eseau de capteurs afin de d´etecter desanomalies ou des comportements sp´eciaux En plus, avec la croissance des arbres devant la fa¸cade et surl’horizon, des impacts de cette ´ev´enement sur des capteurs seront consid´er´es car le ph´enom`ene d’ombrageest une contrainte obligatoire avec des ´etudes de temp´erature et solaire dans des villes modernes.

Figure 1.2 – Des arbres devant la fa¸cade et sur l’horizon [1]

Avec le d´ev´elopement des technoligies, les volumes de donn´ees collect´ees par les entreprises ou leslaboratoires sont devenus ´enormes En observant des ph´enom`enes sp´eciaux dans un jeu de donn´ees mas-sive, les d´ecideurs sont extrˆemement difficles d’avoirs une bonne vision des leurs donn´ees afin d’en tirerdes connaissances et b´en´efices R´ecemment, pour d´etecter des motifs exceptionnelles, de nombreuses ap-proches en basant la structure du graphe sont propos´ees Le graphe est un puissant outil de mod´elisation,nous pouvons facilement observer des sous parties et des comportements anormaux sur un graphe Dans

le cadre de ce stage, nous proposons une m´ethode d’extraction des connaissances dans des donn´ees decapteurs que nous mod´eliserons sous forme de graphes arˆetes-attribu´ees L’approche d´evelopp´ee va faireavancer l’´etat de l’art sur la fouille de donn´ees sous contraintes et la fouille de motifs locaux

L’objectif principal de ce travail est de proposer une technique de formulation des donn´ees sous formegraphes arˆetes-attribu´ees et puis, d´evelopper un algorithme d’extraction des sous graphes ”int´eressantes”,exceptionnelles L’id´ee de notre approche est introduite dans la section suivante

Notre approche a deux principales ´etapes : mod´elisation du probl`eme sous forme graphe arˆattribu´ees et r´ealisation d’un algorithme (qui s’appelle FastRabbit) pour d´etecter des arˆetes diff´erents,anormaux sous contraints Pour la mod´elisation, nous consid´erons chaque capteur est un sommet dugraphe, on a totalement 151 sommets Une arˆete pr´esente la relation de 2 capteurs dans un jours Ladistance entre 2 capteurs est consid´er´ee comme un des attributs importants d’une arˆete, 2 mesures dedistance seront pr´esenter pr´ecis´ement dans le chapitre ” ´Etat de l’art” Pour l’algorithme FastRabbit, ilexploite des contraintes, v´erifie la diff´erence d’une arˆete dans un contexte, i.e un groupe des contraints,

Trang 13

etes-par le teste statistique χ et calcule quelques mesures de qualit´e d’un motif Nous devons consid´erer en

mˆeme temps tous les contextes possible et tous les sous-graphes de chaque contexte, le temps et l’espace

de recherche sont donc le major probl`eme de cette approche

Nous pr´esentons ensuite les principales contributions de ce m´emoire et terminons ce chapitre en

´enon¸cant le plan du m´emoire

Les principales contributions de ce m´emoire sont :

— Des mesures de dissimilarit´e entre des capteurs Nous pr´esentons des donn´ees de capteurs sousforme s´erie temporelle et puis, mesurons la distance entre des s´eries temporelles par deux techniquesDistance Time Warping (DTW) et Symbolic Aggregate approXimation (SAX)

— Une formulation du probl`eme sous forme graphe arˆetes-attribu´ees Nous d´efinissons la structure

du graphe arˆetes-attribu´ees avec des distances mesur´ees, des corr´elation de capteurs et des jourstypes (e.g., fort/faible ensoleillement, avec/sans vent) Quelques mesures pour ´evaluer la qualit´ed’une arˆete ainsi qu’un motif sont pr´esent´ees

— Une d´eveloppement de l’algorithme FastRabbit qui extrait des motifs exceptionnels sous contraintes

La sortie de cet algorithme est des motifs au sens d’optimum de Pareto, i.e., ce sont des meilleursmotifs d’apr`es des mesures de qualit´e et les uns ne dominent pas les autres

La suite de ce m´emoire est organis´ee de la mani`ere suivante Le chapitre 2 effectue un tour d’horizondes approches existantes dans le domaine de ce travail Dans ce chapitre, nous pr´esentons aussi deux tech-niques DTW et SAX pour mesurer la distance entre des capteurs parce que des mesures de distance sont

la cl´e des m´ethodes de d´etection des diff´erences ou des anomalies Dans le chapitre 3, nous repr´esentons

le probl`eme sous forme graphe arˆetes-attribu´ees Ensuite, nous introduisons des d´efinitions formelles etl’algorithme FastRabbit qui calcule des motifs d’optimum de Pareto dans graphe arˆetes-attribu´ees Lechapitre 4 pr´esente des exp´erimentations et le r´esultat au niveau quantitatif et qualitatif Nous concluons

le m´emoire et proposons quelques perspectives par le chapitre 5

Trang 14

etes-Figure 2.1 – Un exemple de Chromatic correlation clustering [2]

La similarit´e d’objets x et y est pr´esent´ee par la fonction sim(x, y) Dans cet article [2], la relationentre des objets est pr´esent´ee par une ´etiquette l `a partir d’un ensemble fini des ´etiquettes possibles L

Si 2 objets x et y n’ont aucune relation, nous d´enotons par l’´etiquette l0∈ L./

L’entr´ee de ce probl`eme est un graphe arˆetes-attribu´ees G = (V, E, L, l) o`u V est l’ensemble dessommets, E = {(x, y) ∈ V × V | l(x, y) 6= l0}, chaque arˆetes a une ´etiquette dans L (on peut consid´erer

Trang 15

une ´etiquette comme une couleur).

L’objective de ce framework est de chercher des partitions dans graphe o`u des arˆetes ont mˆeme unecouleur Observer l’exemple suivant :

Figure 2.2 – Un exemple de r´eseau social [3]

Chaque arˆete a une ´etiquette (couleur ou attribut) Nous voudrions regrouper des sommets similaires

et maximiser le nombre des arˆetes dans chaque cluster le plus possible Nous avons un r´esultat commesuivant :

Figure 2.3 – Une partition de Chromatic Correlation Clustering [3]

Chaque solution a un coˆut, ce sont :

— des arˆetes qui ne sont pas dans un mˆeme cluster

— des arˆetes dans un mˆeme cluster mais la couleur de cette arˆete est diff´erente avec la couleur decluster, ou des arˆetes entre 2 sommets qui n’ont aucune relation

Figure 2.4 – Coˆut de Chromatic Correlation Clustering [3]

Trang 16

Nous introduisons maintenant la formulation du probl`eme Chromatic Correlation Clustering.

(1 − I[l(x, y) = cl(C(x))]) + X

(x,y)∈V ×V C(x)=C(y)

I[l(x, y) 6= l0]

Dans la section suivant, nous pr´esentons un algorithme Chromatic pivot pour identifier des clusters

Il choisit une arˆete al´eatoire comme un pivot et construit un cluster autour ce pivot Cet algorithme aquelques limites et l’auteur a pr´esente ensuite une ´evolution qui s’appelle Lazy Chromatic pivot pourchoisir mieux le pivot

Algorithme Chromatic pivot

Les principales ´etapes de cet algorithme sont :

— Par hasard, choisir une arˆete (u, v) de couleur c

— Faire un cluster avec u, v et des voisins w, (u,v,w) est triangle monochromatique (i.e., l(u, w) =l(v, w) = l(u, v))

— Assigner couleur c

— Rep´eter les ´etapes pr´ec´edentes jusqu’`a les sommets du graphe sont vides

Observons l’exemple dans le figure suivant :

Figure 2.5 – Un exemple de graphe arˆetes-´etiquett´es [2]

Supposons que le premier pivot est (Y, S), le premier cluster est donc {Y, S, T } parce que l(Y, T ) =l(S, T ) = l(Y, S) = rouge Continuons avec (X, Z) comme le pivot, nous obtenons un cluster {X, W, Z}avec la couleur verte R´ep´eter ce processus, deux derniers cluster {U, V } et {R} sont obtenus

Figure 2.6 – Un exemple de clustering par Chromatic pivot [3]

Dans cet exemple, nous voyons ´evidemment que le plus grand cluster est le cluster vert {U, V, R, X, Y, Z, W }mais avec le fa¸con de s´election du pivot, nous obtenons seulement des petits clusters `A cause de cettelimite, l’auteur pr´esente un autre algorithme, le pivot est choisit bas´e sur le degr´e d’un sommet

Trang 17

Lazy Chromatic pivot

Les ´etapes de cet algorithme est similaire avec Chromatic pivot, nous avons 2 points diff´erents :

— S´election du pivot (x,y) : pas par hasard, le pivot est choisit par le degr´e chromatique maximal

— Construction de cluster autour de (x,y) : non seulement des sommets triangle monochromatiqueavec le pivot mais aussi des sommets adjacents et mˆeme couleur avec le pivot

Retournons l’exemple au dessus, maintenant nous cherchons un sommet qui a le degr´e d’un couleur

le plus grand Le sommet X ou Y ont mˆeme degr´e 5 de couleur verte Nous choisissons le sommet X Etpuis, pour construire le pivot, nous cherchons un deuxi`eme sommet adjacent avec X et son degr´e est leplus grand Le sommet Y est donc choisit, le pivot maintenant est (X, Y ) Ensuite, les sommets {U, V, Z}sont ajout´es dans le cluster parce que chaque sommet U, V, Z est triangle vert avec le pivot Et puis,l’algorithme ajoute aussi {R} et {W } dans le cluster car ils sont triangle vert avec (X, Z) et (Y, V ) Nousobtenons un cluster verte, r´ep´etons ces ´etapes pr´ec´edentes, un autre cluster rouge est d´etect´e Le figuredessous montre le r´esultat de Lazy Chromatic pivot :

Figure 2.7 – Un exemple de clustering par Lazy Chromatic pivot [3]

Introduction

Exceptional Model Mining (EMM) [8] est un framework pour trouver des sous-groupes dans unebase de donn´ees o`u ses distributions sont nottamment diff´erentes avec la distribution de la base dedonn´ees Dans les m´ethodes classiques de d´ecouverte des sous-groupes (subgroup discovery, en anglais),des groupes sp´eciaux sont d´etect´es en basant sur la distribution d’une seule attribute cibl´ee Par contre,EMM accepte des concepts cibl´ees plus complexes En plus, nous voulons chercher non seulement desmotifs exceptionnels mais aussi des interd´ependances entre eux Dans l’article [4], l’auteur a appliqu´e leframework EMM sur plusieurs variables cibl´ees discr`etes, les interd´ependances de cibles sont pr´esent´eespar le r´eseau bay´esien On a deux crit`eres pour choisir un sous-groupe :

— la distance entre sous-groupe et le jeu de donn´ee doit ˆetre grande

— un groupe qui ont la taille trop petit ou trop large n’est pas consid´er´e

Dans la partie suivante, nous repr´esentons quelques notions et la technique EMM avec multi variablescibl´ees discr`etes d’apr`es l’article [4]

EMM dans donn´ees avec multi variables cibl´ees discr`etes

Supposons que des tuples dans un jeu de donn´ees D sont d´ecrits sous forme {a1, , ak, t1, , tm},

k est le nombre d’attributes de description (k ≥ 1) et m est le nombre d’attributes de cible (ou mod`ele)

Trang 18

(m ≥ 1) Avec le tˆache SD (subgroup discovery) classique, on a seulement une attribut de cible t1 Parcontre, nous avons plusieurs attributs t1, , tmdans le tˆache EMM.

Par exemple, avec le jeu de donn´ees Juillet 2012, on a 30 jours et 30 matrices de corr´elation Pearson,ils sont correspondants avec 30 tuples.Dans chaque tuple, la partie de description est des valeurs decorr´elation entre capteurs, la partie de cible est trois valeurs discr`etes de jourtype : Ensoleill´ee, Vent´ee,Chaude Nous cherchons des jours o`u la distribution (le mod`ele) de jourtype est diff´erente avec le mod`ele

de jourtype dans le jeu de donn´ees

Un autre terme important, c’est la fonction Mesure de qualit´e ϕ : P → R qui assigne un motif, pattern

p `a une valeur r´eelle r Une valeur de mesure de qualit´e montre comment un sous-groupe est int´eressant,diff´erent avec des autres

Nous voudrions observer des interd´ependances entre des cibles et puis, utiliser ces interd´ependancespour valider des sous-groupes Des interd´ependances sont donc mod´elis´ees d’abord, nous appliquons ler´eseau bay´esien sur des variables cibl´ees Dans [4], L’auteur a choisit la technique Bayesian Dirichletequivalent uniform (BDeu) [9] Noter bien que pour un mˆeme jeu de donn´ees, des r´eseaux bay´esienspeuvent ˆetre diff´erents

Un r´eseau bay´esien est un graphe orient´e acyclique (DAG) qui pr´esente l’ensemble des variablesal´eatoires et l’interaction entre eux Nous construisons deux r´eseaux bay´esiens, un sur des cibles du jeu

de donn´ees et un autre sur des cibles des sous-groupes envisag´es Maintenant, nous voudrions comparer

le structure ces deux r´eseaux L’id´ee est de trouver des sous-groupes qui sont les plus diff´erents avec lejeu de donn´ees

Figure 2.8 – Exemple d’un r´eseau bay´esien [4]

D´efinition 1 (V-structure) Un V-structure dans un r´eseau bay´esien est un ensemble de trois sommets{x,y,z} o`u le r´eseau contient des arˆetes x → y et z → y mais il n’existe pas d’arˆet entre x et z

V-structure est immoralit´e, i.e., on n’a pas d’arˆete entre x et z (e.g r´eseau (c) au d´esus) Un graphepeut ˆetre moralis´e en ajoutant une arˆete entre des couples de sommet qui a un enfant commun mais n’apas une arˆete commune (e.g r´eseau (d) au d´esus)

Th´eorem 1 (Equivalent DAGs) Deux graphes orient´es acycliques (DAGs) sont ´equivalents si et ment si ils ont le mˆeme squelette et le mˆeme v-structure

seule-D´efinition 2 (Edit distance for Bayesian networks) Supposons BN1et BN2sont deux r´eseaux bay´esiensavec le mˆeme de nombre de sommet, d´enote par m D´enote l’ensemble d’arˆetes de ses squelettes par S1

Trang 19

et S2, l’ensemble de ses graphes moralis´es par M1 et M2 Supposons

l = [S1⊕ S2] ∪ [M1⊕ M2] o`u X ⊕ Y = (X ∪ Y ) − (X ∩ Y ) La distance entre BN1 et BN2 est d´efinit comme :

d(BN1, BN2) = 2l

m(m − 1)D’apr`es le formule, les distances entre des graphes dans le figure d’exemple ci-d´esus sont : d(a, b) =0etd(a, c) = d(a, d) = d(b, c) = d(b, d) = d(c, d) =13

D´efinition 3 (Edit distance based quality measure) D´enote le r´eseau bay´esien du jeu de donn´ee D par

BND, le r´eseau bay´esien d’un sous-groupe p par BNp La qualit´e de p est :

D´efinition 5 (Weighed Entropy and Edit Distance) L’auteur a propos´e un autre quality mesure qui estbas´e sur l’entropy d’un sous-groupe :

et dans graphe entier, sans regardant des arˆetes de voisins

La deuxi`eme approche Exceptional Model Mining (EMM) [8, 4] d´etecte des sous-groupes significatifs

et arnormaux dans une base de donn´ees Cette approche calcule d’abord le r´eseau bay´esien d’ensembleattributs cibl´ees dans le jeu de donn´ees et puis d´etecte des sous-groupes qui ont le r´eseau bay´esiendiff´erent Toutefois, EMM accepte seulement un attribut comme l’entr´ee Notre approche propos´ee peuttravailler avec un ensemble d’attributs de l’entr´ee

Les d´etails de notre approche est pr´esent´ee dans le chapitre 3, M´ethodes et solution propos´ee

Trang 20

2.2 S´ erie temporelle et mesures de distance

Une s´erie temporelle (time series) est une collection d’observations qui sont faites s´equentiellementdans le temps [11] Ce sont des valeurs que nous mesurons et ils changent avec le temps Par exemple, lapluviosit´e annuelle, la valeur de stock, la consommation d’´electricit´e mensuelle, la tension du sang Donc,

la s´erie temporelle apparaˆıt dans tous les domaines affaire, m´edicaux ou scientifique

La figure ci-dessous montre un exemple d’une s´erie temporelle, ce sont des observations de la temp´erature

du jour 1 Juillet 2012 qui sont enregistr´ees par un capteur de ce stage :

Figure 2.9 – Exemple d’une s´erie temporelle

Dans ce stage, nous avons environ 150 capteurs qui fonctionnent dans 30 jours de Juillet 2012 Chaquejour, chaque capteur r´ealise certains observations (de 600 `a 700 observations) Ici, le nombre d’observationdans un jour est fix´e mais le nombre d’observations entre deux jours peuvent ˆetre diff´erent `A partir decela, nous allons consid´erer une time s´erie par capteur et par jour afin que les s´eries temporellesdans un jour aient la mˆeme length Nous pouvons mesurer la distance entre des s´eries qui ont sa taillediff´erente mais ce n’est pas tr`es utile, nous montrerons ce probl`eme dans la section suivante Comme lasimilarit´e entre des s´eries temporelles est la cl´e de la plupart d’application de fouilles de donn´ees, nouspr´esentons ensuite deux m´ethodes pour mesurer la distance entre deux s´eries temporelles

Introduction

Le Dynamic Time Warping (DTW) est un technique pour mesurer la distance (ou la similarit´e) entres´eries temporelles Avec la m´ethode traditionnelle, on utilise la distance Euclidienne mais il produit peudes similarit´es Par contre, avec l’algorithme Dynamic Time Warping, on trouve des similarit´es plusintuitivement La figure ci-dessous montre l’id´ee diff´erente de deux techniques :

Observons l’image `a gauche, nous voyons que des distances Euclidienne alignent ixi`eme point d’untime series avec ixi`eme point d’autre time series et on ne re¸coit pas beaucoup des similarit´es Dans l’image

Ngày đăng: 27/10/2016, 15:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] H.Pabiou L. Gaillard, S. Giroux-Julien. Pr´ esentation du projet ressources : ´ evaluation exp´ erimental de composants PV int´ egr´ es au batiment en configuration double peau, 2014 Sách, tạp chí
Tiêu đề: Pr´ esentation du projet ressources : ´ evaluation exp´ erimental de composants PV int´ egr´ es au batiment en configuration double peau
Tác giả: H.Pabiou L. Gaillard, S. Giroux-Julien
Năm: 2014
[2] Francesco Bonchi, Aristides Gionis, Francesco Gullo, and Antti Ukkonen. Chromatic correlation clustering. In KDD, pages 1321–1329, 2012 Sách, tạp chí
Tiêu đề: Chromatic correlation clustering
Tác giả: Francesco Bonchi, Aristides Gionis, Francesco Gullo, Antti Ukkonen
Nhà XB: KDD
Năm: 2012
[3] Edo Liberty Francesco Bonchi, David Garcia-Soriano. Correlation clustering : from theory to prac- tice. In ACM SIGKDD, 2014 Sách, tạp chí
Tiêu đề: Correlation clustering : from theory to practice
Tác giả: Edo Liberty, Francesco Bonchi, David Garcia-Soriano
Nhà XB: ACM SIGKDD
Năm: 2014
[4] W. Duivesteijn, A. Knobbe, A. Feelders, and M. van Leeuwen. Subgroup discovery meets bayesian networks – an exceptional model mining approach. In Data Mining (ICDM), 2010 IEEE 10th International Conference on, pages 158–167, Dec 2010 Sách, tạp chí
Tiêu đề: Subgroup discovery meets bayesian networks – an exceptional model mining approach
Tác giả: W. Duivesteijn, A. Knobbe, A. Feelders, M. van Leeuwen
Nhà XB: IEEE 10th International Conference on Data Mining (ICDM)
Năm: 2010
[7] Li Wei Jessica Lin, Eamonn Keogh and Stefano Lonardi. Experiencing sax : a novel symbolic representation of time series. In DMKD Journal, 2007 Sách, tạp chí
Tiêu đề: Experiencing sax : a novel symbolic representation of time series
Tác giả: Li Wei Jessica Lin, Eamonn Keogh, Stefano Lonardi
Nhà XB: DMKD Journal
Năm: 2007
[8] Dennis Leman, Ad Feelders, and Arno Knobbe. Exceptional model mining. In Machine Learning and Knowledge Discovery in Databases, volume 5212, pages 1–16. Springer Berlin Heidelberg, 2008 Sách, tạp chí
Tiêu đề: Exceptional model mining
Tác giả: Dennis Leman, Ad Feelders, Arno Knobbe
Nhà XB: Springer Berlin Heidelberg
Năm: 2008
[9] David Heckerman, Dan Geiger, and DavidM. Chickering. Learning bayesian networks : The combi- nation of knowledge and statistical data. Machine Learning, 20(3) :197–243, 1995 Sách, tạp chí
Tiêu đề: Learning bayesian networks : The combination of knowledge and statistical data
Tác giả: David Heckerman, Dan Geiger, David M. Chickering
Nhà XB: Machine Learning
Năm: 1995
[10] Guo-Jun Qi, Charu Aggarwal, Qi Tian, Heng Ji, and Thomas Huang. Exploring context and content links in social media : A latent space method. IEEE Trans. Pattern Anal. Mach. Intell., 34(5) :850–862, May 2012 Sách, tạp chí
Tiêu đề: Exploring context and content links in social media : A latent space method
Tác giả: Guo-Jun Qi, Charu Aggarwal, Qi Tian, Heng Ji, Thomas Huang
Nhà XB: IEEE Trans. Pattern Anal. Mach. Intell.
Năm: 2012
[11] Eamonn Keogh. A Tutorial on Indexing and Mining Time Series Data. In The 2001 IEEE Interna- tional Conference on Data Mining. University of California - Riverside, 2001 Sách, tạp chí
Tiêu đề: A Tutorial on Indexing and Mining Time Series Data
Tác giả: Eamonn Keogh
Nhà XB: The 2001 IEEE International Conference on Data Mining
Năm: 2001
[12] Chotirat Ann Ratanamahatana and Eamonn Keogh. Everything you know about dynamic time warping is wrong. In SIAM International Conference on Data Mining, 2004 Sách, tạp chí
Tiêu đề: Everything you know about dynamic time warping is wrong
Tác giả: Chotirat Ann Ratanamahatana, Eamonn Keogh
Nhà XB: SIAM International Conference on Data Mining
Năm: 2004
[14] W. Lee, S. Stolfo, and K. Mok. Data mining framework for building intrusion detection models. In IEEE Symposium on Security and Privacy, 1999 Sách, tạp chí
Tiêu đề: Data mining framework for building intrusion detection models
Tác giả: W. Lee, S. Stolfo, K. Mok
Nhà XB: IEEE Symposium on Security and Privacy
Năm: 1999
[16] H. Mannila, H. Toivonen, and A. I. Verkamo. scovering frequent episodes in sequences. In ACM KDD Conference, 1995 Sách, tạp chí
Tiêu đề: Discovering frequent episodes in sequences
Tác giả: H. Mannila, H. Toivonen, A. I. Verkamo
Nhà XB: ACM KDD Conference
Năm: 1995
[13] W. Lee, S. Stolfo, and P. Chan. Learning patterns from unix execution traces for intrusion detection.In AAAI workshop on AI methods in Fraud and Risk Management, 1997 Khác
[15] S. Ma and J. Hellerstein. Mining partially periodic event patterns with unknown periods. In IEEE International Conference on Data Engineering, 2001 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w