1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Khai phá đồ thị thuộc tính linh hoạt phát hiện hiện tượng tuần hoàn và đột biến

56 320 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 5,07 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

R´ecemment, face `a l’h´et´erog´en´eit´e des sources de donn´ees continues comme par exemple des donn´ees temporelles venant de diff´erents types de capteurs e.g., temp´erature, humidit´

Trang 3

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que lesdonnées et les résultats qui y sont présentés sont exacts et n’ont jamais été publiésailleurs La source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được aicông bố trong bất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn

đã được chỉ rõ nguồn gốc

Signature de l’étudiant

DƯƠNG MINH ĐỨC

Trang 4

Table des mati` eres

Remerciements iii

1 Introduction 2

1.1 Contexte g´en´eral et probl´ematique 2

1.2 Motivation et objectifs 4

1.3 Approche propos´ee 5

1.4 Contributions 5

1.5 Organisation du m´emoire 6

2 Etat de l’art´ 7 2.1 Revue de la bibliographie 7

2.1.1 Chromatic correlation clustering 7

2.1.2 Exceptional Model Mining 12

2.1.3 Discussions 15

2.2 S´erie temporelle et mesures de distance 16

2.2.1 Introduction de s´erie temporelle 16

2.2.2 Dynamic Time Warping 17

2.2.3 Symbolic Aggregate approXimation 21

Trang 5

3 M´ethodes et solutions propos´ees 26 3.1 Graphe d’arˆetes attribu´ees et mod´elisation du probl`eme 26

3.2 Formulation du probl`eme 28

3.2.1 D´efinitions pr´ealables 28

3.2.2 Evaluation statistique d’une arˆ´ ete 29

3.2.3 Contexte particulier 29

3.2.4 Formulation la tˆache de fouille des motifs 29

3.3 Algorithme FastRabbit 31

4 Exp´erimentation et r´esultats 33 4.1 R´esultats quantitatifs 33

4.2 R´esultats qualitatifs et Comparaison avec EMM 35

4.2.1 R´esultats qualitatifs 35

4.2.2 Comparaison avec EMM 40

R´ef´erences 44

Trang 6

Plan-de ce stage La dur´ee 6 mois de travail avec eux n’est pas beaucoup mais

il m’a suffit d’avoir confiance `a continuer des ´etudes dans l’avenir

Je remercie ´egalement Albrecht Zimmermann ainsi que tous les membres

de l’´equipe DM2L pour des discussions et suggestions

Finalement, je remercie sinc`erement mes parents et mes camarades pourleurs soutiens pendant cette p´eriode

Trang 7

R´ esum´ e

Les graphes sont une abstraction math´ematique qui permet de repr´esenternaturellement de nombreux ph´enom`enes r´eels La fouille de graphes est undomaine majeur de la fouille de donn´ees De nombreux travaux se sontint´eress´es `a fournir des m´ethodes pour analyser des grands graphes en sefocalisant sur sa structure R´ecemment, face `a l’h´et´erog´en´eit´e des sources

de donn´ees continues comme par exemple des donn´ees temporelles venant de diff´erents types de capteurs (e.g., temp´erature, humidit´e, vent,position), des propositions visant `a travailler sur des structures de graphesplus sophistiqu´ees telles que les graphes d’arˆetes-attribu´ees sont apparues,apportant des ´eclairages nouveaux sur de telles donn´ees L’objectif de cestage de master est de concevoir une m´ethode originale d’extraction deconnaissances pertinentes dans des donn´ees temporelles et h´et´erog`enes quenous mod´eliserons sous forme de graphes d’arˆetes-attribu´ees Il s’agit donc

pro-de d´efinir une m´ethode g´en´erique permettant d’extraire des comportementsp´eriodiques dans des graphes d’arˆetes-attribu´ees Le mod`ele global ainsiconstruit pourra ˆetre ensuite utilis´e pour d´ecouvrir et expliquer des com-portements anormaux/exceptionnels dans les donn´ees Ce sujet de masterqui s’inscrit dans le domaine de l’extraction de connaissances dans desgrandes bases de donn´ees s’appuiera donc sur une mod´elisation sous forme

de graphes d’arˆete-attribu´es L’approche d´evelopp´ee devra faire avancerl’´etat de l’art sur la fouille de donn´ees sous contraintes, les m´ethodes d’ex-traction de motifs, la fouille de donn´ees interactive Des exp´erimentations

Trang 8

sur des donn´ees issues de centrales photovolta¨ıques seront men´ees.

Mots-cl´es : graphe d’arˆetes-attribu´ees, s´eries temporelles, FastRabbit,fouille des motifs locaux

Trang 9

Graph is a mathematical abstraction that can naturally represent manyreal phenomena The graph mining is a major field of data mining Manystudies have focused on providing methods to analyze large graphs by fo-cusing on its structure Recently, the heterogeneity of continuous sources

of data such as temporal data from different types of sensors (eg, rature, humidity, wind, position), proposals to work on more sophisticatedgraph structures such as edge-attributed graphs The aim of this masterintership is to design an original method of extraction knowledge in tempo-ral and heterogeneous data that we will model as edge-attributed graphs

tempe-It is therefore to define a generic method for extracting periodic behavior

in the edge-attributed graphs The global model thus constructed can then

be used to explore and explain abnormal/exceptional behavior in the data.This topic master who is in the field of knowledge discovery in large da-tabases will rely on modeling as edge-attributed graphs The developedapproach will advance the state of the art data mining with constraints,the methods of motif extraction, interactive data mining Experiments ondata from photovoltaic central will be conducted

Keywords : edge-attributed graphs, time series, FastRabbit, local tern mining

Trang 10

pat-Table des figures

1.1 Structure des capteurs photovolta¨ıques [1] 3

1.2 Des arbres devant la fa¸cade et sur l’horizon [1] 3

2.1 Un exemple de Chromatic correlation clustering [2] 8

2.2 Un exemple de r´eseau social [3] 8

2.3 Une partition de Chromatic Correlation Clustering [3] 9

2.4 Coˆut de Chromatic Correlation Clustering [3] 9

2.5 Un exemple de graphe d’arˆetes-´etiquett´es [2] 10

2.6 Un exemple de clustering par Chromatic pivot [3] 11

2.7 Un exemple de clustering par Lazy Chromatic pivot [3] 12

2.8 Exemple d’un r´eseau bay´esien [4] 14

2.9 Exemple d’une s´erie temporelle 17

2.10 La diff´erence entre distance Euclidienne et distance DTW [5] 18 2.11 Un grid DTW [6] 18

2.12 Condition monotone [5] 19

2.13 Condition de continuit´e [5] 19

2.14 Condition de fronti`ere [5] 20

2.15 Condition de Warping Window [5] 20

2.16 Condition d’angle [5] 20

2.17 Une s´equence de la taille 128 est r´eduite en 8 dimensions [7] 23 2.18 Le tableau statistique pour diviser la courbe Gaussienne [7] 23 2.19 Discretisation avec le nombre de symbol a = 3 [7] 24

Trang 11

2.20 Distance mesur´ee sur la repr´esentation symbolique [7] 24

2.21 Le tableau utilis´e par la fonction MINDIST [7] 25

4.1 Performance de l’algorithme FastRabbit 34

4.2 Nombre de motifs avant et apr`es post-traitement 34

4.3 Visualisation des positions de capteurs 36

4.4 Graphe d’arˆetes-attribu´ees avec contexte g´en´erale ? 37

4.5 Un motif d´etect´e par l’algorithme FastRabbit 37

4.6 Un motif d´etect´e par l’algorithme FastRabbit 38

4.7 Un graphe qui a seulement 2 sommets 38

4.8 Un motif avec le jour type ”Ensoleill´ee” 39

4.9 Un motif avec le jour type ”non Vent´ee” 39

4.10 R´eseau bay´esien du jeu de donn´ees Juillet 2012 40

4.11 Un groupe exceptionnel d´etect´e par EMM 40

4.12 Un autre r´esultat exceptionnel 41

4.13 Conditions pour d´eterminer un groupe 41

Trang 12

Chapitre 1

Introduction

1.1 Contexte g´ en´ eral et probl´ ematique

Les travaux de ce stage se sont d´eroul´es au sein de l’´equipe Data Mining

et Machine Learning (DM2L) du laboratoire informatique LIRIS UMR

5205, et sont en collaboration avec laboratoire solaire et thermique THIL UMR 5008 Les physiciens du CETHIL ont install´e un r´eseau de cap-teurs qui collecte des donn´ees temporelles et h´et´erog`enes L’installation dessondes (des capteurs) est effectu´ee sur face ouest du bˆatiment HBS-Technal,

CE-`

a Toulouse Nous avons environ 150 capteurs qui mesurent diff´erents types

de donn´ees (e.g., la temp´erature, l’humidit´e, le vent) L’´echantillon se pose de la s´equence de donn´ees r´ecup´er´ees en juillet 2012, le mois o`u on aconstat´e un ph´enom`ene d’ombrage vers 18h tous les jours

com-Des sondes de temp´erature sont install´ees sur les surfaces, la ture ”peignes” est utilis´ee pour les mesures de vitesse L’´etat des cap-teurs est bon vieillissement g´en´eral, beaucoup de toiles d’araign´ees (gˆenantpour la circulation d’air), certains des sondes d´econnect´ees ou partiellementd´ecoll´ees des surfaces

Trang 13

struc-Figure 1.1 – Structure des capteurs photovolta¨ıques [1]

L’objectif de cette installation est d’observer l’´evolution de r´eseau decapteurs afin de d´etecter des anomalies ou des comportements sp´eciaux

En plus, avec la croissance des arbres devant la fa¸cade et sur l’horizon,des impacts de cette ´ev´enement sur des capteurs seront consid´er´es car leph´enom`ene d’ombrage est une contrainte obligatoire avec des ´etudes detemp´erature et solaire dans des villes modernes

Figure 1.2 – Des arbres devant la fa¸cade et sur l’horizon [1]

Trang 14

1.2 Motivation et objectifs

Avec le d´ev´elopement des technoligies, les volumes de donn´ees collect´eespar les entreprises ou les laboratoires sont devenus ´enormes En observantdes ph´enom`enes sp´eciaux dans un jeu de donn´ees massive, les d´ecideurssont extrˆemement difficles d’avoirs une bonne vision des leurs donn´ees afind’en tirer des connaissances et b´en´efices R´ecemment, pour d´etecter desmotifs exceptionnelles, de nombreuses approches en basant la structure dugraphe sont propos´ees Le graphe est un puissant outil de mod´elisation,nous pouvons facilement observer des sous parties et des comportementsanormaux sur un graphe Dans le cadre de ce stage, nous proposons unem´ethode d’extraction des connaissances dans des donn´ees de capteurs quenous mod´eliserons sous forme de graphes arˆetes-attribu´ees L’approched´evelopp´ee va faire avancer l’´etat de l’art sur la fouille de donn´ees souscontraintes et la fouille de motifs locaux

R´ecemment, les syst`emes photovolta¨ıques int´egr´es au bˆatiments offrentune solution prometteuse pour une production locale d’´electricit´e propre

et naturelle Nous voudrions donc observer l’´evolution des capteurs enfin

de d´etecter des comportement anormaux L’objectif principal de ce travailest de proposer une technique de formulation des donn´ees de capteurs sousforme graphes d’arˆetes-attribu´ees et puis, d´evelopper un algorithme d’ex-traction des sous graphes (i.e sous groupes de capteurs) ”int´eressantes”,exceptionnelles Par example, des groupes de capteurs qui mal fonctionnent(en panne, ou en raison de jours sp´eciaux comme trop chaude ou tropvent´ee) L’id´ee de notre approche est introduite dans la section suivante

Trang 15

1.3 Approche propos´ ee

Notre approche a deux principales ´etapes : mod´elisation du probl`emesous forme graphe d’arˆetes-attribu´ees et r´ealisation d’un algorithme (quis’appelle FastRabbit) pour d´etecter des arˆetes diff´erents, anormaux souscontraints Pour la mod´elisation, nous consid´erons chaque capteur est unsommet du graphe, on a totalement 151 sommets Une arˆete pr´esente larelation de 2 capteurs dans un jours La distance entre 2 capteurs estconsid´er´ee comme un des attributs importants d’une arˆete, 2 mesures dedistance seront pr´esenter pr´ecis´ement dans le chapitre ”´Etat de l’art” Pourl’algorithme FastRabbit, il exploite des contraintes, v´erifie la diff´erenced’une arˆete dans un contexte, i.e un groupe des contraints, par le testestatistique χ2 et calcule quelques mesures de qualit´e d’un motif Nous de-vons consid´erer en mˆeme temps tous les contextes possible et tous les sous-graphes de chaque contexte, le temps et l’espace de recherche sont donc lemajor probl`eme de cette approche

Nous pr´esentons ensuite les principales contributions de ce m´emoire etterminons ce chapitre en ´enon¸cant le plan du m´emoire

1.4 Contributions

Les principales contributions de ce m´emoire sont :

— Des mesures de dissimilarit´e entre des capteurs Nous pr´esentonsdes donn´ees de capteurs sous forme s´erie temporelle et puis, me-surons la distance entre des s´eries temporelles par deux techniquesDistance Time Warping (DTW) et Symbolic Aggregate approXima-tion (SAX)

— Une formulation du probl`eme sous forme graphe d’arˆetes-attribu´ees.Nous d´efinissons la structure du graphe d’arˆetes-attribu´ees avec des

Trang 16

distances mesur´ees, des corr´elation de capteurs et des jours types(e.g., fort/faible ensoleillement, avec/sans vent) Quelques mesurespour ´evaluer la qualit´e d’une arˆete ainsi qu’un motif sont pr´esent´ees.

— Une d´eveloppement de l’algorithme FastRabbit qui extrait des tifs exceptionnels sous contraintes La sortie de cet algorithme estdes motifs au sens d’optimum de Pareto, i.e., ce sont des meilleursmotifs d’apr`es des mesures de qualit´e et les uns ne dominent pas lesautres

mo-1.5 Organisation du m´ emoire

La suite de ce m´emoire est organis´ee de la mani`ere suivante Le chapitre

2 effectue un tour d’horizon des approches existantes dans le domaine de cetravail Dans ce chapitre, nous pr´esentons aussi deux techniques DTW etSAX pour mesurer la distance entre des capteurs parce que des mesures dedistance sont la cl´e des m´ethodes de d´etection des diff´erences ou des ano-malies Dans le chapitre 3, nous repr´esentons le probl`eme sous forme graphed’arˆetes-attribu´ees Ensuite, nous introduisons des d´efinitions formelles etl’algorithme FastRabbit qui calcule des motifs d’optimum de Pareto dansgraphe d’arˆetes-attribu´ees Le chapitre 4 pr´esente des exp´erimentations et

le r´esultat au niveau quantitatif et qualitatif Nous concluons le m´emoire

et proposons quelques perspectives par le chapitre 5

Trang 17

de notre projet RESSOURCE-HBS sous forme s´erie temporelle et nouspr´esentons 2 techniques Dynamic Time Warping (DTW) et Symbolic Ag-gregate approXimation (SAX) pour mesurer la distance entre des s´eriestemporelles.

´etiquettes (couleurs) diff´erentes

Trang 18

Figure 2.1 – Un exemple de Chromatic correlation clustering [2]

La similarit´e d’objets x et y est pr´esent´ee par la fonction sim(x, y) Danscet article [2], la relation entre des objets est pr´esent´ee par une ´etiquette

l `a partir d’un ensemble fini des ´etiquettes possibles L Si 2 objets x et yn’ont aucune relation, nous d´enotons par l’´etiquette l0 ∈ L./

L’entr´ee de ce probl`eme est un graphe d’arˆetes-attribu´ees G = (V, E, L, l)o`u V est l’ensemble des sommets, E = {(x, y) ∈ V × V | l(x, y) 6= l0},chaque arˆetes a une ´etiquette dans L (on peut consid´erer une ´etiquettecomme une couleur)

L’objective de ce framework est de chercher des partitions dans grapheo`u des arˆetes ont mˆeme une couleur Observer l’exemple suivant :

Figure 2.2 – Un exemple de r´eseau social [3]

Chaque arˆete a une ´etiquette (couleur ou attribut) Nous voudrionsregrouper des sommets similaires et maximiser le nombre des arˆetes danschaque cluster le plus possible Nous avons un r´esultat comme suivant :

Trang 19

Figure 2.3 – Une partition de Chromatic Correlation Clustering [3]

Chaque solution a un coˆut, ce sont :

— des arˆetes qui ne sont pas dans un mˆeme cluster

— des arˆetes dans un mˆeme cluster mais la couleur de cette arˆete estdiff´erente avec la couleur de cluster, ou des arˆetes entre 2 sommetsqui n’ont aucune relation

Figure 2.4 – Coˆut de Chromatic Correlation Clustering [3]

Nous introduisons maintenant la formulation du probl`eme ChromaticCorrelation Clustering :

´

Etant donn´e un ensemble d’objets label V , un ensemble d’´etiquettes L,une ´etiquette sp´eciale l0 et une fonction d’´etiquette l : V × V → L ∪ {l0},chercher un clustering C : V → N et une fonction d’´etiquette de cluster

cl : C[V ] → L qui minimiser le coˆut :

cost(C, cl) = X

(x,y)∈V ×V C(x)=C(y)

(1 − I[l(x, y) = cl(C(x))]) + X

(x,y)∈V ×V C(x)=C(y)

I[l(x, y) 6= l0]

Trang 20

o`u I est la fonction indicatrice, par example :

et construit un cluster autour ce pivot Cet algorithme a quelques limites

et l’auteur a pr´esente ensuite une ´evolution qui s’appelle Lazy Chromaticpivot pour choisir mieux le pivot

Algorithme Chromatic pivot

Les principales ´etapes de cet algorithme sont :

— Par hasard, choisir une arˆete (u, v) de couleur c

— Faire un cluster avec u, v et des voisins w, (u,v,w) est triangle nochromatique (i.e., l(u, w) = l(v, w) = l(u, v))

mo-— Assigner couleur c

— Rep´eter les ´etapes pr´ec´edentes jusqu’`a les sommets du graphe sontvides

Observons l’exemple dans le figure suivant :

Figure 2.5 – Un exemple de graphe d’arˆetes-´etiquett´es [2]

Supposons que le premier pivot est (Y, S), le premier cluster est donc{Y, S, T } parce que l(Y, T ) = l(S, T ) = l(Y, S) = rouge Continuons avec

Trang 21

(X, Z) comme le pivot, nous obtenons un cluster {X, W, Z} avec la leur verte R´ep´eter ce processus, deux derniers cluster {U, V } et {R} sontobtenus.

cou-Figure 2.6 – Un exemple de clustering par Chromatic pivot [3]

Dans cet exemple, nous voyons ´evidemment que le plus grand clusterest le cluster vert {U, V, R, X, Y, Z, W } mais avec le fa¸con de s´election dupivot, nous obtenons seulement des petits clusters `A cause de cette limite,l’auteur pr´esente un autre algorithme, le pivot est choisit bas´e sur le degr´ed’un sommet

Lazy Chromatic pivot

Les ´etapes de cet algorithme sont similaires avec Chromatic pivot, nousavons 2 points diff´erents :

— S´election du pivot (x,y) : pas par hasard, le pivot est choisit par ledegr´e chromatique maximal

— Construction de cluster autour de (x,y) : non seulement des sommetstriangle monochromatique avec le pivot mais aussi des sommets ad-jacents et mˆeme couleur avec le pivot

Retournons l’exemple au dessus, maintenant nous cherchons un sommetqui a le degr´e d’un couleur le plus grand Le sommet X ou Y a mˆemedegr´e 5 de couleur verte Nous choisissons le sommet X Et puis, pourconstruire le pivot, nous cherchons un deuxi`eme sommet adjacent avec X

et son degr´e est le plus grand Le sommet Y est donc choisit, le pivotmaintenant est (X, Y ) Ensuite, les sommets {U, V, Z} sont ajout´es dans

Trang 22

le cluster parce que chaque sommet U, V, Z est triangle vert avec le pivot.

Et puis, l’algorithme ajoute aussi {R} et {W } dans le cluster car ils sonttriangle vert avec (X, Z) et (Y, V ) Nous obtenons un cluster verte, r´ep´etonsces ´etapes pr´ec´edentes, un autre cluster rouge est d´etect´e Le figure dessousmontre le r´esultat de Lazy Chromatic pivot :

Figure 2.7 – Un exemple de clustering par Lazy Chromatic pivot [3]

Introduction

Exceptional Model Mining (EMM) [8] est un framework pour trouverdes sous-groupes dans une base de donn´ees o`u ses distributions sont not-tamment diff´erentes avec la distribution de la base de donn´ees Dans lesm´ethodes classiques de d´ecouverte des sous-groupes (subgroup discovery,

en anglais), des groupes sp´eciaux sont d´etect´es en basant sur la tion d’une seule attribute cibl´ee Par contre, EMM accepte des conceptscibl´ees plus complexes En plus, nous voulons chercher non seulement desmotifs exceptionnels mais aussi des interd´ependances entre eux Dans l’ar-ticle [4], l’auteur a appliqu´e le framework EMM sur plusieurs variablescibl´ees discr`etes, les interd´ependances de cibles sont pr´esent´ees par le r´eseaubay´esien On a deux crit`eres pour choisir un sous-groupe :

distribu-— la distance entre sous-groupe et le jeu de donn´ee doit ˆetre grande

— un groupe qui ont la taille trop petit ou trop large n’est pas consid´er´e

Trang 23

Dans la partie suivante, nous repr´esentons quelques notions et la

tech-nique EMM avec multi variables cibl´ees discr`etes d’apr`es l’article [4]

EMM dans des donn´ees avec multi variables cibl´ees discr`etes

Supposons que des tuples dans un jeu de donn´ees D sont d´ecrits sous

forme {a1, , ak, t1, , tm}, k est le nombre d’attributes de description

(k ≥ 1) et m est le nombre d’attributes de cible (ou mod`ele) (m ≥ 1) Avec

le tˆache SD (subgroup discovery) classique, on a seulement un attribut de

cible t1 Par contre, nous avons plusieurs attributs t1, , tm dans le tˆache

EMM

Par exemple, avec le jeu de donn´ees Juillet 2012, on a 30 jours et 30

ma-trices de corr´elation Pearson, ils sont correspondants avec 30 tuples.Dans

chaque tuple, la partie de description est des valeurs de corr´elation entre

capteurs, la partie de cible est trois valeurs discr`etes de jourtype :

Enso-leill´ee, Vent´ee, Chaude Nous cherchons des jours o`u la distribution (le

mod`ele) de jourtype est diff´erente avec le mod`ele de jourtype dans le jeu

de donn´ees

Un autre terme important, c’est la fonction Mesure de qualit´e ϕ : P →

R qui assigne un motif, pattern p `a une valeur r´eelle r Une valeur de mesure

de qualit´e montre comment un sous-groupe est int´eressant, diff´erent avec

des autres

Nous voudrions observer des interd´ependances entre des cibles et puis,

utiliser ces interd´ependances pour valider des sous-groupes Des interd´ependancessont donc mod´elis´ees d’abord, nous appliquons le r´eseau bay´esien sur des

variables cibl´ees Dans [4], L’auteur a choisit la technique Bayesian

Diri-chlet equivalent uniform (BDeu) [9] Noter bien que pour un mˆeme jeu de

donn´ees, des r´eseaux bay´esiens peuvent ˆetre diff´erents

Un r´eseau bay´esien est un graphe orient´e acyclique (DAG) qui pr´esente

l’ensemble des variables al´eatoires et l’interaction entre eux Nous

Trang 24

construi-sons deux r´eseaux bay´esiens, un sur des cibles du jeu de donn´ees et un autresur des cibles des sous-groupes envisag´es Maintenant, nous voudrions com-parer le structure ces deux r´eseaux L’id´ee est de trouver des sous-groupesqui sont les plus diff´erents avec le jeu de donn´ees.

Figure 2.8 – Exemple d’un r´eseau bay´esien [4]

D´efinition 1 (V-structure) Un V-structure dans un r´eseau bay´esien est unensemble de trois sommets {x,y,z} o`u le r´eseau contient des arˆetes x → y

et z → y mais il n’existe pas d’arˆet entre x et z

V-structure est immoralit´e, i.e., on n’a pas d’arˆete entre x et z (e.g.r´eseau (c) au d´esus) Un graphe peut ˆetre moralis´e en ajoutant une arˆeteentre des couples de sommet qui a un enfant commun mais n’a pas unearˆete commune (e.g r´eseau (d) au d´esus)

Th´eorem 1 (Equivalent DAGs) Deux graphes orient´es acycliques (DAGs)sont ´equivalents si et seulement si ils ont le mˆeme squelette et le mˆeme v-structure

D´efinition 2 (Edit distance for Bayesian networks) Supposons BN1 et

BN2 sont deux r´eseaux bay´esiens avec le mˆeme de nombre de sommet,d´enote par m D´enote l’ensemble d’arˆetes de ses squelettes par S1 et S2,l’ensemble de ses graphes moralis´es par M1 et M2 Supposons

Trang 25

o`u X ⊕ Y = (X ∪ Y ) − (X ∩ Y ) La distance entre BN1 et BN2 estd´efinit comme :

d(BN1, BN2) = 2l

m(m − 1)D’apr`es le formule, les distances entre des graphes dans le figure d’exempleci-d´esus sont : d(a, b) = 0etd(a, c) = d(a, d) = d(b, c) = d(b, d) = d(c, d) =

D´efinition 5 (Weighed Entropy and Edit Distance) L’auteur a propos´eune autre quality mesure qui est bas´ee sur l’entropie d’un sous-groupe :

ϕweed(p) = pϕent(p).ϕed(p)

Nous avons vu 2 approches Chromatic Correlation Clustering [2] et ceptional Model Mining [8, 4] pour la tˆache d’extraction des sous-groupesdans une base de donn´ees

Trang 26

Ex-La premi`ere approche [2] et quelque travail comme [10] utilisent des formations d’arˆete (´etiquette, attribut ou poids) pour chercher des arˆetessimilaires et puis, utilisent ces arˆetes pour regrouper des sommets, ex-traire sous-graphes dans graphe d’arˆetes-attribu´ees Contrairement, notreapproche (sera pr´esenter dans le chapitre 3) ´evalue l’int´erˆet d’une arˆete

in-en calculant le poids relatif d’une arˆete dans sous-graphe et dans grapheentier, sans regardant des arˆetes de voisins

La deuxi`eme approche Exceptional Model Mining (EMM) [8, 4] d´etectedes sous-groupes significatifs et anormaux dans une base de donn´ees Cetteapproche calcule d’abord le r´eseau bay´esien d’ensemble attributs cibl´esdans le jeu de donn´ees et puis d´etecte des sous-groupes qui ont le r´eseaubay´esien diff´erent Toutefois, EMM accepte seulement un attribut commel’entr´ee Notre approche propos´ee peut travailler avec un ensemble d’attri-buts de l’entr´ee

Les d´etails de notre approche est pr´esent´ee dans le chapitre 3, M´ethodes

et solution propos´ee

2.2 S´ erie temporelle et mesures de distance

Une s´erie temporelle (time series) est une collection d’observations quisont faites s´equentiellement dans le temps [11] Ce sont des valeurs quenous mesurons et ils changent avec le temps Par exemple, la pluviosit´eannuelle, la valeur de stock, la consommation d’´electricit´e mensuelle, latension du sang Donc, la s´erie temporelle apparaˆıt dans tous les domainesaffaire, m´edicaux ou scientifique

La figure ci-dessous montre un exemple d’une s´erie temporelle, ce sontdes observations de la temp´erature du jour 1 Juillet 2012 qui sont enre-

Trang 27

gistr´ees par un capteur de ce stage :

Figure 2.9 – Exemple d’une s´erie temporelle

Dans ce stage, nous avons environ 150 capteurs qui fonctionnent dans

30 jours de Juillet 2012 Chaque jour, chaque capteur r´ealise certains servations (de 600 `a 700 observations) Ici, le nombre d’observation dans

ob-un jour est fix´e mais le nombre d’observations entre deux jours peuvent

ˆetre diff´erent `A partir de cela, nous allons consid´erer une time s´eriepar capteur et par jour afin que les s´eries temporelles dans un jouraient la mˆeme length Nous pouvons mesurer la distance entre des s´eriesqui ont sa taille diff´erente mais ce n’est pas tr`es utile, nous montrerons

ce probl`eme dans la section suivante Comme la similarit´e entre des s´eriestemporelles est la cl´e de la plupart d’application de fouilles de donn´ees,nous pr´esentons ensuite deux m´ethodes pour mesurer la distance entredeux s´eries temporelles

Introduction

Le Dynamic Time Warping (DTW) est un technique pour mesurer ladistance (ou la similarit´e) entre s´eries temporelles Avec la m´ethode tradi-tionnelle, on utilise la distance Euclidienne mais il produit peu des simila-rit´es Par contre, avec l’algorithme Dynamic Time Warping, on trouve dessimilarit´es plus intuitivement La figure ci-dessous montre l’id´ee diff´erente

Trang 28

l’algo-Pour calculer la distance DTW, nous pouvons mettre deux s´equencesd’observations (deux s´erie temporelle) sur un grid avec la s´erie template

en vertical et la s´erie d’entr´e en horizontal

Figure 2.11 – Un grid DTW [6]

Les deux s´equences commencent `a la position bottom-left sur le grid.Dans chaque cellule, nous calculons la distance entre deux ´el´ements corres-

Ngày đăng: 13/01/2017, 22:11

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] C. Menezo H. Pabiou L. Gaillard, S. Giroux-Julien. Experimental evaluation of a naturally ventilated pv double-skin building envelope in real operating conditions, 2014 Sách, tạp chí
Tiêu đề: Experimental evaluation of a naturally ventilated pv double-skin building envelope in real operating conditions
Tác giả: C. Menezo, H. Pabiou, L. Gaillard, S. Giroux-Julien
Năm: 2014
[2] Francesco Bonchi, Aristides Gionis, Francesco Gullo, and Antti Uk- konen. Chromatic correlation clustering. In KDD, pages 1321–1329, 2012 Sách, tạp chí
Tiêu đề: Chromatic correlation clustering
Tác giả: Francesco Bonchi, Aristides Gionis, Francesco Gullo, Antti Ukkonen
Nhà XB: KDD
Năm: 2012
[3] Edo Liberty Francesco Bonchi, David Garcia-Soriano. Correlation clustering : from theory to practice. In ACM SIGKDD, 2014 Sách, tạp chí
Tiêu đề: Correlation clustering : from theory to practice
Tác giả: Edo Liberty, Francesco Bonchi, David Garcia-Soriano
Nhà XB: ACM SIGKDD
Năm: 2014
[4] W. Duivesteijn, A. Knobbe, A. Feelders, and M. van Leeuwen. Sub- group discovery meets bayesian networks – an exceptional model mi- ning approach. In Data Mining (ICDM), 2010 IEEE 10th Internatio- nal Conference on, pages 158–167, Dec 2010 Sách, tạp chí
Tiêu đề: Sub-group discovery meets bayesian networks – an exceptional model mining approach
Tác giả: W. Duivesteijn, A. Knobbe, A. Feelders, M. van Leeuwen
Nhà XB: IEEE 10th International Conference on Data Mining
Năm: 2010
[7] Li Wei Jessica Lin, Eamonn Keogh and Stefano Lonardi. Experiencing sax : a novel symbolic representation of time series. In DMKD Journal, 2007 Sách, tạp chí
Tiêu đề: Experiencing sax : a novel symbolic representation of time series
Tác giả: Li Wei Jessica Lin, Eamonn Keogh, Stefano Lonardi
Nhà XB: DMKD Journal
Năm: 2007
[9] David Heckerman, Dan Geiger, and DavidM. Chickering. Learning bayesian networks : The combination of knowledge and statistical data. Machine Learning, 20(3) :197–243, 1995 Sách, tạp chí
Tiêu đề: Learning bayesian networks : The combination of knowledge and statistical data
Tác giả: David Heckerman, Dan Geiger, David M. Chickering
Nhà XB: Machine Learning
Năm: 1995
[12] Chotirat Ann Ratanamahatana and Eamonn Keogh. Everything you know about dynamic time warping is wrong. In SIAM International Conference on Data Mining, 2004 Sách, tạp chí
Tiêu đề: Everything you know about dynamic time warping is wrong
Tác giả: Chotirat Ann Ratanamahatana, Eamonn Keogh
Nhà XB: SIAM International Conference on Data Mining
Năm: 2004
[8] Dennis Leman, Ad Feelders, and Arno Knobbe. Exceptional model mining. In Machine Learning and Knowledge Discovery in Databases, volume 5212, pages 1–16. Springer Berlin Heidelberg, 2008 Khác
[10] Guo-Jun Qi, Charu Aggarwal, Qi Tian, Heng Ji, and Thomas Huang.Exploring context and content links in social media : A latent space method. IEEE Trans. Pattern Anal. Mach. Intell., 34(5) :850–862, May 2012 Khác
[11] Eamonn Keogh. A Tutorial on Indexing and Mining Time Series Data.In The 2001 IEEE International Conference on Data Mining. Univer- sity of California - Riverside, 2001 Khác
[13] W. Lee, S. Stolfo, and P. Chan. Learning patterns from unix execution traces for intrusion detection. In AAAI workshop on AI methods in Fraud and Risk Management, 1997 Khác
[14] W. Lee, S. Stolfo, and K. Mok. Data mining framework for building intrusion detection models. In IEEE Symposium on Security and Pri- vacy, 1999 Khác
[15] S. Ma and J. Hellerstein. Mining partially periodic event patterns with unknown periods. In IEEE International Conference on Data Engineering, 2001 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w