Implémentation d''''''''une copule mutilvariée: Luận văn ThS. Công nghệ thông tin

qx, qy sont des fonctions 1.1.4 Cumulative distribution networks Cumulative distribution network CDN est un modèle statistique proposé dans la thèse de Huang [7].. Un Cumulative distr

Trang 1

R´ealis´e par :

PHAM Van Trung

Superviseur :Gildas MAZO

Projet MistisCentre de recherche

29 novembre 2013

Trang 2

Je tiens également à remercier les membres de l’équipe MISTIS Grâce à leur soutien,j’ai pu m’intégrer facilement à l’équipe.

Je voudrais adresser mes sinc`eres remerciements aux professeurs de l’IFI Leurs coursm’ont permis d’approfondir mes connaissances sur des langages de programmation telsque R et C++

Van qui m’ont supporté ces six mois de stage Leurs encouragements m’ont permis d’êtretoujours motivé et d’avoir pu remplir mon rôle

i

Trang 3

L’objectif de ce mémoire de fin d’études est d’implémenter une copule multivariée sociée à un Cumulative Distribution Network (CDN) CDN est une fonction de répartitiond’un grand nombre de variables qui se factorise en produit de fonctions de répartitionbivariées Ce modèle permet de décrire la dépendance entre plusieurs variables aléatoiresvia un graphe où les arrêtes représentent les fonctions reliant les variables La fonction devraisemblance est calculée grâce à un algorithme de message-passing L’inférence dans

as-le CDN est alors mise en oeuvre via la maximisation de la vraisemblance en utilisantune m´ethode d’optimisation

Toutefois, l’implémentation délicate de ce modèle peut freiner l’utilisateur dans la tique Nous nous proposons de l’implémenter et de le rendre disponible sous la formed’un paquet R R est un logiciel de statistique très répandu et de plus en plus utilisé.Avec ce paquet, il est très facile de construire le graphe et de choisir des familles decopule paramétriques ainsi que de modéliser des données avec un CDN Il permet aussi

pra-de calculer la vraisemblance selon l’algorithme pra-de message-passing et pra-de faire l’inf´erence

En outre, la vitesse de l’algorithme est augmentée grâce à l’écriture d’une partie du code

en C++

Mots-clés : Cumulative Distribution Network, copule, vraisemblance, fonction de répartitionmultivariée

ii

Trang 4

The goal of the thesis aims at implementing a multivariate copula associated with aCumulative Distribution Network (CDN) CDN is a high-dimensional cumulative dis-tribution function (CDF) defined as a product of bivariate CDFs This model accountsfor dependencies between random variables via a graph where the edges represent thefunctions linking the variables The likelihood function is computed thanks to a message-passing algorithm The inference in CDN is performed by optimizing the likelihoodfunction

However, the implementation of this model is not available for users in practice Hence,

we propose to implement it and make it available as an R package R is a statisticalsoftware widely spread in pratice Using this package, the users can build easily thegraph, choose parametric copula families and generate data with a CDN It allows tocompute the likelihood function according to a message-passing algorithm and performinference in CDN Moreover, the speed of the algorithm has been increased by integratingC++ codes

Keywords : Cumulative Distribution Network, copula, likelihood, multivariate bution function

distri-iii

Trang 5

Remerciements i

1.1 Statistique th´eorique 3

1.1.1 Mod`ele statistique 3

1.1.2 Estimation des param`etres d’un mod`ele statistique 4

1.1.3 Copules 5

1.1.4 Cumulative distribution networks 6

1.1.5 La copule associ´ee au CDN 8

1.2 Environnement de programmation 9

1.2.1 R 9

1.2.2 Structure d’un paquet R 9

1.2.3 Rcpp - Interface entre R et C++ 10

2 Algorithme de gradient-derivative-product 11 2.1 Initialisation de l’algorithme 11

2.2 Propagation des messages 12

2.3 Calcul de la fonction de vraisemblance et son gradient 13

3 Impl´ementation 17 3.1 Structure du paquet 17

3.1.1 Code source 18

3.1.2 Documentation 18

3.1.3 Tests et tutoriels 19

3.2 Fonctions du paquet 19

3.2.1 Cr´eation d’un objet CDN 20

3.2.2 Impl´ementation de l’algorithme de message-passing 22

3.2.3 Estimation des param`etres 26

iv

Trang 6

Contents v

4.1 Pr´ecision num´erique de l’algorithme de message-passing 28

4.2 Simulation des donn´ees 30

4.3 Temps d’ex´ecution 33

4.4 Application avec un jeu de donn´ees r´eelles 36

5 Conclusions et perspectives 40 Bibliographie 41 A mpAlgo 43 A.1 Initialisation de l’algorithme de message-passing 43

A.2 Propagation des messages 44

A.3 Calcul de la densit´e et du gradient 47

B cdnOptim 48 B.1 Calcul de la fonction de vraisemblance et son gradient 48

B.2 M´ethode de Broyden-Fletcher-Goldfarb-Shanno bfgs 49

B.3 Limited-memory BFGS with bounds lbfgsb 50

C rCdn, pCdn et dCdn 51 C.1 Génération aléatoire des observations rCdn 51

C.2 Calcul de la fonction de r´epartition pCdn 52

C.3 Calcul de la densit´e de plusieurs observations dCdn 52

Trang 7

1.1 Exemple d’un CDN `a trois variables 7

1.2 Exemple d’un CDN `a sept variables 8

2.1 Exemple d’un arbre de 5 variables 15

2.2 Propagation des messages dans le CDN 16

3.1 Composants principaux du paquet CDN 17

3.2 Code source du paquet CDN 18

3.3 Documentation du paquet 19

3.4 Tests et d´emo 19

3.5 Diagramme des fonctions du paquet 20

3.6 Cr´eation d’un objet CDN 21

3.7 Exemple de transformation d’un graphe des variables en graphe CDN 22

3.8 Exemple de simplification du graphe 23

3.9 Algorithme de message-passing 23

3.10 Calculation de la fonction de r´epartition normale et ses gradients 24

3.11 Appel des libraries/fonctions dans C/C++ 25

3.12 Comparaison entre cdnOptim et optim 27

4.0 Pr´ecision de l’algorithme de message passing avec 5 mod`eles existants 31

4.1 Pr´ecision de l’algorithme de message passing avec le mod`ele normal 32

vi

Trang 8

List of Tables vii

millise-condes) 354.3 Plan de 9 sites aux États Unis où les précipitations sont utilisées pournotre modèle 384.4 Résultats de 6 modèles mutivariés 39

Trang 9

3.1 Matrice binaire extraite du graphe CDN 22

4.1 Probabilité de l’événement (X1 ≤ x01, X2≤ x02, X3 ≤ x03, X4 ≤ x04, X5 ≤

x05) dans les données simulées et F (x0) = F (x01, x02, x03, x04, x05) 324.2 Résultats de l’estimation des paramètres 34

(en secondes) 36

viii

Trang 10

Contexte du stage

Les copules [1, 2] jouent un rôle de plus en plus important dans la construction dedistributions en grande dimension et la description de la dépendance entre les variablesaléatoires L’une des difficultés de la construction d’une copule mutilvariée réside dansl’inférence de modèles paramétriques Une copule multivariée associée à un CumulativeDistribution Network (CDN) [3] a été proposée L’intérêt de ce modèle est la capacité

de faire l’inférence via un algorithme de message-pasing [4] L’estimation des paramètresest alors mise en oeuvre par la maximisation de la vraisemblance Toutefois, le code pourutiliser le CDN ainsi que l’algorithme de message-passing n’est pas disponible Cela peutfreiner l’utilisateur dans la pratique C’est la raison pour laquelle nous nous proposonsd’implémenter cet algorithme dans mon stage

Objectif de stage

L’objectif de mon stage est d’implémenter l’inférence de cette copule multivariée et de

la rendre disponible sous la forme d’un paquet R [5] Ce paquet qui s’appelle CDN estdisponible pour l’utilisation Je l’ai pr´esent´e dans une communication orale et un poster

en juin 2013 à Lyon lors des deuxièmes rencontres R [6] Je prévois de le soumettresur le dépôt des paquets R (http://cran.r-project.org/) en décembre 2013 après lapublication de [3]

Environnement de stage

cadre du projet MISTIS sous la direction de Mazo Gildas Cette équipe a pour domained’expertise la modélisation de phénomènes aléatoires complexes en grande dimension

1

Trang 11

et les statistiques des valeurs extrêmes, avec pour orientations applicatives privilégiées

le traitement d’images et de données spatiales et dans les domaines biomédicaux etindustriels Mon stage s’inscrit à l’interface des statistiques des valeurs extrêmes et de

la mod´elisation statistique en grande dimension

Ce m´emoire se compose des cinq chapitres suivants :

statistiques n´ecessaires telles que le mod`ele statistique, la copule, le Cumulative

C++, est aussi expliqu´e

d´etailler un algorithme efficace qui permet de calculer la fonction de vraisemblancedans le Cumulative Distribution Network

– Chapitre 4 Expérimentations Dans ce chapitre, je vais faire quelques expérimentationspour démontrer la précision des résultats obtenus par le paquet CDN, ainsi que sesavantages Les applications sur les données simulées et réelles sont aussi montrées

contri-butions et les perspectives qui d´ecoulent de mon paquet

Trang 12

Chapitre 1

Introduction

Ce chapitre sert à introduire quelques notions nécessaires sur la statistique théorique

et computationnelle Cela permet au lecteur de suivre facilement le rapport Dans lapremière partie, ce sont des concepts principaux concernant les modèles statistiques,les copules, le Cumulative distribution networks (CDN) [7], l’inférence et l’optimisation.Dans la deuxième, R [5] est présenté comme un langage de programmation afin dedévelopper des outils efficaces pour le traitement des données et l’analyse statistique

1.1.1 Mod`ele statistique

Un modèle statistique se compose de deux ingrédients : une variable aléatoire X et unefonction de répartition F (x) Cette fonction est définie via la probabilité d’un événementassocié à X comme suit :

Trang 13

Dans le cas d’un vecteur aléatoires X = (X1, X2, , Xk), la fonction de répartitionmultivariée est donnée par :

f (u1, , ui−1, xi, ui+1, uk)du1 dui−1dui+1 duk (1.7)

Dans le cas de plusieurs variables, par exemple X1 et X2, la marge est donn´ee par :

1.1.2 Estimation des param`etres d’un mod`ele statistique

Soit X1, X2, , Xn (indépendantes et identiquement distribuées) un échantillon d’unepopulation dont la densité de probabilité est f (.|θ) où θ est un vecteur de paramètresinconnus de la population L’objectif de l’estimation est de trouver la vraie valeur duparamètre θ à partir de cet échantillon La méthode du maximum de vraisemblance est

la plus efficace asymptotiquement [8] La vraisemblance est donn´ee par :

Trang 14

Chapitre 1 Introduction 5

∇θ(−L(θ)) L’algorithme s’arrête quand la valeur du gradient est suffisamment petite.Basée sur l’idée de la méthode de Newton, les méthodes Broyden-Fletcher-Goldfarb-Shanno (BFGS) et Limited-memory BFGS (L-BFGS) [9] ont été développées L’avan-tage de ces méthodes est leur implémentation pratique C’est la raison pour laquelle jeles ai utilisées dans mon implémetation

1.1.3 Copules

Les copules [1, 2] ont pour objectif de mod´eliser la d´ependance de plusieurs variables

r´epartition

Définition 1.1.3.1 Soit F une fonction de répartition à n dimensions, x = (x1, , xn) ∈

Rn (n ≥ 2) Sa marge Fi (1 ≤ i ≤ n) est obtenue quand x1, x2, , xi−1, xi+1, , xntendent vers +∞ :

Fi(xi) = lim

Définition 1.1.3.2 Une copule C : [0, 1]n→ [0, 1] est une fonction de répartition dontles marges sont uniformes Soit le vecteur u = (u1, , un) ∈ [0, 1]n, les marges de lacopule C sont données par :

Ck(uk) = lim

u\uk→1 C(u1, , un) = uk ∀k = 1, , n (1.12)

Théorème 1.1.3.1 (Sklar [1]) Soit H une fonction de répartition dont les marges F

et G sont continues Il existe une unique copule C de sorte que ∀x, y ∈ R :

i1/θ

Trang 15

θ2q(x)2+ θ2q(y)2− 2θq(x)q(y)

2θ2− 2

!dxdy, θ ∈ (−1, 1);

(1.19)o`u θ est un param`etre inconnu

– (1.14) est la famille de copule de Gumbel

– (1.15) est la famille de copule de Farlie-Gumbel-Morgenstern (FGM)

– (1.16) est la famille de copule de Frank

– (1.17) est la famille de copule de Ali-Mikhail-Haq (AMH)

– (1.18) est la famille de copule de Joe

– (1.19) est la famille de copule de Gauss (copule normale) q(x), q(y) sont des fonctions

1.1.4 Cumulative distribution networks

Cumulative distribution network (CDN) est un modèle statistique proposé dans la thèse

de Huang [7] Dans ce modèle, la fonction de répartition s’écrit comme un produit

de fonction de répartition bivariées On lui associe un graphe pour représenter lesdépendances

Définition 1.4.1 Un graphe biparti G = (V, S, E) est construit à partir de trois sembles : deux ensembles de sommets V et S, un ensemble d’arêtes E Les arrêtes dugraphe ont une extrémité dans V et l’autre dans S

en-D´efinition 1.4.2 Un Cumulative distribution network (CDN) est un mod`ele statistique

variable et S indique un ensemble de noeuds de fonction, E se compose des arêtes entredes noeuds de variable et de fonctions Chaque fonction est représentée par φs(xs) :

R|N (s)| → [0, 1] o`u s ∈ S, N (s) = {s1, , sd} est l’ensemble de voisins de la fonction s

et xs = xN (s) = (xs1, , xsd) où d = |N (s)| est le nombre de voisins de s Toutes lesfonctions φsdoivent satisfaire les propriétés caractéristiques des fonctions de répartition

La fonction de r´epartition sur toutes les variables dans le CDN s’´ecrit :

s∈S

Trang 16

Dans notre cas, nous consid´erons un CDN avec les contraintes suivantes :

1 Le graphe ne contient aucun cycle Autrement dit, c’est un arbre de n variables et

n - 1 fonctions

2 Les feuilles sont des noeuds de variables

3 Chaque noeud de fonction n’est relié qu’à deux noeuds de variable En effet, lesfonctions de répartition φs sont bivariées Cela veut dire que φs(xs) = φs(xα, xβ)où α, β sont les variables voisines de la fonction s : N (s) = {α, β}

cercles montrent des noeuds de variable et les diamants indiquent les noeuds de fonction.Alors, la fonction de r´epartition sur trois variables X1, X2et X3 dans le CDN est donn´eepar :

F (x1, x2, x3) = φ1(x1, x2)φ2(x2, x3) (1.26)

Figure 1.1: Exemple d’un CDN ` a trois variables.

fonction de r´epartition sur sept variables X1, X2, X3, X4, X5, X6, X7 dans le CDN

Trang 17

Considérons φs comme une fonction paramétrique, on a : φs = φs(xα, xβ; θs) où θs est

un param`etre inconnu, α, β sont les voisins de s Nous prenons la fonction φsen fonctiond’une copule :

φs(xα, xβ; θs) = Cs(x1/nα

où Cs est une copule à choisir ; nα et nβ sont respectivement les nombres de voisins desvariables α et β Comme Cs est une copule, xα, xβ ∈ [0, 1] La fonction de répartitions’écrit alors :

Pour la simulation des donn´ees de la fonction de r´epartition C(x1, , xd|θ), on utilise

le lemme de Liebscher [11] :

Trang 18

o, α = 1, , d.

La fonction de r´epartition du vecteur (U1, U2, , Ud) est C(x1, , xd|θ)

1.2.1 R

le traitement des données et l’analyse statistique Il est développé par GNU R est

de plus en plus important et connu grâce à ses avantages Premièrement, R est opensource C’est libre à utiliser et à développer Deuxièmement, il permet de faire de la

disponible sur plusieurs systèmes d’opération populaires comme Unix, Windows et cOS Quatrièmement, R est associé à plusieurs langages de programmation tels queC/C++, Fortan En effet, il permet d’appeler directement le code dans C/C++, For-tan Dernièrement, R s’étend facilement via des paquets écrits par les développeurs Enoutre, il existe le dépôt CRAN pourque les développeurs puissent déposer leurs paquets

Ma-1.2.2 Structure d’un paquet R

Normalement, un paquet R se compose des parties suivantes [12] :

– Un fichier Description qui d´ecrit le paquet, l’auteur et la licence

– Le r´epertoire man/ contient les fichiers de la documentation

– Le r´epertoire R/ est le lieu pour d´eposer le code source en R

– Le r´epertoire data/ fourni les donn´ees disponibles dans le paquet

– Le r´epertoire src/ contient le code source en C/C++, Fortan

– Le répertoire tests/ se compose des fichiers R qui sert à vérifier les fonctions fourniespar le paquet

– Le r´epertoire exec/ comprend les fichiers ex´ecutables (en Java ou Perl)

– Le r´epertoire vignettes/ donne quelques exemples et renseignements pour l’utilisation

du paquet

Trang 19

et la modification des objets de R en C++ Il peut aussi faciliter l’échange des donnéesentre R et C++ et la gestion des erreurs En outre, avec Rcpp, le code peut devenirplus propre et avec moins de bugs C’est la raison pour laquelle Rcpp est utilisé pourconstruire notre paquet.

Trang 20

séparer la dérivation multiple en une chaˆıne des dérivées locales sous forme de messages.

En effet, on constate qu’une variable n’apparait que dans ses fonctions de voisin Au lieu

de dériver la fonction de repartition par rapport à toutes les variables, il est nécessaire decalculer les dérivées locales et les mettre sous forme des messages Grâce à un processus

de propagation des messages, la fonction de vraisemblance est finalement obtenue :

Cet algorithme GDP se compose des trois ´etapes principales suivantes :

1 Initialisation de l’algorithme,

2 Propagation des messages, et ,

3 Calcul de la fonction de vraisemblance et son gradient

Les messages entre des noeuds de variable et de fonction sont repr´esent´es par les fonctions

µs→α, µα→s, λs→α, λα→s o`u s est un noeud de fonction et α est un noeud de variable s

11

Trang 21

et α sont deux noeuds adjacents : α ∈ N (s), s ∈ N (α) µs→α et λs→αsont les messages

`

messages à partir des noeuds de variable α aux noeuds de fonction s D’abord, toutesles fonctions de message et leur gradient sont initialisés à zéro sauf µα→s où α est unefeuille du graphe :

des variables aux fonctions et l’autre `a partir des fonctions aux variables

• Les messages à partir des noeuds intérieurs de variable α aux noeuds de fonction devoisin s ∈ N (α) Les fonctions de message sont mises à jour comme suit :

Trang 22

Chapitre 2 Algorithme de gradient-derivative-product 13

• Messages `a partir des noeuds de fonction s aux noeuds de variable de voisin α ∈ N (s).Les fonctions de message sont mises `a jour comme suit :

La valeur de ces fonctions est fix´ee et ne change pas dans les it´erations suivantes Dans

la deuxième itération, les messages entrant et sortant aux variables à la hauteur de 2sont mis à jour et fixés Semblablement, à la k -ième itération, les messages entrant etsortant aux variables à la hauteur de k sont calculés Quand les fonctions de messageentrant la racine sont calculées et fixées, l’algorithme s’arrête alors

Enfin, il faut calculer la d´eriv´ee f (x|θ) = ∂x α

hQ

Pour trouver la racine α, on va tout d’abord définir quelques notions et des propriétés

de l’arbre qui sont d´etaill´ees dans [14,15] Soit G un arbre :

Trang 23

• Si G a n arˆetes, le nombre de sommets de G est alors n + 1.

• La distance entre deux noeuds de G est le nombre des arˆetes dans le plus court chemin

entre eux

• L’excentricit´e d’un sommet est sa distance maximale `a tous les autres sommets de G

• Le centre de G est un sommet dont l’excentricit´e est minimale En outre, le centre du

graphe n’est pas unique En effet, il existe un ensemble des centres

• Les centres du graphe se trouvent au milieu du plus long chemin de G L’excentricit´e

de centre est donc égale à la moitié de la longueur du plus long chemin

On remarque que la dérivée f (x|θ) = ∂x[F (x|θ)] et son gradient ∇θf (x|θ) ne dépendent

pas de la racine choisie Les r´esultats ne changent pas si on choisit autre racine

Cepen-dant, le choix de la racine permet de d´eterminer le nombre d’it´erations de l’algorithme

En effet, en observant la propagation des messages, on trouve qu’il s’agit de n it´erations

pour obtenir tous les messages entrant à la racine où n est l’excentricité de la racine

C’est la raison pour laquelle on choisit un centre du graphe de variables comme la racine

puisque l’excentricit´e du centre est minimale Le nombre d’it´erations de l’algorithme est

alors d´efini comme l’excentricit´e du centre Il faut donc trouver un plus long chemin du

graphe des variables Le noeud au milieu de ce chemin est choisi comme la racine du

graphe CDN

Exemple 2.3.1 Sur la figure 2.1, c’est un arbre de cinq variables et le graphe CDN

correspondant

• La distance entre le sommet X1 et X4 est 3 puisque le plus court chemin entre ces

deux sommets est X1 - X2 - X3 - X4

• Les distances entre le sommet X3 et les autres {X1, X2, X4, X5} sont {2, 1, 1, 1}

L’excentricit´e de X3 est alors 2

• Les excentricit´es des sommets {X1, X2, X3, X4, X5} sont {3, 2, 2, 3, 3} Le centre du

graphe de variables est donc {X2, X3}

• Dans le graphe de variable, il y a deux plus longs chemins : X1 - X2 - X3 - X4 et X1

- X2 - X3 - X5 Deux centres {X2, X3} se trouvent au milieu des plus longs chemins

• La racine du graphe CDN est un des deux centres {X2, X3}

graphe CDN se compose de 6 variables (X1,X2,X3,X4,X5,X6) et 5 fonctions (Φ1, Φ2, Φ3, Φ4, Φ5)

Le plus long chemin est (X1 - X2 - X3 - X5 - X6) La racine du graphe de variables est

alors le sommet X3 Le nombre d’it´eration est 2 L’algorithme de message-passing est

d´etaill´e comme suit :

• À l’étape d’initialisation, les messages sortant des feuilles sont initialisés Ce sont des

messages variables-fonctions X1 − Φ1, X4 − Φ3, X6 − Φ5

Trang 24

Chapitre 2 Algorithme de gradient-derivative-product 15

Figure 2.1: Exemple d’un arbre de 5 variablese.

• Dans la première itération, les messages entrant et sortant pour X2, X3 et X5 sontcalculés Pour la variable X2, c’est Φ1 − X2, puis X2 − Φ2 Pour la variable X3, c’estΦ3 − X3 Pour la variable X5, c’est Φ5 − X5, puis X5 − Φ4

• À la deuxième itération, les messages entrant à la variable X3 sont calculés Ce sontdes messages fonctions-variables Φ4 − X3 et Φ2 − X3 On note que la figure 2.2montre seulement les messages nécessaires pour le calcul f (x|θ) et ∇θf (x|θ) Ce sontdes messages tendant vers la racine X3 Pour les autres, on n’affiche pas Par exemple,

calcul´es Toutefois, ils ne servent pas `a calculer f (x|θ) et ∇θf (x|θ)

• Enfin, f (x|θ) et ∇θf (x|θ) sont calculés à partir des messages entrant à la racine X3.Par exemple,

Trang 25

Figure 2.2: Propagation des messages dans le CDN.

Trang 26

Chapitre 3

Apr`es avoir fait le point sur les connaissances importantes concernant le CDN (1.22), on

va se concentrer sur ce que j’ai fait dans mes travaux C’est d’impl´ementer l’inf´erence de

la copule associée à un CDN présentée dans l’équation (1.29) et de le rendre disponiblesous forme d’un paquet R En détail, je vais montrer ce qui est installé dans ce paquet

et comment ¸ca fonctionne En outre, quelques astuces servant à accélérer la vitesse desfonctions du paquet sont présentées

Dans cette section, je vais montrer des composants principaux du paquet CDN quisont affichés sur la figure 3.1 Le code source et la documentation sont deux partiesindispensables dans chaque paquet R Les tests et le tutoriel ne sont pas nécessairesmais appréciés

Figure 3.1: Composants principaux du paquet CDN.

17

Trang 27

3.1.1 Code source

(Figure 3.2) D’une part, le code C++ est mis dans le r´epertoire /src Il fournit quelques

Compute.cpp, Derivatives.cpp, Gradient.cpp, miwa.cpp) et l’inférence dans le CDN tim.cpp, lbfgsb.cpp) Les fichiers de R se trouvent dans le répertoire /R Ils ont pourobjectif de créer l’objet CDN qui est précisé dans la section 3.2.1 (CDN.R, cdnMo-dels.R), d’appeler des fonctions C++ (cdnOptim.R, mpAlgo.R), de générer des donnéesaléatoires (rCdn.R) Le détail des fonctions du paquet est montré dans la section 3.2

(Op-Figure 3.2: Code source du paquet CDN.

3.1.2 Documentation

La documentation du paquet (Figure 3.3) est mise dans deux répertoire : /man et gnettes Les fichiers dans /man décrivent le paquet (CDN-package.Rd ) et les donnéesdisponibles (JapanSeaLevel.Rd ) Ils expliquent aussi comment créer l’objet CDN (CDN-class.Rd, cdnModels.Rd ), utiliser l’algorithme de message-passing (mpAlgo.Rd ), fairel’inférence (cdnOptim.Rd ), générer des données aléatoires (CDN.Rd ) En outre, les vi-

et l’utiliser pour résoudre des problèmes statistiques Les fichiers de test et de tutorielsont montrés sur la figure 3.4

Trang 28

Chapitre 3 Impl´ementation 19

Figure 3.3: Documentation du paquet.

3.1.3 Tests et tutoriels

Le répertoire /tests contient des fichiers qui testent quelques scénarios différents afin

corrects En effet, on va vérifier la justesse d’implémentation de l’algorithme passing (precision.R, testingFunctions.R), la simulation des données aléatoires (simula-tion.R) et l’inférence dans le CDN (optim.R) De plus, il reste un fichier de descriptionqui présente généralement le paquet CDN et les paquets de dépendance tels que Rcpp(l’interface R/C++), igraph et methodes (pour créer l’objet CDN), copula (pour simulerdes données), numDeriv (pour les tests)

message-Figure 3.4: Tests et d´emo.

Dans cette section, je vais montrer les fonctions fournies par le paquet CDN La figure3.5 décrit le fonctionnement général des fonctions importantes du paquet et les lieux oùelles sont installées Le paquet se compose alors des trois étapes principales suivantes :

• Premièrement, c’est l’entrée des données utilisées pour les fonctions du paquet Legraphe créé par le paquet igraph montre la relation entre les variables Les données

se composent des vecteurs d’observation et d’un vecteur de param`etres La copule Cs

dans (1.28) est choisie par l’utilisateur Tout est r´ealis´e dans le code R

Trang 29

• Deuxièmement, c’est l’appel des fonctions fournies par le paquet CDN qui sont implémentéesdans le code R ou C++.

– cdn sert à créer un objet CDN et a besoin d’un graphe et d’un modèle paramétrique.– cdnPlot permet de visualiser l’objet CDN en représentant le graphe

– rCdn (Annexe C.1) génère aléatoirement des observations et pCdn (Annexe C.2)calcule la fonction de répartition

– mpAlgo (Annexe A) implémente l’algorithme de message-passing product Son entrée est un objet CDN et un vecteur de variables Sa sortie est ladensité de cette observation et la gradient par rapport au vecteur des paramètres.– cdnOptim (Annexe B) utilise mpAlgo afin de construire la fonction de vraisemblance

gradient-derivative-et son gradient Ensuite, une m´ethode d’optimisation est choisie pour trouver lavaleur du param`etre qui maximise la fonction de vraisemblance

– dCdn (Annexe C.3) a pour objectif de calculer la densit´e de plusieurs observationsd’entr´ee via mpAlgo

• Dernièrement, les résultats sont affichés dans R La transmission des données et desfonctions entre C++ et R est réalisée par l’interface Rcpp [13]

Dans les parties suivantes, je vais d´etailler l’impl´ementation des fonctions du paquet

Figure 3.5: Diagramme des fonctions du paquet.

3.2.1 Cr´eation d’un objet CDN

Pour créer un objet CDN, il s’agit de choisir un graphe des variables et d’une famille decopules Cs (1.28) Ces données d’entrées sont traitées avant d’assigner les valeurs auxcomposants de l’objet (Figure 3.6)

Trang 30

Chapitre 3 Impl´ementation 21

Figure 3.6: Cr´eation d’un objet CDN.

Pour le mod`ele, on peut choisir une des six familles existantes dans le paquet Ce sontdes copules populaires qui sont mentionn´ees dans la section 1.1.3 : Gumbel (”gumbel”),Farlie-Gumbel-Morgenstern (”fgm”), Frank (”frank”), Gauss (”normal”), Ali-Mikhail-

des variables et d’un modèle choisi est montré ci-après

la valeur de l’élément (i,s) est mise à 1 ; sinon à zéro Sur le tableau 3.1, nous affichons

la matrice binaire extraite `a partir du graphe CDN de la figure 3.7

Concernant la cr´eation d’un graphe avec le paquet igraph, la fa¸con la plus simple et tique pour l’utilisateur est d’utiliser la commande graph.formula Cependant, il apparait

pra-un problème à résoudre C’est que cette commande fait par défaut simplifier le graphed’entrée Par exemple, on crée un graphe avec la commande :

1 g

Định dạng
Số trang	61
Dung lượng	1,93 MB