Dans le cas de la génération de population synthétique,deux grandes catégories sont à souligner : ceux se basant sur un échantillon pour la gé-nération de la population synthétique donc
Trang 1Option : Systèmes Intelligents et Multimédia
Mémoire de fin de formation pour l’obtention du
diplôme de Master Informatique
Génération de population synthétique
Trang 2Table des matières
1.1 Concepts de base 3
1.1.1 Concepts de base sur la population synthétique 3
1.1.2 Concepts de base sur la localisation 4
1.1.3 Conclusion 4
1.2 Etat de l’art sur la génération de population synthétique 4
1.2.1 Générateurs de population synthétique avec échantillon 5
1.2.1.1 Approche SR (Synthethic Reconstruction) 5
1.2.1.2 Approche CO (Combinatorial Optimization) 6
1.2.2 Générateurs de population synthétique sans échantillon 7
1.2.2.1 Approche (Gargiulo et al., 2010) 7
1.2.2.2 Approche (Barthelemy & Toint, 2013) 8
1.2.3 Conclusion 9
1.3 Etat de l’art sur la localisation de la population 10
1.3.1 Approches de localisation sans données auxiliaires 10
1.3.2 Approches de localisation avec données auxiliaires 13
1.3.2.1 Approche ’binary dasymetric mapping’ 13
1.3.2.2 Approche ’limiting variables’ 14
1.3.2.3 Approche ’street weighting’ 14
1.3.2.4 Approche ’address point weighting’ 15
1.3.3 Conclusion 16
Chapitre 2 Approche méthodologique 18 2.1 Proposition d’une approche pour la génération de population synthétique : GenPopSyn 18
Trang 32.1.1 Présentation générale de l’approche GenPopSyn 18
2.1.1.1 Détermination et subdivision des caractéristiques de la
popu-lation synthétique 182.1.1.2 Génération de la population synthétique en ne prenant en
compte que les caractéristiques principales 202.1.1.2.1 Génération des ménages non complexes et des indi-
vidus de ces ménages 202.1.1.2.1.1 Correction des incohérences entre les données
agrégées 212.1.1.2.1.2 Détermination des combinaisons possibles entre
les différentes valeurs des caractéristiques maires des individus 212.1.1.2.1.3 Détermination des combinaisons possibles entre
pri-les différentes valeurs des attributs des ménages 222.1.1.2.1.4 Détermination des différentes compositions pos-
sibles des ménages non complexes 222.1.1.2.1.5 Détermination des différents poids associés aux
différentes compositions des ménages non plexes 242.1.1.2.1.6 Génération des ménages non complexes et des
com-individus de ces ménages 262.1.1.2.2 Génération des ménages complexes et des individus
de ces ménages 272.1.1.2.2.1 Détermination des données des ménages com-
plexes et des individus de ces ménages 282.1.1.2.2.2 Génération des ménages complexes et des in-
dividus de ces ménages 292.1.1.3 Prise en compte des caractéristiques secondaires dans la gé-
nération de la population synthétique 302.1.1.3.1 Détermination des combinaisons possibles entre les
caractéristiques primaires et les caractéristiques condaires 302.1.1.3.2 Détermination des poids associés aux différentes com-
se-binaisons des caractéristiques primaires et des téristiques secondaires 312.1.1.3.3 Affectation des caractéristiques secondaires 312.1.2 Plateforme utilisée pour l’implémentation de l’approche GenPopSyn 322.1.3 Conclusion 332.2 Proposition d’une approche pour la localisation de la population synthétique :SpatPopSyn 332.2.1 Présentation générale de l’approche SpatPopSyn 34
Trang 4carac-2.2.1.1 Détermination du nombre d’individus sur chaque cellule de
la grille 34
2.2.1.1.1 Approche ’areal weighting’ (Goodchild & Lam, 1980) 35 2.2.1.1.2 Approche ’pycnophylactic interpolation’ (Tobler, 1979) 37 2.2.1.1.3 Approche (Roy & Blaschke, 2014) 38
2.2.1.1.4 Approche (Kim & Choi, 2011) 39
2.2.1.1.5 Approche ’street weighting’ (Riebel & Buffalino, 2005) 39 2.2.1.1.6 Approche ’overlaid network’ (Xie, 1995) 41
2.2.1.2 Affectation d’une cellule à chaque individu de la population synthétique 41
2.2.2 Plateforme utilisée pour l’implémentation de l’approche SpatPopSyn 42 2.2.3 Conclusion 42
Chapitre 3 Expérimentations 44 3.1 Parametres d’entrées et indicateur d’évaluation des approches : GenPopSyn et SpatPopSyn 44
3.1.1 Paramètres d’entrées de l’approche GenPopSyn 44
3.1.2 Paramètres d’entrées de l’approche SpatPopSyn 44
3.1.3 Indicateur d’évaluation des approches GenPopSyn et SpatPopSyn 44
3.1.4 Conclusion 46
3.2 Expérimentations des approches : GenPopSyn et SpatPopSyn 46
3.2.1 Présentation des cas d’études 47
3.2.1.1 Données de Can Tho 47
3.2.1.2 Données des municipalités d’Abrest et de Bellerive-sur-Allier 49 3.2.2 Résultats d’expérimentations et interprétations 50
3.2.2.1 Capacité de l’approche GenPopSyn selon la taille de la popu-lation à générer et en absence de données significatives 50
3.2.2.2 Capacité de l’approche GenPopSyn selon la taille de la popu-lation à générer et en présence de données significatives 52
3.2.2.3 Comparaison de l’approche GenPopSyn à l’approche (Gar-giulo et al., 2010) 55
3.2.2.4 Capacité de l’approche SpatPopSyn à localiser une popula-tion selon le type de données disponibles 56
3.2.3 Conclusion 57
Annexe A : Algorithme de l’approche IPU (Ye et al., 2009) 60 Annexe B : Différentes distributions de l’approche GenPopSyn pour les
Trang 5Annexe C : Résultats de localisation de la population de Ninh Kieu en utilisant une
Trang 6orien-• Tout le personnel du Laboratoire IRIT - Equipe SMAC principalement à Thai, Thomas
et Charles pour leur assistance sur le lieu de stage
• Tous les professeurs de l’IFI, qui ont su assurer sans faille notre formation tout au longdes trois semestres passés au sein de l’institut
À tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail, je vous dis
Merci
Trang 7Les modèles à base d’agents sont devenus aujourd’hui des outils importants d’aide à
la décision pour la gestion des systèmes socio-environnementaux complexes Ces modèlespour la plupart nécessitent généralement des ensembles de données réalistes pour initialiser
et calibrer le système étudié Une reproduction précise des états initiaux du système est doncextrêmement importante afin d’obtenir des prévisions fiables à partir du modèle
Notre étude s’inscrit dans le cadre du projet ANR Genstar et consiste à proposer une
ap-proche qui permettra de générer une population synthétique réaliste et de la localiser dansl’environnement d’étude L’approche proposée est ainsi subdivisée en deux modules : unmodule pour la génération de la population synthétique (GenPopSyn) et un autre modulepour la localisation de la population (SpatPopSyn) Le module GenPopSyn est en effet uneapproche qui contrairement aux approches existantes ne nécessite pas beaucoup de don-nées disponibles sur la population pour son bon fonctionnement et qui se base en partie surl’approche (Ye et al., 2007) Quant au module SpatPopSyn, il est un regroupement de 6 ap-proches existantes : (Goodchild & Lam, 1980), (Tobler, 1979), (Roy & Blaschke, 2014), (Kim &Choi, 2011), (Riebel & Buffalino, 2005), (Xie, 1995) qui ont été choisies pour localiser la popu-lation selon le type de données disponibles sur l’environnement d’étude En effet, l’avantagemajeur du module SpatPopSyn est qu’il permet de choisir pour un environnement d’étudedonné l’approche qui convient le mieux parmi les 6 approches implémentées
Les résultats d’expérimentations du module GenPopSyn sur des données INSEE de deuxmunicipalités de la France (Abrest et Bellerive-sur-Allier) et sur des données de la ville deCan Tho (Vietnam) montrent dans l’ensemble que l’approche proposée donne de très bonsrésultats par rapport aux données réelles (soit un taux de correspondance d’environ 95%) etégalement par rapport à l’approche (Gargiulo et al., 2010) Des résultats de localisation de lapopulation de Ninh Kieu, Can Tho en utilisant deux approches du module SpatPopSyn ontété également présentés
Mots clés :modèles à base d’agents, population synthétique, localisation
Trang 8Agent-based models have now become important tools of decision support for the nagement of complex socio-environmental systems These models generally require a lot
ma-of realistic datasets to initialize and calibrate the system studied An accurate reproduction
of the initial states of the system is extremely important to obtain reliable results from themodel predictions
Our study is part of the ANR Genstar project and aims providing an approach that will
generate a realistic synthetic population and locate it in the environment studied The posed approach is thus divided into two modules : a module for generating the syntheticpopulation (GenPopSyn) and another module for the location of the population (SpatPop-Syn) The GenPopSyn module is indeed an approach that unlike existing approaches doesnot require a lot of data available on the population for its operation and is based in part
pro-on the approach (Ye et al., 2007) The SpatPopSyn module is a collectipro-on of six existing proaches : (Goodchild & Lam, 1980), (Tobler, 1979), (Roy & Blaschke, 2014), (Kim & Choi,2011), (Riebel & Buffalino, 2005), (Xie, 1995) that have been chosen to locate the populationdepending on the available data on the environment studied Indeed, the major advantage ofSpatPopSyn module is that it allows choosing for a chosen environment the right approachamong the 6 approaches implemented
ap-The results of experiments of the GenPopSyn module on INSEE data from two cipalities in France (Abrest and Bellerive-sur-Allier) and on data from the city of Can Tho(Vietnam) show overall that the proposed approach gives good results against actual data(either a match rate of about 95%) and also compared to the approach (Gargiulo et al., 2010).The results of localization of the population of Ninh Kieu, Can Tho using two approaches ofthe SpatPopSyn module are also presented
muni-Keywords :Agent-based models, Synthetic population, Localization
Trang 9Liste des figures
1.1 Exemple d’application de l’approche ’Point interpolation’ (Martin, 2009) 111.2 Exemple d’application de l’approche ’pycnophylactic interpolation’ (Deich-mann, 1996) 121.3 Exemple d’application de l’approche (Rase, 2000) 122.1 Diagramme de classe des entités de l’approche GenPopSyn 202.2 Organigramme de détermination de la meilleure approche de localisation àutiliser dans l’approche SpatPopSyn 352.3 Diagramme de classe des entités de l’approche SpatPopSyn 362.4 Exemple d’intersection entre l’environnement d’étude et une grille (Milego &Ramos, 2011) 362.5 Exemple d’affectation d’une cellule à une seule zone source (Milego & Ramos,2011) 372.6 Exemple d’intersection entre les bâtiments de l’environnement d’étude et unegrille (Roy & Blaschke, 2014) 392.7 Diagramme de classe des entités de l’approche GenPopSyn et SpatPopSyn 423.1 Données SIG de Ninh Kieu 503.2 Contours des différents quartiers de Ninh Kieu 513.3 Distribution des individus par âge de l’approche (Garguilo et al., 2010) Lesbarres correspondent aux moyennes obtenues avec 100 générations et l’erreurcorrespond à l’écart-type de ces 100 générations 563.4 Distribution des individus par âge de l’approche GenPopSyn Les barres cor-respondent aux moyennes obtenues avec 5 générations et l’erreur correspond
à l’écart-type de ces 5 générations qui est nul dans ce cas 56
Trang 10Liste des tableaux
1.1 Récapitulatif des approches dans le domaine de la localisation de la population 162.1 Caractéristiques primaires des individus et des ménages 192.2 Différentes étapes de l’approche GenPopSyn 322.3 Tableau comparatif des plateformes de simulation multi-agents (Amouroux,2011) 433.1 Paramètres d’entrées de l’approche GenPopSyn 453.2 Paramètres d’entrées de l’approche SpatPopSyn 463.3 Distribution des ménages par taille et par niveau de vie du ménage dans leszones urbaines 483.4 Distribution des ménages par taille et par niveau de vie du ménage dans leszones rurales 483.5 Distribution des individus par âge et par sexe de l’individu dans les zonesurbaines (à gauche) et dans les zones rurales (à droite) 493.6 Données sur les populations des quartiers de Ninh Kieu 493.7 Distribution du nombre de ménages par type de la municipalité d’Abrest (IN-SEE, 1999) 503.8 Distribution du nombre de ménages par type de la municipalité de Bellerive-sur-Allier (INSEE, 1999) 503.9 Distribution du nombre d’individus par âge et par statut familial (sauf le sta-tut familial autre) de la municipalité d’Abrest (INSEE, 1999) 513.10 Distribution du nombre d’individus par âge et par statut familial (sauf le sta-tut familial autre) de la municipalité de Bellerive-sur-Allier (INSEE, 1999) 523.11 Distribution du nombre d’individus par âge de la municipalité d’Abrest (IN-SEE, 1999) 523.12 Distribution du nombre d’individus par âge de la municipalité de Bellerive-sur-Allier (INSEE, 1999) 523.13 Distribution du nombre de ménages par taille de la municipalité d’Abrest (IN-SEE, 1999) 533.14 Distribution du nombre de ménages par taille de la municipalité de Bellerive-sur-Allier (INSEE, 1999) 533.15 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approcheGenPopSyn selon la taille de la population à générer et en absence de donnéessignificatives 533.16 Résultats de l’expérimentation : Capacité de l’approche GenPopSyn selon lataille de la population à générer et en absence de données significatives 54
Trang 113.17 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approcheGenPopSyn selon la taille de la population à générer et en présence de don-nées significatives 543.18 Résultats de l’expérimentation : Capacité de l’approche GenPopSyn selon lataille de la population à générer et en présence de données significatives 553.19 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approcheSpatPopSyn à localiser une population selon le type de données disponibles 573.20 Résultats de l’expérimentation : Capacité de l’approche SpatPopSyn à locali-ser une population selon le type de données disponibles 57
Trang 12Ces dernières années ont été marquées par une augmentation considérable du nombre
de modèles implémentés dans le domaine de la simulation des systèmes complexes Ces dèles pour la plupart nécessitent généralement un grand nombre d’agents pour initialiser lesystème étudié En conséquence, il s’avère important d’avoir un ensemble de données en-tièrement désagrégées sur ces agents ce qui n’est pas souvent disponible en raison de confi-dentialité ou de cỏt Pour pallier à ce problème, on peut combiner différentes sources dedonnées pour obtenir une représentation individuelle des agents, approchant le plus fidèle-ment possible la structure de corrélation de la population réelle Ce processus est connu sur
mo-le nom de population synthétique Un autre élément important dont la plupart des modèmo-lesont également besoin est aussi la localisation des agents dans l’environnement d’étude
Au cours de ces dernières années, des approches ont été proposées pour pallier remment à ces deux problèmes Dans le cas de la génération de population synthétique,deux grandes catégories sont à souligner : ceux se basant sur un échantillon pour la gé-nération de la population synthétique donc dépendant fortement de la structure des don-nées de l’échantillon et une seconde catégorie regroupant les approches ne nécessitant pasd’échantillon mais qui nécessitent en entrées plus de données agrégées sur la populationpour la génération ce qui n’est pas souvent disponible En ce qui concerne la localisation desagents, plusieurs approches ont déjà été proposées selon le type de données disponibles ets’adaptent plus ou moins bien aux données réelles
diffé-Au vu de cela, notre travail se focalise plus sur la génération de la population tique vu que dans ce domaine les approches existantes nécessitent en général beaucoup dedonnées en entrées et que dans la réalité ces données sont indisponibles
synthé-Ainsi, les objectifs de notre étude sont : d’une part proposer une approche qui permettra
de générer une population synthétique (les ménages ainsi que les individus de ces ménages)
en utilisant le minimum de données disponibles et d’autre part de pouvoir localiser cesdifférents agents générés dans l’environnement d’étude en utilisant l’approche qui convient
le mieux parmi les approches de localisation existantes
C’est dans cette optique que s’inscrit mon stage intitulé : « Génération de population
synthétique localisée »
Notre travail s’inscrit en effet dans le cadre du projet ANR Genstar qui a pour objectif
de proposer des méthodes généralistes pour la génération d’une population synthétique, salocalisation et la génération du réseau social existant entre les agents de la population syn-thétique générée Le travail effectué au cours de cette étude s’est déroulé au sein de l’équipeSMAC (Systèmes Multi-Agents Coopératifs) du Laboratoire IRIT (Institut de Recherche enInformatique de Toulouse) Cette équipe créée en 1994 est aujourd’hui le résultat d’un pro-cessus auto-organisationnel de chercheurs convergeant de plusieurs horizons : intelligenceartificielle distribuée, systèmes distribués, simulation sociale, optimisation par recherche lo-cale Les travaux de cette équipe portent sur la conception de systèmes complexes et plus
Trang 13particulièrement de systèmes auto-adaptatifs à fonctionnalité émergente.
Pour rendre compte du travail effectué tout au long de cette étude, nous avons rédigé
ce rapport qui s’organise en trois sections : Dans la section 1, nous ferons une synthèse bliographique de notre étude Dans la section 2, nous présentons les approches proposéespour la génération de la population synthétique et pour la localisation de la population syn-thétique Dans la section 3, nous présentons les expérimentations effectuées Enfin, nousconcluons ce rapport par le bilan des apports de notre contribution ainsi que par la présen-tation rapide de quelques perspectives ouvertes par notre travail
Trang 141.1.1 Concepts de base sur la population synthétique
Le terme « population synthétique » renvoie à trois idées complémentaires à savoir
D’autres termes qui seraient aussi importants d’expliquer sont : données désagrégées
(micro-données ou données brutes) et données agrégées Les données désagrégées sont des
observations immédiates des attributs ou caractéristiques de chaque entité de la population
et qui n’ont pas été traitées au niveau statistique Elles fournissent ainsi des informationscomplètes sur les membres de la population étudiée ainsi que les caractéristiques liées à ces
membres Contrairement aux micro-données, les données agrégées sont mises à la
disponi-bilité des usagers après qu’elles aient été traitées au niveau statistique En effet, les donnéesagrégées sont constituées à partir d’un fichier de micro-données et sont les résultats d’unecombinaison de différentes mesures Elles peuvent provenir également de données sur unéchantillon de la population et sont généralisées à toute la population On les obtient enfaisant une addition ou une moyenne des valeurs individuelles obtenues Elles permettentd’obtenir des informations sur des groupes qui ont des caractéristiques communes
Nous tenons également à expliquer rapidement quelques notions sur les ménages cardans le cadre de notre étude, la génération de la population synthétique revient à générer lesménages ainsi que les individus de ces ménages Deux types de ménages sont à distinguerdans notre cadre d’étude : les ménages non complexes et les ménages complexes En effet,les ménages non complexes regroupent les ménages monoparentaux (parent vivant avec ces
Trang 15enfants uniquement), les ménages en couple avec ou sans enfants (deux parents avec ou sansleurs enfants uniquement) et les ménages célibataires (individu seul) Tous les autres types
de ménages par exemple les ménages en collocation, ou des ménages composés de plusieursfamilles ou encore des ménages en couple ou monoparentaux qui sont avec d’autres adultes,etc sont regroupés dans les ménages complexes (INSEE, 1999)
1.1.2 Concepts de base sur la localisation
La localisation dans le cadre de notre étude consiste à affecter une position exacte données X et Y) dans l’environnement d’étude à chaque individu de la population synthé-tique tout en respectant au mieux les données disponibles sur la répartition géographique.Deux termes sont utilisés dans notre rapport pour designer les données disponibles sur
(coor-un environnement d’étude Il s’agit de : données sources et de données auxiliaires Les
don-nées sourcesreprésentent en effet les données disponibles sur les différentes zones
compo-sant l’environnement d’étude qu’on appelle zones sources Ces données sources sont pour
la plupart, les frontières délimitant chaque zone source ainsi que la population de chacune
de ces zones sources Quant aux données auxiliaires, elles sont des données
supplémen-taires disponibles sur l’environnement d’étude et qui permettent d’améliorer le processus
de localisation Ces données auxiliaires sont pour la plupart des données SIG disponiblessur l’environnement d’étude comme des données sur les routes, les bâtiments (résidentiels
ou non), la végétation, les cours d’eau, etc
1.1.3 Conclusion
Somme toute, nous avons présenté quelques notions de base sur la population tique et sur la localisation permettant ainsi de mieux appréhender ce qui sera expliqué dansles chapitres suivants Ainsi après ce détour important, nous présentons dans le chapitresuivant plusieurs approches existantes dans le domaine de la génération de population syn-thétique
synthé-1.2 Etat de l’art sur la génération de population synthétique
Dans cette section, nous allons présenter les approches existantes dans le domaine de lagénération de population synthétique En effet, au cours de ces dernières années, un grandnombre d’approches ont été proposées afin de générer des populations synthétiques réa-listes (proches des données réelles) Ces approches peuvent se regrouper en deux catégories
à savoir : les générateurs de population synthétique avec échantillon et ceux sans tillon Les paragraphes suivants se chargent de présenter plus en détails ces différentes ap-proches et de faire ressortir les avantages et limites de chacune d’elles
Trang 16échan-1.2.1 Générateurs de population synthétique avec échantillon
Comme leur nom l’indique, les générateurs de population synthétique avec échantillonsont des générateurs qui nécessitent mis à part des données agrégées sur la population cible
de données désagrégées sur un échantillon de la population afin de générer cette population.Deux principales approches sont à souligner au sein de cette catégorie Il s’agit de l’ap-proche SR (Synthethic Reconstruction) (Wilson & Pownall, 1976) et de l’approche CO (Com-binatorial Optimization) (Voas & Williamson, 2000) Dans les sections suivantes, nous pré-sentons plus en détails ces différentes approches en mettant en relief les avantages et limites
de chacune d’elles
1.2.1.1 Approche SR (Synthethic Reconstruction)
L’approche SR (Wilson & Pownall, 1976) est l’une des approches à échantillon les plusutilisées pour la génération de population synthétique Le principe de génération de cetteapproche se décompose en deux étapes (Müller & Axhausen, 2010) : la première étape quel’on nomme ’Fitting’ consiste à déterminer la distribution détaillée de la population à gé-nérer (distribution de la population dans les différentes combinaisons des variables prises
en compte dans la population synthétique) en utilisant la méthode IPF (Iterative nal Fitting) (Deming & Stephan, 1940) et la seconde étape nommée ’Generation’ consiste à
Proportio-se baProportio-ser sur les résultats obtenus au cours de l’étape ’Fitting’ afin de générer la populationsynthétique en utilisant la méthode de Monte Carlo
La méthode IPF (Iterative Proportional Fitting) (Deming & Stephan, 1940) consiste eneffet à déterminer la distribution détaillée de la population cible en adaptant les donnéesdésagrégées d’un échantillon de la population aux données agrégées disponibles sur la po-pulation Un exemple d’application de l’algorithme IPF est présenté dans (Müller & Axhau-sen, 2010)
En utilisant l’approche IPF, on ne peut générer que les individus ou les ménages de lapopulation synthétique ce qui n’est pas très avantageux dans certains modèles et dans notrecadre d’étude qui nécessite la génération de ces deux éléments Ainsi pour pallier à ce pro-blème, des approches ont été proposées pour pouvoir générer simultanément les individus
et les ménages de la population synthétique Au nombre de ces approches, nous avons proche de (Arentze et al., 2007) qui consiste à utiliser un concept appelé ’relation matrix’ pourconvertir les distributions au niveau individuel en distributions au niveau des ménages per-mettant ainsi de contrôler ces deux niveaux de distribution (pour plus de détails se référer à(Müller & Axhausen, 2010)) Une autre approche proposée dans (Guo & Bhat, 2007) consiste
l’ap-à utiliser une technique similaire l’ap-à la procédure IPF pour générer simultanément ces deuxniveaux de distributions L’approche IPU (Iterative Proportional Updating) proposée par(Ye et al., 2009) permet également de pallier au problème de l’IPF En effet, l’idée de basederrière la méthode IPU est de faire en sorte que les distributions à la fois au niveau des mé-nages et au niveau individuel puissent être adaptées aussi étroitement que possible Pour
ce faire, la procédure IPF est d’abord appliquer au niveau des ménages, puis au niveau dividuel produisant ainsi deux ensembles de distributions distinctes et indépendantes Les
Trang 17in-distributions obtenues sont ensuite utilisées pour ajuster et attribuer des poids pour chaquecatégorie de ménage ou personne de façon itérative jusqu’à ce que les distributions des mé-nages et des personnes correspondent précisément à la distribution connue de la population.
Un exemple d’application de l’algorithme IPU est présenté à l’Annexe A
En ce qui concerne la seconde étape de l’approche SR, c’est la méthode de Monte Carloqui est la plus souvent utilisée pour générer la population synthétique Elle consiste en effet
à assigner séquentiellement des caractéristiques à chaque élément (individu ou ménage) de
la population synthétique en se basant sur les probabilités conditionnelles qui peuvent êtreobtenues à base des résultats fournis par l’étape ’Fitting’ Prenons l’exemple ci-dessous pourexpliquer le principe de la méthode de Monte Carlo Supposons qu’on souhaite affecter lesvaleurs des caractéristiques : ’a’, ’b’, ’c’ aux différents éléments (individus ou ménages) de lapopulation synthétique Pour la première affectation, prenons par exemple la caractéristique
’a’, on se base sur les probabilités inconditionnelles de cette caractéristique (c’est-à- dire lesprobabilités des différentes valeurs possibles de ’a’) Supposons que les valeurs possibles de
’a’ sont : {a1, a2, a3, a4, a5} avec les probabilités cumulées respectives : {0.12, 0.25, 0.52, 0.74,1.0} La méthode de Monte Carlo consiste à générer un nombre réel aléatoire entre 0 et 1 et
à affecter à chaque élément (individu ou ménage) la valeur de la caractéristique ’a’ dont laprobabilité cumulée est la plus proche supérieure du nombre généré, ainsi de suite jusqu’àaffecter une valeur de ’a’ à tous les différents éléments de la population synthétique On pro-cède de la même façon pour les autres caractéristiques sauf qu’ici on utilise les probabilitésconditionnelles de la caractéristique actuelle à assigner par rapport aux caractéristiques déjàassignées C’est-à-dire si on suppose que la deuxième caractéristique à assigner est ’b’ alors
on se basera sur les probabilités p(b|a) pour cette seconde affectation
D’après les résultats d’expérimentations présentés dans (Ye et al., 2009) pour la tion des populations de certaines zones du comté de Maricopa (Arizona-Etats-Unis), l’ap-proche SR donne de très bons résultats en général surtout dans le cas ó les données d’en-trées sont cohérentes et que l’échantillon utilisé pour la génération est très représentatif soit
généra-de l’ordre généra-de 10% minimum généra-de la population cible Ainsi, l’un généra-des problèmes généra-de l’approche
SR est la nécessité d’un échantillon représentatif ce qui n’est pas très souvent disponible Unautre problème est sa dépendance aux données de l’échantillon ce qui fait que si les don-nées de l’échantillon ne sont pas correctes ou sont peu significatives ou encore si elles necontiennent pas toutes les caractéristiques à prendre en compte dans la population synthé-tique, l’approche SR donne des résultats qui sont dans l’ensemble biaisés
1.2.1.2 Approche CO (Combinatorial Optimization)
Une seconde approche qui est la plus souvent utilisée dans la littérature pour la ration de population à base d’échantillon est l’approche CO (Combinatorial Optimization)(Voas & Williamson, 2000) Cette approche consiste à créer zone par zone la population syn-thétique en se basant sur les distributions disponibles des différentes combinaisons des va-riables dans ces différentes zones et sur des données désagrégées disponibles sur un échan-tillon de la population dans l’ensemble de ces zones Notons que les zones dont on parleici sont en effet des sous parties contenues dans l’environnement d’étude Supposons qu’on
Trang 18géné-souhaite générer la population du Vietnam, une sous partie de cet environnement d’étudequ’on appelle zone ici serait par exemple Hanoi.
Le principe de génération de l’approche CO est de créer séparément la population thétique pour chaque zone de l’environnement d’étude, en adaptant un sous-ensemble del’échantillon aux distributions disponibles sur chaque zone Pour cela, un sous-ensembledes ménages de l’échantillon ainsi que les individus de ces ménages est aléatoirement choisi,mais en prenant en compte que ce sous-ensemble corresponde bien au nombre de ménages
syn-et d’individus de la zone à générer Une fois ce choix effectué, une mesure statistique rélation ou RSSZ m (Huang & Williamson, 2001) ou différence) est ensuite calculée pourmesurer l’ajustement de ce sous-ensemble aux distributions connues sur les caractéristiquesdans la zone Après ceci, un ménage (y compris les individus du ménage) du sous-ensembleest remplacé aléatoirement avec un autre ménage (y compris les individus du ménage) del’échantillon, et la mesure statistique est encore calculée Si l’ajustement global du nouveausous-ensemble est meilleur à celui du sous-ensemble original, alors le remplacement estmaintenu, sinon le sous-ensemble original est maintenu Ce processus est répété jusqu’à cequ’une valeur seuil de la mesure statistique de comparaison soit atteinte, ou une limite d’ité-rations définie par l’utilisateur est atteinte Un exemple d’application de cette méthode estprésenté dans (Huang & Williamson, 2001)
(cor-D’après les résultats d’expérimentations présentés dans (Huang & Williamson, 2001)pour la génération des populations de quelques districts et quartiers de la Grande-Bretagne,l’approche CO donne de très bons résultats en général et présente également de meilleursrésultats par rapport à l’approche SR mais nécessite cependant plus de temps d’exécutionque l’approche SR Notons également que l’approche CO est confrontée comme l’approche
SR au problème de nécessité d’un échantillon représentatif de la population cible et aussi auproblème de dépendance aux données de l’échantillon
1.2.2 Générateurs de population synthétique sans échantillon
Vu que les approches précédentes de génération de population étaient confrontées auproblème de disponibilité de données désagrégées significatives sur un échantillon de lapopulation, d’autres approches ont été alors proposées pour pallier à ce problème en neprenant en compte que les données agrégées sur la population cible d’ó leur nom de gé-nérateurs de population synthétique sans échantillon Au nombre de ces approches, nouspouvons citer : l’approche (Gargiulo et al., 2010) et l’approche (Barthelemy & Toint, 2013)qui ont le plus retenu notre attention
1.2.2.1 Approche (Gargiulo et al., 2010)
L’approche (Gargiulo et al., 2010) est une approche sans échantillon qui a été utiliséepour générer la population (les ménages ainsi que les individus) d’Auvergne (France) Leprincipe de génération de cette approche est subdivisé en quatre étapes à savoir (Gargiulo
et al., 2010) :
Trang 19• la première étape consiste à générer tous les individus de la population en se basantsur les données disponibles sur la pyramide des âges des individus.
• la seconde étape consiste à déterminer les différentes probabilités de composition desménages selon le type de ménage et selon les âges des individus du ménage en sebasant sur les données disponibles suivantes : la distribution du nombre de ménagespar taille du ménage (le nombre d’individus dans le ménage) et la distribution dunombre d’individus par âge et par type de ménage (célibataire, couple avec enfants etsans enfants et ménage monoparental), la distribution des naissances selon l’âge de lamère et selon l’ordre de naissance, la distribution du nombre de ménages en coupleselon la différence d’âge entre les partenaires du couple
• la troisième étape consiste à créer progressivement l’ensemble des ménages de la pulation synthétique en utilisant le processus suivant : pour un ménage donné, onchoisit au premier abord le type et le nombre d’individus dans le ménage et ensuitel’âge de la personne de référence en se basant sur les probabilités déterminées au ni-veau de la deuxième étape En fonction des données précédentes sur le ménage etprincipalement sur l’âge de la personne de référence du ménage, on choisit les autresindividus en se basant également sur les probabilités déterminées au niveau de ladeuxième étape et en vérifiant surtout aussi que cet individu existe dans la liste desindividus déterminés à la première étape Sinon on arrête la génération de ce ménage
po-et on recommence la génération d’un autre ménage jusqu’à ce que le nombre dus restants soit nul ou qu’il ne soit plus possible de combiner les individus restantspour former un type de ménage donné
d’indivi-• la quatrième et dernière étape consiste à générer les ménages complexes en combinant
de façon aléatoire les individus restants au niveau de la troisième étape vu qu’aucuneinformation n’est disponible pour ces types de ménages
Les résultats d’expérimentations présentés dans (Gargiulo et al., 2010) montrent que lespopulations générées par cette approche sont pour la plupart en accord avec l’ensemble dedonnées statistiques disponibles De plus, elle présente de meilleurs résultats par rapport àl’approche IPU d’après des résultats d’expérimentations obtenus en comparant l’approche(Gargiulo et al., 2010) et l’approche IPU dans (Lenormand & Deffuant, 2013) pour la gé-nération des 1310 municipalités d’Auvergne Cependant, cette approche nécessite plus dedonnées pour son bon fonctionnement surtout les données de la deuxième étape qui nesont pas toujours disponibles en réalité De plus, cette approche ne donne pas de très bonsrésultats dans le cas d’une population ayant une petite taille (comme le cas de la municipa-lité d’Abrest en Auvergne qui contient environ 2600 individus repartis dans 960 ménages)(Gargiulo et al., 2010)
1.2.2.2 Approche (Barthelemy & Toint, 2013)
L’approche (Barthelemy & Toint, 2013) est quant à elle une approche utilisée pour nérer la population (les ménages ainsi que les individus) de chacune des municipalités de
Trang 20gé-Belgique Le principe de génération de cette approche est subdivisé en trois étapes :
• la première étape notée ’Ind’ consiste à générer les individus de chaque municipalitéavec leurs caractéristiques en se basant sur les données agrégées disponibles sur cha-cun des municipalités Dans le cas ó les données ne sont pas disponibles pour unemunicipalité donnée, on utilise des données disponibles sur la population du district(regroupement de municipalités) ou de la Belgique dans le cas échéant
• la seconde étape notée ’Hh’ consiste à déterminer la distribution des différents nages dans les différentes combinaisons des caractéristiques des ménages en se basantsur les données disponibles sur les ménages Cette étape revient à une détermination
mé-de solution d’un problème d’optimisation plus précisément à la résolution mé-de systèmesd’équations linéaires avec n variables et m inconnues La méthode de maximisation del’entropie est utilisée dans cette approche pour résoudre ce problème d’optimisation
• la troisième étape permet de générer un à un les ménages ainsi que les individus de lapopulation synthétique en se basant sur les données générées lors des deux étapes pré-cédentes Cette étape consiste en premier lieu à choisir la catégorie du ménage (c’est-à-dire un type de ménage et la taille du ménage) en se basant sur les données de ladeuxième étape, après ce choix on choisit aléatoirement la personne de référence duménage et ensuite les autres individus pour remplir le ménage Pour chacun des in-dividus, on vérifie si l’individu existe dans la liste des individus restants Si oui, onajoute l’individu au ménage Si non, on cherche l’individu dans les ménages déjà gé-nérés et si on trouve on permute ces individus à condition de garder la consistance duménage qu’on veut changer Dans le cas ó l’individu est introuvable, la générationest terminée
Les résultats d’expérimentations présentés dans (Barthelemy & Toint, 2013) montrentque les populations générées par cette approche sont bien en accord avec l’ensemble dedonnées statistiques disponibles et montrent également que cette approche présente demeilleurs résultats par rapport à l’approche (Guo & Bhat, 2007) Cependant comme l’ap-proche (Gargiulo et al., 2010), cette approche nécessite plus de données pour son bon fonc-tionnement Mais comparativement à l’approche (Gargiulo et al., 2010), elle permet d’uti-liser des données agrégées d’un niveau supérieur lorsque les données agrégées au niveauinferieur ne sont pas disponibles ce qui est un véritable avantage par rapport à l’approche(Gargiulo et al., 2010) et de plus elle permet de faire des permutations dans la génération desménages permettant ainsi de maximiser le taux de correspondance par rapport à l’approche(Gargiulo et al., 2010)
1.2.3 Conclusion
Somme toute, nous avons présenté deux grandes catégories d’approches pour la ration de la population synthétique La première catégorie qui regroupe les approches sebasant sur un échantillon pour la génération est confrontée à deux principaux problèmesqui sont : la nécessité d’un échantillon représentatif de la population et la dépendance des
Trang 21géné-approches aux données d’échantillon faisant que si ces données ne sont pas cohérentes cesapproches présentent de mauvais résultats La seconde catégorie vient pallier à ces pro-blèmes en n’utilisant pas des données d’échantillon Mais ces approches demandent plus dedonnées agrégées sur la population pour la génération comparativement aux approches de
la première catégorie et de plus elles sont pour la plupart adaptées aux zones étudiées carles caractéristiques des individus et des ménages sont fixées dans ces modèles Cependantdes résultats d’expérimentations sur la comparaison de quelques approches de la premièrecatégorie par rapport aux approches de la deuxième catégorie montrent dans l’ensemble queles approches de la deuxième catégorie présentent de meilleurs résultats par rapport à celles
de la première catégorie Bien entendu, ces résultats ne peuvent être généralisés à toutes lesapproches basées sur des échantillons sans complément d’enquête Cependant, ces résultatsconfirment la possibilité d’initialiser une population d’agents dans des modèles, en utilisantque des données sur la population initiale et sans aucun échantillon sur la population.Apres ce bref état de l’art sur la génération de la population synthétique, nous présente-rons dans le chapitre suivant les approches existantes dans le domaine de la localisation de
la population
1.3 Etat de l’art sur la localisation de la population
Dans cette section, nous présentons les approches existantes dans le domaine de la lisation de la population En effet, au cours de ces dernières années, un grand nombre d’ap-proches ont été proposées afin de localiser une population dans un environnement d’étude.Ces approches peuvent se regrouper en deux catégories à savoir : les approches de locali-sation sans données auxiliaires et celles avec des données auxiliaires Les paragraphes sui-vants se chargent de présenter plus en détails ces différentes approches et de faire ressortirles avantages et limites de chacune d’elles
loca-1.3.1 Approches de localisation sans données auxiliaires
Comme leur nom l’indique, ces approches sont en effet des approches qui se basentuniquement sur les données sources pour localiser une population dans un environne-ment d’étude Les approches de cette catégorie peuvent être subdivisées en deux groupes :les approches nommées ’volume-preserving’ qui préservent la totalité de la population dechaque zone source lors de la distribution de la population et celles nommées ’non-volume-preserving’ qui sont en effet des approches contraires aux approches ’volume-preserving’.Nous présentons ici l’approche ’point interpolation’ (Martin, 2009) qui est une approche
’non-volume-preserving’ et les approches ’areal weighting’ (Goodchild & Lam, 1980) et nophylactic interpolation’ (Tobler, 1979) qui sont eux des approches ’volume-preserving’.L’approche ’point interpolation’ est en effet une approche qui se base sur les centrọdesdes zones sources ainsi que les populations représentées par ces centrọdes pour la dis-tribution de la population Dans (Martin, 2009), l’auteur propose l’utilisation d’une grillepour distribuer la population du Royaume-Uni En effet, l’approche consiste à convertir tout
Trang 22’pyc-d’abord l’ensemble de l’environnement d’étude en une grille Une fois cette conversion faite,
on détermine le poids associé à chaque cellule de la grille en utilisant le principe suivant :plus une cellule est proche d’un centrọde plus son poids est fort Ce principe est appliquéuniquement aux cellules se trouvant dans le voisinage de chaque centrọde (à une distancedonnée du centrọde qui est un paramètre de l’approche) Une fois ces différents poids dé-terminés, on détermine la population associée à chaque cellule en faisant la somme des pro-duits de chaque poids associé à chaque centrọde pour la cellule courante par la populationtotale représentée par chaque centrọde La figure 1.1 présente un exemple d’application del’approche (Martin, 2009)
L’inconvénient majeur de cette approche est la dépendance de l’approche à la positiondes centrọdes ce qui fait que si ces centrọdes sont mal positionnés les résultats de distri-bution sont biaisés Un autre inconvénient est aussi la non conservation de la population
au niveau de chaque zone source ce qui fait que la population finale de chaque zone source
en appliquant l’approche (Martin, 2009) est biaisée Ainsi pour pallier au dernier problème
de cette approche, des approches comme ’areal weighting’ et ’pycnophylactic interpolation’peuvent être utilisées
Figure 1.1 – Exemple d’application de l’approche ’Point interpolation’ (Martin, 2009)
L’approche ’areal weighting’ (Goodchild & Lam, 1980) est une approche très basiquedans le domaine de la localisation et qui consiste à supposer que les zones sources sont ho-mogènes Ainsi, la population est distribuée uniformément dans chaque zone source (Deich-mann, 1996) Cette approche a été utilisée pour distribuer la population de Londres (UK).Mais cette approche est plus adaptée pour des zones sources homogènes et dans le cas ó
on ne dispose que des données sur les zones sources
Dans le cas ó les zones sources sont relativement homogènes et que ces zones sourcessont adjacentes entre elles, l’auteur de (Tobler, 1979) propose une approche nommée ’pyc-nophylactic interpolation’ qui permet une distribution hétérogène de la population danschaque zone source Cette approche a été utilisée pour distribuer la population de 15 000zones dans le projet NCGIA Global Demography et aussi pour distribuer la population enAfrique (Deichmann, 1996) Cette approche consiste d’abord à convertir l’environnementd’étude en grille Ainsi, chaque zone source est composée d’un certain nombre de cellules.Une fois cette conversion terminée, on utilise l’approche ’areal weighting’ pour initialiser
la population de chaque cellule de la grille Après cette initialisation, on utilise une thode nommée ’smoothing’ qui consiste à attribuer une nouvelle valeur de population àchaque cellule de la grille en initialisant d’abord la valeur de population de chaque cellule
Trang 23mé-par la moyenne des valeurs des populations des cellules voisines ensuite on détermine si
la somme totale de la population des cellules de chaque zone source est supérieure ou férieure à la population réelle de chaque zone source Si oui, on ajuste en diminuant ou enaugmentant selon le cas les valeurs des populations des cellules de la zone source concer-née afin de préserver la population totale de chaque zone source On reprend plusieurs foiscette méthode ’smoothing’ jusqu’à ce qu’on constate que les différentes zones sources sontsuffisamment ajustées ou que le nombre d’itérations fixé est atteint L’avantage de cette ap-proche est qu’elle permet la distribution hétérogène de la population mais l’utilisation descellules rectangulaires pour représenter les zones sources fait que les surfaces couvertes parcertaines zones sources ne sont plus respectées Ainsi pour pallier à ce problème, l’auteur
in-de (Rase, 2000) propose l’utilisation in-des cellules en forme in-de triangles qui permettent ainsi
de mieux représenter les zones sources La suite de l’approche (Rase, 2000) est identique
à celle de l’approche (Tobler, 1979) Cette approche a été utilisée pour la distribution de lapopulation d’Allemagne Pour plus détails se référer à (Rase, 2000)
Ces deux approches précédentes (approche (Tobler, 1979) et approche (Rase, 2000)) sontutilisables dans le cas ó les zones sources sont relativement homogènes et surtout adja-centes entre elles et on ne dispose que des données sur les zones sources (Deichmann, 1996).Les figures 1.2 et 1.3 présentent respectivement des exemples d’application des approches(Tobler, 1979) et (Rase, 2000)
Figure 1.2 – Exemple d’application de l’approche ’pycnophylactic interpolation’ (Deichmann, 1996)
Figure 1.3 – Exemple d’application de l’approche (Rase, 2000)
Ces différentes approches présentées dans cette section sont adaptées lorsqu’on ne pose pas de données auxiliaires sur les zones sources Mais lorsque les données auxiliairesexistent, il est préférable d’utiliser les approches avec données auxiliaires que nous présen-tons plus en détails dans les sections suivantes
Trang 24dis-1.3.2 Approches de localisation avec données auxiliaires
Contrairement aux approches précédentes, ces approches sont en effet des approches quiutilisent mis à part les données sources, des données auxiliaires pour localiser une popula-tion dans un environnement d’étude Bon nombre de ces approches existent dans la litté-rature Mais dans ce rapport, nous présentons les quelques approches suivantes qui noussemblent les plus pertinentes Il s’agit de l’approche ’binary dasymetric mapping’ (Fisher &Langford., 1996), de l’approche ’limiting variables’ (Eicher & Brewer, 2001), de l’approche
’street weighting’ (Riebel & Buffalino, 2005), de l’approche ’address point weighting’ (Tapp,2010) ainsi que quelques unes de leurs extensions Dans les sections suivantes, nous présen-tons plus en détails ces différentes approches en mettant en relief les avantages et limites dechacune d’elles
1.3.2.1 Approche ’binary dasymetric mapping’
L’approche ’binary dasymetric mapping’ (Fisher & Langford., 1996) consiste à utilisercomme données auxiliaires les données sur les bâtiments pour pouvoir distribuer la popu-lation Cette approche a été utilisée pour la distribution de la population dans les régionssuivantes : Charnwood, Leicester, Oadby & Wigston Le principe de distribution de la po-pulation de cette approche est subdivisé en trois étapes :
• la première étape consiste à faire un traitement sur l’image satellitaire de ment d’étude afin de repérer uniquement les bâtiments résidentiels se trouvant dansl’environnement d’étude
l’environne-• la seconde étape consiste à déterminer pour chaque zone source le nombre de pixelsreprésentant les bâtiments
• la troisième et dernière étape consiste à déterminer la population correspondante àchaque pixel résidentiel de chaque zone source en divisant la population de chaquezone source par le nombre de pixels résidentiels dans la zone source En d’autrestermes, on repartit de façon uniforme la population de chaque zone source sur lespixels résidentiels contenus dans chaque zone source
L’avantage de cette approche est le fait qu’elle n’affecte de population que dans des zoneshabitées contrairement aux approches sans données auxiliaires Mais cependant cette ap-proche considère d’une certaine manière que plus un bâtiment résidentiel est grand plus lapopulation de ce bâtiment est élevée ce qui n’est pas souvent le cas Ainsi pour pallier à ceproblème, Dans (Kim & Choi, 2011), les auteurs proposent de combiner l’approche ’binarydasymetric mapping’ (Fisher & Langford., 1996) et l’approche ’pycnophylactic interpola-tion’ (Tobler, 1979) Mais rappelons que pour appliquer cette approche, il faut que les zonessources soient adjacentes En effet l’approche consiste à appliquer tout d’abord l’approche
’binary dasymetric mapping’ (Fisher & Langford., 1996) sur l’environnement d’étude et suite d’appliquer l’approche ’pycnophylactic interpolation’ (Tobler, 1979) Cela permet ainsi
Trang 25en-de pallier au problème souligné au niveau en-de l’approche ’binary dasymetric mapping’ sher & Langford., 1996) Cette approche a été utilisée pour la distribution de la populationd’Athenès, GA et présente de meilleurs résultats que l’approche ’binary dasymetric map-ping’ (Fisher & Langford., 1996).
(Fi-1.3.2.2 Approche ’limiting variables’
Cette seconde approche présentée dans (Eicher & Brewer, 2001) est une variante de proche précédente et a été utilisée pour la distribution de la population dans les régions desUSA suivantes : Pennsylvanie, Maryland, et Virginie ainsi qu’en Columbie Elle consiste
l’ap-à utiliser les données contenues dans une image satellitaire de l’environnement d’étudecomme données auxiliaires Le principe de distribution de la population de cette approche
se décompose en trois étapes :
• la première étape consiste à subdiviser l’environnement d’étude en quatre classes àsavoir : la classe ’inhabitée’ représentant les zones inhabitées dans l’environnementd’étude généralement les zones couvertes de cours d’eau, la classe ’urbaine’ représen-tant les zones ó la majorité de la population vit, la classe ’agriculture/bois’ représenteles zones ó il y a de l’agriculture ou des bois et la classe ’forêt’ représente les zonescouvertes par la forêt
• la deuxième étape consiste à attribuer une population donnée à chaque zone en dérant que les zones ayant la classe ’inhabitée’ ont une population nulle Le reste de lapopulation est ensuite reparti de façon uniforme sur les autres zones des autres classes
consi-• la troisième étape consiste à limiter la population des zones de certaines classes Pourune première itération, la population dans les zones ayant la classe ’forêt’ est limitée à
15 habitants par km2 Une fois cette valeur fixée à ces zones, on repartit la populationsupplémentaire aux zones des classes restantes (classe ’agriculture/bois’ et classe ’ur-baine’) Une deuxième itération consiste à limiter la population dans les zones ayant
la classe ’agriculture/bois’ à 50 habitants par km2 La population supplémentaire estensuite repartie sur les zones ayant la classe ’urbaine’
L’avantage majeur de cette approche par rapport à l’approche ’binary dasymetric ping’ est qu’elle permet d’avoir des habitants dans les zones autres que les zones urbaines
map-1.3.2.3 Approche ’street weighting’
L’approche ’street weighting’ (Riebel & Buffalino, 2005) est une approche qui consiste àutiliser comme données auxiliaires les données sur les routes pour pouvoir distribuer la po-pulation Cette approche a été utilisée pour la distribution de la population dans les régionssuivantes : Anson, Lincoln et Cumberland (Tapp, 2010) Le principe de distribution de lapopulation de cette approche est subdivisé en trois étapes :
• la première étape consiste à affecter à chaque route une seule zone source Ainsi dans
le cas ó une route appartient à plusieurs zones sources, elle est tout simplement mentée au niveau des différentes frontières de ces zones sources
Trang 26seg-• la deuxième étape consiste à associer un poids à chaque route Le poids d’une routedonnée est égal à sa longueur divisé par la longueur totale des routes de la zone source
à laquelle appartient la route
• la troisième étape consiste à déterminer la population qui sera affectée aux alentours
de chaque route La population d’une route est calculée est faisant la multiplicationentre son poids et la population totale de la zone source à laquelle appartient la route.Cette approche est bien adaptée dans le cas des zones urbaines Mais cependant, elleest trop dépendante de la longueur des routes ce qui fait que même sur des routes de classeprimaire c’est-à-dire les grandes autoroutes ó la population est quasi inexistante et dont leslongueurs sont considérables, l’approche affectera à ces routes des populations importantes
ce qui n’est pas correcte Ainsi, pour pallier ce problème, une approche nommée ’overlaidnetwork’ (Xie, 1995) se basant sur les classes des routes peut être utilisée Cette approche
a été utilisée pour la distribution de la population d’Amherst, NY Elle consiste en effet àutiliser comme données auxiliaires les données sur les routes, les différentes classes associées
à ces routes ainsi que les poids associés à ces classes pour pouvoir distribuer la population
La seule différence entre cette approche et l’approche ’street weighting’ est au niveau de
la deuxième étape ó le poids d’une route donnée pour l’approche ’overlaid network’ estégale à la longueur de la route multiplié par le poids associé à la classe de la route le toutdivisé par la somme totale des poids des routes de la zone source à laquelle appartient laroute Cette approche comme l’approche ’street weighting’ est bien adaptée pour les zonesurbaines De plus, une comparaison de l’approche ’overlaid network’ à l’approche ’binarydasymetric mapping’ dans (Hawley, 2005) montre que l’approche ’overlaid network’ arrive
à mieux distribuer la population dans trois régions à savoir : Franklin, Hamilton et Jeffersonpar rapport à l’approche ’binary dasymetric mapping’
Mais dans les zones rurales, les deux approches ont tendance à échouer car dans ceszones, les rues sont plus éloignées et les résidences sont situées à intervalles irréguliers Ainsipour pallier à ce problème, on utilise l’approche ’address point weighting’ (Tapp, 2010) quiest présentée dans la section suivante
1.3.2.4 Approche ’address point weighting’
Comme mentionné ci-dessus, l’approche ’address point weighting’ (Tapp, 2010) permet
de pallier au problème des approches ’street weighting’ et ’overlaid network’ en ce quiconcerne la distribution de la population dans des zones rurales Cette approche consiste àutiliser comme données auxiliaires les données sur les points d’adresses des zones sources et
a été utilisée pour la distribution de la population dans les villes suivantes : Anson, Lincoln
et Cumberland (Tapp, 2010) Les points d’adresses sont des points représentant les sations des structures(bâtiments) et des sous-unités de ces structures dans une juridictiondonnée et sont positionnés pour la plupart aux alentours des routes proches de ces struc-tures
locali-Le principe de distribution de la population de cette approche est subdivisé en deuxétapes :
Trang 27• La première étape consiste à affecter à chaque point d’adresse de chaque source unpoids donné Le poids d’un point d’adresse donné est égale à 1 divisé par le nombretotal de points d’adresses contenus dans la zone source à laquelle appartient le pointd’adresse.
• La deuxième étape consiste à déterminer la population associée à chaque point d’adresse
La population de chaque point d’adresse est calculée en multipliant le poids de chaquepoint d’adresse par la population de la zone source à laquelle appartient le pointd’adresse
Cette approche est bien adaptée aux zones rurales à condition d’avoir des données ponibles sur les différents points d’adresses des zones sources Dans (Tapp, 2010), l’auteursuggère en cas d’absence de données sur les points d’adresses l’utilisation de l’approche ’li-miting variables’ (Eicher & Brewer, 2001) Une autre solution sera aussi d’utiliser l’approche
dis-de (Roy & Blaschke, 2014) qui est une variante dis-de l’approche ’binary dasymetric mapping’(Fisher & Langford., 1996) et qui a été utilisée pour distribuer la population dans les zonesrurales de Khulna, Bangladesh En effet, la seule différence entre l’approche (Roy & Bla-schke, 2014) et l’approche ’binary dasymetric mapping’ (Fisher & Langford., 1996) est le faitque l’approche (Roy & Blaschke, 2014) utilise les cellules pour la distribution de la popula-tion contrairement à l’approche ’binary dasymetric mapping’ (Fisher & Langford., 1996) quiutilise des pixels
Tableau 1.1 – Récapitulatif des approches dans le domaine de la localisation de la population
1.3.3 Conclusion
Somme toute, nous avons présenté différentes approches dans le domaine de la sation de la population qui vont des approches simples aux approches plus complexes quinécessitent l’utilisation de différents types de données auxiliaires pour mieux distribuer la
Trang 28locali-population dans un environnement d’étude Le tableau 1.1 récapitule l’essentiel des rentes approches présentées dans ce chapitre.
diffé-Apres avoir présenté les différentes approches existantes dans nos deux différents maines d’étude : génération de la population synthétique et localisation de la population,nous présentons dans les chapitres suivants les approches proposées pour la génération etpour la localisation de la population synthétique
Trang 29do-Chapitre 2
Approche méthodologique
popu-lation synthétique : GenPopSyn
Dans ce chapitre, nous présentons l’approche proposée afin de générer la populationsynthétique En effet, vu que les approches existantes nécessitent un important nombre dedonnées pour leur bon fonctionnement, nous avons voulu proposer une approche qui pal-liera à ce problème et qui nécessitera donc moins de données pour la génération d’une po-pulation synthétique réaliste Cette approche proposée que nous nommons GenPopSyn estune approche sans échantillon qui se base sur l’approche IPU (Ye et al., 2009)
Les paragraphes suivants se chargent de présenter en premier lieu les différentes étapes
de notre approche ensuite de présenter la plateforme utilisée pour l’implémentation de notreapproche
2.1.1 Présentation générale de l’approche GenPopSyn
Afin de diminuer la complexité liée à la génération de la population synthétique surtoutlorsque la population synthétique à générer comporte plusieurs caractéristiques, nous avonssubdivisé notre approche en trois grandes étapes à savoir :
• Etape 1 : Détermination et subdivision des caractéristiques des individus et des nages de la population synthétique en deux groupes : caractéristiques primaires etcaractéristiques secondaires,
mé-• Etape 2 : Génération de la population synthétique en ne considérant que les tiques primaires,
caractéris-• Etape 3 : Prise en compte des caractéristiques secondaires dans la génération de lapopulation synthétique
Les sections suivantes se chargent de présenter plus en détails ces différentes étapes
2.1.1.1 Détermination et subdivision des caractéristiques de la population synthétique
Cette première étape de l’approche GenPopSyn consiste en premier lieu à déterminer lesdifférentes caractéristiques des individus et des ménages de la population synthétique et en-suite à subdiviser ces caractéristiques en deux groupes à savoir : caractéristiques primaires etcaractéristiques secondaires L’étape de détermination des caractéristiques de la populationsynthétique se fait à base des données disponibles sur la population Ainsi, les caractéris-tiques prises en compte dans la population synthétique ne sont que les caractéristiques surlesquelles on dispose de données En d’autres termes si par exemple dans la population on
Trang 30a que des données sur l’âge des individus et leur sexe alors il est impossible d’ajouter unecatégorie socio-professionnelle aux caractéristiques des individus car aucune donnée n’estdisponible pour cette caractéristique Ainsi après avoir déterminé ces différentes caracté-ristiques, nous répartissons ces caractéristiques en deux groupes à savoir : caractéristiquesprimaires et caractéristiques secondaires Vu qu’en général, on veut dans la plupart des gé-nérateurs de population synthétique générer les individus et les familles et qu’on disposetrès souvent sur la population de données agrégées sur les caractéristiques : âge, sexe, statutfamilial, type de ménage et taille de ménage alors nous avons considéré ces caractéristiquescomme les caractéristiques primaires dans notre approche Le tableau 2.1 présente les carac-téristiques primaires pour les ménages complexes et non complexes et également pour lesindividus des ménages complexes et non complexes.N étant un paramètre pour désigner lenombre maximum de personnes dans un ménage.
Tableau 2.1 – Caractéristiques primaires des individus et des ménages
Les caractéristiques primaires prédéfinies sont des caractéristiques que nous avons tiréesdes données de l’INSEE (INSEE, 1999) mais en absence de données sur l’une des caracté-ristiques primaires définies ci-dessus comme nous l’avons mentionné précédemment elle
ne sera tout simplement pas prise en compte dans la génération de la population tique sans que cela n’impacte sur le fonctionnement de l’approche GenPopSyn Les carac-téristiques secondaires regroupent quant à elles les autres caractéristiques restantes c’est àdire les caractéristiques qui ne sont pas considérées comme des caractéristiques primaires.Comme exemple de caractéristiques secondaires, nous avons la caractéristique professiond’un individu de la population qui permet d’attribuer une profession à chaque individu duménage ou la caractéristique revenu du ménage qui permet d’attribuer un revenu à chaqueménage
synthé-La figure 2.1 présente le diagramme de classe des entités de l’approche GenPopSyn
Trang 31Figure 2.1 – Diagramme de classe des entités de l’approche GenPopSyn
Ainsi après cette étape primordiale dans la génération de la population synthétique, nouspassons à la seconde étape qui consiste à générer la population synthétique en prenant encompte que les attributs principaux
2.1.1.2 Génération de la population synthétique en ne prenant en compte que les
carac-téristiques principales
Cette seconde étape de l’approche GenPopSyn comme mentionnée précédemment met de générer la population synthétique en ne considérant que les caractéristiques prin-cipales Vu que, dans la majorité des cas, les données sont manquantes sur les ménagescomplexes, nous avons donc subdivisé l’étape de génération en deux étapes à savoir :
per-• Etape 1 : Génération des ménages non complexes et des individus de ces ménages,
• Etape 2 : Génération des ménages complexes et des individus de ces ménages
Les sections suivantes se chargent de présenter plus en détails ces différentes étapes
2.1.1.2.1 Génération des ménages non complexes et des individus de ces ménages
Cette étape permet de générer uniquement les ménages non complexes ainsi que les dividus de ces ménages Elle est composée des six étapes suivantes :
in-• Etape 1 : Correction des données agrégées,
• Etape 2 : Détermination des combinaisons possibles entre les différentes valeurs descaractéristiques primaires des individus,
• Etape 3 : Détermination des combinaisons possibles entre les différentes valeurs desattributs des ménages,
• Etape 4 : Détermination des différentes compositions possibles des ménages non plexes,
Trang 32com-• Etape 5 : Détermination des poids associés à ces différentes compositions des ménagesnon complexes,
• Etape 6 : Génération des ménages non complexes et des individus de ces ménages.Les sections suivantes se chargent de présenter plus en détails ces différentes étapes
2.1.1.2.1.1 Correction des incohérences entre les données agrégées
Afin de préserver la confidentialité de certaines données agrégées, les sites de tion de données bruitent ces données (essentiellement pour empêcher l’identification desindividus, secret statistique) avant de les rendre disponibles ce qui fait que des incohérencespourraient éventuellement se trouver entre certaines données agrégées Ainsi pour corriger
distribu-un tant soit peu ces incohérences, nous avons proposé cette étape qui permet de corrigerpartiellement les quelques incohérences se trouvant éventuellement dans les données agré-gées En effet, pour corriger ces erreurs, nous nous basons essentiellement sur des règlesqui sont établies en fonction des données agrégées disponibles sur la population et sur lalogique Ces règles sont établies en considérant que les informations sur les individus ontplus de crédibilité que celles des ménages Ce choix se justifie par le fait que les informa-tions sur les individus sont des informations plus désagrégées que celles des ménages doncles erreurs doivent pour la plupart venir des informations sur les ménages Pour mieux ap-préhender l’idée de cette étape, prenons l’exemple suivant : supposons dans les donnéesagrégées qu’on nous dise qu’on a 200 ménages de type célibataire et 220 individus qui ont
un statut familial célibataire Ces données ne sont pas correctes car le nombre d’individus destatut familial célibataire doit être égale au nombre de ménages célibataires Nous tenons àsouligner que cette étape est totalement facultative vu qu’elle prend un temps considérable
à cause des détections manuelles que l’utilisateur doit faire mais elle permet d’améliorer lagénération de la population synthétique
2.1.1.2.1.2 Détermination des combinaisons possibles entre les différentes valeurs des caractéristiques primaires des individus
Cette étape permet de déterminer les combinaisons possibles entre les différentes valeursdes caractéristiques primaires des individus afin de ne pas prendre en compte des indivi-dus qui n’existent pas dans la population comme par exemple un individu ayant un statutfamilial marié et ayant la tranche d’âge [0,15[ ne doit pas être considéré dans la population.Ainsi pour déterminer ces combinaisons, nous nous basons essentiellement sur des règlesqui se présentent comme suit :
• Règle 1 : Un individu ayant le statut célibataire, le statut chef de famille d’un coupleavec ou sans enfants ou le statut partenaire doit avoir au moins 15 ans
• Règle 2 : Un individu peut être considéré comme enfant (personne vivant avec ces rents) jusqu’à un âge maximum de 75 ans (paramétrable selon la population à générer)
Trang 33pa-• Règle 3 : Seuls les individus de sexe masculin peuvent avoir un statut familial chef defamille d’un couple avec ou sans enfants.
• Règle 4 : Seuls les individus de sexe féminin peuvent avoir un statut familial naire
parte-• Règle 5 : La valeur ’Personne vivant dans un ménage complexe’ de la caractéristiquestatut familial ne doit pas être prise en compte ici car la génération concerne les mé-nages non complexes
Toutes les combinaisons qui respectent ces règles constituent les combinaisons possiblesentre les différentes valeurs des caractéristiques primaires des individus Nous tenons à rap-peler qu’ici nous donnons les règles en considérant que toutes les caractéristiques primairesprédéfinies se trouvent dans la population à générer mais si ce n’est pas le cas, l’étape ap-pliquera les règles en ne considérant que les caractéristiques primaires contenues dans lapopulation à générer
2.1.1.2.1.3 Détermination des combinaisons possibles entre les différentes valeurs des attributs des ménages
Cette étape permet de déterminer les combinaisons possibles entre les différentes valeursdes caractéristiques primaires des ménages afin de ne pas prendre en compte des ménagesqui n’existent pas dans la population comme par exemple un ménage de type célibataireayant une taille de 2 personnes ne doit pas être considéré dans la population Ainsi pourdéterminer ces combinaisons, nous nous basons essentiellement sur des règles qui se pré-sentent comme suit :
• Règle 1 : La taille d’un ménage de type célibataire est de 1 personne
• Règle 2 : La taille d’un ménage avec un type couple sans enfants est de 2 personnes
• Règle 3 : La taille d’un ménage avec un type couple avec enfants ou un type parental doit être au minimum de 2 personnes et au maximum de 8 personnes Nousavons fixé le nombre maximum d’enfants dans un ménage non complexe à 6
mono-• Règle 4 : La taille d’un ménage avec un type monoparental doit être au minimum de 2personnes et au maximum de 7 personnes Soit au maximum 6 enfants
Toutes les combinaisons qui respectent ces règles constituent les combinaisons possiblesentre les différentes valeurs des caractéristiques primaires des ménages
2.1.1.2.1.4 Détermination des différentes compositions possibles des ménages non complexes
Cette étape permet de déterminer les différentes compositions possibles des ménages noncomplexes en déterminant toutes les combinaisons possibles entre chacune des valeurs descaractéristiques primaires des ménages et chacune des valeurs des caractéristiques primaires
Trang 34des individus Pour déterminer ces différentes compositions des ménages, nous nous basonscomme les deux étapes précédentes sur des règles qui se présentent comme suit :
• Règle 1 : Un ménage de type célibataire est composé d’un seul individu ayant le statutfamilial célibataire et dont l’âge est d’au moins de 15 ans
• Règle 2 : Un ménage de type couple sans enfants est composé d’un individu de sexemasculin ayant un statut familial chef de famille d’un ménage en couple sans enfantavec un âge minimum de 15 ans et d’un individu de sexe féminin ayant un statutfamilial partenaire avec un âge minimum de 15 ans aussi De plus, la différence d’âgeentre le mari et la femme est fixée au maximum à 20 ans (c’est-à-dire l’homme est plusâgé au maximum à 20 ans que sa femme) (paramétrable selon la population à générer)
et la différence d’âge entre la femme et le mari est fixée au maximum à 10 ans dire la femme est plus âgé au maximum à 10 ans que son mari) (paramétrable selon lapopulation à générer)
(c’est-à-• Règle 3 : Un ménage de type couple avec enfants est composé au minimum de 3 sonnes (1 enfant) et au maximum de 8 personnes (6 enfants) Le ménage doit être com-posé d’un individu de sexe masculin ayant un statut familial chef de famille d’un mé-nage en couple avec enfants avec un âge minimum de 15 ans, d’un individu de sexeféminin ayant un statut familial partenaire avec un âge minimum de 15 ans aussi etd’un nombre donné d’individus ayant le statut familial enfant d’un ménage en coupleavec enfants et dont l’âge doit être inférieur au moins de 15 ans par rapport à ses pa-rents (paramétrable selon la population à générer) De plus, la différence d’âge entre lemari et la femme est fixée au maximum à 20 ans (paramétrable selon la population àgénérer) et la différence d’âge entre la femme et le mari est fixé au maximum à 10 ans(paramétrable selon la population à générer)
per-• Règle 4 : Un ménage de type monoparental est composé au minimum de 2 personnes(1 enfant) et au maximum de 7 personnes (6 enfants) Le ménage doit être composéd’un individu ayant un statut familial chef de famille d’un ménage monoparental avec
un âge minimum de 15 ans et d’un nombre donné d’individus ayant le statut familialenfant d’un ménage monoparental et dont l’âge doit être inférieur au moins de 15 anspar rapport au parent (paramétrable selon la population à générer)
• Règle 5 : Le nombre d’enfants dépend de l’âge de la mère dans le cas d’un ménage
en couple avec enfants et dépend de l’âge du parent dans le cas d’un ménage parental Pour avoir 1 ou 2 enfant(s), il faut avoir au moins 15 ans, pour avoir 3 ou 4enfant(s), il faut avoir au moins 20 ans et pour avoir 5 ou 6 enfant(s), il faut avoir aumoins 25 ans Toutes ces valeurs sont paramétrables selon la population à générer.Toutes les compositions de ménages qui respectent ces règles constituent les différentescompositions possibles des ménages non complexes
Trang 35mono-2.1.1.2.1.5 Détermination des différents poids associés aux différentes compositions des ménages non complexes
Une fois ces différentes compositions déterminées, cette étape permet de déterminerles poids wi (i allant de 1 à ncm avec ncm représentant le nombre de compositions de mé-nages obtenues à l’étape précédente) associés à chaque composition de ménage c’est-à-dire
le nombre de ménages qui auront la même composition que chacune des ménages générésprécédemment et qui respectent au mieux les données agrégées qu’on a sur la population.Donnons l’exemple suivant pour illustrer ce qui est dit Supposons que dans l’étape précé-dente, on a le type de composition suivante : Un ménage de type couple avec enfants detaille 6 personnes dont un individu ayant une tranche d’âge [30,50[ a le statut familial chef
de famille d’un ménage en couple avec enfants, un autre ayant une tranche d’âge [30,50[
a le statut partenaire , avec 4 individus ayant le statut enfant d’un ménage en couple avecenfants et dont deux ont ayant une tranche d’âge [15,20[ et deux autres une tranche d’âge[0,15[, cette étape permettra de déterminer le nombre de ménages qui auront la même ca-ractéristique que ce type de composition de ménage Supposons que le poids associé à cetype de ménage est de 5 alors dans la population on aura 5 ménages de type couple avecenfants de taille 6 personnes dont un individu ayant une tranche d’âge [30,50[ a le statut fa-milial chef de famille d’un ménage en couple avec enfants, un autre ayant une tranche d’âge[30,50[ a le statut partenaire , avec 4 individus ayant le statut enfant d’un ménage en coupleavec enfants et dont deux ont ayant une tranche d’âge [15,20[
Déterminer ces différents poids consistera à résoudre le problème mathématique suivant(voir équation (2.1)) :
Notons que dans cette formule, toutes les données agrégées de la population (ménages
et individus) sont rassemblées dans une seule liste qui correspond à da
• daj: correspond ainsi à la donnée agrégée se trouvant à la position j de la liste j allant
de 1 à Nda Ndadésignant le nombre de données agrégées
• doj : correspond à la donnée obtenue selon les valeurs des poids pour la contrainte setrouvant à la position j de la liste Nous en reviendrons un peu plus bas
• ikj: correspond aux poids qui interviennent dans le calcul de la donnée agrégée daj
• ckj: correspond aux coefficients associés à ces poids pour la donnée agrégée daj
Vu que ce problème est un problème d’optimisation mathématique et que l’approcheIPU permet de résoudre ce problème, nous avons choisi alors d’adapter cette approche pourrésoudre notre problème d’optimisation La version modifiée de l’algorithme IPU (voir laversion initiale de l’algorithme IPU à l’Annexe A) se présente comme suit :
Trang 36• Etape 1 : Rassembler toutes les données agrégées de la population dans une seuleliste Les données sur les ménages sont mises dans la liste avant les données sur lesindividus Soit dajla donnée agrégée à la position j de la liste j allant de 1 à Nda Nda
désignant le nombre de données agrégées
• Etape 2 : Déterminer les différents indices des poids(ikj) dans le calcul de chaque née agrégée qui interviennent ainsi que les coefficients (ckj) associés à ces poids pour
don-la donnée agrégée considérée Notons que nous parlons ici uniquement des poids quiinterviennent dans le calcul de chaque donnée agrégée et dont les coefficients associés
ne sont pas nuls
• Etape 3 : Initialiser les différents poids wi associés à chaque composition de ménagecomme suit : tous les poids qui interviennent dans le calcul d’une donnée agrégée dont
la valeur est nulle sont initialisés à 0 et tous les autres poids restants sont initialisés à1
• Etape 4 : Calculer l’erreur E associée aux différentes valeurs prises par les wi (il fautsouligner qu’on ne considère que les données agrégées ayant des valeurs non nullespour le calcul de l’erreur E) (voir équation (2.2)) Initialiser ensuite l’erreur minimale
Emin à E L’erreur E peut être calculée de deux manières selon le choix effectué parutilisateur :
• Etape 5 : Mettre à jour les différents poids wicomme suit :
- (a) Initialiser le compteur m à 1
- (b) Pour chaque donnée agrégée dam, vérifier si dam 6=0
- Sinon, Incrémenter m c’est-à-dire m = m + 1
- Si m≤Nda, retourner à l’étape 5 (b) sinon aller à l’étape 6
• Etape 6 : Récupérer l’erreur E dans la variable Ea, c’est-à-dire Ea= E
• Etape 7 : Calculer l’erreur E associée aux nouvelles valeurs prises par les wi commeindiquée par l’équation (2.2)
Trang 37• Etape 8 : Si E<Emin, alors : Emin = E et pwi= wi avec pwireprésentant les valeurs des
wi pour lesquels l’erreur E est minimale
• Etape 9 : Calculer l’amélioration Aede l’erreur actuelle par rapport à l’ancienne commesuit (voir équation (2.4)) :
Ae =|E−Ea| (2.4)
• Etape 10 : Si Ae>e(valeur positive très petite comprise entre 0 et 1), retourner à l’étape
5 sinon on considère que les poids trouvés sont déjà bons et correspondent à pwComme dans l’approche IPU, nous vérifions que les poids finaux trouvés pw respectentles données agrégées des ménages Si oui, on s’arrête à l’étape 10 Sinon on effectue unique-ment l’étape 5 une seule fois mais seulement pour les données agrégées des ménages donc
le compteur m de l’étape 5 s’arrêtera s’il atteint le nombre de données agrégées des ménages.L’algorithme proposé comme mentionné un peu plus haut est semblable à celui de l’al-gorithme IPU à la différence que notre approche ne se base pas sur un échantillon pourdéterminer les différentes compositions possibles des ménages mais plutôt sur des règlesqui sont établies Une autre différence est aussi le fait que notre approche utilise directementles données agrégées de la population alors que l’algorithme IPU utilise l’approche IPF pourdéterminer les différences distributions ce qui fait que le calcul d’erreur ainsi que les étapes
2, 3, 4 et 5 dans l’algorithme proposé sont différents par rapport à ceux de l’algorithme IPU
2.1.1.2.1.6 Génération des ménages non complexes et des individus de ces ménages
Une fois les différents poids déterminés, nous passons à l’étape de génération des nages non complexes ainsi que les individus de ces ménages Cette étape est importante car
mé-la plupart des poids obtenus à l’étape précédente ne sont pas des entiers Une solution seraitd’arrondir ces valeurs mais on constate que l’erreur devient très grande si on le fait Ainsinous utilisons l’approche suivante pour avoir des poids entiers L’algorithme proposé pour
la génération se présente comme suit :
• Etape 1 : Récupérer les poids pwidans pwai, c’est-à-dire pwai= pwi, i allant de 1 à ncm
• Etape 2 : Initialiser un compteur r à 0, Initialiser p fi à 0 avec i allant de 1 à ncm p fi
représentant les poids finaux trouvés pour cette génération
• Etape 3 : Calculer les probabilités probiqu’un ménage donné ait une composition née ainsi que les probabilités cumulées probCuli Ces différentes probabilités se cal-culent de la manière suivante (voir équations (2.5) et (2.6)) :
Trang 38• Etape 5 : Déterminer le ménage mn dont le probCulmn a la valeur immédiatement périeure à gen
su-• Etape 6 : Mettre à jour la valeur de p fmnet de r comme suit : p fmn= p fmn+ 1 et r = r +1
• Etape 7 : Vérifier si l’ajout de ce ménage fait que les données agrégées sont toujoursrespectées
- Si oui, aller à l’étape 8
- Sinon :
∗ Mettre à jour la valeur de p fmn et de r comme suit : p fmn = p fmn - 1 et r = r - 1
∗ Mettre à jour pwmn comme suit : pwmn = 0
∗ Recalculer toutes les probiet probCulicomme suit :
à l’étape 4, sinon s’arrêter Les poids finaux sont les différentes valeurs de p fi
Cet algorithme permet ainsi de générer les ménages non complexes ainsi que les dus de ces ménages avec pour chacun leurs caractéristiques primaires en se basant sur lespoids déterminés dans l’étape précédente En appliquant l’algorithme, nous constatons queles poids finaux obtenus donnent pour la plupart des cas plus d’erreur que ceux obtenusdans l’étape précédente ce qui est tout à fait naturel vu que ce sont des probabilités qui sontutilisées Ainsi pour diminuer un tant soit peu cette erreur, nous suggérons de générer plu-sieurs fois (par exemple 100 fois) en utilisant l’algorithme et de ne garder que la générationdes ménages non complexes (y compris les individus de ces ménages) ayant le taux d’erreur
indivi-le plus petit Nous tenons à rappeindivi-ler que indivi-le taux d’erreur se calcuindivi-le en utilisant l’équation(2.2)
2.1.1.2.2 Génération des ménages complexes et des individus de ces ménages
Cette étape permet de générer les ménages complexes ainsi que les individus de ces nages avec pour chacun leurs caractéristiques Vu que pour la plupart du temps les donnéespour les ménages complexes ne sont pas disponibles, nous les déterminons très souvent àbase des données restantes sur la population après la génération des ménages non com-plexes Ainsi, cette étape est subdivisée en deux autres étapes à savoir :
mé-• Etape 1 : Détermination des données des ménages complexes et des individus de cesménages,
Trang 39• Etape 2 : Génération des ménages complexes et des individus de ces ménages.
Les sections suivantes se chargent de présenter plus en détails ces différentes étapes
2.1.1.2.2.1 Détermination des données des ménages complexes et des individus de ces ménages
Cette étape permet de déduire de l’étape de génération des ménages non complexes (ycompris les individus de ces ménages) les données des ménages complexes et des individus
de ces ménages
Les données des individus des ménages complexes sont déterminées en prenant les dividus restants lors de l’étape de la génération des ménages complexes Prenons l’exemplesuivant pour expliquer brièvement ce qu’on dit, supposons que d’après les données agré-gées le nombre d’individus ayant la tranche d’âge [0,15[ est égal à 300 et que seulement
in-250 ont été distribués dans les ménages non complexes ainsi le nombre d’individus ayant latranche d’âge [0,15[ dans les ménages complexes est donc 300 - 250 = 50
En ce qui concerne les données des ménages complexes, elles sont déterminées commesuit :
• La première donnée à déterminer est le nombre maximum de ménages complexes àgénérer Par défaut, pour déterminer cette donnée, on fait la différence entre le nombre
de ménages total de la population et le nombre de ménages non complexes générés.Ensuite selon les différents cas ci-dessous, on ajuste la valeur calculée précédemment :
- Si la valeur calculée est supérieure au nombre de ménages complexes qui est entré
en paramètre par l’utilisateur alors le nombre maximum de ménages complexesest égal au nombre de ménages complexes entré par l’utilisateur
- Si la valeur calculée est supérieure à 2 fois le nombre d’individus des ménagescomplexes alors le nombre maximum des ménages complexes est égal au nombred’individus des ménages complexes divisé par 2 Cela se justifie par le fait que lenombre de personnes minimum dans les ménages complexes est de 2 personnes
- Si encore la valeur calculée est supérieure au nombre d’adultes des ménages plexes (individus ayant au moins 15 ans) alors le nombre maximum des ménagescomplexes est égal au nombre d’adultes des ménages complexes Cela se justifiepar le fait qu’on considère qu’on ne peut pas avoir des ménages composés quedes individus de moins de 15 ans
• Une autre donnée qui est possible à déterminer est la distribution des ménages plexes selon le nombre de personnes dans le ménage Cette donnée sera possible à dé-terminer si et seulement si on a une distribution totale des ménages de la populationselon le nombre de personnes dans le ménage Ainsi après avoir généré les ménagesnon complexes, on peut déterminer la distribution des ménages complexes selon lenombre de personnes dans le ménage en faisant la différence entre la distribution totale
com-et la distribution des ménages non complexes Prenons l’exemple suivant pour quer brièvement ce qu’on dit, supposons que d’après les données agrégées le nombre