1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các thuật toán khai phá dữ liệu được áp dụng cho lập bản đồ đất kỹ thuật số

83 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 26,7 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nous présentons dans ce travail, une nouvelle approche des tests stratégiques d’estimations des incertitudes de prédiction, basée sur l’utilisation de trois types d’analyses : 1l’analyse

Trang 1

(RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI)

NKUBA KASANDA Lievin

ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES

INCERTITUDES DE PREDICTION

CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHÔNG CHẮC CHẮN

CỦA CÁC DỰ ĐOÁN

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI – 2018

Trang 2

(RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI)

NKUBA KASANDA Lievin

ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES

INCERTITUDES DE PREDICTION

CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHÔNG CHẮC CHẮN

CỦA CÁC DỰ ĐOÁN

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI – 2018

Trang 3

NKUBA KASANDA Lievin

ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES

INCERTITUDES DE PREDICTION

CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG CHO LẬP BẢN ĐỒ ĐẤT KỸ THUẬT SỐ: CÀI ĐẶT VÀ KIỂM TRA CÁC CHIẾN LƯỢC ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHÔNG CHẮC CHẮN

CỦA CÁC DỰ ĐOÁN

Spécialité: Systèmes intelligents et multimédia Code: Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de:

- Philippe LAGACHERIE, Ingénieur de recherche, LISAH INRA

- Cécile GOMEZ, Chargée de recherche, LISAH IRD

HANOI – 2018

Trang 4

données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn

đã được chỉ rõ nguồn gốc

NKUBA KASANDA Lievin

Trang 5

RÉSUMÉ

Réalisée en lien avec une activité de recherche au sein de l’unité mixte de recherche (UMR) du laboratoire d’études des interactions entre sols agrosystème et hydrosystème (LISAH), cette étude porte sur l’application des algorithmes de fouille

de données dans la cartographie numérique des sols sur la mise en place et tests des stratégies robustes d’estimations des incertitudes de prédiction

La cartographie numérique des sols (CNS) permet de prédire les classes

ou les propriétés des sols, à partir des modèles mathématiques ou géostatistiques, en prenant en compte des données disponibles du sol ou des formalisations numériques

de l’expertise de pédologues L’utilisation des algorithmes de fouilles de données dans

la CNS permet de pouvoir répondre à ce besoin principal de la CNS, afin d’estimer les incertitudes de prédiction Nous présentons dans ce travail, une nouvelle approche des tests stratégiques d’estimations des incertitudes de prédiction, basée sur l’utilisation de trois types d’analyses : 1)l’analyse de sensibilité globale pour permettre d'analyser un modèle mathématique en étudiant l'impact et l’importance des paramètres d'entrée du modèle sur les sorties (indicateurs d’incertitudes), 2)l’analyse

de sensibilité empirique, qui vient appuyer celle précédente dans l’objectif de fixer les valeurs des paramètres du modèle pour différents types de jeux de données de calibration et 3)l’analyse de la qualité de l’échantillonnage pour identifier les bons ensembles de sites de calibration qui donnent les meilleurs résultats en sortie du modèle (indicateurs d’incertitudes)

Les résultats obtenus pour les trois analyses sont des recommandations pour estimer correctement les incertitudes de prédiction des sols pour différents types

de jeux de données de calibration en CNS

Trang 6

Conducted in connection with a research activity within the Joint Research Unit (UMR) of the Agrosystem and Hydrosystem Soil Interactions Laboratory (LISAH), this study focuses on the application of data mining algorithms

in digital mapping of soils on the implementation and testing of robust strategies for estimating prediction uncertainties

Digital soil mapping (CNS) can be used to predict soil classes or properties, using mathematical or geostatistical models, taking into account available soil data or numerical formalizations of soil scientists' expertise The use of data mining algorithms in the CNS makes it possible to respond to this main need of the CNS, in order to estimate the prediction uncertainties We present in this work, a new approach of the strategic tests of estimates of the uncertainties of prediction, based on the use of three types of analyzes: 1) the analysis of global sensitivity to allow to analyze a mathematical model by studying the impact and importance of the input parameters of the model on the outputs (uncertainty indicators), 2) the empirical sensitivity analysis, which supports the previous one in order to set the values of the model parameters for different types of calibration datasets and 3) sampling quality analysis to identify the correct sets of calibration sites that give the best results at the output of the model (uncertainty indicators)

The results obtained for the three analyzes are recommendations for correctly estimating the soil prediction uncertainties for different types of CNS calibration datasets

Trang 7

« Si j'ai vu si loin, c'est que j'étais monté sur des épaules de géants »

Isaac Newton

Trang 8

TABLE DES MATIÈRES

RÉSUMÉ i

ABSTRACT ii

TABLE DES MATIÈRES iv

LISTE DES ABRÉVIATIONS, DES SIGLES ET DES ACRONYMES vi

GLOSSAIRE vi

REMERCIEMENTS vii

LISTE DES FIGURES ix

LISTE DES TABLEAUX x

CHAPITRE 1 - INTRODUCTION 1

CHAPITRE 2 - ÉTAT DE L’ART 3

2.1 Cartographie numérique des sols 3

2.1.1 La fonction de prédiction 4

2.1.2 Les données spatiales sur les sols (S) 6

2.1.3 Les covariables des sols 7

2.2 Les incertitudes de prédiction 7

2.3 Technique d’échantillonnage en CNS 8

2.4 Analyse de sensibilité de modèle 10

2.5 Objectifs spécifiques 13

CHAPITRE 3 - MÉTHODOLOGIE DE CARTOGRAPHIE NUMÉRIQUE DE SOL 14

3.1 Forêts de régression quantile 15

3.2 Données disponibles 18

3.2.1 Données spatialisées sur les sols S 18

3.2.2 Covariables de relief R et données de localisation N 19

3.3 Constitution des bases de données de calibration et validation 19

3.3.1 Base de données initiale 20

3.3.2 Base de données de validation 22

3.3.3 Base de données de calibration 22

3.4 Évaluations des performances des modèles de cartographie numérique des sols 23

CHAPITRE 4 - MÉTHODOLOGIE DE L’ANALYSE DE SENSIBILITÉ 26

4.1 Analyse de sensibilité globale 26

4.2 Recherche des valeurs optimales des paramètres mtry et nodesize 30

4.3 Analyse de l’échantillon de calibration 33

4.3.1 Les critères basés sur la distance 33

4.3.2 Mesure de discrépance 34

Trang 9

4.3.3 La variance 35

CHAPITRE 5 - RÉSULTATS 36

5.1 Analyse de sensibilité globale 37

5.2 Recherche de valeurs optimales des paramètres mtry et nodesize 40

5.3 Analyse de l’échantillonnage de calibration 42

CONCLUSION 46

ANNEXES 48

RÉFÉRENCES 68

Trang 10

LISTE DES ABRÉVIATIONS, DES SIGLES ET DES ACRONYMES

AS : Analyse de sensibilité

CNS : Cartographie Numérique de Sol

INRA : Institut National des Recherches Agronomiques

IRD : Institut de Recherche pour le Développement

MNT : Modèle Numérique de Terrain

QRF : Quantile Regression Forest

UMR LISAH : Unité Mixte de Recherche Laboratoire d’études des Interactions entre

Sol Agrosystème et Hydrosystème

RF : Random Forest

SI : Indice de Sensibilité de premier ordre

TSI : Indice de Sensibilité Total

GLOSSAIRE

Analyse de sensibilité – C’est une étude de l'influence et l’importance des paramètres

d’entrée p sur une sortie de modèle Yi

Indicateur d’incertitude – C’est une mesure de performance de modèle de CNS Modèle – C’est une fonction de prédiction des propriétés des sols

Pédologie – C’est une science d’étude de la formation et de l’évolution des sols

Site – C’est les données d’un échantillon

Strate – C’est une cellule d’une zone d’étude

Télédétection – C’est l’ensemble des procédés et techniques qui permettent d’acquérir

à distance des informations sur les objets terrestres, en utilisant les propriétés des ondes électromagnétiques émises ou réfléchies par ces objets

Trang 11

REMERCIEMENTS

S’engager dans un travail de recherche pendant son cursus universitaire est un travail fastidieux et demande une prise de distance vis-à-vis de son environnement quotidien ainsi que dans la façon d’aborder son propre parcours Tous mes remerciements s’adressent aux responsables et corps scientifiques de l’Institut Francophone International M Ngô Tự Lập, Directeur, et son adjoint, M Hồ Tường Vinh qui ont contribué à ce que ce travail devienne réalité et qui y ont, pendant ces deux années, apporté leur contribution

Mes remerciements s'adressent également à mes superviseurs de stage : Philippe Lagacherie (INRA) et Cécile Gomez (IRD) Leur temps qu’ils ont consacrés, leur patience, leur aide et leur disponibilité ont permis une collaboration enrichissante, autant sur le plan professionnel que personnel La qualité et la richesse de leurs relectures n’ont cessé de m’impressionner À travers eux, j’associe toute l’UMR LISAH qui m'a fait découvrir le milieu de la recherche et m'a donné l'envie de continuer à le faire Une pensée particulière à Jean-Stéphane Bailly par qui, finalement, le travail a émergé Un grand merci à tous ceux qui ont participé aux différents comités de suivi de ce travail, en particulier les unités URSol et Infosol d'Orléans La collaboration avec Fabrice Vinatier et Styc Quentin, m'a beaucoup apportée et je tiens à les remercier pour leur confiance

A mes frères et sœurs : Pierrot MPOYI, Annie NTANGA, Papy KABENGELA, Patrick KASANDA, John MUKUNA, Zadio KAZADI, Patrick-Divin Kasanda, Jean TSHIBANGU, Annie MUJINGA, Marie-Louise KAPINGA, Déclime MUKENDI, Théodore NDALA, Carole MUJINGA, Carine NGOYA, Mimi MULANGA, Makeba MUKEBA, JP NKODILA, Novah TSHIBASU etc que ce travail soit pour vous un modèle à suivre A mes nièces, neveux et futurs enfants pour leur épanouissement scientifique Que les amies et amis : Christian NGALULA, Franck TSHIBANDA, Tchantshes NGONGO, Judith BONDO, Joe MUPANGA, Yannis MULUMBA, Yannick NAWEJ, etc trouvent ici l’expression de notre reconnaissance pour leurs conseils et encadrement techniques Et ceux dont les noms

ne sont pas cités, pour leur assistance tant matérielle, que morale qu’ils nous ont apportée

Trang 12

Je tiens à remercier tous ceux qui m'ont supporté pendant tout mon cursus : Mes parents Charlotte NGUDIA et Patrick KASANDA pour leur soutien dans les prières, conseils et motivations, mon oncle Jean-Médard MUKUNA pour son soutient spécial, Yannick et Caroline TSHIBASU pour leur assistance et attention personnelles, Deborah BONDO pour son soutien exceptionnel dans les moments les moins et les plus rigolo qui m'ont aidé dans la dernière ligne droite Nous achevons ces remerciements en rendant tout l’honneur à DIEU, tout puissant pour les innombrables bienfaits dont il ne cesse de nous combler

Enfin, les tentations ont été nombreuses de « sortir » du cadre de la préparation de ce travail : merci aux nombreux amis à qui j’ai refusé des invitations pour des soirées festives, des randonnées dominicales, des vacances des retrouvailles,

Lievin NKUBA KASANDA

Trang 13

LISTE DES FIGURES

Figure 1 : Principe général de la cartographie numérique des sols [15]

Figure 2 : Techniques de stratification CNS [12]

Figure 3 : Zone d’étude [10]

Figure 4 : Modèle de cartographie numérique testé

Figure 5 : Carte d’argile obtenue par imagerie hyperspectrale

Figure 6 : Méthodologie de sélection des bases de données

Figure 7 : Stratification de la zone d’étude par strates géographiques compactes

Figure 8 : Histogramme des données de validation par strate

Figure 9 : Étapes d’analyse de sensibilité globale

Figure 10 : Étapes d’analyse empirique

Figure 11 : Analyse de sensibilité globale pour 200 sites de calibration

Figure 12 : Analyse de sensibilité globale pour 2000 sites de calibration

Figure 13 : Analyse de sensibilité globale pour 10 000 sites de calibration

Figure 14 : Matrice de corrélation entre covariables et argile pour 200 sites de

calibration

Figure 15: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de

qualité pour 200 sites de calibration

Figure 16: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de qualité pour 1000 sites de calibration

Figure 17: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de qualité pour 2000 sites de calibration

Figure 18 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),

picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 200 sites de calibration

Figure 19 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),

picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 200 sites de calibration

Trang 14

Figure 20 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),

picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite) calculées pour 200 sites de calibration

LISTE DES TABLEAUX

Tableau 1 : Moyenne (en gras) et écart-type (entre parenthèse et italique) des indicateurs d’incertitude en fonction de jeu de données de calibration

Tableau 2 : Résultats Recherche de valeurs optimales des paramètres mtry et nodesize

Trang 15

CHAPITRE 1 - INTRODUCTION

Le sol représente la partie très superficielle de l’écorce terrestre à l’interface entre atmosphère, lithosphère, biosphère et anthroposphère Cette position particulière confère au sol un rôle essentiel vis à vis des grands enjeux agro-environnementaux qui se posent à l’échelle planétaire (sécurité alimentaire, changement climatique, urbanisation et artificialisation, gestion de l’eau,…) et se déclinent à des échelles très locales au travers des décisions prises par les agriculteurs

et les aménageurs intervenant sur les territoires

Actuellement un frein important à ces prises de décisions est constitué par

le manque de données quantitatives et spatialisées sur les propriétés des sols En effet, les bases de données géographiques actuellement disponibles restent trop imprécises pour constituer un support de décision pertinent Pour pallier ce problème, des recherches méthodologiques sont menées depuis quelques années en cartographie numérique des sols (CNS) [15] La CNS produit une estimation en tout point de l’espace des propriétés des sols, ou des classes de sol, à partir d’observations et d’analyses de sols associées à des données spatiales sur le milieu (relief, géologie, végétation etc.) Chaque valeur de propriété de sol est associée à une certaine valeur d’incertitude expliquant la qualité de la donnée [17]

Les méthodes de CNS les plus opérationnelles pour obtenir des estimations de sol reposent entre autre sur l’utilisation d’algorithmes de fouille de données tels que Random Forest [2] dont certains sont aussi susceptibles de fournir une estimation d’incertitude comme la méthode Quantile Regression Forest [20]

Il est indispensable que les modèles de CNS pour l’estimation des propriétés des sols soient robustes et stables Alors, il est important non seulement de construire de bons modèles prédictifs mais également d’étudier leur sensibilité aux paramètres d’entrée En effet, les estimations étant entachées d’une incertitude liée à l’impact des paramètres d’entrée du modèle sur les sorties, celle-ci peut influencer sur

la qualité des décisions prises A titre d’exemple, un échantillonnage ayant un nombre

de sites mal positionnés dans l’espace peut générer des biais d’estimation d’incertitude non négligeables [15]

Trang 16

L’objectif général de ce travail est l’évaluation des performances de ces algorithmes, non seulement en terme de qualité d’estimation mais aussi en terme de précision des estimations d’incertitude associées, ce dernier point étant encore une question ouverte en cartographie numérique des sols Le présent travail est constitué

de cinq chapitres, dont cette présente introduction Le second chapitre présente l’état

de l’art, dont les concepts de la cartographie numériques des sols et d’analyse de sensibilité de modèles Le troisième chapitre présente la méthodologie de la CNS Le quatrième chapitre présente la méthodologie d’analyse de sensibilité Le cinquième chapitre présente les résultats Le dernier chapitre est dédié à la conclusion et perspectives de ces travaux Finalement, les annexes décrivent les démonstrations et preuves des résultats obtenus de nos expériences au laboratoire

Trang 17

CHAPITRE 2 - ÉTAT DE L’ART

Ce chapitre présente le contexte dans lequel s’inscrivent les travaux de cette étude Il comprend deux parties : La première partie est dédiée à la cartographie numérique des sols et, la deuxième partie est dédiée à l’analyse de sensibilité de modèle

2.1 Cartographie numérique des sols

La CNS se définit comme « la création et l'enrichissement de systèmes d'information pédologiques à références spatiales par des modèles numériques inférant les variations spatiales et temporelles des sols et de leurs propriétés à partir d'observations de sol et de données spatiales d'environnement des sols » (Lagacherie

et McBratney, 2007)

Le principe général de la cartographie numérique des sols est résumé en figure 1 Il s’agit de prédire des classes des sols ou des propriétés de sol (terme S à gauche de l’équation figure 1) en utilisant d’une part les données spatiales sur les sols disponibles sur la zone à étudier (terme S à droite de l’équation figure 1) et, d’autre part, les données spatiales représentant des éléments du paysage en relation (de causalité ou non) avec le sol ou l’une de ses propriétés (termes C, O, R, P, A et N à droite de l’équation figure 1) Ces données spatiales, appelées « covariables du sol », sont supposées être facilement disponibles sous forme numérique sur la zone à cartographier (ex : modèle numérique de terrain, carte d’occupation du sol, carte géologique, etc….)

Les estimations de classes de sol ou de propriétés de sol sont réalisées par des fonctions de prédiction f induites soit par des modèles statistiques ou géostatistiques, soit par des formalisations numériques de l’expertise de pédologues Ces fonctions f sont calibrées au moyen des données spatiales sur les sols, délivrant ainsi une estimation de l’incertitude de prédiction (ε)

Trang 18

Figure 1 : Principe général de la cartographie numérique des sols [15]

Ainsi, l’équation de la fonction de prédiction des propriétés des sols présentée figure 1 est fonction de la fonction de prédiction, des données spatialisées sur les sols utilisées, des données de paysage auxiliaires, et de l’estimation de l’incertitude

2.1.1 La fonction de prédiction

McBratney et al (2003) définissent la fonction de prédiction, comme étant une fonction permettant de prédire une estimation des classes ou des propriétés des sols sur des sites inconnus Lorsque la prédiction est une classe des propriétés des sols, la fonction donne en sortie une valeur de probabilité de trouver chacune des classes des sols présente dans la zone d’étude, associée à une incertitude Par contre, dans le cas ó la prédiction est une estimation des propriétés des sols, la fonction donne en chaque site une valeur des propriétés à une certaine profondeur

Trang 19

Deux approches des modèles de fonction de prédiction sont utilisées selon les types de données en CNS :

- L’approche pédo-statistique, utilise le jeu de données d’un ensemble de calibration

composé de la classe ou propriété des sols et de l’ensemble des covariables du sol Les modèles pédo-statistiques sont calibrés avec les données de calibration et validés avec les données non renseignées pour prédire les classes ou les propriétés des sols associées d’une estimation d’incertitude

Lorsque nous avons une faible densité de données de calibration, la prédiction est faite à partir des valeurs locales de covariables des sols Et le modèle pédo-statistique est un modèle de fouille de données Dans ce cas, si l’on cherche à prédire une classe des sols, on utilise une méthode de classification : réseaux de neurones, arbres de décision, forêt aléatoire, etc , et si on cherche à prédire une propriété des sols, le modèle utilisé est celui de type régression : linéaire, multiple, etc.…

Avec une forte densité de données de calibration, l’incertitude associée à

la prédiction est déduite par interpolation des erreurs connues sur les données observées proches Le modèle pédo-statistique utilisé, est simplement celui géostatistique, comme la régression mixte ou, la régression-krigeage

- L’approche de formalisme d’une expertise pédologique existante, exploite

l’expertise pédologique provenant :

Soit d’un pédologue ayant la connaissance de la zone d’étude Alors dans

ce cas, la prédiction de classes des sols est faite grâce aux outils de l’intelligence artificielle exploitant la logique floue et la prédiction de propriétés des sols, est faite par des règles de décision comme le modèle des arbres de décision

Soit d’une carte pédologique Une carte pédologique peut être utilisée de plusieurs façons Une première voie consiste à utiliser des descripteurs des unités cartographiques du sol afin de dériver des estimations des propriétés des sols de la zone couverte par la carte Si ces descripteurs sont simples alors les valeurs des propriétés des sols sont estimées à partir des profils représentatifs (Leenhart et al., 1994) Si ces descripteurs sont complexes, alors on utilise les approches comme les

Trang 20

moyennes pondérées par la surface des unités cartographiques, etc… Et une seconde voie consiste à utiliser des approches géostatistiques pour permettre l’extrapolation des cartes pédologiques d’extension limitée sur des plus grandes superficies pour lesquelles, elles seraient représentatives

L’avantage avec les fonctions de prédiction est qu’elles peuvent être calibrées et validées, délivrant ainsi une estimation de l’incertitude de prédiction Les méthodes les plus opérationnelles pour obtenir les prédictions de sol reposent sur l’utilisation d’algorithmes de fouille de données (ex Random Forest) dont certains d’entre eux sont aussi susceptibles de fournir une estimation d’incertitude (Quantile Random Forest) [15]

2.1.2 Les données spatiales sur les sols (S)

Elles sont constituées des données des sites ayant des caractéristiques locales du sol et des cartes pédologiques existantes Les échantillonnages spatiaux de sites avec caractérisations locales du sol sont constitués des données des classes du sol et des mesures des propriétés des sols utilisant les modèles géostatistiques Ces données peuvent être acquises soit :

- par utilisation des profils pédologiques existants, qui sont des données des sols

codifiées et stockées dans les banques de données puis intégrées dans les bases de données La constitution de ces bases de données de profils de sol est sujette à des erreurs de notations sur le terrain, de différentes d’opérateurs sur le terrain et en laboratoire d’analyse de sol, de représentation de profil de sol dans le paysage, de géoréférencement Certaines de ces difficultés peuvent être néanmoins palier par l’utilisation de techniques de détection et de correction de biais d’analyse, et par expertise pédologique

- par optimisation des échantillonnages, qui permet la réduction des cỏts de

prélèvement et d’analyse des données en identifiant un nombre et une localisation des sites d’échantillonnage qui constituent le meilleur compromis entre cỏt et précision La CNS optimise la calibration de la fonction de prédiction qui peut s’adapter à toute la zone d’étude, en ayant au préalable la connaissance des covariables dans un paysage donné La méthode d’échantillonnage par hypercube

Trang 21

latin est utilisée pour découper les covariables dans des classes, et faire le tirage aléatoire des sites parmi l’ensemble des combinaisons des classes existantes

- par spectrométrie des sols, qui permet d’augmenter des échantillons de données

des sols utilisés en CNS à faible cỏt La spectrométrie (visible proche infrarouge

et moyen-infrarouge) est utilisée pour mesurer la réflectance des échantillons de sols Et des outils de chimiomètre (tel que la régression aux moindres carrées partielles) permet de fournir des estimations de propriétés des sols à partir de ces mesures de réflectance de sol [27]

- Les cartes pédologiques anciennes, qui sont utilisées comme covariables des sols

dans les approches pédo-statistiques Elles possèdent des informations sous forme

de base de données pédologiques

2.1.3 Les covariables des sols

Dans leur étude, Lagacherie et al (2013) décrivent les covariables des sols comme étant des données des paysages auxiliaires expliquant la variabilité des sols Les covariables n’influencent pas le sol durant son évolution mais traduisent ses variations dans le temps Nous avons les covariables de relief (R) sous forme d’un modèle numérique de terrain (MNT), les covariables des organismes (O) sous forme d’images satellites ou ắroportées, les covariables de matériau parental (P) soit sous forme des cartes géologiques numériques mais difficile à interpréter ses données ou soit sous forme d’images de télédétection pour l’identification de certains matériaux géologiques, et enfin les covariables de climat (C), qui sont très important dans la prédiction de l’évolution de certains paramètres des sols dont en particulier le carbone organique

2.2 Les incertitudes de prédiction

L’objectif principal est d’estimer l’incertitude par le développement des procédures de calibration et validation non biaisées Cette estimation de l’incertitude est importante dans la cartographie numérique des sols pour savoir la probabilité d’erreur affectant la prédiction des classes ou propriétés des sols L’utilisation d’algorithmes de fouille de données pour la prédiction des classes ou propriétés est

Trang 22

susceptible de fournir une estimation d’incertitude engendrée par les erreurs dues à la calibration [15]

Les incertitudes de prédiction peuvent donc être quantifiées par des estimations non biaisées par :

- Quantification à priori de l’incertitude à travers les fonctionnalités de certains

modèles de CNS permettant de prédire également l’incertitude des modèles géostattistiques Ceci est fait soit par le calcul de l’erreur moyenne de calibration

du modèle ou soit par l’erreur out of bag respectivement de quantile random forest

et random forest [15]

- Quantification à posteriori à partir d’un échantillonnage de sites de validation n’ayant

pas participé à la calibration de l’algorithme Ceci est réalisé soit en validation croisée soit en validation à partir de nouveaux sites [25]

Un aspect très sensible concernant l’application de ces deux stratégies est

le nombre et la localisation raisonnée ou non des sites utilisés pour calibrer (pour la première stratégie) ou valider (pour la deuxième stratégie) les prédictions obtenues

Un trop petit nombre de sites mal positionnés dans l’espace peut générer des biais d’estimation d’incertitude non négligeables Or, ces situations limitées en données se rencontrent souvent dans les applications de cartographie numérique des sols opérationnelle

2.3 Technique d’échantillonnage en CNS

Il est très difficile en CNS de reconstituer des échantillons des ensembles

de données couvrant une grande zone d’étude L'un des plus gros problèmes de cette limitation en données est due par la simple raison du cỏt nécessaire pour collecter des données sur le sol, et la difficulté d’accès à la totalité de la zone d’étude pour caractériser de façon satisfaisante la variabilité du sol dans le paysage [12]

Avec l’arrivée des nouvelles technologies dans ce domaine, de telles limites inhérentes aux méthodes conventionnelles d’acquisition des données, évoquées ci-haut sont repoussées Nous avons des technologies telles que l'imagerie hyperspectrale par télédétection [10] - [13] - [24], qui ont été proposées pour estimer les propriétés des sols L’objectif principal avec ces nouvelles technologies est de

Trang 23

trouver une mesure analytique moins cỏteuse pour l’acquisition de l’échantillonnage

de données des propriétés de sol

Plusieurs méthodes d’échantillonnage existent parmi lesquelles, nous évoquons deux méthodes : la méthode d'échantillonnage aléatoire simple, qui consiste

à tirer un nombre fixe de points d'échantillonnage aléatoirement et indépendamment les uns des autres dans la zone d’étude Et la méthode d'échantillonnage aléatoire simple stratifié, permettant d’obtenir un échantillonnage homogène couvrant toute la zone d’étude, par stratification de cette dernière [12]

Gruijter et al., (2015) présentent dans leur travail quatre techniques de stratification d’échantillonnage d’une zone d’étude La première est une stratification géographique compacte (figure 2 (a)) est un clustering en strates de la zone d’étude réalisé sur base de coordonnées spatiales Ceci permet de s'assurer que la zone d’étude est entièrement couverte spatialement La stratification géographique compacte est utilisée dans le cas ó l’on est en possession d’aucune précision sur les caractéristiques

à priori de la zone d’étude La seconde technique est une stratification par covariables (figure 2 (b)), qui consiste à faire un clustering en strates de la zone d’étude en se basant sur l’utilisation des covariables (McBratney et de Gruijter, 1992) La troisième technique est une stratification par une carte de prédictions de la variable cible (figure

2 (c)), qui exploite les connaissances quantitatives disponibles, les relations entre les covariables et la variable cible pour stratifier la zone d’étude [12] Cela permet de répartir la taille de l'échantillon dans chaque strate de façon à accroỵtre l'efficacité de l'enquête et à accroỵtre la précision ou à réduire les cỏts [11] Enfin la technique de

la stratification par une carte de prédictions avec des incertitudes, tient compte des erreurs associées à la prédiction en utilisant un raster de données prédites avec des variances d'erreur associées et produit des stratifications optimisées qui minimisent la variance d'échantillonnage attendue, en supposant une allocation optimale des tailles d'échantillon aux strates [12]

Trang 24

Figure 2 : Techniques de stratification CNS [12]

2.4 Analyse de sensibilité de modèle

L'analyse de sensibilité détermine l'influence des paramètres d’entrée du modèle sur la variable de sortie L'analyse de sensibilité permet la hiérarchisation de l'influence des paramètres d’entrée du modèle en sortie Ceci permet de connaître avec plus de précision en amont, les entrées qui ont le plus d'influence sur la sortie [23] L'analyse de sensibilité est utilisée pour résoudre des problèmes : de validation d’une méthode, d’un code de calcul, de modification en terme d’une modification d’un système [7]

Trang 25

Plusieurs méthodes d’analyse de sensibilité existent, parmi lesquelles [7]

- [23] :

- L'analyse de sensibilité locale permettant d’évaluer quantitativement l’impact

d’une petite variation des entrées du modèle autour d'une valeur précise d’entrée L'analyse de sensibilité locale ne s’intéresse pas à la variabilité de la sortie

- L'analyse de sensibilité globale permet d’évaluer l’importance des entrées du

modèle sur la variabilité en sortie autour de toutes les valeurs du domaine d’entrée

L’analyse de sensibilité peut être décrite comme un processus en 4 étapes [5]:

a) Définir les distributions des valeurs des N entrées (X1 XN ) du modèle, souvent uniformes dans leur domaine de définition

b) Générer un échantillon, X, des entrées conditionnellement aux distributions en (a), en utilisant la méthode : Monte Carlo, Latine Hypercube Sampling, etc… c) Calculer les valeurs de la sortie Y du modèle sur le plan d’expérience engendré par l’échantillon X en (b)

d) Estimer les valeurs des indices de sensibilité

La méthode de la décomposition de la variance permet d’estimer la variance de la sortie du modèle par rapport à la variance des paramètres d’entrée, chacune Soit Y la sortie du modèle, X l'ensemble des paramètres du modèle, V(Xi)

la part de variance de Y attribuée au paramètre ou à un groupe des paramètres d’entrée

Xi Nous pouvons donc exprimer la variance de la sortie Y, V(Y) du modèle comme étant la somme des variances induites par les paramètres d’entrée Analytiquement,

on aura :

Var(Y)= V(X1)+ +V(XN)+V(X1,X2)+ + V(XN-1,XN )+ +V(X1, ,XN ) (1)

On distingue deux indices importants : l’indice de premier ordre (ou indice principal) et l’indice total [7] :

- L’indice de sensibilité de premier ordre (SI) est la part de la variance induite

par le paramètre Xi seul en sortie Y du modèle Cet indice détermine le classement par ordre de priorité des paramètres d’entrée du modèle par rapport à la sortie Y

Trang 26

L’indice de sensibilité de premier ordre peut alors être calculé par :

SIi = V( Xi) / Var(Y) = Var(E(Y| Xi)) / Var(Y) (2)

Au regard de l’équation (1), la variance de V(Xi) est inférieure à la variance de

Y A partir de l’équation (2), l’indice de sensibilité résultante est compris entre 0 et 1 Cet indice permet de hiérarchiser les paramètres d’entrées par ordre de priorité d’importance (paramètre le plus important SI proche de 1)

- L’indice de sensibilité total (STI) est la part de la variance induite par le

paramètre Xi mais aussi des interactions associées avec les autres paramètres d’entrée du modèle STI est donné par :

TSIi = E [ Var(E(Y|X-i))] / Var(Y) (3)

ó X-i est l’ensemble des paramètres d’entrée du modèle sauf Xi Si le TSIi d’une variable Xi est faible (proche de 0) Alors, la valeur de Xi peut être fixée sans pour autant influencer la sortie Y du modèle

Ces indices sont souvent difficiles à calculer analytiquement et nécessitent d’être estimés numériquement Les méthodes d’estimation les plus connues sont [3] - [5]:

- La méthode de Sobol : Cette méthode est basée sur une analyse fonctionnelle de

la variance Elle exige un nombre élevé de simulations et trouve application pour des modèles peu cỏteux

- La méthode FAST (Fourier Amplitude Sensitivity Testing) : Cette méthode

utilise le principe de l’analyse de Fourier pour calculer la variance de la sortie Y

du modèle FAST nécessite un temps de calcul énorme mais est plus rapide et plus stable que la méthode de Sobol

- La méthode de Morris : Cette méthode s’appuie sur une discrétisation de l’espace

des paramètres d’entrée du modèle, c’est-à-dire qu’il n’y a qu’un certain nombre

de points des paramètres d’entrées du modèle qui peuvent être échantillonnés La sensibilité de la sortie Y à un des paramètres Xi est mesurée en comparant des résultats ó seul ce paramètre Xi aura varié Cette méthode est utilisée à priori comme une première approche de l’analyse de sensibilité d’un modèle et doit être complétée par une des méthodes précédentes

Trang 27

2.5 Objectifs spécifiques

Au vu de l’état de l’art précédemment développé, des choix ont été fait pour contenir le travail dans des limites compatibles avec le temps imparti pour le stage :

- Parmi les différents modèles de cartographie numérique des sols possible, les

forêts de régression quantile ont été retenues car 1) elles appartiennent à une famille d’algorithme (Random Forest) largement utilisée dans la discipline et 2) elles permettent une estimation locale d’incertitude sur les valeurs prédites

- Parmi les différentes stratégies pour estimer l’incertitude, il a été privilégié des

stratégies d’estimation a priori, ce qui revient à tester des stratégies de calibration robustes qui vont s’approcher au maximum des valeurs réelles d’incertitudes qui seraient obtenues en situation de prédiction

Par ailleurs, nous avons retenu l’opportunité qu’offrait une région d’étude couverte par une image hyperspectrale aéroportée pour travailler sur une base de donnée de sites dont la taille était très importante (plus de 5M de sites), permettant ainsi la définition et l’évaluation d’un grand nombre de calibrations possibles selon les ensembles de sites de calibration choisis, de taille et de localisation différentes

A partir de ce cadrage, il a été possible de décliner trois objectifs de ce travail

1) Identifier l’importance respective des paramètres des forêts aléatoire et de l’échantillon de calibration (données d’entrées) sur les différents indicateurs de performances du modèle de cartographie numérique de sol (données de sortie) Ceci se traite par une analyse de sensibilité globale Ces travaux sont décrits

en section 4.1

2) Identifier des valeurs optimales des paramètres des forêts aléatoires susceptibles d’obtenir les estimations d’incertitudes les plus exactes Ceci se réalise par une approche empirique consistant à comparer les performances de différentes forêts aléatoires construites avec une gamme large de ces paramètres Ces travaux sont décrits en section 4.2

3) Identifier les caractéristiques de l’échantillon de calibration qui impactent la qualité des estimations à priori d’incertitude Ces travaux sont décrits en section 4.3

Trang 28

CHAPITRE 3 - MÉTHODOLOGIE DE CARTOGRAPHIE

NUMÉRIQUE DE SOL

Afin d’analyser les incertitudes de prédiction d’un modèle de CNS, nous avons choisi de nous intéresser à la prédiction de l’Argile Texturale sur une zone d’étude rurale en Tunisie de 300 km² avec une résolution spatiale de 5 m, qui est un bassin versant localisé dans la région du Cap Bon, 60 km à l'est de Tunis en figure 3 C’est un site agricole totalement consacré à la culture des céréales en plus des légumineuses, des oliviers, des vignobles et de la végétation naturelle pour les animaux [10]

Figure 3 : Zone d’étude [10]

La figure 4 ci-dessous explicite le modèle de la cartographie numérique des sols construits et analyser dans notre travail Ce modèle est basé sur :

- une fonction de prédiction f, induite par le modèle mathématique qui est les forêts

de régression quantile (Meinshauzen, 2006) Ce modèle est décrit en section 3.1

- des données spatialisées sur les sols S issues d’une carte d’argiles texturale [10]

décrites en section 3.2

- des données spatialisées sur les déterminants des variations du sol qui sont les

covariables de relief R qui sont très largement utilisée dans la littérature et des données de localisation N qui sont les coordonnées géographiques décrites en section 3.3

Trang 29

Figure 4 : Modèle de cartographie numérique testé

3.1 Forêts de régression quantile

La fonction de prédiction f de l’équation en figure 4 a été construite en utilisant la méthode du Quantile regression forest (QRF), en français les forêts de régression quantile (Meichausen, 2006) qui est une méthode de la famille des forêts aléatoires [2] Les forêts aléatoires permettent de construire en modèle de régression

et de classification des grands ensembles des données, en prédisant la moyenne conditionnelle et fournissant la répartition conditionnelle complète de la variable cible lorsqu’elles sont utilisées en régression Par contre, les forêts de régression quantile prédisent la distribution conditionnelle de l’estimation des quantiles conditionnels de

la variable cible

Soit Y une variable cible ou à prédire et X une variable prédictive (ou covariable), éventuellement de grande dimension L’objectif général de l’analyse statistique est d’inférer (déduire), d’une manière ou d’une autre, la relation entre Y et

X Les forêts aléatoires estiment une valeur µ(x) de la moyenne conditionnelle E(Y | X=x) de la variable cible Y, donnée X=x Elles développent un ensemble de forêts de plus de 500 arbres avec n observations indépendantes (Yi,Xi), i=1,…,n L’algorithme

de forêts aléatoire tient compte de plusieurs paramètres que l’utilisateur doit définir :

- ntree est le nombre d’arbres à construire, le plus grand est le mieux pour stabiliser

l’erreur en calibration du modèle En outre, il est recommandé de construire une grande forêt lorsque le nombre des variables est plus grand que le nombre d’observation afin d'augmenter les chances d'évaluer tous les descripteurs au

Trang 30

moins une fois dans votre forêt, car le nombre de nœuds de test des arbres est limité par au nombre d’observations Breiman (2001) propose la valeur de ntree par défaut de 500 arbres

- nodesize est le nombre minimum d’individus des nœuds terminaux des arbres Il

permet de régler la profondeur de l’arbre à construire Plus la taille de nodesize est petite, plus les arbres sont profonds et complexes Breiman (2001) propose la valeur de nodesize par défaut de 1 en classification et de 5 en régression

- mtry est le nombre de variables tirées aléatoirement pour constituer l’ensemble

dans lequel sera sélectionnée la variable de segmentation de chaque nœud Breiman (2001) propose d'essayer la valeur par défaut de √n en classification et n/3 en régression avec n nombre des variables prédictives, sa moitié et son double

Quand le Random Forest est utilisé en régression, un nouveau point de donnée X=x est prédite à partir d’un seul arbre de Random Forest comme étant la moyenne pondérée des observations originales Yi, i=1,…,n :

(4)

Avec ωi(x,θ), vecteur de poids donné par une constante positive si l’observation Xi fait partie de la même feuille de l’arbre construite à partir du vecteur aléatoire des variables θ dans lesquelles x a été abandonné et donné par 0 sinon

(5)

En utilisant les forêts aléatoires, la moyenne conditionnelle E(Y|X=x) est approximée par la prédiction moyenne de k arbres uniques, chacun construit avec un vecteur indépendant et identique distribué t, t=1,…,k Soit wi(x) la moyenne de wi(T)

de l’ensemble de tous les arbres de la forêt :

(6)

Trang 31

Et la prédiction de Random Foret est donnée par :

(7)

Les forêts de régression quantile estiment la distribution conditionnelle complète de la variable cible Y, donnée X=x tenant compte de toutes les autres caractéristiques d’intérêt possible négligées précédemment La fonction de distribution conditionnelle F (y | X = x) est donnée par la probabilité que, pour X = x,

Les quantiles donnent des informations plus complètes sur la répartition

de Y en fonction de la variable prédictive X par rapport à la moyenne conditionnelle seule Les forêts de régression quantile peuvent être utilisées pour construire des intervalles de prédiction en considérant une valeur donnée de α Par exemple, un intervalle de prédiction de 95% pour la valeur de:

(10)

C'est-à-dire qu'une nouvelle observation de Y, pour X = x, est de forte probabilité (α = 0,95), dans l'intervalle I (x) La distribution conditionnelle de Y, donnée X=x est estimée par :

(11)

Trang 32

L'algorithme pour calculer l'estimation F(y|X=x) peut être résumée comme suit [20] :

- Poussez les arbres k T (θt), t = 1, ., k, comme dans les forêts aléatoires

Cependant, pour chaque feuille de chaque arbre, prenez note de toutes les observations de cette feuille, pas seulement leur moyenne

- Pour un X donné = x, déposez x vers le bas tous les arbres Calculez le poids wi

(x, θt) de l'observation i є {1, ., n} pour chaque arbre comme dans (Éq (2)) Calculer le poids wi (x) pour chaque observation i ε {1, , n} comme moyenne sur wi (x, θt), t = 1, , k, comme dans (Éq (6))

- Calculez l'estimation de la fonction de distribution comme dans (Éq (11)) pour

tout y, en utilisant les poids de l'étape b)

- Les estimations des quantiles conditionnels Qα (x) sont obtenues à partir de

l'équation (9)

Les fonctions de Random Forests et Quantile Random Forest sont disponibles sous R (R Core Team, 2014) dans les packages RandomForest [16] et quantregForest [19], respectivement

3.2 Données disponibles

3.2.1 Données spatialisées sur les sols S

Les données spatialisées sur les sols S utilisées dans notre étude sont des prédictions d’argile obtenues par traitement de données hyper-spectrales (figure 5, [10] Ces prédictions couvrent près de 46% de la surface d’étude et sont à une résolution spatiale de 5m Au total, près de 5millions sites sont associés à une prédiction d’argile géo-référencée

Trang 33

Figure 5 : Carte d’argile obtenue par imagerie hyperspectrale

3.2.2 Covariables de relief R et données de localisation N

Les covariables de relief R sont calculées à partir des indicateurs géomorphométriques dérivés d’un modèle numérique de terrain, MNT tels que : élévation (DEM30), pente (slope), aspect, courbure du plan (plan curvature), courbure

du profil (profil curvature), planéité inférieure de la vallée à plusieurs résolutions (MRVBF) de résolution spatiale de données de localisation N à 5mx5m [17]

3.3 Constitution des bases de données de calibration et validation

La méthodologie de sélection des bases de données qui seront utilisées pour calibrer et valider les modèles à tester est présentée en figure 6 La base de données initiale (décrite en section 3.3.1) détient toutes les données brutes des pixels (sols, covariables de relief et coordonnées géographiques) A partir de cette base de données initiale, nous sélectionnons d’une part une base de données de validation

Trang 34

maître (décrite en section 3.3.2) qui servira à calculer les indicateurs de performance

de référence pour tous les modèles construits dans cette étude D’autre part, seront sélectionnées n bases de données de calibrations (n étant défini pour chaque étape de travail) (décrite en section 3.3.3) qui serviront à la construction des modèles qui seront testés

Figure 6 : Méthodologie de sélection des bases de données

La base de données initiale a été stratifiée en 25 strates (figure 7) Nous utilisons la stratification géographique compacte se basant sur les coordonnées spatiales afin de s'assurer que la zone à étudier est entièrement couverte spatialement [12]

3.3.1 Base de données initiale

La Base de Données initiale contient l’ensemble des données disponibles pour la construction des modèles Après avoir supprimé les sites ayant des valeurs de données manquantes ou erronées, nous avons renseigné chaque site conservé avec les données suivantes :

1) une prédiction d’argile,

2) une localisation, et

3) les 6 covariables de relief

Trang 35

Pour pouvoir appliquer la méthode d’échantillonnage stratifié par strates géographiques compactes recommandée dans la littérature (Gruijter et al., 2016), 25 strates ont été définies a priori (figure 7), chaque site étant caractérisé, en plus, par un label de strate

Figure 7 : Stratification de la zone d’étude par strates géographiques compactes

Après avoir reconstitué toute la base de données initiale contenant des données réelles, nous l’avons segmentée en 25 strates par la méthode de stratification géographique compacte (Gruijter et al., 2016) (figure 7) Ainsi de cette base de données initiale est extraite la base des données de validation maître et la base des données de calibration ayant des sites couvrant spatialement toute la zone d’étude

Trang 36

3.3.2 Base de données de validation

La base de données de validation maître, utilisée tout au long de ces travaux, est extraite de la base de données initiale en utilisant la méthode d’échantillonnage aléatoire stratifié par strates géographiques compactes dans le but d’assurer une répartition homogène dans l’espace des points de validation (Gruijter et al., 2016) Un total de 100 000 sites ont été sélectionnées, réparties dans les 25 strates prédéfinies (voir figure 7) contribuant à l’échantillonnage au prorata de nombre total

de sites qu’elle contient

L’histogramme de la figure 8 ci-dessous, nous donne les détails sur la répartition des 100 000 sites de la base de données de validation maître avec en abscisse le numéro de strate de validation et en ordonnée les effectifs par strate

Figure 8 : Histogramme des données de validation par strate

3.3.3 Base de données de calibration

Les différentes bases de données de calibration qui vont être utilisées dans

ce travail sont extraites d’une base de données de sites de calibrations potentiels obtenue en retirant à la base de données initiale les sites appartenant à la base de données de validation maître

Trang 37

Huit séries des bases de données de calibration correspondant à huit effectifs différents (200, 400, 800, 1000, 1500, 2000, 5000 et 10000 sites.) ont été considérés Chaque base de données de calibration est obtenue par la méthode d’échantillonnage aléatoire uniforme dans le but d’obtenir un maximum de diversité d’échantillonnage, permettant ainsi :

- de pouvoir comparer sans biais, au moyen de l’analyse de sensibilité,

l’importance relative de cet échantillonnage par rapport au choix des paramètres

de quantile random forest, qui seront également choisis aléatoirement

- de s’assurer de la plus grande variabilité d’échantillonnage possible, cette

variabilité générant ainsi une grande variabilité de performance des modèles dont nous pourrons comprendre les déterminants majeurs

3.4 Évaluations des performances des modèles de cartographie

numérique des sols

Pour chaque base de données de calibration, un modèle est construit en appliquant l’algorithme de forêt de régression quantile Afin de répondre aux objectifs fixés en chapitre 2, 3850 modèles de CNS ont été construits pour chaque jeu de calibration, en se basant sur le plan d’expérience par hypercube latin Les valeurs des paramètres et de la base de données de calibration sont générées par le plan d’expérience hypercube latin

L’évaluation des performances de ces modèles de CNS s’effectue par le biais d’indicateurs d’incertitude Il en existe plusieurs en cartographie numérique des sols [25], parmi lesquels, nous avons sélectionné les plus utilisés Ils sont de deux types :

- Les indicateurs fournis par le modèle : l'erreur quadratique moyenne du modèle

(MSE_model), qui est une mesure de l’exactitude de calibration

- Les indicateurs calculés à partir de l’ensemble de validation maître :

L’échantillonnage étant stratifié, tous ces indicateurs d’incertitude sont calculés en tenant compte de l'échantillonnage stratifié par strate géographique compacte [14], sur base des expressions mathématiques suivantes :

Trang 38

La taille globale des sites dans les strates estimée par échantillonnage aléatoire stratifié est donnée par :

(14)

L’erreur quadratique moyenne MSE est l’estimateur de la moyenne mais

au carré de l’erreur moyenne [1] - [25] MSE est une mesure de l’exactitude des prédictions Elle est calculée en élevant au carré le nombre des sites de validation dans

la strate h=1,2,…,H, de la manière suivante :

de régression expliquant le niveau de la concentration des sites autour de la ligne de meilleur ajustement [1] - [25]

Trang 39

De Gruijter et al (2006) évaluent la valeur de la variance totale d'échantillonnage de la moyenne des sites de validation dans les strates h=1,2,…,H par:

(20)

Trang 40

CHAPITRE 4 - MÉTHODOLOGIE DE L’ANALYSE DE

SENSIBILITÉ

Nos travaux ont été divisé en 3 axes : 1) étude de la sensibilité de n modèles de CNS (n nombre fini) aux paramètres d’entrées (nodesize, mtry et base de données de calibration), afin d’analyser leurs impacts sur les sorties (prédictions d’argile) avec le paramètre nombre d’arbre fixé à 1000 pour l’ensemble de nos travaux 2) Sélection des valeurs optimales des paramètres d’entrée du modèle (pour chaque jeu de données de calibration), à partir de couple des valeurs [mtry,nodesize] qui donne la même variabilité en sortie du modèle Et enfin 3), caractérisation des échantillons de calibration, qui donnent les meilleurs variabilités en sortie (indicateurs

de performance) La méthodologie mise en place pour chacun de ces axes est décrite dans ce chapitre

4.1 Analyse de sensibilité globale

L'analyse de sensibilité globale développée dans ce travail est basée sur

la décomposition de la variance [22] On considère ici notre modèle comme une boîte noire à entrées scalaire et spatiales et avec plusieurs sorties (indicateurs d’incertitude

de prédiction spatiale)

L'analyse de sensibilité globale a pour objectif de déterminer l'importance

de chaque entrée du modèle (mtry, nodesize et échantillonnage de calibration d’entrée

du modèle QRF) sur les indicateurs en sortie Pour mesurer cette importance par analyse de variances, on définit au préalable une loi d’incertitude de chaque entrée que l’on souhaite tester

En résultat d’analyse, chacune de ces entrées se voit indicée par une valeur généralement comprise entre 0 et 1, appelée indice de sensibilité globale ou indice de Sobol L’indice de sensibilité (dit de premier ordre) permet alors de hiérarchiser l'influence de chacune des entrées sur les indicateurs de sorties : plus l’indice de sensibilité de premier ordre est proche de 1, plus cette entrée a un impact importante

Ngày đăng: 17/03/2021, 19:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w