Vous êtes sur la page 1sur 50

Statistique spatiale - UE STA 2316

Notes de cours
P. Ailliot & V. Monbet
Université de Bretagne Sud

20 novembre 2007
2
Table des matières

1 Introduction 5
1.1 Qu'est-ce que la statistique spatiale ? . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Quelles données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Quelques problèmes typiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Quelles méthodes ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Les logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Stationarité, isotropie et ergodicité . . . . . . . . . . . . . . . . . . . . . . . 8

2 Processus ponctuels spatiaux 13


2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Dénition d'un processus ponctuel spatial . . . . . . . . . . . . . . . 13
2.1.2 Quelques processus ponctuels . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Propriétés d'ordre un et deux . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Propriétés d'ordre un . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Dénition de l'intensité . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Estimation de l'intensité . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Méthode des quadrats . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Test d'adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Propriétés d'ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Fonctions d'intensité d'ordre deux . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Fonction K de Ripley . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Test 'complètement aléatoire' . . . . . . . . . . . . . . . . . . . . . . 24
2.3.4 Etude Cas-Contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Exemple de modèle pour l'intensité . . . . . . . . . . . . . . . . . . . 27
2.4.2 Modèle de Neyman Scott . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Geostatistique 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Interpolation par la méthode des distances inverses . . . . . . . . . . . . . . 36
3.3 krigeage ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Processus stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Analyse variographique . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.3 krigeage ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3
4 TABLE DES MATIÈRES

3.3.4 krigeage sur les données minières . . . . . . . . . . . . . . . . . . . . 46


3.3.5 Validation croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Chapitre 1
Introduction

1.1 Qu'est-ce que la statistique spatiale ?

La statistique spatiale est l'ensemble des outils et methodes statistiques qui permettent de
décrire et d'interpréter des données spatialisées pour l'aide à la décision. Il s'agit de prendre
en compte la variation du caractère d'intérêt dans plusieurs dimensions simultanément et
de mettre en évidence des structures spatiales. Dans le cadre de la statistique spatiale, on
considère en eet que la localisation peut avoir une valeur explicative. Par exemple, deux
valeurs dans deux localités voisines ont plus de chance d'être proches que deux valeurs dans
deux localités éloignées.
On retrouve ce type d'idées en séries chronologiques. Cependant, dans les séries chronolo-
giques, le processus est indexé par le temps qui est en général unidimensionel et ordonné.
On ne retrouve pas cette notion d'ordre dans les séries temporelle. La notion de voisinage
devient plus complexe.
Dans le cadre de la statistique spatiale, on voit souvent revenir le terme géomatique. Selon le
Journal Ociel, 14 février 1994, "La géomatique est l'ensemble des techniques de traitement
informatique des données géographiques".
Le développement des capacités des ordinateurs puis des logiciels permettant de développer
et gérer des Sytèmes d'Informaion géographique (SIG) ont largement démocratisé l'usage de
la statistique spatiale ces dernières années. Auparavant, elle était essentiellement utilisée par
les géographes et quelques chercheurs. Aujourd'hui, de nombreuses disciplines utilisent des
techniques géodécisionnelles. Quelques exemples de domaines d'application et de problèmes :
 géographie : cartographie
 géologie : estimation de réserves de pétrole, de minerais, ...
 épidémiologie : estimation des risques pour la santé liés au voisinage d'incinérateurs, ex-
pansion d'une épidémie, ...
 archéologie : répartition de silex taillés
 CRM : recherche d'iris à fort taux de client potentiels
 écologie : répartition d'espèces dans une zone déterminée
Chaque champ disciplinaire dispose de données spéciques (de nature diérente) et chacune
des disciplines a tendance à développer ses méthodes propres. Un des roles du statisticien est
de mettre en place un formalisme standardisé et des techniques de validation des méthodes.

5
6 CHAPITRE 1. INTRODUCTION

1.2 Quelles données ?

La caractérisation de la structure spatiale dépend de la nature des données. Comme en statis-


tique non spatiale, les données spatialisées peuvent être de nature très diérentes : binaire,
qualitatives, discrètes, continues. Et elles peuvent avoir diérents 'modes' d'implantation
(continu, discret, en réseaux). Les méthodes d'analyse et de modélisation dépendent à la fois
de ces deux éléments.

Notons Z : s ∈ S ⊂ R2 7→ Z(s) ∈ Rp un processus spatial. La position s peut être


aléatoire ou non. Pour une observation i, si est la position de l'observation i et zi la variable
éventuellement associée.

On peut regrouper les données spatiales en 5 types diérents


1. Semis de points (données de type processus ponctuel) - utilisé par exemple en écologie,
en criminologie, en épidémiologie.
La variable d'intérêt est la position si des points, ie les positions {s1 , ...sn } sont des
variables aléatoires. Les si peuvent éventuellement être accompagnés d'une variable Z
(ex : position d'une espèce d'arbre et diamètre des arbres).
2. Données géostatitiques : mesures de pollution atmosphérique, forage minier, altitude.
Les points de mesure si sont choisis par l'expérimentateur (forage) ou xes par nature
(station météo). Le processus Z est déni partout, mais observé en des points qui
peuvent être irrégulièrement espacés.
3. Données sur un réseau régulier (lattice) : image, maillage articiel, ...
Le processus Z est déni partout mais il est observé sur un réseaux discret et régulier.
Les si forment une grille régulière déterministe.
4. Données aggrégées sur un maillage : par exemple une valeur par commune, par pays,
... (ex : Nombre de SIDS, votes)
Dans ce cas, s est un sous-ensemble et non plus un point et Z peut être une variable
synthétique tel qu'une valeur moyenne par exemple.
5. Données de ux qui sont bilocalisées : transport, domicile-lieu de travail, ux dans un
réseau informatique, ...

Dans le cadre de ce cours, nous nous intéresserons en particulier aux processus ponctuels (cas
1.) et aux données géostatistiques (cas 2.). Le cas des données sur un réseaux régulier peut
être vu comme un cas particulier du cas 2. Mais la régularité du réseau permet généralement
de développer des modèles spéciques comme des modèles markoviens.

1.3 Quelques problèmes typiques

Images
1.4. QUELLES MÉTHODES ? 7

 détection et suivi d'objets (voir par exemple,


http ://www.irisa.fr/vista/Themes/Demos/Mouvement/NuagesBas/detection_nuages_bas.html)
 reconnaissance de formes, de visages
 débruitage

Données géostatistiques

 interpolation → cartes (bathymétrie, voir gure 1.1)


 détection de dépassement de seuils (pollution)

Processus ponctuel

 Détection de tendances, de singularité


Par exemple, la gure 2.14 montre la répartition de malades atteints de cancer du foie :
on remarque une intensité plus forte de malades au Sud Est de la zone.
 Répartition d'espèces, occupation
La gure 1.3 montre la répartition de Toupelos des forêts de diérents diamètres dans une
parcelle de 50×50. On observe par exemple que les arbres les plus gros sont situés au Nord
de la zone.

1.4 Quelles méthodes ?

Comme en statistique appliquée, une étude en statistique spatiale voit se succéder plusieurs
approches. Dans un premier temps, il s'agit de décrire les données étudiées pour en dégager
les principales caractéristiques et en particulier de mettre en évidence une structure spatiale.

Les propriétés d'ordre un, telles que la moyenne pour un processus continu ou l'intensité
pour un processus ponctuel, donnent des informations locales.
Les propriétés d'ordre supérieur permettent de caractériser la dépendance spatiale. Par
exemple, on se pose la question de savoir si la mesure en un point s apporte de l'infor-
mation sur ce qui se passe dans un voisinage de s. Pour les données géostatistiques, si si
et sj sont proches on peut s'attendre à ce que zi apporte de l'information sur zj . Pour les
processus ponctuels, si on a observé un point en s, on s'attend à ce que ça nous informe sur
l'existence d'autres points dans un voisinage de s. Le plus souvent, on ne caractérise que
les propriétés d'ordre un et deux, car les propriétés d'ordre supérieur sont plus diciles à
estimer. Pour les données géostatistiques, , les propriétés du second ordre sont caractérisées
par le variogramme et pour les processus ponctuels par l'intensité d'ordre deux.

On peut chercher ensuite à modéliser cette structure pour répondre à diérents problèmes :
simulation, interprétation, prévision.
8 CHAPITRE 1. INTRODUCTION

1.5 Les logiciels

On donne ci-dessous une liste non exhaustive des logiciels disponibles sur le marché. carto-
graphie
MapInfo, ArcGis, Grass (freeware), Philcarto (freeware)
Traitement statistique
Splus, R (Splancs, Statspat), matlab (EasyKrig, DACE), SAS Macro

1.6 Stationarité, isotropie et ergodicité

Avant d'introduire les outils qui vont permettre d'estimer les caractéristiques des processus
spatiaux, il est nécessaire de dénir les notions de stationnarité, d'isotropie et d'ergodicité.
(voir Cressie).

Dénition 1 On dit qu'un processus est stationnaire s'il est invariant par translation,
c'est à dire si ses propriétés ne varient pas d'un point à l'autre de l'espace.

 Cas des processus ponctuels


Pour tout sous-ensemble A du domaine d'étude D , on dénit N(A) qui est le nombre de
points attendus dans A. Le processus est stationnaire si pour tout entier k et toutes régions
Ai , i = 1, · · · , k la distribution jointe de N(A1 ), · · · , N(Ak ) est invariante par translation.
 Cas des données géostatistiques
Le processus Z est stationnaire si pour tout entier k et tout ensemble de positions si , i =
1, · · · , k la distribution jointe de Z(s1 ), · · · , Z(sk ) est invariante par translation.

Dénition 2 On dit qu'un processus est isotrope s'il est invariant par rotation, c'est à
dire si ses propriétés ne varient pas avec l'orientation de l'espace.

L'isotropie signie qu'on a pas d'eet directionnel.

 Cas des processus ponctuels


Le processus est isotrope si pour tout entier k et toutes régions Ai , i = 1, · · · , k la distri-
bution jointe de N(A1 ), · · · , N(Ak ) est invariante par rotation.
 Cas des données géostatistiques
Le processus Z est isotrope si pour tout entier k et tout ensemble de positions si , i =
1, · · · , k la distribution jointe de Z(s1 ), · · · , Z(sk ) est invariante par rotation c'est à dire
que la distribution jointe ne dépend que des distances entre les points et pas de la direction
des vecteurs.

Les hypothèses de stationarité et d'isotropie assurent que le processus présente les mêmes
propriétés partout dans le domaine d'étude. Cependant, en théorie, elles ne susent pas à
estimer des statistiques générales à partir d'une réalisation sans la propriété d'ergodicité.
1.6. STATIONARITÉ, ISOTROPIE ET ERGODICITÉ 9

Pour une série temporelle, l'hypothèse d'ergodicité consiste à admettre que l'évolution d'un
processus aléatoire au cours du temps apporte la même information qu'un ensemble de
réalisations. Pour toute fonction intégrable h,
N
1 X
Z
h(zi ) = h(z)dF (z)
N i

Pour les processus spatiaux, l'ergodicité est mal dénie. On peut cependant montrer que des
proprités de stationnarité et d'isotropie susent pour estimer les statistiques d'ordre deux
(voir Cressie).
10 CHAPITRE 1. INTRODUCTION

47.68 25

47.66

47.64

13
47.62

47.6

47.58
1
47.56

47.54

47.52 −11
−3 −2.95 −2.9 −2.85 −2.8 −2.75 −2.7

47.68 28

47.66

47.64

15
47.62

47.6

47.58
2
47.56

47.54

47.52 −12
−3 −2.95 −2.9 −2.85 −2.8 −2.75 −2.7

Fig. 1.1  Bathymétrie du Golfe du Morbihan - Haut : points de mesure, Bas : carte interpolée
1.6. STATIONARITÉ, ISOTROPIE ET ERGODICITÉ 11

4 Malades 4 Echantillon de la population


x 10 x 10
6.8 6.8

6.6 6.6

6.4 6.4

6.2 6.2

6 6

5.8 5.8

5.6 5.6

5.4 5.4

5.2 5.2

5 5
3.5 4 4.5 3.5 4 4.5
4 4
x 10 x 10

Fig. 1.2  Malades atteints de cancer du foie (à gauche) et échantillon de la population


totale (à droite)

55

50

45

40

35

30

25

20

15

10

0
0 5 10 15 20 25 30 35 40 45 50 55

Fig. 1.3  Répartition spatiale de Toupelos des forêts (nom latin Nyssa sylvatica) dans un
carré ; les cercles sont proportionnels aux diamètres des arbres

5 2

1.5
3

2
1

0.5
0

−1
0

−2

−3 −0.5
0 0.5 1 1.5 −1.5 −1 −0.5 0 0.5 1 1.5

Fig. 1.4  Exemple de réalisations de processus non stationaires, non isotropes


12 CHAPITRE 1. INTRODUCTION
Chapitre 2
Processus ponctuels spatiaux

2.1 Généralités

En statistique spatiale, les processus ponctuels sont introduits pour modéliser des individus
localisés et caractériser leur distribution (répartition) dans l'espace. Chaque individu est re-
présenté par un point dans la zone étudiée. La représentation graphique correspondante est
parfois appelée semis de points. Les points peuvent éventuellement être marqués ie qu'on
leur associe des informations supplémentaires (hauteur et diamètre d'un arbre par exemple).
On veut caractériser le semis par sa structure et non par la position des points, ie déduire
les propriétés de la population à partir de la réalisation observée. Par exemple, on va tes-
ter l'existence de contraintes sur les positions relatives (cluster, régularité, complètement
aléatoire).
Exemples de phénomèmes modélisés par des processus ponctuels : positions d'une certaine
espèce d'arbres (points), positions de 2 sous espèces (points marqués).

55

50

45

40

35

30

25

20

15

10

0
0 5 10 15 20 25 30 35 40 45 50 55

Fig. 2.1  Toupelos des forêt, rouge : males, noir : femelles.

2.1.1 Dénition d'un processus ponctuel spatial


Nous donnons tout d'abord une dénition générale des processus ponctuels.
Dénition 3 Un processus ponctuel spatial est un sous ensemble aléatoire dénombrable d'un
espace S ⊂ Rd .

13
14 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

En pratique, on observe les points dans une fenêtre bornée D ⊂ S (par exemple un rectangle)
et le plus souvent on se place dans R2 ie d = 2.

On suppose que le semis de points observé {Si }i=1,...,n est une réalisation d'un processus {s}
déni sur un domaine S ⊂ R2 (faire l'analogie avec les séries temporelles où {xt } est une
réalisation de {Xt }.

Dénition 4 On dit qu'une réalisation S d'un processus ponctuel spatial S est localement
nie si le cardinal de s noté n(sD ) est ni, où sD = s ∩ D .

Pour un processus S , on dénit aussi la fonction de comptage N telle que

N(B) = n(SB ) (2.1.1)

Un processus ponctuel est caractérisé par la façon dont les points se répartissent dans l'espace.
Et on remarque qu'il est naturel de caractériser un processus ponctuel par la loi jointe de tout
k -uplet (N(A1 ), · · · , N(Ak )) avec A1 , · · · , Ak des sous ensembles bornés de D . Cependant,
dans la plupart des cas, il est dicile de caractériser ou modéliser la loi jointe et on se
restreint aux propriétés d'ordre deux.

2.1.2 Quelques processus ponctuels


Il existe diérents processus ponctuels. Nous donnons quelques exemples :
 le processus de Poisson qui permet notamment de modéliser les répartitions uniformes de
points
 le processus de Neyman-Scott qui permet de modéliser des répartitions aggrégées
 le processus de Strauss qui permet de modéliser des répartitions répulsives
 le processus de Gibbs qui permet de modéliser des structures régulières, agrégées ou plus
complexes (plusieurs échelles) et qui est beaucoup utlisé dans les algorithmes d'esitmation
par MCMC

(a) (b) (c)


1.5 1.5 1.5

1 1 1

0.5 0.5 0.5

0 0 0

−0.5 −0.5 −0.5


−0.5 0 0.5 1 1.5 −0.5 0 0.5 1 1.5 −1 0 1 2

Fig. 2.2  Diérentes répartitions spatiales d'un semis de 50 points - (a) : aléatoire uniforme,
(b) : regulière, (c) : aggrégée
2.1. GÉNÉRALITÉS 15

Le processus de Poisson
Le processus de Poisson joue un role particulier car c'est le modèle généralement utilisé pour
tester l'hypothèse de répartition uniforme d'un semis de points.

Nous considérons un procesus de Poisson déni sur un espace S ⊂ Rd et spécié par une
fonction d'intensité λ : S → [0, ∞[
R telle que B λ(ξ)dξ < ∞ pour tout B ⊂ S . On dénit la
R

mesure d'intensité µ par µ(B) = B λ(ξ)dξ .

Dénition 5 On dit qu'un processus ponctuel est un processus de Poisson, s'il est inté-
grable et si pour tout système de boréliens bornés disjoints A1 , · · · , An , les variables aléa-
toires N(A1 ), · · · , N(An ) sont indépendantes et suivent des lois de Poisson de paramètres
µ(Bk ),k = 1 · · · , n. La famille des lois conjointes est donc complètement déterminée par la
donnée de l'intensité λ.

Le processus de Poisson est caractérisé par ses deux premiers moments


 moment d'ordre 1 : la densité λ

P (un point dans dS en s) = λ(s)dS


 moment d'ordre 2 : la corrélation spatiale qui caractérise la position relative de plusieurs
points.

Nous reviendrons sur ces notions un peu plus loin. Dans le cas général, λ dépend de la
position.

Dénition 6 On dit que le processus de Poisson est homogène si sa densité λ(.) est
constante.

Remarque : Un processus de Poisson homogène est stationnaire et isotrope.

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
0 0.5 1 0 0.5 1

Fig. 2.3  Réalisation d'un processus de Poisson homogène - à gauche : 50 points, à droite :
500 points
16 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

2.1.3 Propriétés d'ordre un et deux


Quand on dispose d'un semis de points, on se pose la question de savoir si sa répartition
est complètement aléatoire, aggrégée, régulière, ... Bien qu'on puisse parfois répondre par
l'observation à la question, il est important de pouvoir quantier le degré d'aggrégation ou
d'aléa (voir gure 2.10). D'autre part, il est généralement dicile de dénir la loi jointe de
(N(A1 ), · · · , N(Ak )) pour tout k . Dans le cadre des processus spatiaux dénis sur des réseaux
ou sur un espace continu (processus ponctuels marqués aussi ?), on décrit le processus par
sa moyenne et sa covariance spatiale (structure d'ordre 2 du processus). Pour les processus
ponctuels les notions de moyenne et de covariance n'ont pas de sens et on propose d'autres
indices dans la suite de ce chapitre.

2.2 Propriétés d'ordre un

Comment dénir l'analogue de la moyenne pour un processus spatial ponctuel ? L'idée na-
turelle est de dénir le nombre de points par unité de volume, c'est à dire l'intensité.

2.2.1 Dénition de l'intensité


Notons ∆s une petite région contenant le point s, on a les dénitions suivantes.

Dénition 7 La fonction d'intensité (d'ordre un) d'un processus ponctuel spatial est dénie
par
E[N(∆s)]
λ(s) = lim
|∆s|→0 |∆s|

On peut interpréter λ comme le nombre moyen d'évènements par unité de volume. On


remarque de plus que si le processus est stationnaire et isotrope,

λ(s) = λ = cte

2.2.2 Estimation de l'intensité


Soit {s1 , · · · , sn } une réalisation d'un processus S déni sur S , stationnaire et isotrope.

Estimation globale
Lorsque le processus S est homogène, son intensité λ(s) est constante pour tout s ∈ S et
dans ce cas, le meilleur estimateur de λ est
n
λ̂ =
|S|

où on note |S| le volume de S .

Estimation locale
Lorsque l'intensité λ n'est pas constante sur tout le domaine ou si on veut mettre en évidence
2.2. PROPRIÉTÉS D'ORDRE UN 17

des phénomènes locaux, il est naturel d'utiliser des estimateurs de densité pour estimer λ,
comme par exemple des histogramme ou des estimateurs à noyau. En eet, d'après la déni-
tion, on déduit facilement que pour toute observation {s1 , · · · , sn } d'un processus ponctuel
S , si A est un carré de côté a contenant s alors
n
1 X
1A (si ) tend vers λ(s)
na2 i=1

quand a tend vers 0. Autrement dit, l'histogramme bivarié construit à partir de l'échantillon
{s1 , · · · , sn } est un estimateur de la fonction λ.
On obtient une version lissée de l'histogramme en utilisant un estimateur à noyau λ̂h :
n
1 X
λ̂h (s) = κh (s − si )
ρh i=1


 κh est le noyau, c'est à dire une fonction de densité symétrique autour de l'origine.
 ρh est une constante de normalisation qui dépend de h et de n. Par exemple, dans R2 ,
ρh = nh2 .
 h est la largeur de fenêtre, correspond à la largeur des bandes dans un histogramme. Plus h
est grand et plus l'estimation de la densité est lisse, et plus h est petite et plus l'estimation
prend en compte la variation dans les données.

Exemples de noyaux
 fonction indicatrice (cas de l'histogramme)

κh (s) = 1[−h/2,+h/2]2 (s)

 noyau gaussien : densité gaussienne de matrice de variance identité.


 noyau polynomial, quartic
s2
κh (s) = 1[0,h](s)(1 − 2 )2
h)

Choix de h (voir Silverman, 1986) - On dénit la largeur de fenêtre optimale h∗ par le h qui
minimise l'erreur en moyenne quadratique entre l'intensité estimée et l'intensité théorique.
En pratique, on ne connait pas l'intensité théorique, mais pour toute largeur de fenêtre h,
on peut utiliser des techniques de bootstrap (ou de validation croisée) pour estimer l'erreur
en moyenne quadratique (cf Berman et Diggle, 1989).

Propriétés de convergence On peut montrer que la vitesse de convergence d'un estimateur


à noyau dans R est en n−ξ/(2ξ+d) où ξ dépend de la régularité de la densité à estimer. Par
exemple si λ est 2 fois continument dérivable, ξ = 2.

A voir : pb des bords → Transformation en Gaussien (scores normaux ?)


Plus proches voisins ? ? ? !
18 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

Remarque - Visualiser la fonction d'intensité est une façon parmi d'autres de synthétiser
l'information liée au processus ponctuel.
Attention - Deux processus ponctuels peuvent avoir la même fonction d'intensité et des pro-
priétés d'ordre 2 diérentes : processus inhomogène + indépendance ou processus homogène
+ dépendance.

(a) (b)

0.16
40

40

0.5
0.1
20

20

0.2
0.04
0

0
0 20 40 0 20 40

(c) (d)

0.16
40

40
0.1

0.1
20

20
0.06

0.04
0

0 20 40 0 20 40

Fig. 2.4  Estimation à noyau de l'intensité des toupelos des forêts - R package - (a) h par
défaut (' 5), (b) h=1, (c) h=10, (d) h par défaut et edge correction

2.2.3 Méthode des quadrats


Le principe de la méthode des quadrats consiste à découper la zone d'intérêt en Q quadrats
de même dismension. Les quadrats sont souvent des rectangles ou des carrés, mais il peuvent
aussi être des disques. Si la répartition est complètement aléatoire, on doit retrouver en
moyenne le même nombre de points dans chaque quadrat. Plus précisement, le nombre de
2.2. PROPRIÉTÉS D'ORDRE UN 19

50

−3 45
x 10

1.5
40

35

1
30

25
0.5
20

15
0
60
50 10
50
40
40
30 5
30
20 20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50

Fig. 2.5  Estimation à moyau de l'intensité des toupelos des forêts - pas de correction de
bord, h=5

50

−3 45
x 10

1.5
40

35

1
30

25
0.5
20

15
0
60
50 10
50
40
40
30 5
30
20 20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50

Fig. 2.6  Estimation à moyau de l'intensité des toupelos des forêts - correction de bord,
h=5

points dans un quadrat A d'aire |A| doit suivre une distribution de Poisson de moyenne λ|A|
où λ est l'intensité du processus de Poisson.
Ainsi pour tester l'hypothèse selon laquelle la répartition est complètement aléatoire, on
utilise un test du chi 2. Prenons comme exemple, le premier comptage des tupelos. La table
2.1 reporte le nombre de quadrats comportant 0, 1, ..., 15 arbres, ainsi que les eectifs
attendus pour un processus de Poisson homogène de paramètre 2.25. Pour mettre en oeuvre
le test du chi 2, on regroupe les classes 5 à 13 de façon à avoir au moins 5 réalisations dans
chaque classe.

Nombre d'arbres
par quadrat 0 1 2 3 4 5 6 7 8 9 10 11 12
Eectif observé 31 23 14 9 7 8 5 1 1 1 0 0 1
Eectif attendu 9 32 16 18 12 2 1 0 0 0 0 0 0

Tab. 2.1  Méthode des quadrats pour l'échantillon tupelo 1 - Eectif espéré estimé selon
une loi de Poisson de paramètre 2.25

La statistique du khi 2 obtenue est D = 66 ; à comparer au seuil du test du chi 2 à 5 degrés de


liberté : 11. On rejette, au risque 5%, l'hypothèse selon laquelle les toupelos sont distribués
20 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

50

−3 45
x 10

1
40

0.8 35

0.6 30

25
0.4

20
0.2

15
0
60
50 10
50
40
40
30 5
30
20 20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50

Fig. 2.7  Estimation à noyau de l'intensité des toupelos des forêts - correction de bord,
h=10
50

−3 45
x 10

1.5
40

35

1
30

25
0.5
20

15
0
60
50 10
60
40 50
30 40 5
20 30
20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50

Fig. 2.8  Estimation à noyau de l'intensité d'un processus de Poisson homogène - correction
de bord, h=10

de façon complètement aléatoire.

2.2.4 Test d'adéquation


Une alternative consiste à ajuster au semis de point un processus de Poisson homogène et
de réaliser un test de Kolmogorov pour valider le modèle.

2.3 Propriétés d'ordre 2

L'intensité ne sut pas à caractériser un processus ponctuel spatial. En eet l'intensité per-
met de décrire ce qu'il se passe au voisinage d'un point, mais pas les relations de dépendance
qu'il peut exister entre diérents sous dommaines. En d'autres termes, on a besoin d'outils
pour décider si la répartition est complètement aléatoire et si non pour quantier le degré
d'aggrégation ou d'aléa (voir gure 2.10).

Dans le cadre des processus spatiaux dénis sur des réseaux ou sur un espace continu, la
notion correspondante au degré d'aggrégation ou d'aléa est la covariance spatiale (structure
d'ordre 2 du processus).
2.3. PROPRIÉTÉS D'ORDRE 2 21

(a) (b)

11 13 10 19

29 12 14 16

13 6 7 5

22 25 13 9

Fig. 2.9  Comptage dnas les quadrats des toupelos des forêts - R package - Résultat du
test du chi 2 : X-squared = 49.2857, df = 15, p-value = 1.574e-05
(a) (b) (c)
1.5 1.5 1.5

1 1 1

0.5 0.5 0.5

0 0 0

−0.5 −0.5 −0.5


−0.5 0 0.5 1 1.5 −0.5 0 0.5 1 1.5 −1 0 1 2

Fig. 2.10  Diérentes répartitions spatiales d'un semis de 50 points - (a) : aléatoire, (b) :
regulière, (c) : aggrégée

2.3.1 Fonctions d'intensité d'ordre deux


Pour les processus ponctuels la notion de covariance n'a pas de sens et on propose d'autres
indices dans la littérature.

Dénitions et propriétés
Une question naturelle, quand on veut caractériser la structure de dépendance d'un processus
ponctuel, est de se demander comment dénir l'analogue de la structure de covariance pour
un processus ponctuel.

Dénition 8 La fonction d'intensité d'ordre deux d'un processus ponctuel spatial est dénie
22 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

par
E[N(∆s1 )N(∆s2 )]
λ2 (s1 , s2 ) = lim
|∆s1 |→0,|∆s2 |→0 |∆s1 ||∆s1 |

La fonction λ2 est délicate à interpréter. Cependant, on observe que si N(∆s1 ) est indépen-
dant de N(∆s2 ), alors λ2 (s1 , s2 ) = λ(s1 )λ(s2 ).

Dénition 9 Le densité de covariance d'un processus ponctuel spatial est donnée par
γ(s1 , s2 ) = λ2 (s1 , s2 ) − λ(z1 )λ(s2 )

Exercice : Montrer que si le processus Z est stationnaire et isotrope, alors


 λ(s) = E[N|A|(A)] pour tout A ⊂ D
 λ2 (s1 , s2 ) = λ2 (||s1 − s2 ||), ie que λ2 (s1 , s2 ) ne dépend que de la distance entre s1 et s2
 γ(s) = f2 (s) − λ2

2.3.2 Fonction K de Ripley


Il est rare qu'on utilise directement la fonction λ2 , on lui préfère généralement la fonction K
de Ripley qui est plus facile à manipuler et à interpréter.

Dénitions et généralités
Il est plus facile d'interpréter la fonction moment d'ordre 2 réduit que la fonction λ2 .

Dénition 10 La fonction K de Ripley d'un processus ponctuel spatial stationnaire et iso-


trope est dénie par
r0

Z
K(r0 ) = 2 λ2 (r)rdr
λ 0

La fonction K de Ripley est aussi connue sous le nom fonction de moment d'ordre 2 réduit.
Certains auteurs donnent une dénition alternative :

K(r) = λ−1 E (nombre d'évènements dans une boule de rayon r


et centrée sur un évènement arbitraire)

K est une fonction de distance qui décrit la structure d'ordre deux à diérentes échelles. On
observe que
 si le semis de point est aggrégé, chaque évenement est vraisemblablement entouré d'autres
points du même groupe et K(r) va être grand pour de petites valeurs de r ;
 alors que si les points sont répartis régulièrement, chacun va être entouré par un espace
vide et K(r) va être plutôt faible pour de petites valeurs de r .
2.3. PROPRIÉTÉS D'ORDRE 2 23

Remarque : on peut montrer que la fonction K de Ripley ne varie pas si des points sont
retirés ou ajoutés selon un tirage complètement aléatoire.

Processus de Poisson
Exercice : Montrer que pour un processus de Poisson spatial homogène,

K(r) = πr 2

Processus de Neymann Scott


Le Processus de Neyman-Scott est introduit par Neymann en 1939 dans le domaine de la
bactériologie. C'est un modèle de clusters. On peut le décrire rapidement de la façon suivante :
1. Envènement 'parent' invisible : Poisson de paramètre ρ.
2. Nombre d'enfants Ne pour chaque parent est tiré selon une loi de Poisson de moyenne
m.
3. Les positions des enfants sont distribuées selon une loi de Gauss centrée sur le parent
et de variance σI2 .

2 /4σ 2
K(r) = πr 2 + (1 − e−r )/ρ
Le processus de Neymann-Scott ainsi déni est isotrope et stationnaire. L'intensité du pro-
cessus est λ = ρm. On remarque que si s1 et s2 sont deux évènements du même cluster de
coordonnées (x1 , y1 ) et (x2 , y2 ), alors

(x1 − x2 , y1 − y2 )0 / 2σ 2 ∼ Gau(0, I)

et ainsi
1 2 2
∼ χ22

z= (x1 − x2 ) + (y 1 − y 2 )
2σ 2

Si r = 2σ 2 s est la distance entre 2 évènements arbitraires du même cluster, alors la densité
f2 (r) est une densité de Rayleigh
r
f2 (r) = exp(−r 2 /4σ 2 ) (2.3.1)
2σ 2
Or, d'après Cressie (1993),

λ2 (r) = λ2 + ρE(Ne (Ne − 1))f2 (r)

et
E(Ne (Ne − 1))F2 (r)
K(r) = πr 2 +
ρm2
On remarque que, Ne étant un processus de Poisson de moyenne m, on a E(Ne (Ne −1)) = m2 .
Et en intégrant la densité de Rayleigh donnée par l'équation (2.3.1), on obtient

F2 (r) = 1 − exp(−r 2 /4σ 2 )


24 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

et nalement
1
K(r) = πr 2 + (1 − exp(−r 2 /4σ 2 ))
ρ

Processus de Strauss
(cf Dixon, p 38)

En général, on ne trace pas la fonction K mais la fonction L(r) = K(r)/π − r an de


p

mieux mettre en évidence l'écart à la repartition complètement aléatoire. La fonction L est


aussi appelée fonction de Besag.

Estimation
Comme nous l'avons indiqué plus haut, on exhibe naturellement un estimateur empirique de
la fonction K . Pour une observation {s1 , · · · , sn }, en notant dij la distance entre si et sj ,
n
1 XX
K̂(r) = 1dij ≤r
nλ̂ i=1 i6=j

Cependant cet estimateur est biaisé négativement. En eet, on observe le processus sur une
fenètre bornée, et on ne voit donc qu'une partie des voisins des points proches du bord. Une
solution usuelle pour palier à ce problème est d'introduire des poids ωij :
n
1 XX
K̂(r) = ωij−11dij ≤r
nλ̂ i=1 i6=j

Le poids ωij est choisi égal à la proportion du périmètre du cercle de centre si et de rayon
dij inclut dans D . Faire un dessin et donner un exemple de calcul (en exercice ?).

Remarques
 La correction du biais est seulement approximative. Elle marche en général assez bien pour
les rayons r petits mais se dégrade pour les r grands.
 La correction du biais à en général pour conséquence d'augmenter la variance de l'estima-
teur. Elle n'est donc pas toujours opportune.
 En général, on calcule K̂ pour r variant
q de 0 à 1/2 de la dimension la plus courte.
 On construit un estimateur L̂(r) = K̂(r)/π − r . La variance de L̂(r) est approximative-
ment constante.

2.3.3 Test 'complètement aléatoire'


Pour tester si la répartition d'un semis de points est complètement aléatoire, on peut
construire des tests par simulation. L'hypothèse nulle est donnée par

H0 : Le semis de point observé est une réalisation d'un processus de Poisson homogène
2.3. PROPRIÉTÉS D'ORDRE 2 25

On suppose donc que l'intensité λ est constante et qu'on peut l'estimer de façon globale.
Sous H0 on peut simuler autant de réalisations du processus de Poisson que l'on veut et en
déduire des IC, un degré de signication (pvalue).
Attention pour faire un test il est peut-être préférable de caculer la stat de test D : pb de
dépendance ? !.
1. Choisir le processus de référence (par ex, un processus de Poisson homogène sur le
domaine d'observation)
2. Simuler une réalisation de ce processus
3. Estimer K̂(s) (resp. L̂(s) pour cette réalisation
4. Répéter 2. et 3. un grand nombre de fois (si possible environ 500 fois)
5. A partir des estimations de K̂(s) (resp. L̂(s), déduire la moyenne, l'écart-type de K̂
(resp. L̂) et des quantiles de la loi de K̂ (resp. L̂) ou la pvalue pour la réalisation testée.

K L
500

12
400

10
sqrt(cbind(iso, theo)/pi)

8
300
K(r)

6
200

4
100

2
0

0 2 4 6 8 10 12 0 2 4 6 8 10 12

r r

Fig. 2.11  Fonctions K et L pour les toupelos - R package

1.4 1.4

1.2 1.2

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

−0.2 −0.2

−0.4 −0.4

0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20

Fig. 2.12  Quantiles [2.5%,5%,25%,50%,75%,95%,97.5%] de la loi de l'estimateur de L sous


l'hypothèse H0 (lignes) et estimation de L pour les toupelos (points, gure de gauche) et
pour un processus de Poisson homogène déni sur le même domaine que les toupelos (points,
gure de droite)

2.3.4 Etude Cas-Contrôle


Les études cas-contrôle sont courantes en épidémiologie. Dans le contexte des processus ponc-
tuels, il s'agit de comparer la répartition des cas (des malades par exemple) à une répartition
26 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

de référence (échantillon aléatoire de la population par exemple). Dans l'exemple des malades
atteints d'un cancer du foie (g. 2.14), on observe une concentration de malades au sud ouest
de la zone. Mais cette concentration correspond aussi à une concentration de population. On
peut alors se poser la question de savoir s'il y a des diérences signicatives de répartition
entre la population (contrôle) et celle des malades (cas).

Diggle propose de comparer les structures d'ordre 2 des deux nuages de points. Il utilise
la fonction K . Il ne sut pas, bien sûr, de comparer les estimations K̂0 pour l'échantillon
de la population et K̂1 pour les malades. Il faut mettre en oeuvre un test pour prendre en
compte l'incertitude liée à l'estimation. L'hypothèse H0 est Il n'y a pas de clustering spatial,
le groupe des malades et le groupe de témoins sont deux échantillons indépendants issus de
la même population.

Ainsi, sous H0 , on a K0 = K1 et on peut faire un test de permutation aléatoire des étiquettes


'cas' et 'contrôle'. La statistique de test naturelle est D̂(r) = K̂0 (r) − K̂1 (r) ou une fonc-
tion de D̂(r). En particulier, pour s'aranchir de la dépendance en r et donc du caractère
multivarié de D̂(r), on peut préférer utiliser maxr |D̂(r)| ou r ˆ|D(r)|dr (à voir statistique de
R

Cramer-von Mises). Certains auteurs proposent une approximation gaussienne de la loi de


D̂(r). Mais, on peut aussi utiliser un test de Monte Carlo.
(m) (m)
Supposons qu'on dispose d'un échantillon de malades s(m) = {s1 , · · · , sm } et un échan-
(t) (t)
tillon témoin s(t) = {s1 , · · · , sn }
1. Tirer avec remise n individus dans l'ensemble des observations {s(m) , s(t) } pour consti-
(t) (t)
tuer un échantillon témoins : ŝ(t) = {ŝ1 , · · · , ŝn }
2. Tirer avec remise m individus dans l'ensemble des observations {s(m) , s(t) } pour consti-
(m) (m)
tuer un échantillon malade : ŝ(m) = {ŝ1 , · · · , ŝm }
3. Estimer ˆˆK0 (r) correspondant à ŝ(t) et ˆˆK1 (r) correspondant à ŝ(m) .
4. Calculer ˆˆD(r) = ˆˆK0 (r) −ˆˆK1 (r)
5. Répéter 1. à 4. un grand nombre de fois (si possible environ 500 fois)
6. A partir des estimations de ˆˆD(r) des quantiles de la loi de K̂ (resp. L̂) ou la pvalue
pour la réalisation testée (ie D̂(r)).
La gure 2.15 montre que la statistique de test D̂ estimée sur les observations cas et contrôle
sort de l'intervale des quantiles correspondant à un risque de 5% (pour un test bilatéral).
On peut en déduire que la diérence entre les fonctions K de Ripley du groupe malade
et du groupe témoins est signicative. La courbe des degrés de signication conrme cette
conclusion.

2.4 Modélisation

Dans la section précédente, nous avons proposé des méthodes an de détecter si un semis
de point est issu d'un processus ponctuel réparti de façon complètement aléatoire dans un
2.4. MODÉLISATION 27

sous ensmble de R2 . Si ce n'est pas le cas, on ne peut pas utiliser le modèle de processus de
Poisson homogène et il faut donc proposer des modèles alternatifs.

Nous donnons ci-dessous quelques exemples pour prendre en compte


 la non homogénéité (intensité)
 la présence de clusters dans un processus homogène (structure d'ordre deux)

2.4.1 Exemple de modèle pour l'intensité


Considérons la répartition de nids de canards dans un quadrat (gure 2.17). La gure 2.17
suggère que l'intensité n'est pas constante. On se pose alors la quesiton de savoir si il y a une
relation entre l'intensité et des covariables (ici par exemple la distance au bord du domaine).

Considérons qu'on modélise l'intensité par une fonction λ(x; θ) où θ est un vecteur de para-
mètres à estimer et x un vecteur de covariables. On a alors plusieurs méthodes d'estimations
possibles :
 Poisson regression
 maximum de vraisemblance

Poisson regression
Le principe de cette méthode est de discrétiser le domaine en quadrats et d'écrire un modèle
de régression pour prédire le nombre d'observation dans chaque quadrat. On peut alors
utiliser le formalisme des modèles linéaires généralisés.
L'avantage de cette approche est qu'elle est facile à mettre en oeuvre : on dispose d'outils
logiciels, de test d'adéquation, ...
L'inconvénient est qu'on suppose que l'intensité est constante dans les quadrat et que les
estimateurs dépendent donc fortement de la taille des boites.

Maximum de vraisemblance
On suppose que les points sont indépendants et d'intensité variable et on cherche le paramètre
qui maximise la log vraisemblance d'un processus de Poisson inhomogène.
Soit λ(si ; θ) l'intensité à la position si . Soit s = {s1 , · · · , sn } un échantillon. La log vraisem-
blance du processus de Poisson correspondant s'écrit :
n
X Z
log L(θ, s) = log λ(si ; θ) − λ(u; θ)du (2.4.1)
i=1 R

Le premier terme est facile à calculer. Le second est l'intégrale de l'intensité sur tout le
domaine. Son calcul nécessite de connaitre la valeur des covariables en tout point du domaine
et il se fait le plus souvent numériquement.
On maximise la log vraisemblance en utilisant un algorithme d'optimisation non linéaire.
L'estimateur ainsi construit a les propriétés des estimateurs du maximum de vraisemblance :
 normalité asymptotique
28 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

 asymptotiquement sans biais


 variance (covariance) donnée par l'inverse de la matrice hessienne
 tests d'hypothèses en utilisant D = −2(log(L0 )−log(L1 )) avec log(L0 ) la log vraisemblance
du modèle réduit (avec uniquement une constante) et log(L1 ) la log vraisembloance du
modèle complet. Sous H0 , D suit une loi du chi2 à p1 − p0 degrés de liberté avec p0 et p1
le nombre de paramètres dans les modèles 0 et 1.
Pour valider le modèle, on peut par exemple simuler un processus de Poisson hétérogène puis
comparer les fonctions K de Ripley.

Simulation d'un processus de Poisson non homogène


Nous détaillons ci-dessous l'algorithme de Lewis et Shedler : le principe consiste à simuler
une processus de Poisson homogène avec l'intensité maximum puis de retirer des points dans
les zones ou l'intensité est plus faible :
1. Supposons que l'intensité est λ(s; θ)
2. Choisir m = maxs∈R λ(s; θ)
3. Simuler un point si selon un processus de Poisson homogène d'intensité m
4. Calculer l = λ(si ; θ)
5. Garder si avec la probabilité l/m
6. Répéter 3. à 5. jusqu'à obtenir le bon nombre de points.

2.4.2 Modèle de Neyman Scott


Fonction K de Ripley.
4
6

L
r

8
10
12

K(r)

0 100 200 300 400 500


0
2
4
6

K
r

8
10
12

29 MODÉLISATION 2.4.
30 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

4 Malades 4 Echantillon de la population


x 10 x 10
6.8 6.8

6.6 6.6

6.4 6.4

6.2 6.2

6 6

5.8 5.8

5.6 5.6

5.4 5.4

5.2 5.2

5 5
3.5 4 4.5 3.5 4 4.5
4 4
x 10 x 10

Fig. 2.14  Malades atteints de cancer du foie (à gauche) et échantillon de la population


totale (à droite)

7
x 10
1

0.5 0.2

−0.5 0.15

−1

−1.5
0.1

−2

−2.5
0.05

−3

−3.5
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000 200 400 600 800 1000 1200 1400 1600 1800 2000

Fig. 2.15  A gauche :Statistique de test D̂ (points) et quantiles


[2.5%,5%,25%,50%,75%,95%,97.5%] de la loi de D̂ sous H0 - A droite : degré de si-
gnication (pvalue).
20

0.6
0.5
15

0.4
10

0.3
0.2
5

0.1
0

0 5 10 15 20 25 30

Fig. 2.16  Répartition des nids de canards (à gauche), estimation de l'intensité (à droite)
2.4. MODÉLISATION 31

0.01

0.009

0.008

0.007

0.006

0.005

0.004

0.003

0.002

0.001

0
−5 0 5 10 15
Distance au bord
Fig. 2.17  Inuence de la distance au bord du domaine sur l'intensité des nids
32 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
Chapitre 3
Geostatistique

3.1 Introduction

Dans cette partie du cours, on se consacre aux données geostatistique. On oberve alors une
variable en diérents sites expérimentaux xés, et on cherche à en déduire une information
en d'autres point de l'espace. Dans la suite de ce cours, on notera s1 , s2 , ..., sn les coordonnées
des sites où les mesures sont eectuées et z = (z1 , ..., zn ) la valeur de la variable considérée
en ces sites (on considérera uniquement des variables numériques). L'objectif principal est
de prédire la valeur de la variable en un point arbitraire s0 .

La géostatistique a tout d'abord été développée pour la prospection minière (d'où le terme
"geostatistique"). Des carrotages sont alors eectués en diérents sites pour mesurer cer-
taines propriétés d'un minerai (hauteur ou épaisseur du lon par exemple), et on cherche à
estimer à partir de ces mesures certaines caractéristiques du lon (volume/masse totale par
exemple). Ces méthodes ont été développées au début des années 1960 (Matheron).

Dans ce cours, on considérera un jeu de données issues de carrotages, relatif à une nappe
fréatique située à cheval entre les états du Nevada, Texas et Washington. Ces données sont
étudiées dans Cressie (1993) dans le cadre d'une étude sur le choix d'un site d'enfouissage
pour des déchets radioactifs. Le but est de caractériser la manière dont se propagerait une
pollution de la nappe fréatique autour du site choisi en cas de fuite. Pour cela, on dispose de
mesures de la profondeur (en feet au dessus du niveau de la mer) de la nappe fréatique en
n = 85 sites. Les données sont montrées sur les gures 3.1 (2D) et 3.2 (3D). A partir de ces
données, on cherche à réaliser une carte permettant de mieux visualiser la surface de cette
nappe fréatique. Pour cela, on cherche à interpoler les données sur une grille régulière pour
obtenir des gures du type 3.3 et 3.4.
Ces méthodes sont utilisées dans de nombreux domaines d'application. Dans certains cas,
les données sont disponibles sur une grille régulière (données satellitaires par exemple). Les
méthodes introduites dans ce cours peuvent être utilisées pour ce type de données, mais des
techniques spéciques ("traitement d'images") existent.

La plupart des méthodes d'interpolation spatiale consistent à utiliser des combinaisons li-

33
34 CHAPITRE 3. GEOSTATISTIQUE

3571

150
2722
Nord−Sud
100

1873
50

0 1024
−150 −100 −50 0 50 100
Est−Ouest

Fig. 3.1  Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
brutes.

3571

4000
profondeur (feet)

3000
2722
2000

1000

1873
0
0
50
100 −100
150 0 1024
100
Nord−Sud Est−Ouest

Fig. 3.2  Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
brutes, 3D

néaires pondérées des oservations. La valeur interpolée au site s0 est alors dénie par
n
X
ẑ(s0 ) = wi (s0 )zi
i=1

où wi (s0 ) est le poids aecté à l'obervation si : plus ce poids est grand, plus la valeur inter-
3.1. INTRODUCTION 35

3559

150

2716
Nord−Sud
100

1873
50

0 1030
−150 −100 −50 0 50 100
Est−Ouest

Fig. 3.3  Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
interpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=2),
visualisation 3D.

180
15
00

160
23
00

140
25

19
21
27

00

00
00
00

17
120 00
Nord−Sud

100 15
00
80
290

230

60
0

2500
0

1700
210
1900

40 27
00
0

20
−100 −50 0 50 100
Est−Ouest

Fig. 3.4  Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
interpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=2),
visualisation des lignes de niveau.

polée dépendra de l'obervation au site si .

Les méthodes d'interpolation diérent alors par la manière dont sont choisis ces poids. Cer-
36 CHAPITRE 3. GEOSTATISTIQUE

taines reposent sur des constructions géomètriques (distance entre les points, etc), alors que
d'autres reposent sur des méthodes probabilistes.

Dans le paragraphe suivant, nous allons rapidement illustrer le premier type de méthode en
introduisant la méthode des distances inverses. Les paragraphes suivants seront consacrés
aux méthodes probabilistes ("krigeage").

3.2 Interpolation par la méthode des distances inverses

La méthode des distances inverses est sans doute la méthode de type "géométrique" la plus
répandue. Elle est en particulier proposée dans Mapinfo (cf TP). Elle consiste à associer au
point si un poids inversement proportionnel à la distance d(si , s0 ) entre ce point et le point
où l'on cherche à réaliser l'interpolation s0 .
Plus précisément, la surface interpolée ẑ en un point s0 est dénie par :
Pn zi
i=1 d(si ,s0 )
ẑ(s0 ) = Pn 1
i=1 d(si ,s0 )

Cette formule est dénie seulement lorsque s0 6= si pour i ∈ {1...n}, mais il est possible de
vérier que lim(ẑ(s)) = zi lorsque s → si et on posera ẑ(si ) = zi pour i ∈ {1...n}.

Les poids sont choisis de tel manière que ni=1 wi (s0 ) = 1, et on verra dans le paragraphe
P
suivant que cela garantit, sous des conditions de stationarité, le caractère "non biaisé" de la
prédiction.

Exercice On considère les 4 points suivants s1 = (0, 0), s2 = (0, 2), s3 = (2, 0) et s4 = (2, 2)
avec les valeurs z1 = 0, z2 = 3, z3 = 1 et z4 = 5. Calculer ẑ(s0 ) avec s0 = (0, 1) et représenter
graphiquement le résultat obtenu.

Exemple Résultats obtenus sur les données relatives à la nappe fréatique.


On peut généraliser cette formule en choisissant des poids qui décroissent comme une fonction
puissance de la distance, et en mettant des poids nuls aux points qui sont trop éloignés (i.e.
à une distance supérieure à R) du point s0 :
zi
P
i|dist(si ,s0 )≤R d(si ,s0 )p
ẑ(s0 ) = P 1
i|dist(si ,s0 )≤R d(si ,s0 )p

Comme précédemment, on adopte la convention ẑ(si ) = zi pour i ∈ {1...n}. Avec cette


convention, on obtient une surface interpolée continue et qui interpole exactement les don-
nées (ie ẑ(si ) = zi pour i ∈ {1...n}). Par contre, la surface n'est pas dénie en s0 lorsque R
est susamment petit pour que {i|dist(si , s0 ) ≤ R} = .

Quelques remarques
3.2. INTERPOLATION PAR LA MÉTHODE DES DISTANCES INVERSES 37

 Quand p tend vers 0, les poids deviennent tous égaux, et ẑ(s0 ) converge vers la moyenne
arithmétique des valeurs aux points situés à une distance inférieure à R de s0 , i.e.
P
i|dist(si ,s0 )≤R zi
ẑ(s0 )→ quand p → 0
card{i|dist(si, s0 ) ≤ R}
En particulier, lorsque R = +∞,
n
1X
ẑ(s0 )→ zi quand p → 0
n i=1

Montrer gure
 Au contraire, lorsque p tend vers l'inni, alors tous les poids tendent vers 0, excepté celui
associé au point le plus proche de s0 (si ce point est unique...). La surface prédite converge
alors vers celle obtenue en utilisant la méthode des polynomes de Thiessen, qui consiste à
attribuer à s0 la valeur observée au point le plus proche de s0 (cf gure 3.5).

3571

150

2722
Nord−Sud

100

1873
50

0 1024
−150 −100 −50 0 50 100
Est−Ouest

Fig. 3.5  Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
interpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=50),
visualisation 3D

Montrer gure+vu dessus


 Comme les poids sont positifs et de somme 1, il est facile de vérier que les valeurs
interpolées sont toujours comprises entre les valeurs minimales et maximales des données,
i.e.
min (zi ) ≤ ẑ(s0 ) ≤ max (zi )
i∈{1...n} i∈{1...n}

La méthode des distances inverses a plusieurs inconvénients :


38 CHAPITRE 3. GEOSTATISTIQUE

 Il n'existe pas de critère (statistique) permettant de choisir les paramètres p et R de


manière optimale. En général, on teste dierentes valeurs et on prend celles qui donnent
les meilleurs résultats "visuellement". En pratique, on prend généralement p = 1 ou p = 2...
 Elle a tendance à produire des cartes avec des extrema locaux au voisinage des observations
(cf gure 3.3 et TP).
 Elle est indiérente à la conguration géomètrique des sites entre eux (seule la distance
par rapport à s0 compte), et en conséquence a tendance à donner un poids trop important
aux groupements de données alors que celles-ci sont partiellement redondantes.
 Elle ne permet pas d'estimer l'erreur de prédiction.

Nous allons voir que les méthodes de krigeage présentées dans la section suivante permettent
de résoudre certains de ces problèmes.

3.3 krigeage ordinaire

Les méthodes proposées dans ce paragraphe reposent sur une modélisation probabiliste. On
suppose alors qu'il existe un processus aléatoire, noté Z(s), qui est déni pour s ∈ D avec
D ⊂ Rd (généralement d = 2). On suppose ensuite que les observations (z1 , ..., zn ) forment
une réalisation de la variable aléatoire multivariée (Z(s1 ), ..., Z(sn )). En toute généralité,
la loi du processus Z est dénie par la loi jointe de (Z(x1 ), ..., Z(xN )) pour tout N -uplet
(x1 , ..., xN ), mais en pratique on est amené à faire des hypothèses simplicatrices sur le
processus an de pouvoir inférer sa distribution à partir des données disponibles. Ici on ne
peut généralement pas supposer que les observations sont indépendantes, et une hypothèse
alternative usuelle consiste alors à supposer que le processus possède une forme d'invariance
par translation dans l'espace : la stationnarité.

3.3.1 Processus stationnaire


Par dénition, si le processus Z est stationnaire, alors pour tout n-uplet {x1 , ..., xn } et vecteur
h, on a
L[Z(x1 ), ..., Z(xn )] = L[Z(x1 + h), ..., Z(xn + h)]
où L[Z(x1 ), ..., Z(xn )] désigne la loi jointe des variables aléatoires Z(x1 ), ..., Z(xn )

Lorsque n = 1, on obtient que les lois de Z(s) et Z(s0 ) sont identiques pour tout s, s0 ∈ D .
En particulier, si les moments d'ordre 1 et 2 de Z(s) existent, alors

E[Z(s)] = E[Z(s0 )]

et
var(Z(s)) = var(Z(s0 ))
Lorsque n = 2, on obtient que les lois L[Z(s), Z(s0 )] et L[Z(s + h), Z(s0 + h)] sont identiques
pour tout s, s0 ∈ D , et donc que

cov(Z(s), Z(s0)) = cov(Z(s + h), Z(s0 + h))


3.3. KRIGEAGE ORDINAIRE 39

Dans ce cas, la fonction C(h) = cov(Z(s), Z(s + h) ne dépend pas de s. La stationarité du


processus induit donc une forme de stationnarité plus faible dont la dénition repose sur une
forme d'invariance par translation des moments d'ordre 1 et 2 du processus.

Dénition 11 On dit que le processus Z est stationnaire à l'ordre 2 si les deux conditions
suivantes sont vériées :
 il existe µ ∈ R tel que, pour tout s ∈ D , E[Z(s)] = µ (i.e. l'espérance mathématique est
la même en tout point de l'espace)
 il existe une fonction C telle que, pour tout s, s0 ∈ D , cov(Z(s), Z(s0)) = C(s − s0 ) (i.e. la
covariance entre deux points est invariante par translation)
µ est appelé la "moyenne" du processus Z et C la fonction d'autocovariance du processus Z .

Cette forme de stationarité généralise directement la dénition de la stationarité d'ordre 2


pour les processus temporels (ou séries temporelles), mais en géostatistique on utilise souvent
une autre forme de stationarité : la stationnarité intrinsèque.

Dénition 12 On dit que le processus Z est intrinsèque lorsque les accroissements Z(s +
h) − Z(s) sont stationnaire à l'ordre 2, c'est à dire lorsque les deux conditions suivantes sont
vériées :
 E[Z(s) − Z(s0 )] = 0
 il existe une fonction γ telle que var(Z(s) − Z(s0 )) = E[(Z(s) − Z(s0 ))2 ] = 2γ(s − s0 )
La fonction γ est appelée variogramme du processus Z .

Si le processus Z est stationnaire de fonction de covariance C , il est clair que

E[Z(s) − Z(s0 )] = E[Z(s)] − E[Z(s0 )] = 0

var(Z(s) − Z(s0 )) = var(Z(s)) + var(Z(s0 )) − 2cov(Z(s), Z(s0)) = 2C(0) − 2C(s0 − s)


Donc le processus Z est intrinsèque et γ(h) = C(0) − C(h).

Par contre, la réciproque est fausse et il existe des processus intrinsèques qui ne sont pas
stationnaires d'ordre 2.

Exercice :
On considère la marche aléatoire dénie pour n ∈ N par Z0 = 0 et la formule de récurrence,
pour n > 0, Zn = Zn−1 + n avec n i.i.d. N (0, 1).
1. Calculer E[Zn ] et var(Zn). Le processus Zn est-il stationnaire ?
2. Calculer E[Zn − Zn0 ] et var(Zn − Zn0 ). Le processus Zn est-il intrinsèque ?
blabla
40 CHAPITRE 3. GEOSTATISTIQUE

En particulier, un processus intrinsèque peut être tel que var(Z(s)) = +∞. Par exemple,
considérons le processus (marche aléatoire) déni pour t ∈ N par la relation de récurrence

Z(t + 1) = Z(t) + (t + 1)


avec {(t)}t∈N} une suite de v.a. iid de loi N (0, 1) et Z0 ∈ R xé. On a

E[Z(t + k) − Z(t)] = E[(t + 1) + ... + (t + k)] = 0

et
var[Z(t + k) − Z(t)] = var[(t + 1) + ... + (t + k)] = k
Le processus est donc intrinsèque. Par contre, var(Z(t)) = var(Z(0) + (1) + ... + (t)) = t,
donc le processus n'est pas stationnaire à l'ordre 2 !

Une hypothèse supplémentaire est souvent faite pour simplier l'estimation des fonctions C
et γ : il s'agit de l'hypothèse d'isotropie. On suppose alors que la structure des champs est
invariante par rotation, c'est à dire, selon le cas, que

C(h) = C(|h|)

γ(h) = γ(|h|)

3.3.2 Analyse variographique


On suppose dans ce paragraphe que le processus est intrinsèque et stationnaire, et on cherche
à estimer le variogramme. Ceci sera utile par la suite pour calculer les poids qui correspondent
à l'interpolation optimale au sens des moindres carrés.

Variogramme expérimental
D'après la dénition du variogramme γ(h) = 21 E[(Z(s + h) − Z(s))2 ], un estimateur naturel
est le variogramme expérimental déni pour h > 0 par
1 X
γ̂(h) = (z(si ) − z(sj ))2
2card(N(h))
(i,j)∈N (h)

avec N(h) = {(i, j)||si − sj | = h}.


En pratique, cet estimateur n'est pas déni pour toutes les valeurs de h, mais seulement pour
les valeurs de h pour lesquelles N(h) est non vide. De plus, lorsque les données sont espacées
irrégulièrement dans l'espace, le varioramme expérimental est généralement erratique (de
forte variance) car peu de paires interviennent dans le calcul de γ̂(h).

Pour réduire le caractère erratique du variogramme expérimental, on utilise généralement


un estimateur lissé du type :
1 X
γ̃(h) = (z(si ) − z(sj ))2
2card(Ñ(h))
(i,j)∈Ñ (h)
3.3. KRIGEAGE ORDINAIRE 41

avec Ñ (h) = {(i, j)|h − ∆h


2
≤ |si − sj | ≤ h + ∆h
2
} pour h = ∆h
2
, 3 ∆h
2
, ....

En pratique, on commence généralement par tracer la "nuée variographique", c'est à dire


le nuage de points (|si − sj |, (z(si ) − z(sj ))2 ). Ensuite, on fait croitre progressivement ∆h
an d'éliminer le comportement erratique. ∆h doit être susamment grand pour que Ñ(h)
contienne un nombre susant de couples de points (au moins une trentaine ?) et éliminer
le comportement erratique, mais pas trop grand pour que le biais reste raisonnable. Ce
comportement est illustré sur les gures 3.7 et 3.8 qui montrent, sur les données minières,
respectivement l'estimation obtenue et le nombre de couples de points pour diérentes valeurs
de ∆h.

nuee variographique
7

0
0 50 100 150 200 250 300

Fig. 3.6  Nuée variographique (|si − sj |, (z(si ) − z(sj ))2 ) pour les données relatives à la
profondeur de la nappe fréatique

Variogramme paramétrique
Le variogramme expérimental n'est pas directement utilisable pour le krigeage. En eet, on
a besoin de connaitre le variogramme pour toutes les distances et que ce soit une fonction de
type négatif. Une solution consiste alors à utiliser des formes paramètriques qui dénissent
bien des fonctions de type négatif. Diérents modèles paramétriques usuels pour les proces-
sus intrinsèques stationnaires sont dénis ci-dessous.

 Modèle pépitique de palier C


On suppose que

0 si h = 0
γ(h) = (3.3.1)
C si h > 0
42 CHAPITRE 3. GEOSTATISTIQUE

h=1 h=5

3 3

2 2

1 1

0 0
0 100 200 300 0 100 200 300
h=10 h=20

3 3

2 2

1 1

0 0
0 100 200 300 0 100 200 300

Fig. 3.7  Variogramme estimé Ñ (h) pour les données relatives à la profondeur de la nappe
fréatique et h=1, 5, 10 ,20, respectivement

h=1 h=5

1000 1000

500 500

0 0
0 100 200 300 0 100 200 300
h=10 h=20

1000 1000

500 500

0 0
0 100 200 300 0 100 200 300

Fig. 3.8  Nombre de points ayant servi à estimer les variogrammes empiriques de la gure
3.7

Exemple : si Z est un processus stationnaire tel que cov(Z(si ), Z(sj )) = 0 pour si 6= sj ,


alors Z admet un variogramme de cette forme avec C = var(Z(si )).
En général, ce modèle n'est pas adapté pour décrire des processus dans lesquels une struc-
ture spatiale est présente. Par contre, il est souvent combiné avec d'autres modèles pa-
ramétriques an de décrire soit des structures à petites échelles par rapport à l'échelle
3.3. KRIGEAGE ORDINAIRE 43

d'observation, soit des erreurs de mesures.


Plus précisemment, supposons que Z = Z1 + Z2 avec Z1 et Z2 des processus stationnaires
tels que cov(Z(si ), Z(sj )) = 0 pour i 6= j , alors Z est stationnaire et γ = γ1 + γ2 . Si on
suppose maintenant que Z1 représente une erreur de mesure et que les erreurs commises
à deux points de mesure sont indépendantes, alors il est naturel d'utiliser un modèle pé-
pitique pour décrire γ1 .

Tous les modèles décrits ci-dessous incluent un eet pépite.

 Modèle linéaire

0 si h = 0
γ(h) = (3.3.2)
C0 + bh si h > 0
avec c0 ≥ 0 la pépite et b ≥ 0.

 Modèle puissance

0 si h = 0
γ(h) = (3.3.3)
C0 + bhλ si h > 0
avec c0 ≥ 0 la pépite, b ≥ 0 et 0 ≤ λ < 2.

 Modèle rationnel quadratique


(
0 si h = 0
γ(h) = 2 (3.3.4)
c0 + b 1+hh 2 /a si h > 0
avec c0 ≥ 0 la pépite, a > 0 et b ≥ 0

 Modèle exponentiel

0 si h = 0
γ(h) = (3.3.5)
c0 + c(1 − exp(− ha )) si h > 0
avec c0 ≥ 0 la pépite, c ≥ 0 et a > 0

 Modèle gaussien

0 si h = 0
γ(h) = h2 (3.3.6)
c0 + c(1 − exp(− a )) si h > 0
avec c0 ≥ 0 la pépite, c ≥ 0 et a > 0
Le choix d'un modèle approprié est une étape subjective qui se base sur la forme du vario-
gramme empirique. Faire gure main levee variogramme théorique.

An d'ajuster le modèle sélectionné, on utilise généralement la méthode des moindres carrés.
Notons θ l'ensemble des paramètres à estimer et γ(h; θ) le modèle paramétrique choisi. On
minimise alors par rapport au paramètre inconnu θ la fonction
44 CHAPITRE 3. GEOSTATISTIQUE

Modèle pépitique Modèle linéaire Modèle Puissance

Modèle rationnel quadratique


Modèle exponentiel Modèle Gaussien

Fig. 3.9  (a) Modèle péptitique, (b) modèle linéaire, (c) modèle puissance (d) Modèle
rationnel quadratique (e) modèle exponentiel (f) modèle gaussien

X
(γ̃(h) − γ(h; θ))2
h

L'inconvénient de cette méthode est qu'elle attribue le même poids à toutes les classes de
distance, même quand un faible nombre de points a servi à réaliser l'estimation. On lui
préfère généralement l'estimateur des moindres carrés pondérés qui minimise la fonction
X
w(h)(γ̃(h) − γ(h; θ))2
h

avec w(h) = card (Ñ (h))


γ(h;θ)2
les poids d'interpolation.

3.3.3 krigeage ordinaire


Si le processus Z est stationnaire à l'ordre 2, de moyenne µ et de fonction d'autocovariance
C , alors
" #
X X X
E wi Z(si ) = wi E[Z(si )] = µ wi
i i i
" #
X X X
var wi Z(si ) = wi wj cov[Z(si), Z(sj )] = wi wj C(sj − si )
i i i

On en déduit la proposition suivante.


3.3. KRIGEAGE ORDINAIRE 45

Proposition 1 Si Z est un processus stationnaire de moyenne µ et de fonction d'autocova-


riance C , alors on a les propriétés suivantes :
 C(h) = C(−h) (symétrie)
 Pour tout (w1 , ..., wn ) ∈ Rn et (s1 , ..., sn ) ∈ D n , i∈{1...n} wi wj C(sj − si ) ≥ 0. On dit que
P
C est une fonction de type positif.

Lorsque le processus est seulement intrinsèque, alors les moments d'ordre 1 et 2 du processus
n'existent pas forcement, et seules les combinaisons linéaires des accroissements sont bien
dénies, et on doit alors travailler avec des combinaisons linéaires dont la somme des poids
Pn nulle. Plus précisemment, si le processus Z est intrinsèque avec un variogramme γ et
est
i=1 wi = 0, alors " #
X
E wi Z(si ) = 0
i
" #
X X
var wi Z(si ) = − wi wj γ(sj − si )
i i

A fortiori, ces relations sont également valables lorsque le processus est stationnaire à l'ordre
2.

Proposition 2 Si Z est un processus intrinsèque de variogramme γ alors


 γ(0) = 0
 γ(h) = γ(−h) (symétrie)
 Pour tout n-uplet (w1 , ..., wn ), i∈{1...n} wi wj γ(sj − si ) ≤ 0 (fonction de type négatif)
P

Les modèles parametriques du paragraphe précédent sont de type negatif.

La technique du krigeage consiste à réaliser une interpolation linéaire optimale au sens de


l'erreur quadratique moyenne. Plus précisemment, on va utiliser une interpolation de la forme
n
X
ẑ(s0 ) = wi z(si )
i=1

dans laquelle les poids wi sont choisis de telle manière qu'ils minimisent la variance :
n
X
var(Z(s0 ) − wi Z(si ))
i=1
Pn
Dans le cas intrinsèque, pour que cette variance soit bien dénie, il faut que i=1 w i = 1.
Cette contrainte garantit en outre que l'estimateur soit non biaisé, i.e.
n
X
E[Z(s0 ) − wi Z(si )] = 0
i=1

et est également imposée lorsque le processus est stationnaire à l'ordre 2.


46 CHAPITRE 3. GEOSTATISTIQUE

Finalement, les poids correspondant au krigeage ordinaire sont dénis comme les poids mi-
nimisant la fonction
n
!
X
var Z(s0 ) − wiZ(si )
i=1
n X
X n n
X
= C(0) + wi wj C(si − sj ) − 2 wi C(si − s0 ) (3.3.7)
i=1 j=1 i=1
n
XXn n
X
= − wi wj γ(si − sj ) + 2 wiγ(si − s0 ) (3.3.8)
i=1 j=1 i=1
Pn
avec la contrainte de non-biais i=1 w i = 1.

La solution à ce problème d'optimisation sous contrainte est solution du système d'équations :


n
X
− wj γ(si − sj ) + γ(si − s0 ) − m = 0 pour i ∈ {1...n} (3.3.9)
j=1
n
X
wi = 1 (3.3.10)
j=1

avec m une inconnue (appelée "multiplicateur de Lagrange") introduite pour que la condition
de non-biais soit satisfaite. Cela se réécrit sous la forme matricielle Ax = b avec b = (γ(s1 −
s0 ), ..., γ(sn − s0 ), 1)0 , x = (w1 , ..., wn , m)0 et A = (ai,j )i,j∈{1,...,n+1} dénis par

 γ(si − sj ) pour i ∈ {1...n}, j ∈ {1...n}


ai,j = 1 pour i = n + 1, j ∈ {1...n} (3.3.11)


0 pour i = n + 1, j = n + 1

La variance de krigeage au point s0 , σK 2


(s0 ) = var(Z(s0 ) − ni=1 wi Z(si )) avec w1 , ..., wn
P
solution du système précédent, s'écrit
n
X n X
X n
2
σK (s0 ) = 2 wi γ(s0 − si ) − wi wj γ(si − sj )
i=1 i=1 j=1

Interprétation ?

Remarque : La matrice A ne depend pas de s0 . Lorsque l'on veut réaliser la prédiction en


plusieurs points s0 , il sut de calculer la matrice A−1 une seule fois.

3.3.4 krigeage sur les données minières


La visualisation des données indique que le processus n'est pas stationnaire (forte tendance)
et une tendance linéaire semble appropriée. On suppose alors que

Z(s) = ax + by + c + E(s)
3.3. KRIGEAGE ORDINAIRE 47

avec s = (x, y) et  un processus stationnaire. On estime ensuite a, b et c par la méthode


des moindres carrés, i.e. tels qu'ils minimisent la fonction
n
X
(zi − axi − byi − c).2
i=1
On note ei = .... ?

Graphiquement, on obtient des données qui semblent sans tendance, et on suppose qu'elles
sont stationnaires. L'analyse variographique montre qu'un modèle puissance semble appro-
prié. On réalise ensuite le krigeage sur une grille régulière en utilisant le variogramme puis-
sance ajusté. On peut aussi regarder l'erreur de krigeeage : plus importante dans les zones
où on a peu d'observations. Finalement, si on rajoute la tendance, on obtient une surface
interpolée correspondant aux valeurs initiales.

150
0
Nord−Sud

100

−1
50

0 −1
−150 −100 −50 0 50 100
Est−Ouest

Fig. 3.10  Profondeur d'une nappe fréatique après extraction de la tendance linéaire

3.3.5 Validation croisee


Pour valider les diérentes hypothèses faites dans le krigeage ordinaire, et en particulier
pour choisir parmi diérents modèles paramétriques possibles pour le variogramme, on peut
utiliser la méthode de validation croisée :
 On fait l'analyse variographique en utilisant toutes les données.
 On prédit ensuite la valeur en si à partir des observations aux autres points (sj )j6=i , notée
ẑi , ainsi que la variance de l'erreur de krigeage σ̂i .
 Si les diérentes hypothèses sont vériées, alors les erreurs standardisées i = ziσ̂−ẑ
i
i
sont
approximativement centrées réduites. On calcule donc la moyenne et la variance empirique,
et on vérie que...
48 CHAPITRE 3. GEOSTATISTIQUE

0.8

0.6

0.4

0.2

0
0 50 100 150 200 250 300

Fig. 3.11  Profondeur d'une nappe fréatique - Variogramme des données sans tendance

−367

1000
profondeur (feet)

500

−500
0
50
100 −100
150 0
100
Nord−Sud Est−Ouest

Fig. 3.12  Profondeur d'une nappe fréatique - Interpolation par krigeage données sans
tendance

Références

N. Cressie
P. Diggle
Ph. Dixon
Ripley
3.3. KRIGEAGE ORDINAIRE 49

0
50

45
50
40
Nord−Sud 35
100
30

25
150
20

15
200
−150 −100 −50 0 50 100 150
Est−Ouest

Fig. 3.13  Profondeur d'une nappe fréatique - Estimation de l'erreur de krigeage ; données
sans tendance

4000
profondeur (feet)

3000

2000

1000

0
0
50
100 −100
150 0
100
Nord−Sud Est−Ouest

Fig. 3.14  Profondeur d'une nappe fréatique - Interpolation par krigeage avec ajout de la
tendance
50 CHAPITRE 3. GEOSTATISTIQUE

19 3515
17
21
25

23

00

00
00
00

00

150

15
00
2587
Nord−Sud

27
00

100

1659
50
19

17
21
25

23
29

00

00
00
00

00
00

0 731
−150 −100 −50 0 50 100
Est−Ouest

Fig. 3.15  Profondeur d'une nappe fréatique - Interpolation par krigeage avec ajout de la
tendance