Vous êtes sur la page 1sur 37

Géostatistique

M. Ribatet

Master Biostat — Université de Montpellier

1. Processus stochastiques 6
Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Processus d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Stationnarité stricte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Stationnarité faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Isotropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Continuité de K(·) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Continuité de Z(·). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Dérivabilité de Z(·) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Corrélation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Stationnarité intrinsèque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Variogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Propriétés de γ(·) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Variogrammes paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2. Modélisation statistique 33
Données de calcium. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Variogramme empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Ajustement d’un variogramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Krigeage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Modélisation par processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
DM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3. Simulations de processus gaussiens 67


Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Simulations non conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Simulations conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

1
Qu’est ce que la géostatique ?
 La géostatistique est une branche des statistiques visant à donner une description de quantités
distribuées spatialement ou encore spatio–temporellement.
 Voici quelques quantités d’intérêt :
– la température, précipitation, neige, . . .
– concentration d’un polluant, ozone, . . .
– teneur d’un minerai d’un gisement, . . .

Géostatistique Mathieu Ribatet – 2 / 70

Objectifs
 L’objectif d’une analyse géostatistique sera bien souvent la prédiction, e.g.,
– Température à Carnon sachant celles de Palavas, du Grau du roi et de la Grande Motte ?
– Quel est l’endroit ayant la plus forte concentration d’un polluant ?
 Toutefois elle permettra bien également de répondre à d’autres questions :
– les températures à Montepllier et Nı̂mes sont elles fortement liées ?
– Quelles variables semblent influencer la pollution ?

Géostatistique Mathieu Ribatet – 3 / 70

2
Quelques références
Chilès, J.-P. and Delfiner, P. (1999). Geostatistics: Modelling Spatial Uncertainty. Wiley, New York.

Cressie, N. A. C. (1993). Statistics for Spatial Data. Wiley Series in Probability and Statistics. John
Wiley & Sons inc., New York.

Diggle, P., Ribeiro, P., and Justiniano, P. (2007). Model-based Geostatistics. Springer Series in
Statistics. Springer.

Stein, M. L. (1999). Interpolation for spatial data: Some theory for kriging. Springer, New York.

Wackernagel, H. (2003). Multivariate geostatistics: An introduction with applications. Springer,


New York, third edition edition.
Géostatistique Mathieu Ribatet – 4 / 70

Ce que nous ne verrons pas :-(


 Les données sur réseaux // grille, e.g.,
– analyse d’une image via un champ de Markov ;
– nombre de malades de la grippe sur l’agglomération Montpelliéraine.
 Théorie ergodique ;
 Cadre multivarié, e.g., modélisation jointe de la température et l’humidité.
 Théorie spectrale des processus (Bochner, Stein, Schoenberg, . . . )

Géostatistique Mathieu Ribatet – 5 / 70

3
1. Processus stochastiques 6 / 70

Quelques rappels
Définition 1 (Rappel). Un processus stochastique défini sur X et à valeur dans E est une famille de
variables aléatoires indexées par X et à valeur dans E toutes définies sur un même espace de
probabilité (Ω, F, P ).
iid
Exemple 1 (Marche aléatoire). Soient ε1 , ε2 , . . . ∼ N (0, σ 2 ) et posons

Z0 = ε0 , Zt+1 = Zt + εt+1 , t ≥ 0.

Ceci définit un processus stochastique sur X = N et à valeur dans E = R.

Géostatistique Mathieu Ribatet – 7 / 70

Lois fini–dimensionnelles
Proposition 1. Un processus stochastique est totalement caractérisé‡ par ses lois
fini–dimensionnelles, i.e., pour tout n ≥ 1 et (s1 , . . . , sn ) ∈ X n ,

Pr{Z(s1 ) ∈ B1 , . . . , Z(xn ) ∈ Bn }, B1 , . . . , Bn boréliens de E.

Ces dernières doivent cependant satisfaire les hypothèses du théorème d’extension de Kolmogorov,
i.e., pour toute permutation σ de {1, . . . , n},

νs1 ,...,sn (B1 ,...,Bn )=νσ(s {Bσ(1) ,...,Bσ(n) }


1 ),...,σ(sn )

et
νs1 ,...,sn−1 (B1 , . . . , Bn−1 ) = νs1 ,...,sn (B1 , . . . , Bn−1 , E).

Remarque. Le théorème d’extension de Kolmogorov permet d’assurer l’existence d’un processus


stochastique ayant des lois fini–dimensionnelles données ν.

Géostatistique Mathieu Ribatet – 8 / 70

4
Processus gaussiens
Définition 2. Un processus {Z(s) : s ∈ X } est un processus gaussien si ses lois fini–dimensionnelles
sont Gaussiennes.

Exemple 2. L’exemple précédent de la marche aléatoire


iid
Zt+1 = Zt + εt+1 , εt ∼ N (0, σ 2 ),

définit un processus Gaussien sur N.

Remarque. Certaines personnes utilisent le terme “processus Gaussien” lorsque X = R ou N et


“champs Gaussien” lorsque X = Rd , d ≥ 2. Personnelement je ne fais aucune distinction et parlerai
toujours de processus stochastique (Gaussien ou non d’ailleurs).

Géostatistique Mathieu Ribatet – 9 / 70

Illustration
0.4

0.4
1

0.3

0.3
0

Density

Density
Z(s)

0.2

0.2
−1

0.1

0.1
−2

0.0

0.0

0 2 4 6 8 10 −4 −2 0 2 4 −4 −2 0 2 4
s Z(2.5) Z(7.5)
Figure 1: Illustration pédagogique d’un processus Gaussien sur X = [0, 10].
10

10

10

3 3 3
8

2 2 2

1 1 1
6

6
s

0 0 0
4

−1 −1 −1

−2 −2 −2
2

−3 −3 −3
0

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
s s s
Figure 2: Trois réalisations d’un processus Gaussien sur X = [0, 10]2 .

Géostatistique Mathieu Ribatet – 10 / 70

5
Cadre géostatistique
 Puisque la géostatistique vise, par exemple, à donner une description d’une quantité distribuée
spatialement ou spatio–temporellement, nous nous restreindrons au cas où X = R2 voire X = R3 .
 Par exemple pour la modélisation de la pluie, nous définirons donc un processus stochastique
défini sur R2 et à valeur dans R+ .
 Dans la suite, nous noterons indifféremment le processus stochastique par {Z(s) : s ∈ X }, Z(s),
Z(·) ou tout simplement Z.

Géostatistique Mathieu Ribatet – 11 / 70

Processus d’ordre 2
Définition 3. Un processus {Z(s) : s ∈ X } est dit d’ordre 2 si pour tout s ∈ X

Var{Z(s)} < ∞ (et donc a fortiori E{Z(s)} < ∞)

 Ceci nous permet alors de considérer la tendance (trend // drift)

µ : X −→ E
s 7−→ µ(s) = E{Z(s)},

 et la fonction de covariance

K : X × X −→ R
(s1 , s2 ) 7−→ K(s1 , s2 ) = Cov{Z(s1 ), Z(s2 )}.

Géostatistique Mathieu Ribatet – 12 / 70

6
Stationnarité stricte
Définition 4. Un processus {Z(s) : s ∈ X } est dit strictement stationnaire si pour tout n ≥ 1 et
(s1 , . . . , sn ) ∈ X n
Pr{Z(s1 ) ∈ B1 , . . . , Z(sn ) ∈ Bn } = Pr{Z(s1 + h) ∈ B1 , . . . , Z(sn + h) ∈ Bn },

h ∈ X et Boréliens B1 , . . . , Bn .

 C’est généralement une propriété bien trop forte (et impossible à vérifier en pratique) qui font que
l’on considère souvent une version assouplie.

Géostatistique Mathieu Ribatet – 13 / 70

Stationnarité faible
Définition 5. Un processus d’ordre 2 {Z(s) : s ∈ X } est dit faiblement stationnaire si pour tout
s, s1 , s2 , h ∈ X

E{Z(s)} = E{Z(s + h)}


Cov{Z(s1 ), Z(s2 )} = Cov{Z(s1 + h), Z(s2 + h)},

i.e.,
µ(s) = µ, K(s1 , s2 ) = K(s1 + h, s2 + h).

Proposition 2. Si {Z(s) : s ∈ X } est faiblement stationnaire alors


not.
µ(s) = µ, K(s1 , s2 ) = K(o, s2 − s1 ) = K(s2 − s1 ),

où o est une origine arbitraire de X .

Géostatistique Mathieu Ribatet – 14 / 70

7
Question pour vous. . .
 Avantage de la stationnarité ?
 Inconvénient de la stationnarité ?
Géostatistique Mathieu Ribatet – 15 / 70

Propriétés de la fonction de covariance (DM)


Soit {Z(s) : s ∈ X } un processus faiblement stationnaire. Sa fonction de covariance K(·) vérifie alors
 K(o) = Var{Z(s)} ≥ 0 pour tout s ∈ X ;
 K(h) = K(−h) ;
 K(h) ≤ K(o) ;
 Pour tout n ≥ 1 et λ1 , . . . , λn ∈ R et s1 , . . . , sn ∈ X ,
n
X
λi λj K(si − sj ) ≥ 0.
i,j=1

Remarque. Cette dernière propriété revient à dire que K(·) est (semi) définie positive.

Géostatistique Mathieu Ribatet – 16 / 70

8
Propriétés sur les fonctions définies positives
 Si K1 (·) et K2 (·) sont def. pos. alors a1 K1 (·) + a2 K2 (·) l’est aussi pour a1 , a2 ≥ 0 ;
 Soient {Kn (·)}n≥1 une suite de fonctions def. pos. telle que Kn (s) → K(s) lorsque n → ∞ pour
tout s ∈ X . Alors K(·) est def. pos. ;
 Si K1 (·) et K2 (·) sont def. pos. alors alors K(s) = K1 (s)K2 (s) est def. pos.

Géostatistique Mathieu Ribatet – 17 / 70

Isotropie
 Dans un esprit de modélisation, il sera souvent “agréable” de supposer l’isotropie

Définition 6. Un processus {Z(s) : s ∈ X } est dit isotrope si pour tout matrice de rotationa R
d
{Z(s) : s ∈ X } = {Z(Rs) : s ∈ X }.

Remarque. Si {Z(s) : s ∈ X } est faiblement stationnaire, alors cela revient à dire

K(h) = K(khk), h ∈ X.

Remarque. Un processus non isotrope est anisotrope.


a
Une matrice A est une matrice de rotation si A−1 = A⊤ et |A| = 1

Géostatistique Mathieu Ribatet – 18 / 70

9
Question pour vous. . .
 Avantage de l’isotropie ?
 Inconvénient de l’isotropie ?

Géostatistique Mathieu Ribatet – 19 / 70

Allure générale de K(·)


3.0

0.5
5

2.5

0.4
4

2.0

0.3
3
K(h)

K(h)

K(h)
1.5

0.2
2

1.0

0.1
1

0.5

0.0
0.0
0

0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14
h h h

Figure 3: Quelques fonctions de covariance isotropes.

En profiter pour définir :


 portée (practical range)
 variance partielle (partial sill)
 effet pépite (nugget)
 dérivabilité en l’origine

Géostatistique Mathieu Ribatet – 20 / 70

10
Continuité de K(·)
Proposition 3. Soit un processus faiblement stationnaire {Z(s) : s ∈ X } de fonction de covariance
K(·). Si K(·) est continu à l’origine alors elle est continue partout.

Corollaire 1. La fonction de covariance K(·) d’un processus faiblement stationnaire ne peut être
discontinue qu’en son origine (effet pépite) et si tel est le cas alors

K(h) = cδo (h) + Kc (h), h ∈ X,

où c > 0 (la pépite) et Kc (·) est une fonction de covariance continue.

Géostatistique Mathieu Ribatet – 21 / 70

Continuité en moyenne quadratique


Définition 7. Un processus faiblement stationnaire {Z(s) : s ∈ X } est dit continu en moyenne
quadratique si
E {Z(o) − Z(h)}2 −→ 0,
 
khk → 0.

Théorème 1. Un processus faiblement stationnaire {Z(s) : s ∈ X } est continu en moyenne


quadratique si et seulement si K(·) est continue à l’origine.

Remarque (DM). Que devient ce théorème lorsque le processus est seulement d’ordre 2 et de moyenne
constante ?
Géostatistique Mathieu Ribatet – 22 / 70

11
Trajectoires continues p.s. et continuité en moyenne quadratique
1.0
0.8
0.6
Z(s)

0.4
0.2
0.0

0 5 10 15 20 25 30

Figure 4: Réalisation d’un processus L2 –continu et mais à trajctoires non continues.

Z(s) = XI(s) , I(s) = inf{i ≥ 1 : ξi ≥ s},


iid
avec {ξi : i ≥ 1} ∼ P P P (1) et Xi ∼ Ber(p).

Géostatistique Mathieu Ribatet – 23 / 70

Dérivabilité en moyenne quadratique


Définition 8. Un processus faiblement stationnaire {Z(s) : s ∈ X } est dérivable s’il existe un
processus d’ordre 2 {D(s) : s ∈ X } tel que
" 2 #
Z(s + h) − Z(s)
E − D(s)} −→ 0, khk → 0.
khk

Le processus {D(s) : s ∈ X } est appelé processus dérivé (en moyenne quadratique) de {Z(s) : s ∈ X }
et sera noté naturellement {Z ′ (s) : s ∈ X }.

Proposition 4 (Bartlett, 1955). Un processus faiblement stationnaire est dérivable en moyenne


quadratique si et seulement si K(·) admet une dérivée seconde en son origine.

Géostatistique Mathieu Ribatet – 24 / 70

12
Quelques
Exponentielfamilles de fonctions de corrélation
 isotropes
h
ρ(h) = exp − , λ>0
λ
Gaussien (   )
h 2
ρ(h) = exp − , λ>0
λ
Stable // Exponentiel puissance
  κ 
h
ρ(h) = exp − , 0 < κ ≤ 2, λ>0
λ

Whittle–Matérn
21−κ  u κ u
ρ(h) = Kκ , κ > 0, λ > 0.
Γ(κ) λ λ

Géostatistique Mathieu Ribatet – 25 / 70


1.0

1.0

Stable Whittle−Matern
κ=2 κ = 20
κ = 1.5 κ=1
κ=1 κ = 0.5
0.8
0.8

κ = 0.5 κ = 0.25
0.6
0.6
γ(h)

γ(h)

0.4
0.4

0.2
0.2

0.0
0.0

0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0

h h

Figure 5: Fonctions de corrélation isotrope du type “Stable” et “Whittle-Matérn”.

Géostatistique Mathieu Ribatet – 26 / 70

13
Stationnarité intrinsèque
 Parfois il peut être nécessaire de relâcher (un peu) l’hypothèse de stationnarité faible

Définition 9. Un processus {Z(s) : s ∈ X } est dit intrinsèquement stationnaire ou à accroissements


stationnaires si

E{Z(s) − Z(s + h)} = 0,


Var{Z(s) − Z(s + h)} = 2γ(h) (ne dépend que de h)

 Stationnarité intrinsèque 6⇒ Stationnarité faible


 Stationnarité faible ⇒ Stationnarité intrinsèque
 Stationnarité intrinsèque suppose l’existence des 2 premiers moments de
{Z(s + h) − Z(s) : s ∈ X } mais aucunement ceux de {Z(s) : s ∈ X }.

Géostatistique Mathieu Ribatet – 27 / 70

Variogramme
Définition 10. Soit {Z(s) : s ∈ X } un processus (au moins!) à accroissements stationnaires. On
appelle (semi) variogramme la fonction

γ : X −→ R+
1 
h 7−→ γ(h) = E {Z(s + h) − Z(s)}2 .

2

Remarque. Si {Z(s) : s ∈ X } est faiblement stationnaire alors clairement

γ(h) = K(o) − K(h).

En revanche l’existance d’un variogramme n’assure pas celle de la fonction de covariance !!!

Géostatistique Mathieu Ribatet – 28 / 70

14
Propriétés du variogramme (DM)
Proposition
Pn 5. Soient {Z(s) : s ∈ X } un processus à accroissements stationnaires et λ1 , . . . , λn ∈ R
tels que j=1 λj = 0. Alors
   
Xn  Xn  n
X
E λj Z(sj ) = 0, Var λj Z(sj ) = − λi λj γ(si − sj ) ≥ 0
   
j=1 j=1 i,j=1

 La proposition précédente indique que sous l’hypothèse d’accroissement stationnaires, toutes les
combinaisons linéaires de Z(sj ) ne sont pas valides !
Remarque. Attention pour votre DM, on travaille ici sous les hypothèses d’accroissements
stationnaires on ne peut donc pas écrire E{Z(s)} ou Var{Z(s)} !!!

Géostatistique Mathieu Ribatet – 29 / 70

Propriétés du variogramme
 γ(o) = 0 ;
 γ(h) ≥ 0 pour tout h ∈ X ;
 γ(−h) = γ(h) pour tout h ∈ X ;
 khk−2 γ(h) −→ 0 lorsque khk → ∞ (admis) ;
 La fonction h 7→ exp{−cγ(h)}, c > 0, est une fonction de covariance (admis).

Géostatistique Mathieu Ribatet – 30 / 70

15
Variogrammes paramétriques
 Il existe deux types de variogrammes : bornés ou non.
 Dans le cas bornés, alors on reprend les familles paramétriques données pour les covariances
puisque
γ(h) = K(o) − K(h)
 Si le variogramme est borné alors γ(·) hérite des propriétés déjà vues pour K(·).
 Un modèle paramétrique non borné fréquemment rencontré est le modèle puissance
 κ
h
γ(h) = , 0 < κ < 2.a
λ
a
Combiné avec un proc. gauss. on tombe sur un mouvement brownien fractionnaire (brownien classique pour κ = 1).

Géostatistique Mathieu Ribatet – 31 / 70


1.0

10

Puissance
κ = 0.5
κ=1
0.8

κ = 1.5
8

κ=2
0.6

6
γ(h)

γ(h)
0.4

Stable
κ=2
0.2

κ = 1.5
κ=1
κ = 0.5
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
h h

Figure 6: Variogrammes isotropes du type “Stable” et “puissance”.

Géostatistique Mathieu Ribatet – 32 / 70

16
2. Modélisation statistique 33 / 70

Données de calcium
 Données de teneur en calcium (et magnésium) du sol (entre 0 et 20cm de profondeur)
 La région d’étude a été divisée en 3 sous–régions
– HG : parcelle pouvant être considérée comme naturelle ;
– Bas: culture de riz (traitement au Ca le plus récent) ;
– HD: A reçu des engrais dans le passé.
 Objectif : Modéliser spatialement la teneur de Ca encore présente qui a été utilisée par le passé
pour neutraliser l’impact de l’aluminium présent dans le sol.

Géostatistique Mathieu Ribatet – 34 / 70

Format des données

east north altitude area ca20


1 5710 4829 6.10 3 52
2 5727 4875 6.05 3 57
3 5745 4922 6.30 3 72
4 5764 4969 6.60 3 74
5 5781 5015 6.60 3 68
6 5799 5062 5.75 3 45
7 5817 5109 5.35 3 47
8 5837 5161 5.10 3 49
9 5873 5254 5.00 2 38
10 5907 5347 5.20 2 53
11 5925 5394 5.05 2 60
12 5943 5441 4.65 2 47
13 5961 5487 4.40 2 34
...
Géostatistique Mathieu Ribatet – 35 / 70

17
Question pour vous. . .
 En tant que statisticien, que feriez vous si vous deviez travailler sur ces données ?

Géostatistique Mathieu Ribatet – 36 / 70

5800

36

39
52
32 40
5600

58 72
40
35 59
37 44
28 38
27 62 50
71 45
38 56
21 34
29
38 33 60
25 47 39 47
43
5400

41 35
40 72
48 40 56 60
29 41 36 47
43
Latitude

31 44 43
43 53
33 35 43 43
42 47 38
40 50
52 47 46
28 46 59
47 53 53
44 47 58 46
48 56 52 38
30 46
5200

42 69 58
39 50 45
46 40 61 54
43 54 54 49
52 58 71
52 53 47 49
47 45 61 41 49
58 55 64
78 53 66 47
63 56 50 42
51 58 50 42 47
68 58 52
63 65 54 50
63 52 61 43
66 66 50 57
57 53 58 45
62 55 65 44
42 68
5000

58 53 66 53
56 49 57 68
50 58 67 58
54 47 66 56
48 58 58
56 61 74
60 68 61
64 64 66
72
60
56
57
4800

52

5000 5200 5400 5600 5800 6000

Longitude

Figure 7: Données de teneur en Calcium dans le sol. (symbol plot)

Géostatistique Mathieu Ribatet – 37 / 70

18
80

80

80

80
70

70

70

70
60

60

60

60
50

50

50

50
Ca

Ca

Ca

Ca
40

40

40

40
30

30

30

30
20

20

20

20
5000 5400 5800 4800 5000 5200 5400 5600 3.5 4.0 4.5 5.0 5.5 6.0 6.5 1 2 3
Longitude Latitude Altitude Sous−region

Figure 8: Évolution de la teneur en Calcium en fonction des covariables disponibles.

Géostatistique Mathieu Ribatet – 38 / 70

Variogramme empirique
Comme
1 
γ(h) = E {Z(o) − Z(h)}2 ,

2
un estimateur très naturel est
n
1 X
γ̂(h) = {Zℓ (si ) − Zℓ (sj )}2 , h = ksi − sj k,
2n
ℓ=1

ou encore sa version agrégée (binned)


n X
k
1 X
γ̂(h) = {Zℓ (si ) − Zℓ (sj )}2 1{|ksi −sj k−h|≤ε} ,
2nN (h, ε)
ℓ=1 i,j=1

avec
k
X
N (h, ε) = 1{|ksi −sj k−h|≤ε} .
i,j=1

Géostatistique Mathieu Ribatet – 39 / 70

19
Variogramme empirique sur les données de Calcium

200
150
γ(h)

100
50
0

0 200 400 600 800 1000

Figure 9: Variogramme empirique sur les données de Calcium.

Géostatistique Mathieu Ribatet – 40 / 70

20
Variogramme empirique sur les données de Calcium

200
150
γ(h)

100
50
0

0 200 400 600 800 1000

Figure 10: Variogramme empirique sur les données de Calcium (tendance longitude).

Géostatistique Mathieu Ribatet – 41 / 70

21
Variogramme empirique sur les données de Calcium

200
150
γ(h)

100
50
0

0 200 400 600 800 1000

Figure 11: Variogramme empirique sur les données de Calcium (tendance latitude).

Géostatistique Mathieu Ribatet – 42 / 70

22
Variogramme empirique sur les données de Calcium

200
150
γ(h)

100
50
0

0 200 400 600 800 1000

Figure 12: Variogramme empirique sur les données de Calcium (tendance altitude).

Géostatistique Mathieu Ribatet – 43 / 70

23
Variogramme empirique sur les données de Calcium

200
150
γ(h)

100
50
0

0 200 400 600 800 1000

Figure 13: Variogramme empirique sur les données de Calcium (tendance sous-region).

Géostatistique Mathieu Ribatet – 44 / 70

24
Variogramme empirique sur les données de Calcium

200
150
γ(h)

100
50
0

0 200 400 600 800 1000

Figure 14: Variogramme empirique sur les données de Calcium (tendance sous-region + latitude).

Géostatistique Mathieu Ribatet – 45 / 70

25
Message à retenir
 Attention à l’effet des covariables explicatives sur le variogramme. Ces dernières “réduisent” la
structure de dépendance et diminuent la variance.
Pensez à
Z(s) = X(s)⊤ β + ε(s), s ∈ X,
où {ε(s) : s ∈ X } est un processus faiblement stationnaire de fonction de covariance Kε (·). Alors
clairement

E {Z(s1 ) − Z(s2 )}2 = E {Z(s1 ) − µ(s1 ) − Z(s2 ) + µ(s2 ) + µ(s1 ) − µ(s2 )}2
   

= 2Kε (o) + {µ(s1 ) − µ(s2 )}2 + 2Kε (s1 − s2 )


≥ 2Kε (o) − 2Kε (s1 − s2 )
= 2γε (s1 − s2 ).

Géostatistique Mathieu Ribatet – 46 / 70

Ajustement d’un variogramme


 Le principe n’est pas vraiment nouveaux : utilisons les moindres carrés, i.e.,
1. Choix d’une famille paramétrique de variogramme γ(·; ψ)
2. Résolution du problème de minimisation
X
ψ̂ = arg min {γ̂(hj ) − γ(hj ; ψ)}2
ψ∈Ψ j

Remarque. Il sera souvent préférable d’utiliser les moindres carrés pondérés, i.e.,
X N (hj , ε)
ψ̂ = arg min {γ̂(hj ) − γ(hj ; ψ)}2 .
ψ∈Ψ γ(hj , ψ)2
j

Géostatistique Mathieu Ribatet – 47 / 70

26
Application

150
OLS
GLS

100
γ(h)

50
0

0 200 400 600 800 1000

Figure 15: Ajustement par moindre carrés d’un variogramme lié à la covariance exponentielle pour les données de teneur en Ca.
(tendance sous–région)

Géostatistique Mathieu Ribatet – 48 / 70

Message à retenir
 Le problème d’optimisation n’est pas très “aimable” et il sera donc souvent utile de tester les
estimations en partant de différentes valeurs initiales ;
 Il est d’usage lorsqu’on suppose une famille de covariance de type Whittle–Matérn de fixer le
paramètre de forme aux valeurs κ = 0.25, 0.5, . . . , 2. Ce paramètre étant particulièrement difficile
à estimer.
 Il est toujours important de se demander si un effet de pépite est réellement souhaitable.

Géostatistique Mathieu Ribatet – 49 / 70

27
Krigeage: Objectif

1.0
χ

0.5
Latitude
0.0
−0.5
−1.0 s0

−1.0 −0.5 0.0 0.5 1.0


Longitude

 Prédire Z(s0 ) sachant Z(s1 ), . . . , Z(sk ).

Géostatistique Mathieu Ribatet – 50 / 70

Prédicteurs linéaires
 Infinité de possibilités pour estimer Z(s0 ) ⇒ restriction au cadre des estimateurs linéaires sans
biais, i.e.,
k
X
Ẑ(s0 ) = λj Z(sj ), E{Ẑ(s0 )} = µ(s0 ).
j=1

 Parmi la classe de ces estimateurs, on essaiera de déterminer le “meilleur” au sens de l’erreur


quadratique
Ẑ(s0 ) = arg min E {T − Z(s0 )}2 .
 
T ∈Est.Lin.

Remarque. On sait que le meilleur estimateur au sens erreur quadratique est toujours
T = E{Z(s0 ) | Z(s1 ), . . . , Z(sk )}. Cela dit (sauf cas gaussien par ex.), ce n’est pas toujours un
estimateur linéaire. . .
Géostatistique Mathieu Ribatet – 51 / 70

28
Krigeage ordinaire
 Supposons que {Z(s) : s ∈ X } est faiblement stationnaire de moyenne inconnue µ(s) ≡ µ et de
covariance (connue) K(·).
 Pour que l’estimateur soit sans biais il faut
k
X k
X
E{Ẑ(s0 )} = λj E{Z(sj )} = µ ⇒ λj = 1.
j=1 j=1

 Et l’on souhaite donc minimiser


k
X k
X
Var{Ẑ(s0 ) − Z(s0 )} = λi λj K(si − sj ) + K(o) − 2 λi K(si − s0 )
i,j=1 i=1

= λ⊤ K(s)λ + K(o) − 2λ⊤ K(s − s0 ),

sous la contrainte λ⊤ 1 = 1 avec λ = (λ1 , . . . , λk ) et s = (s1 , . . . , sk ),


K(s) = {K(si − sj )}i,j=1,...,k .

Géostatistique Mathieu Ribatet – 52 / 70

Krigeage ordinaire
Proposition 6 (DM). L’estimateur du krigeage ordinaire est donné par
1⊤ K(s)−1 Z(s) n o
Ẑ(s0 ) = K(s − s0 )⊤ K(s)−1 Z(s) + 1 − 1⊤ K(s)−1 K(s − s0 ) ,
1⊤ K(s)−1 1

où Z(s) = {Z(s1 ), . . . , Z(sk )}.


De plus la variance de l’erreur est donnée par
2
1 − 1⊤ K(s)−1 K(s − s0 )

Var{Ẑ(s0 ) − Z(s0 )} = K(o) − K(s − s0 )⊤ K(s)−1 K(s − s0 ) +
1⊤ K(s)−1 1

Géostatistique Mathieu Ribatet – 53 / 70

29
Le krigeage ordinaire en pratique
1. Calcul du variogramme empirique ;
2. Ajustement d’un variogramme paramétrique ;
3. Calculez K(s) ainsi que son inverse ;
4. Pour chaque point s0 d’un grille de X
(a) Calcul de K(s − s0 ) ;
(b) Calcul de Ẑ(s0 ) et de la variance de l’erreur;
5. Faire de jolies cartes ;

Géostatistique Mathieu Ribatet – 54 / 70

Quantité de Calcium contenu dans le sol


5800

5800

36
39
32 52
40
5600

5600

40 58 72
35 59
37 28 44
62 38
27 50
71 56 45
21 38 34
29 60
25 38 33
47 39 43 47
5400

5400

40 41 35
48 72 60
29 41 40 56
43 44 36 47
Y Coord

Y Coord

31 43 43 53
33 35 43 47 43
42 52 40 50 38
28 47 46
47 46 59 53 53
44 48 47 58 46 38
30 42 56 52 46
69
5200

5200

39 50 58 45
46 40 54 61 54
52 43 58 71 54 49
47 52 53 61 47 49
58 45 55 64 41 49
78 63 53 66 50 47
51 58 56 50 42 42
68 65 58 52 50 47
63 63 52 54 61 43
66 66 53 50 57 45
62 57 55 58 44
42 53 49 65 66 68 53
5000

5000

58 56 57 68
54 50 58 66 67 58
48 47 58 58 56
60 56 68 61 74
64 64 61
66
60 72
56
20 30 40 50 60 70 57 2 4 6 8 10 12
4800

4800

52

5000 5200 5400 5600 5800 6000 5000 5200 5400 5600 5800 6000

X Coord X Coord

Figure 16: Krigeage ordinaire et erreur de prédiction pour les données de teneur en Ca.

Géostatistique Mathieu Ribatet – 55 / 70

30
Question pour vous. . .
 Que pensez vous de ce que nous venons de faire ?

Géostatistique Mathieu Ribatet – 56 / 70

Krigeage universel
 Nous supposons désormais que

Z(s) = X(s)⊤ β + ε(s), s ∈ X,

où {ε(s) : s ∈ X } est un processus faib. stat. de moyenne nulle et de covariance (connue) K(·), β
vecteur dePparamètre à estimer et X(s) vecteur de covariables au point s ∈ X .
 Ẑ(s0 ) = kj=1 λj Z(sj ) est sans biais :

k
X
E{Ẑ(s0 ) − Z(s0 )} = λj X(sj )⊤ β − X(s0 )⊤ β
j=1
 ⊤
Xk 
= λj X(sj ) − X(s0 ) β
 
j=1

= 0, pour tout β.

Géostatistique Mathieu Ribatet – 57 / 70

31
Krigeage universel
 L’équation précédente impose donc les p contraintes suivantes
k
X
λj Xℓ (sj ) − Xℓ (s0 ), ℓ = 1, . . . , p,
j=1

où X(s) = {X1 (s), . . . , Xp (s)}—i.e., p covariables.


 On souhaite alors minimiser
Var{Ẑ(s0 ) − Z(s0 )}
avec les p contraintes précédentes.

Géostatistique Mathieu Ribatet – 58 / 70

Krigeage universel
 Après quelques calculs pénibles mais simples, on trouve alors pour λ = (λ1 , . . . , λk )

λ = K(s)−1 K(s − s0 ) − K(s)−1 X(s){X(s)⊤ K(s)−1 X(s)}−1 {X(s)⊤ K(s)−1 K(s − s0 ) − X(s0 )}.

 La variance de l’erreur de l’estimateur Var{Ẑ(s0 ) − Z(s0 )} est donnée par

K(o) − K(s − s0 )⊤ K(s)−1 K(s − s0 )+


{X(s)⊤ K(s)−1 K(s − s0 ) − X(s0 )}⊤ {X(s)⊤ K(s)−1 X(s)}−1 {X(s)⊤ K(s)−1 K(s − s0 ) − X(s0 )}.

Remarque. On retombe sur le krigeage ordinaire en posant X(s) ≡ 1.

Géostatistique Mathieu Ribatet – 59 / 70

32
Krigeage ordinaire // universel

5800

5800
36
39
32 52
40

5600

5600
40 58 72
35 59
37 28 44
62 38
27 50
71 56 45
21 38 34
29 60
25 38 33
47 39 43 47

5400

5400
40 41 35
48 72 60
29 41 40 56
Y Coord 43 44 36 47

Y Coord
31 43 43 53
33 35 43 47 43
42 52 40 50 38
47 46
28 46 59 53
44 47 47 58 46 53
30 48 56 52 46 38
42 69
5200

5200
39 50 58 45
46 40 54 61 54
52 43 58 71 54 49
47 52 53 61 47 49
58 45 55 64 41 49
78 63 53 66 50 47
51 58 56 50 42 42
68 65 58 52 50 47
63 63 52 54 61 43
66 66 53 50 57 45
62 57 55 58 44
42 53 49 65 66 68 53
5000

5000
58 56 57 68
54 50 58 66 67 58
48 47 58 58 56
60 56 68 61 74
64 64 61
66
60 72
56
20 30 40 50 60 70 57 2 4 6 8 10 12
4800

4800
52

5000 5200 5400 5600 5800 6000 5000 5200 5400 5600 5800 6000

X Coord X Coord
5800

5800
36
39
32 52
40
5600

5600
40 58 72
35 59
37 28 44
62 38
27 50
71 56 45
21 38 34
29 60
25 38 33
47 39 43 47
5400

5400
40 41 35
48 72 60
29 41 40 56
43 44 36 47
Y Coord

Y Coord
31 43 43 53
33 35 43 47 43
42 52 40 50 38
47 46
28 46 59 53
44 47 47 58 46 53
30 48 56 52 46 38
42 69
5200

5200
39 50 58 45
46 40 54 61 54
52 43 58 71 54 49
47 52 53 61 47 49
58 45 55 64 41 49
78 63 53 66 50 47
51 58 56 50 42 42
68 65 58 52 50 47
63 63 52 54 61 43
66 66 53 50 57 45
62 57 55 58 44
42 53 49 65 66 68 53
5000

5000
58 56 57 68
54 50 58 66 67 58
48 47 58 58 56
60 56 68 61 74
64 64 61
66
60 72
56
20 30 40 50 60 70 57 2 4 6 8 10 12
4800

4800

52

5000 5200 5400 5600 5800 6000 5000 5200 5400 5600 5800 6000

X Coord X Coord

Géostatistique Mathieu Ribatet – 60 / 70

Modélisation par processus gaussiens


 Ce que nous avons vu précédemment est la vision École des Mines de Paris.
 L’approche anglo–saxonne consiste à poser un modèle et non pas seulement supposer une
stationnarité faible ou intrinsèque.
 Le plus souvent on supposera que

Φ{Z(s)} = f (s; β) + ε(s), s ∈ X,

où Φ(·) est une fonction lien supposée connue (comme pour les GLM), {ε(s) : s ∈ X } un
processus Gaussien centré de covariance K(·) et f (·; β) une fonction paramétrée par un vecteur
de paramètre β.
 Nous nous restreindrons au cas où Φ : z 7→ z et f (s; β) = X(s)β.

Géostatistique Mathieu Ribatet – 61 / 70

33
Vraisemblance
La log–vraisemblance est donnée par
n
nk n 1X
ℓ(ψ) = − log 2π − log |K(s)| − {zℓ (s) − X(s)β}⊤ K(s)−1 {zℓ (s) − X(s)β}
2 2 2
ℓ=1

Remarque. Numériquement il sera plus efficace de calculer les formes quadratiques plus haut par la
formule

y ⊤ K(s)−1 y = y ⊤ {C(s)C(s)⊤ }−1 y


= y ⊤ C(s)−⊤ C(s)−1 y
= x(s)⊤ x(s),

où C(s) est la décomposition de Cholesky de


QK(s) et x(s) la solution du système triangulaire
k
C(s)x(s) = y. De plus |K(s)| = |C(s)| = j=1 C(s)2jj .
2

Géostatistique Mathieu Ribatet – 62 / 70

DM
Écrivez une fonction R calculant l’estimateur du maximum de vraisemblance d’un processus Gaussien
défini plus haut.

Géostatistique Mathieu Ribatet – 63 / 70

34
Rappel : Lois gaussiennes conditionnelles
Proposition 7. Soit Z(s, s0 ) un vecteur Gaussien de Rk×k0 d’espérance µ(s, s0 ) et matrice de
covariance K(s, s0 ). Alors
n o
Z(s0 ) | {Z(s) = z(s)} ∼ N µ̃(s0 ), K̃(s0 ) ,

avec

µ̃(s0 ) = µ(s0 ) + K(s0 , s)K(s)−1 {z(s) − µ(s)}


K̃(s0 ) = K(s0 ) − K(s0 , s)K(s)−1 K(s0 , s)⊤ ,

où nous avons utilisé la décomposition suivante


 
K(s0 ) K(s0 , s)
K(s0 , s) = .
K(s0 , s)⊤ K(s)

Géostatistique Mathieu Ribatet – 64 / 70

Lien avec le Krigeage


 L’estimateur Ẑ(s0 ) = E{Z(s0 ) | Z(s)} minimise l’erreur quadratique moyenne. Ainsi dans le cas
gaussien faib. stat.,

Ẑ(s0 ) = µ̃(s0 ) = µ(s0 ) + K(s − s0 )⊤ K(s)−1 {Z(s) − µ(s)}.

 Pour µ(s) = X(s)⊤ β̂, et à covariance connue, on sait que


β̂ = {X(s)⊤ K(s)−1 X(s)}−1 X(s)⊤ K(s)−1 Z(s),

Ẑ(s0 ) = X(s0 )⊤ {X(s)⊤ K(s)−1 X(s)}−1 X(s)⊤ K(s)−1 Z(s)+


h i
K(s − s0 )⊤ K(s)−1 Z(s) − X(s)⊤ {X(s)⊤ K(s)−1 X(s)}−1 X(s)⊤ K(s)−1 Z(s)

= X(s0 )⊤ {X(s)⊤ K(s)−1 X(s)}−1 X(s)⊤ K(s)−1 +
h i
K(s − s0 )⊤ K(s)−1 1 − X(s)⊤ {X(s)⊤ K(s)−1 X(s)}−1 X(s)⊤ K(s)−1 Z(s)
n o
= X(s0 )⊤ − K(s − s0 )K(s)−1 X(s)⊤ {X(s)⊤ K(s)−1 X(s)}−1 X(s)⊤ K(s)−1 +

K(s − s0 )⊤ K(s)−1 Z(s).

 On retombe sur l’estimateur du krigeage universel !

Géostatistique Mathieu Ribatet – 65 / 70

35
Limitation de la vraisemblance
 La vraisemblance fait intervenir une décomposition de Cholesky—coût algorithmique O(k3 ).
 Ceci restreint son utilisation au cas où k ≤ 3000.
 D’autres approches sont possibles lorsque k > 3000 :
– Processus Gaussien avec K(s) creuse ;
– Utilisation de vraisemblances composites.

Géostatistique Mathieu Ribatet – 66 / 70

3. Simulations de processus gaussiens 67 / 70

Motivations
 Les simulations sont souvent utiles afin d’estimer par ex.

Ψ = T [E {Z(·) | Z(s) = z}] ,

où T est une fonctionnelle supposée connue.


 Puisque le krigeage Ẑ(·) est un estimateur sans biais de E{Z(·) | Z(s)}, si T est linéaire alors
l’estimateur Ψ̂ = T {Ẑ(·)} vérifie
  h i
E Ψ̂ = T E{Ẑ(·)} = T [E{Z(·) | Z(s) = z}] = Ψ.

 Ce n’est plus vrai si T n’est pas linéaire ! Une solution consiste donc à estimer Ψ par des
méthodes de type Monte–Carlo.

Géostatistique Mathieu Ribatet – 68 / 70

36
Simulations non conditionnelles
 Il s’agit ici de simuler selon la loi de {Z(s) : s ∈ X }.
 Trois grandes approches :
– Approche directe via une décomposition de Cholesky ;
– Approche par matrices circulantes et FFT ;
– Approche par bandes tournantes.
 Nous allons
Géostatistique Mathieu Ribatet – 69 / 70

Simulations conditionnelles
Géostatistique Mathieu Ribatet – 70 / 70

37