Vous êtes sur la page 1sur 66

STA 112 : Geostatistique

A. Latouche
aurelien.latouche@cnam.fr

1 / 62
STA 112 Statistique Spatiale et Longitudinale

I Géostatistique : Variogramme , Krigeage

I Modèles hiérarchique bayésiens : application en Epidémiologie

Toujours vérifier les salles et séances


http://maths.cnam.fr/spip.php?article390

2 / 62
Evaluation

I La note finale de l’UE STA 112 se compose d’une note


d’examen (2/3) et d’une note de projet (1/3)
I Il y 2 sessions pour l’examen et le projet.
I Vous devez donc rendre votre projet lors de la semaine
d’examen (juin et septembre).
Le projet comporte 1 analyse de données spatiales et 1 analyse de
données longitudinales
les données à analyser seront disponibles sur le site de l’UE

3 / 62
Données spatiales et visualisation avec R

La page de référence
http://cran.r-project.org/web/views/Spatial.html

Data management sp, rgdal, maptools


Integration with other GIS gdal, RArcInfo, SQLiteMap,
RgoogleMaps, spgrass6, RPyGeo,
R2WinBUGS, geonames
Point pattern analysis spatstat, splancs, spatialkerne
Geostatistics gstat, geoR, geoRglm, spBayes
Disease mapping DCluster, spgwr, glmmBUGS,
diseasemapping
Spatial regression spdep, spatcounts

4 / 62
Géostatistique

I Historiquement : Gisement minier

I Hydrologie, Agriculture, Science de l’environnement


(Pollution)

I Objectif : Prédiction de gisement à partir de forages

Définition
La Géostatistique a pour objet de Modéliser des covariations
spatiales et de Prédire la mesure en un point non observé

On effectue de l’interpolation spatiale (krigeage)

5 / 62
Singularité des données spatiales

I En statistique classique, l’inférence des paramètres est rendue


possible par la répétition indépendante des données.

I En statistiques spatiales, on observe très souvent une


réalisation unique des données

I Par exemple
I un épisode de pollution à l’ozone
I une région agricole particulière
I une épidémie . . .

6 / 62
Singularité des données spatiales
Exemple Données de pluviométrie (package geoR, data(parana))
I Les mesures sont discrètes : 143 stations, pluviométrie
moyenne de plusieurs années de mai à juin
I Le phénomène spatial est définit partout sur le domaine
d’étude

600
500
400
N−S (km)
200 300
100
0

200 300 400 500 600 700 800


E−W (km)

7 / 62
Singularité des données spatiales

Pour pouvoir réaliser l’inférence statistique pour un évènement


unique, il faut donc en quelques sortes remplacer
I l’hypothèse sur les répétitions indépendantes par une
hypothèse sur le champ aléatoire

I Cette hypothèse considère d’une part que certaines de ses


caractéristiques sont identiques d’un point à l’autre de
l’espace,

I et d’autre part que l’espérance de certaines grandeurs sont


accessibles par des intégrales sur l’espace.
⇒ On pose donc des hypothèses de stationnarité

8 / 62
Données spatiales : exemple et format

ozone.txt, jura.txt

9 / 62
Covariance non spatialisé

cov(X , Y ) = E(XY ) − E(X ) E(Y )





●●
140


● ● ●●
● ●● ● ●
●● ●
●● ● ●●
● ●● ●

● ●●●●
weight


120

● ● ●●
●●● ● ● ●● ● ●
● ● ●● ● ● ●●●
●● ●
●●

● ●●
● ●
● ●● ● ●
100

● ●● ●
● ● ● ●●
●●● ●●
● ●●
● ●●

●● ●●
80

100 120 140 160 180 200


height
10 / 62
Non corrélés



120


●● ● ●●
● ● ● ●
● ●
● ● ● ●●●
● ● ●● ●
● ● ●● ●●
intelligence

● ● ● ● ●

100

● ● ● ●
●●

●●● ●● ● ●●

● ●● ● ● ● ●
● ● ●●●● ● ● ● ● ●● ●

●● ●
● ● ● ●
● ●
●●

80


● ●
● ● ● ● ●
● ●

60

4 6 8 10 12 14 16
shoeSize

11 / 62
Loi normale Multivariée

U ∼ MVN(µ, Σ)

I U est un vecteur de N observations


I µ un vecteur de moyenne, E(Ui ) = µi
I Σ matrice de variance-covariance N × N
Sa densité
Z
pr (Y ∈ A) = f (y )dy
A
 
1 1 0 −1
f (y ) = exp − (y − µ) Σ (y − µ)
(2π)N/2 |Σ|1/2 2

12 / 62
Loi normale Bivariée

Dependance Independance

0.10 0.10
44

44
● ●
0.08 0.08
42

42
●●
●●● ● ● ●
● ● ● ●● ●
● ●
●●● 0.06 ● ●● 0.06
● ●
●● ●● ●
● ●
40

40
● ● ●
y

y
●● ● ● ● ●●●● ●
● ● ●● ●
● ● ● 0.04 ●●


0.04
● ● ● ●
● ●
38

38
●● ● ●
● ● ●
0.02 ● ● 0.02


36

36
0.00 0.00

90 95 100 105 110 90 95 100 105 110
x x

13 / 62
Phénomènes/Processus aléatoire
En espace
En temps
6
cancer rate
2 04

1900 1940 1980


years
I U(x, y ) est un champs
I U(t) série chronologique
aléatoire
I indexée par l’instant t I Notations U(x), x = (x1 , x2 )
I notée aussi Ut I Ui = U(si ), si = (si1 , si2 )

14 / 62
Covariance et champs aléatoire

I Soit Z (x) pour x ∈ D

I on supposera que Var(Z (x)) existe

I On parle de champs d’ordre 2

I ceci assure l’existence de la fonction de covariance

C (x, y ) = Cov(Z (x), Z (y ))

pour y ∈ D

15 / 62
Processus Stationnaire et covariance

La loi d’un processus stationnaire est invariante par translation, ce


qui implique
I E [Z (x)] = m ∀x
I La covariance C (.) entre 2 points x et x + h ne dépend que de
h i.e.
E [Z (x)Z (x + h)] − m2 = C (h)

On ne spécifie pas d’hypothèse sur Var (Z (h)) car

Var (Z (x)) = C (0)

16 / 62
Processus stationnaire intrinsèque
Le cas stationnaire suppose que l’espérance est constante mais ceci
n’assure pas l’existence d’une covariance
On suppose donc

E [Z (x + h) − Z (x)] = 0
Var [Z (x + h) − Z (x)] ne dépend que de h

Définition
On appelle variogramme
1
γ(h) = Var(Z(x + h) − Z(x))
2

Stationnaire ⇒ Intrinsèque

17 / 62
Processus Stationnaire : Propriété de la covariance

C (h) = E (Z (x)Z (x + h)) − m2

1. C (0) = σ 2
2. C (h) = C (−h)
3. |C (h)| ≤ C (0)
4. γ(h) = C(0) − C(h)

2γ(h) = E [{Z (x + h) − Z (x)}2 ]


= E [{Z (x + h) − m + m − Z (x)}2 ]
= E [(Z (x + h) − m)2 + (Z (x) − m)2 −
2(Z (x + h) − m)(Z (x) − m))]
= 2C (0) − 2C (h)

18 / 62
Stationnarité : A quoi ça ressemble ?

19 / 62
Stationnaire, Isotrope
20

20
15

15
10

10
y

y
5

5
0

0
0 5 10 15 20 0 5 10 15 20
x x

20 / 62
Non-Stationnaire
20

20
15

15
10

10
y

y
5

5
0

0
0 5 10 15 20 0 5 10 15 20
x x

21 / 62
Stationnaire, Anisotrope
1.0

1.0
0.8

0.8
0.4 0.6

0.4 0.6
Y Coord

Y Coord
0.2

0.2
0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
X Coord X Coord

22 / 62
Variogramme Empirique : estimation

N(h)
1 X

γ (h) = [Z (xi + h) − Z (x)]2
2 N(h)
i=1

où
I xi : lieu de prélévement

I Z (xi ) : les valeurs des prévélements

I N(h) : le nombre de pairs (xi , xi + h) séparée d’une distance h

23 / 62
Variogramme 1D

Echantillons espacés de 5m la teneur est indiqué

Calculer la valeur du variogramme empirique à 5, 10 et 15 m

24 / 62
Paires distantes de 5m :
1
γ(5) = [22 + 22 + 12 + 32 + 12 + 22 +
2 ∗ 12
52 + 6 2 + 1 2 + 4 2 + 1 2 + 3 2 ]
= 4.625

I γ ∗ (10) = 4.82
I γ ∗ (15) = 6

25 / 62
Variogramme empirique : Vertical

On vous donne 2 portions de forage sur lesquelles sont indiquées


les teneurs en Aluminium (ppm) pour des carottes de 3m. Les 2
forages sont espacés de 9m de centre à centre.

Forage 1 Forage 2
5.2 5.2
2.3 4.6
3.7 6.3
9.1 2.7

Calculer le variogramme expérimental à la distance h=9m

26 / 62
Paires distantes de 9m

1. (5.2, 9.1)
2. (5.2,2.7)
3. (5.2,5.2)
4. (2.3,4.6)
5. (3.7,6.3)
6. (9.1,2.7)
N(9) = 6

27 / 62
Variogramme experimental 2D

On doit estimer le variogramme dans les 4 directions


1. (N-S)
2. (E-O)
3. (NE-SO)
4. (NO-SE)

28 / 62
Variogramme experimental 2D

Dans la direction N-S et E-O : grille régulière (1 unité entre chaque


mesure)

26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

⇒ Calculer le variogramme empirique à h= 1 et 2 dans la direction


Nord-Sud

29 / 62
Variogramme experimental 2D: Direction Nord-Sud

26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

Direction Nord-Sud :
I N(1)=56 et γ ∗ (1) = 5.88;
I N(2)=48 et γ ∗ (2) = 9.11

30 / 62
Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ ∗ (4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre√ des blocs sur les 2 directions
diagonales est multiple de 2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

h = 4 ≈ 3 2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements

31 / 62
Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ ∗ (4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre√ des blocs sur les 2 directions
diagonales est multiple de 2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

h = 4 ≈ 3 2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3

31 / 62
Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ ∗ (4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre√ des blocs sur les 2 directions
diagonales est multiple de 2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

h = 4 ≈ 3 2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
Soit N(4)=16

31 / 62
Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ ∗ (4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre√ des blocs sur les 2 directions
diagonales est multiple de 2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

h = 4 ≈ 3 2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
Soit N(4)=16
1  
γ ∗ (4) = 32 + 42 + 12 + 12 + 72 + 12 + 52 + 112 + 112 + 12 + 72 + 102 + 12 + 72 + 62 + 32 =
2 ∗ 16
589/32 = 18.4
31 / 62

A titre d’exemple voici les paires distances de 2 2 ≈ 3 :
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11

I (21,14),
I (19,20), (15,16),
I (18,19), (18,14), (20,19)
I (17,18), (16,18), (15, 23), (18,16)
I (15,15), (14,20), (10,25),(15,21), (20,14)

par symétrie on obtient 25 paires distantes de 2 2 i.e. N(3)=25

32 / 62
Correlation spatial

Dans une situation de stationnarité d’ordre 2


I Exponentiel C (h) = σ 2 exp(−h/d)

I Gaussienne C (h) = σ 2 exp(−(h/d)2 )


Où d est à spécifier

33 / 62
Exemple de semi-variogramme γ

1.0
exponential
spherical
gaussian

0.8
0.6
γ(h)

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

distance

geoR package cov.spatial() 34 / 62


Estimation par krigeage

1. Le problème
2. Estimation par krigeage
I Estimation de la variable
I Estimation de l’erreur locale
3. Etude de la corrélation spatiale
I Modélisation du variogramme
4. Application au krigeage

35 / 62
Position du problème

I Considérons une variable spatiale telle que la concentration


d’un polluant dans le sol : continuité

I A un moment donné, elle est supposée avoir une valeur


déterminée en tout point d’un domaine donné (Ω ou D)

I Mais elle n’est connue que par sondage en des points


particuliers

36 / 62
Le problème

1. Comment reconstituer sa valeur en un point non sondé

2. Quelle erreur commet-on ?

3. Comment la cartographier ?

37 / 62
Variable spatialisée

Z (X )
où
I X s’entend comme une localisation dans le plan ou l’espace

I Couple de coordonnées cartésiennes (x,y ) Triplet (x,y,z )

On suppose aussi que Z (X ) est intégrable (moyennable) sur tout


ouvert de Ω

38 / 62
Estimation (ponctuel) par Krigeage
Idée : Un barycentre local
⇒ Interpolation linéaire sans biais de variance minimale
I On cherche un estimateur de la forme
X
zv∗ = λi z(xi )
i

39 / 62
Propriétés de la variable Zv∗ =
P
i λi Z (xi )

I Sans biais E (Zv∗ − Zv ) = 0

I De variance minimale Var [Zv∗ − Z v ]

Aux points observés l’erreur doit être nulle

40 / 62
E [Z (x)] est inconnu : Krigeage ordinaire
On suppose que Z (x) est stationnaire de moyenne m sur
l’ensemble du domaine V
V peut être un volume, une surface ou un point .

E [Z (x)] = m = E [Zv ]
L’erreur d’estimation,[Zv∗ − Zv ], vaut en moyenne :
X X hX i
E[ λi Z (xi ) − Zv ] = λi m − m = m λi − 1
i

Pour obtenir un estimateur sans biais il faut que soit


I m=0
P
I ou λi − 1 = 0 (Krigeage Ordinaire)
Le cas m = 0 correspond au Krigeage Simple (m est connu, et on
centre Z )
41 / 62
Krigeage Ordinaire: Variance minimale

λi − 1 = 0 on veut minimiser Var [Zv∗ − Zv ]


P
Sous la contrainte

42 / 62
Krigeage Ordinaire: Variance minimale

λi − 1 = 0 on veut minimiser Var [Zv∗ − Zv ]


P
Sous la contrainte

XX X
Var [Zv∗ − Zv ] = λi λj C (xi , xj ) + C̄ (V , V ) − 2 λi C̄ (xi , V )
X XX
σ2 = 2 λi γ̂(xi , V ) − λi λj γ(xi , xj ) − γ̄(V , V )

1 R
où γ̂(xi , V ) = γ(xi − x)dx
V v

42 / 62
Minimisation sous contrainte : rappel

Multiplicateur de Lagrange
Supposons qu’on veuille minimiser f (x, y ) = x 2 + y 2 sous la
contrainte g (x, y ) = x 2 y − 16 = 0
On pose
L(x, y , µ = f (x, y ) − µg (x, y )
et on veut minimiser

L(x, y , µ) = x 2 + y 2 + µ(x 2 y − 16)

43 / 62
Multiplicateur de Lagrange

∂L
= 2x + µ2xy = 0 (1)
∂x
∂L
= 2y + µx 2 = 0 (2)
∂y
∂L
= x 2 y − 16 = 0 (3)
∂µ

Donc de (1) : x = 0 ou y = −1/µ d’où de (2) x 2 = −2y /µ et


µ=2
Le minimum
√ de la fonction f sous la contrainte g = 0 est
(x = 1/ 2,y=1/2)

44 / 62
Minimisation sous contrainte de la variance de krigeage

X 
φ = Var [Zv∗ − Zv ] − 2µ λi − 1

dans le cas ponctuel (V est alors un point)

45 / 62
Formulation

b (X ) − Z (X ))2 ] = E (Z
E [Z b (X )2 ) − 2E (Z (X )Z
b (X )) + E (Z (X )2 )

XX X
= λi λj E (Zi Zj ) − 2 λi E (Zi Z (X )) + C (0)
i j i

Que l’on note


XX X
λi λj Cij − 2 λi CiX + C (0)
i j i

46 / 62
Que sont les coefficients C ?

Ce sont les covariances spatiales


I Cij est la covariance entre les points observés i et j (C (xi , xj ))

I CiX est la covariance entre le point observé i et le point


d’estimation X (C̄ (xi , V ))

I C0 est la covariance entre un point et lui même, c’est à dire la


variance locale (C̄ (V , V ))

I Cii = CXX = C (0) = σ 2 : hypothèse stationnaire

47 / 62
Krigeage ordinaire

On doit résoudre un problème de minimisation sous contrainte :

XX X X
L(λ1, . . . , λn , ν) = λi λj Cij −2 λi CiX +C (0)+2µ( λi −1)
i j i

n
∂L X
= 2 λi Cij − 2CiX + 2µ = 0
∂λi
i
∂L X
= λi − 1 = 0
∂µ

48 / 62
Krigeage Ordinaire

Sous forme matricielle on obtient

K Λ = KX

où  
C11 C12 ... C1n 1
 C21 C22 ... C2n 1 
 
K =



 Cn1 Cn2 ... Cnn 1 
1 1 ... 1 0
Λ = (λ1 , . . . , λn , µ)T
et KX = (C1X , . . . , CnX , 1)T
d’où
b = K−1 KX
Λ

49 / 62
Krigeage ordinaire : Erreur

b = K−1 KX
Comme Λ

Var (Z
b) = Λ b Var (Z ) = KX T K−2 KX C(0)
bT Λ

50 / 62
Krigeage simple (m est connu)

Nous allons
1. dériver l’espérance de l’erreur quadratique par rapport aux
différents λ

2. annuler toutes ces dérivées partielles pour trouver le minimum

⇒ système des équations normales

51 / 62
XX X
E2 = λi λj Cij − 2 λi CiX + C (0)
i j i
X
dE2 /dλi = 0 ↔ 2 λj Cij − 2CiX = 0
j

D’où X
λj Cij = CiX
j

n équations

52 / 62
Equations normales

Qu’on reformule C Λ = CX
D’où
b = C−1 CX
Λ

53 / 62
I Le krigeage simple est donc aisé à mettre en oeuvre

I On inverse une fois pour toute la matrice C

I On définit le vecteur CX

I On définit le vecteur CX pour chaque nouvel emplacement à


estimer (long)

54 / 62
L’erreur

Elle se déduit de la formule précédente


I Z b (X ) = P λi (X )Z (Xi ) = ΛT Z
i

I b ) = ΛT Λ Var (Z ) = CX T C−2 CX C (0)


Var (Z

L’erreur est régionalisée : on peut la représenter

55 / 62
Illustration : données topo

● ● ●
● ●

6




● ● ●

5



● ● ●
● ● ● ●
4

● ●


topo$y

● ● ●

3


● ● ●
2

● ● ● ● ●

● ● ● ●
1

● ●
● ●
● ●
● ● ●
0

0 1 2 3 4 5 6

topo$x

56 / 62
Illustration : données topo
Estimations par krigeage simple

85 0
0 80
● ● ●
● ●
6

● 5
82

725

● ●

5


0
75 ●
● ● ●

● ●
● ●
4


775

85
0 ●

● ● ●
3




2

● ● ●
● 875 ●

900

0
90
900 ● ●
1

● ●
92 ● 57 / 62
5 ●
Illustration : données topo
Erreurs de prédictions

25
25
25
● ● ●
● 20 ● ● 20
6

25
20

20
● 20


● ● ●

20

5

25


20 ● ● ●
● ● ● ●
20 20
4

20
● ● 20

● ●
20
● ● ● 20

3

20
25



20


25
20

●0
2

● ● ● ● ●
20

20

● ● ● ●
1

● 58 / 62
20

0
Pour finir

59 / 62
Geostatistique : Pollution de la rivière Meuse

I Un example classique

I 155 échantillons de sol (en surface) : métaux lourds

I Localisation Stein (NL)

60 / 62
Pollution de la Meuse

61 / 62
Pollution de la Meuse

62 / 62

Vous aimerez peut-être aussi