Vous êtes sur la page 1sur 85

MÉTHODES

D'INTERPOLATION
SPATIALE
Cours d’Interpolation spatiale et de Géostatistique

Dr Derving BAKA
I INTRODUCTION

L'étude de nombreux phénomènes naturels qui se développent dans l'espace, reposent


sur des données acquises ponctuellement ; par exemple la pluie n'est connue qu'à partir des
observations sur un réseau de pluviomètres. Pour de nombreuses applications, cette
connaissance spatiale discrète est insuffisante ou tout au moins peu parlante.
Ainsi le schéma ci-dessous où nous avons reporté les valeurs expérimentales d'une
fonction continue dans l'espace, n'est pas d'une interprétation facile et immédiate.

22
24 55 19
36 20
48 32
61
33 34
57
49 49

17 28
29
14 25 26

Au contraire, les représentations suivantes permettent d'un premier coup d'œil d'avoir une idée
générale du phénomène.
22
24 55 19
36 20
48 32
61
33 34
57
49 49

17 28
29
14 25 26

2
Pourquoi et comment passer d'une représentation à l'autre ? Voici placé notre problème.
Etablir une cartographie d'un phénomène spatialement structuré répond à des besoins
multiples.

Une carte, c'est tout d'abord une représentation d'un phénomène sous une forme
synthétique facile à analyser ; c'est aussi un support qui permet d'évaluer l'intensité du
phénomène cartographié en dehors des points d'observations. Une carte permet donc de
répondre à des questions ponctuelles : Quelle est l'altitude d'un site ? Quelle est la
pluviométrie en un lieu ?...

Un autre intérêt est de permettre d'obtenir une estimation globale de l'ampleur d'un
phénomène sur une région déterminée : Quel est le volume précipité lors d'une averse sur un
bassin versant donné ? Quelle est l'altitude moyenne d'une commune ? L'établissement d'une
carte (ou d'ailleurs de toute autre représentation graphique continue) à partir de données
ponctuelles, nécessite de savoir résoudre deux problèmes principaux :

- Le premier est de disposer d'outils plus ou moins sophistiqués qui permettent de


reconstituer en tout point l'intensité du phénomène à partir des quelques informations
recueillies ponctuellement. Ce problème est celui de l'interpolation des valeurs.
Accessoirement, on peut d'ailleurs ne pas se contenter de connaître les valeurs caractéristiques
du phénomène en tout point, mais aussi vouloir connaître avec quelle précision ou quel risque
d'erreur sont faites les interpolations. C'est le problème connexe de l'évaluation de l'erreur
d'interpolation.

- Le second problème est celui de la représentation physique d'ensemble des valeurs


mesurées et interpolées. C'est au sens strict le problème de la cartographie automatique.

Les techniques de cartographie sont bien connues et ne présentent guère de difficultés


théoriques. Au contraire, les méthodes d'interpolation et d'estimation de l'erreur
d'interpolation sont plus complexes et s'appuient généralement sur la théorie des variables
régionalisées dont l'approche est peu facile.

3
II Les méthodes traditionnelles d'interpolation

De tous temps, l'homme de science a été confronté à des problèmes d'interpolation.


Les façons de résoudre ces problèmes ont longtemps été limitées par les moyens techniques
disponibles. En particulier l'absence de moyens de calcul puissants a longtemps été un frein
au développement opérationnel des techniques d'interpolation. Ainsi les méthodes
traditionnelles reposent sur des hypothèses mal fondées ou tout au moins difficilement
vérifiables mais qui permettent d'aboutir à des calculs simples. Dans bon nombre d'entre elles,
le côté subjectif joue un rôle important voire prépondérant.

II.1 : La "méthode de Thiessen"

Dès 1911, Thiessen proposait une méthode pour évaluer des moyennes spatiales sur un
domaine à partir d'informations ponctuelles. D'une façon sous-jacente, la "méthode de
Thiessen" est une technique d'interpolation basée sur la "loi" du plus proche voisin.
Supposons qu'une variable R(x) soit connue en un certain nombre de points notés xi . Thiessen
admet qu'en un point quelconque x différent des xi , on peut évaluer R(x) vrai inconnu par

l'estimateur R(x) ainsi défini :

R( x) = R( x k )
( x k étant parmi tous les xi , celui qui est le plus proche de xi )
Comme l'illustre le schéma ci dessous, la méthode de Thiessen revient à interpoler la

fonction R(x) par une fonction R(x) en escalier, constante par polygone. Les polygones,
appelés polygones de Thiessen, sont construits à partir des médiatrices des segments joignant
les points d'échantillonnage xi .
> >
x est parmi les x le point
k i
> le plus proche de x>
x
k
x>
> >
x Domaine associé au point x
j j
> * > >
sur lequel R ( x ) = R ( x)
x j
i

Manifestement, l'unique avantage de cette méthode réside dans sa simplicité. A priori,


on ne dispose d'aucune information objective sur la représentativité des interpolations.
Comme l'illustrent les schémas ci-dessous où le problème est présenté à une dimension, si la
densité des points d'échantillonnage xi est "très forte", la représentativité peut être à peu près

4
correcte (à gauche), dans d'autres cas, au contraire les résultats peuvent être très décevants (à
droite):

La méthode de Thiessen est vraiment la méthode d'interpolation à utiliser, lorsque l'on ne peut
rien faire d'autre !

II.2 : Méthode des "facettes planes"

Si comme précédemment la fonction R(x) n'est connue qu'en nombre restreint de



points xi , il est possible d'approcher localement R(x) par une fonction R(x) qui soit un plan.
En effet, toute courbe peut être approchée localement par sa tangente et on sait que si deux
points de cette courbe sont proches, on peut confondre la corde et la tangente. De même une
surface R(x) peut être approchée localement par son plan tangent et si on dispose des valeurs

de R(xi;-› ) en trois points xi , x j et x k suffisamment proches, on pourra confondre R(x) et le



plan R(x) passant par R( xi ) , R ( x j ) et R ( x k )

Xi XjXk

5
Si l'on reprend l'exemple développé pour la méthode de Thiessen, les points xi seront
liés entre eux de façon à couvrir le domaine d'un ensemble de triangles ayant pour sommets
les xi et qui seront les plus compacts possibles. A l'intérieur de ces triangles, on approche

R(x) par un plan, et les R(x) sont des interpolations linéaires, comme l'illustre le schéma ci-
dessus. Une première remarque concerne le choix des triangles, la notion de "plus compact"
est subjective et les tracés varieront d'un opérateur à l'autre. Mais surtout il faut relever que s'il
est toujours possible de construire des triangles, rien ne permet à priori de savoir si les points
sont "suffisamment" proches, et l'on ne sait ainsi si les interpolations sont fiables ou non.
Des essais comparatifs effectués pour l'interpolation de champs pluviométriques
montrent cependant que la méthode des "facettes planes" (sensiblement une moyenne entre

les R( xi ) des trois plus proches voisins) est nettement préférable à la méthode de Thiessen
(affectation du R( xi ) au plus proche voisin).

II.3 : Interpolations polynomiales.


L'idée générale est d'approcher la fonction R(x) par un polynôme R(x) dont le nombre
n de paramètres sera égal au nombre n de points xi où l'on connaît R( xi ) . Les valeurs des n
paramètres du polynôme seront calculées en résolvant le système de n équations :

R ( xi ) = R ( x i )
Pour être plus concret, supposons que l'on connaisse les valeurs R( xi ) en 25 points xi

de coordonnées (xi,yi) et que l'on décide de prendre pour R(x) un polynôme de Lagrange :
∗ m p
R ( x) = ∑ ∑a ij x j yk
j =0 k =0

∗ 4 4
En prenant m = p = 4, on obtiendra 25 équations du type : R ( x) = ∑ ∑a ij x j yk
j =0 k =0

qui permettront de calculer les 25 paramètres aij.


On dispose ainsi d'une méthode d'interpolation globale, mais dont les résultats
dépendent du choix des formes polynomiales retenues (polynômes de Lagrange, polynômes
d'Hermitte...). En effet, si l'on n'y prend pas garde, les surfaces polynomiales ont tendance à
"osciller" car leur degré et leur complexité augmentent avec le nombre de points de mesure.
Pour illustrer cela, supposons que la fonction ne dépende que de l'abscisse x . On peut alors
∗ n −1
approcher R( x ) par : R ( x) = ∑ a j x j
j =0

6
R R

X4
X3 X3
X2 X2
X1 X1

X X
Le schéma précédent illustre clairement les anomalies que peut provoquer
l'interpolation polynomiale : avec trois points, on ajuste une parabole (à droite), mais
l'introduction d'un quatrième point pourtant intuitivement conforme à l'interpolation
parabolique conduira à une interpolation par une courbe de degré trois (à gauche) très
hasardeuse.
Ces techniques d'interpolation polynomiale ne peuvent être efficaces qu'en prenant des
précautions dans le choix des formes polynomiales, en effectuant les interpolations sur des
zones restreintes (sur un sous-ensemble des xi ) et en assurant la continuité des interpolations
aux frontières des zones.
La technique polynomiale la plus employée est celle des fonctions spline, mais elle se
ramène à un cas particulier d'interpolation linéaire optimale et de krigeage que nous
développerons plus loin.

II.4 : Interpolation par les moyennes pondérées.

L'idée générale est d'approcher la fonction R(x) en tout point noté x o différent des points xi
par une combinaison linéaire :
∗ n
R ( x o ) = ∑ λi R ( xi )
i =1

dont les paramètres de pondération λi seraient liés aux inverses des carrés des distances doi
entre les points x o et xi :
1 d oi2
λi = n

∑1 d
j =1
2
oj

La figure suivante illustre une telle interpolation dans un domaine à une seule dimension :

7
8 Points expérimentaux
7
6
5
Moyenne des observations
4
3 Interpolation par l'inverse
2 des carrés des distances
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Les avantages de cette méthode sont de donner des courbes relativement “lisses” et d’avoir
des estimations simples à calculer.

Cependant cette méthode induit parfois des anomalies comme par exemple sur
l'exemple suivant où l'on tente d'interpoler un plan à partir de 8 puis 9 points
d’échantillonnage. L'adjonction sur la figure de droite, d'un point d'observation central avec
pour valeur 2 conformément à l'interpolation de la figure de gauche, induit des changements
assez importants dans l'allure des courbes isovaleurs.
0 1 2 0 1 2

0,5 0,5

1,0 1,0
1,5
1,5 2,0
2
1 2,0 3 1 3
2,5
2,5
3,0 3,0
3,5 3,5
2 4 2 4
3 3

8
II.5 : Conclusion partielle

Toutes ces méthodes se caractérisent par une relative simplicité. Par contre leurs
fondements sont quasi inexistants, et l’on ne sait jamais si leur application est licite. Enfin ces
méthodes ne donnent aucune information sur le risque d’erreur entre la valeur vraie inconnue
en un point et l’interpolation qui en est faite. Les moyens de calcul actuellement disponibles
font que ces méthodes doivent être abandonnées aux profits de méthodes modernes beaucoup
plus performantes et plus satisfaisantes pour l’esprit.

III EXEMPLES D'INTERPOLATION

III.1 : Exemple d'application de la méthode de thiessen

Soit une série d'observations en 10 points comme indiqué sur le graphique ci-dessous à
gauche :

0 4 0 4

2 6 2 6

4 3 2 4 3 2

6 6

1 1

3 3

On lie tout d'abord les points entre eux de façon à couvrir la zo ne par des triangles les
plus compacts (figure précédente de droite). Puis on procède au tracé des médiatrices de
chaque triangle, on obtient ainsi les polygones de Thiessen indiqués ci-dessous :

0 4
6
2 6 5

4
4 3 2
3
6 2
1
1
0
3

9
Cette interpolation ne dépend que de la répartition spatiale des points de mesure, pour
une autre série de chiffres aux mêmes points on aurait les mêmes polygones.

III.2 : Exemple de construction de facettes planes

En reprenant les mêmes données que précédemment on découpe à partir des triangles,
des zones ou l'on supposera que les variations sont linéaires.
0 4 0 4

2 6 2 6

4 3 2 4 3 2

6 6

1 1

3 3

On obtient l'interpolation suivante :

0 4
6à7

2 6 5à6
4à5
4 3 2
3à4

6 2à3
1à2
1
0à1
3 -1 à 0

10
SOMMAIRE

CH I : INTRODUCTION A LA GEOSTATISTIQUE
1- INTRODUCTION A LA GEOSTATISTIQUE
2- HISTORIQUE DE LA GEOSTATISTIQUE
3- OUTILS D’INTERPRETATION DE LA GEOSTATISTIQUE
4- APPLICATION DE LA GEOSTATISTIQUE

CH II- RAPPEL STATISTIQUE ET CALCUL MATRICIEL


1- RAPPEL STATISTIQUE
2- RAPPEL DE CALCUL MATRICIEL

CH III : BASES CONCEPTUELLES DE LA GEOSTATISTIQUE


1-PHENOMENES NATURELS ET INTERPRETATION PROBABILISTE
2-LES HYPOTHESES D’APPLICATION DE LA GEOSTATISTIQUE

CH IV : LE VARIOGRAMME
1-HYPOTHESES DE BASE ET DEFINITION
2-ESTIMATION DU VARIOGRAMME
3-MODELISATION
4-REMARQUES CONCERNANT LE CALCUL DE VARIOGRAMMES ET
L’AJUSTEMENT DE MODELES
5-PROBLEMES COURANTS AVEC LES VARIOGRAMMES ET SOLUTIONS
POSSIBLES

CH V : KRIGEAGE
1 KRIGEAGE ORDINAIRE
2 KRIGEAGE SIMPLE
3 QUELQUES CAS TRES SIMPLES DE KRIGEAGE
5 PROPRIETES DU KRIGEAGE
6 PRATIQUE DU KRIGEAGE
7 VALIDATION CROISEE
8 EXEMPLE NUMERIQUE DE KRIGEAGE

i
CH VI: COKRIGEAGE
1-COKRIGEAGE ORDINAIRE
2-COKRIGEAGE SIMPLE
3-PROPRIETES DU COKRIGEAGE

ii
CH I : INTRODUCTION A LA GEOSTATISTIQUE

I.1- INTRODUCTION A LA GEOSTATISTIQUE


La géostatistique (Mathéron, 1962, 1974) regroupe un ensemble de méthode dont
l’objet est l’analyse mathématique de phénomènes régionalisés et de mettre en
évidence lorsqu’elle existe, la structuration spatiale de ce phénomène.
On appelle phénomène régionalisé ou variable régionalisée (V.R), un phénomène se
déployant dans l’espace à 1, 2, 3… dimensions et/ou éventuellement dans le temps
avec une certaine structuration.
Les fondements des méthodes mises en œuvre ici s’appuient sur la théorie probabiliste
des fonctions aléatoires.

I.2- HISTORIQUE DE LA GEOSTATISTIQUE


L’histoire de la géostatistique est liée à l’estimation des gisements exploités dans les
mines. Dans les années 50, un professeur de l’Université du Witwatersrand en Afrique
du Sud, Krige s’est aperçu que la variabilité de la teneur du minerai d’or était liée à la
taille, c.-à-d. au support sur laquelle celle-ci était calculée. La variabilité des teneurs
sur panneau est ainsi beaucoup plus faible que la variabilité des teneurs sur carotte.
Cette théorie à ensuite été développée durant les années 60 par un ingénieur français
du corps des mine, Georges Mathéron qui y consacre sa vie et fonda le centre de
géostatistiques de l’Ecole des Mines de Paris Fontainebleau.

I.3- OUTILS D’INTERPRETATION DE LA GEOSTATISTIQUE


Outils d’exploration des données
• corrélogramme ;
• variogramme
Techniques d’interpolation spatiale des données
• krigeage
• cokrigeage

1
I.4- APPLICATION DE LA GEOSTATISTIQUE
Quelques exemples de problèmes, dans le domaine minier, auxquels la géostatistique
peut apporter une contribution:
- Lorsque les limites du gisement sont floues, sans contrôle structural, définies en
fonction d'une teneur de coupure (ex. cuivre porphyrique) et que l'on doit déterminer
l'emplacement d'un chantier d'abattage.
- A partir de l'information recueillie lors de l'exploration, déterminer la rentabilité du
gisement en regard de différentes méthodes d'exploitation (elles influencent le type de
sélection et la taille des blocs) et de différents scénarios économiques. Ceci peut
ensuite être utilisé pour comparer divers projets entre eux et leur accorder une cote de
priorité.
- Déterminer si des forages (ou un autre type d'échantillonnage) additionnels
permettront de dégager suffisamment de profits supplémentaires pour couvrir leurs
coûts.
- Aider à déterminer la séquence d'exploitation optimale permettant de maximiser les
profits (on a généralement intérêt à exploiter les zones les plus riches d'un gisement le
plus tôt possible).

- Aider à déterminer la teneur de coupure optimale.


- Aider à déterminer les contours optimaux d'une fosse d'exploitation à ciel ouvert.
- Prédire la teneur et la variabilité de la teneur du minerai envoyé au concentrateur
(moulin) et ainsi aider à prédire le taux de rendement de celui-ci.
- Déterminer si un processus d‘homogénéisation ("stockpiling", points de
prélèvements multiples, etc.) est justifié afin d'améliorer le rendement du
concentrateur. Comparer divers scénarios pour l'homogénéisation.
- Prédire le plus exactement possible la teneur du minerai qui sera exploité à court
terme. Déterminer si le minerai ainsi extrait sera suffisant pour alimenter seul une
fonderie ou s'il faudra prévoir importer du concentré d'autres mines et/ou d'autres pays.

Exemples d'applications de la géostatistique dans divers domaines.


- Estimation et planification des mines et des gisements pétroliers.

2
- Prospection géochimique et géophysique.
- Cartographie automatique (par ordinateur).
- Filtrage de signal.
- Simulations d'écoulements, prédiction et simulation de conductivités hydrauliques.
- Caractérisation de sites contaminés.
- Cartographie météorologique.
- Classification de sols.
- Estimation de la biomasse et de sa localisation en pêches.
- Estimation de la compaction du noyau imperméable d'un barrage (géotechnique).
- Répartition spatiale de la déformabilité des roches au pourtour d'une excavation.
- Charges hydrauliques et directions d'écoulement.
- Analyse et caractérisation d'images (biomédical, télédétection).
- Représentation numérique-analytique de surfaces pour la CAO-DAO.

3
CH II- RAPPEL STATISTIQUE ET CALCUL MATRICIEL

RAPPEL STATISTIQUE
Variable aléatoire (v.a.) : fonction dont les résultats possibles sont connus mais dont
le résultat final ne peut être déterminé, à priori, avant d'effectuer la mesure.
ex. : - teneur de cuivre d'une carotte de 1 m
- épaisseur d'une veine minéralisée
- concentration d'un polluant dans l'eau souterraine
- pH de l'eau de pluie

Description d'une v.a. : sans connaître la valeur que prendra le résultat final, on peut
parfois connaître la probabilité qu'une v.a. prenne chacun des résultats possibles. C'est
la description la plus complète que l'on puisse faire de la v.a.
La fonction qui décrit ces probabilités est la fonction de densité (pour les v.a.
continues; pour les v.a. discrètes, c’est la fonction de masse).
Propriétés : fX (x) > 0, toute probabilité est positive
U U


∫−∞
f X ( x)dx = 1 , l’intégrale de la fonction de densité donne 1
a
∫b
f X ( x)dx = P(a ≤ X ≤ b) , probabilité que x prenne une valeur comprise entre [a et b]

Certaines quantités résument les caractéristiques principales de la variable aléatoire.


*Mesures de tendance centrale:
- mode : x tel que fx(x) est maximum
- médiane : x tel que P(X < x) = 0.5

- moyenne (ou espérance mathématique) : μ X ouE[ X ] = ∫ xf X ( x)dx


−∞

*Mesures de dispersion :

-Variance : [
σ X2 = E ( X − E (X ) )2 ]

1
-Écart-type : σ X = σ X2

⎡⎛ X − E ( X ) ⎞ 3 ⎤
Asymétrie : E ⎢⎜⎜ ⎟⎟ ⎥
⎢⎣⎝ σ X ⎠ ⎥⎦

⎡⎛ X − E ( X ) ⎞ 4 ⎤
-Aplatissement : E ⎢⎜⎜ ⎟⎟ ⎥
⎢⎣⎝ σ X ⎠ ⎥⎦

Toutes ces quantités sont généralement, à priori, inconnues. On doit donc les estimer à
partir d'un ensemble d'observations appelé l'échantillon (par abus de langage, on
parlera souvent des échantillons pour désigner ces observations).
À partir de l'échantillon, on peut construire des estimateurs:
1 n
de la moyenne: ∑ xi = x
n i =1

1 n
de la variance : ∑i =1 xi ( xi − x ) = σ
2 2

n
de la fonction de densité : histogramme,
de la fonction de densité cumulative : courbe des fréquences cumulées
f x x = P( X ≤ x) estimée par: rang (xi)/n
Une des caractéristiques importantes d'un estimateur est d'être sans biais i.e. d'avoir la
même espérance mathématique que la quantité qu'il cherche à évaluer.

Passage à plus d'une variable :


U U

On peut aussi étudier et décrire le comportement simultané de plus d'une variable


aléatoire.
La fonction de densité conjointe : fxy (x,y) donne la probabilité que, simultanément X =
x et Y = y.
On a :
∞ ∞
∫ ∫
−∞ − ∞
f XY ( x, y)dxdy = 1 , f XY ( x, y)

2
P[x1 < X < x2 , y1 < Y < y2 ] = ∫
x2 y2

x1 ∫
y1
f xy ( x, y )dxdy

Deux mesures additionnelles permettent de décrire des caractéristiques importantes de


fonction de densité conjointe.

La covariance: Cov( X , Y ) = E[( X − μ X )(Y − μY )] mesure la force du lien


linéaire entre les variables X et Y.
U U

Cov( X , Y )
La corrélation : ρ XY = comme la Cov mais avec des unités
σXσY
"normalisées"

Propriétés de ρXY : -1<= ρXY <=1


ρXY = ρaX,bY (avec a et b des constantes quelconques)

Note : ρXY =0 --Æabsence de lien linéaire entre X et Y


≠ -Æindépendance de x et y

L'interprétation propre à la géostatistique


U

Les v.a. sont régionalisées i.e. elles dépendent de leur localisation dans le gisement.
Z(x)
Ex. Z : teneur de cuivre mesurée au point x.
(ou dans un volume centré en x)

Collection infinie de valeurs ponctuelles


1
G∫
ZG = Z ( x)dx

ZG est la teneur moyenne du gisement obtenue en faisant la moyenne de toutes les


valeurs ponctuelles.
• collection finie de petits blocs v

3
• collection finie de gros blocs V

et ainsi de suite... Le gisement est donc assimilé à un ensemble fini ou infini (cas
ponctuel) de variables aléatoires. Si on connaît le comportement de la variable
aléatoire au niveau ponctuel (ou quasi-ponctuel) alors on peut aussi décrire le
comportement de Zv, ZV et ZG.
Cette collection de variables aléatoires s'appelle fonction aléatoire. Le gisement en est
une réalisation limitée dans le temps et dans l'espace. On cherchera à caractériser Z(x)
pour pouvoir dire quelque chose sur Zv, ZV et ZG.

Support des observations :


U U

Dans la pratique, Z(x) ne sera jamais mesuré sur un support ponctuel mais sur un
support physique relativement très petit par rapport à la taille du gisement (disons v
avec v << G). Il est de toute première importance de s'assurer que toutes les
U U

observations proviennent de supports identiques.


En effet, les statistiques habituelles calculées sur des supports différents n'ont aucun
sens physique précis.

Ex :
Z1 Z2 Z3 Z4

La teneur de la carotte entière n’est pas donnée par la simple moyenne arithmétique
des teneurs des bouts de carotte; i.e.:

De plus, on pourrait démontrer que Var (Z1) > Var (Z3) > Var (Z4) > Var (Z2). Les
variances sont inversement proportionnelles aux tailles des supports.

4
Ex.: Sans perte de généralité, supposons que les valeurs des teneurs de cuivre
mesurées dans des carottes de 1 m ne montrent aucune corrélation d'une carotte à
l'autre (i.e. Cov(Z1,Z1’ )=0).
Supposons que l'on regroupe les carottes de 1 m en carottes de 2 m. i.e. la teneur
moyenne d’une carotte de 2 mètres (Z2 ) formée de deux carottes de 1m. (Z1 et Z1’)
est:
Z2=(Z1+Z1’ ) / 2

Si on avait

on aura maintenant Var


en effet :

S'il y a des corrélations entre les carottes, on aura quand même Var (Z2) < Var (Z1).
On voit donc que la distribution statistique d'une v.a. est toujours définie en relation
avec un support physique.

5
1 Rappel de Calcul Matriciel

Ce bref rappel consiste en l’énoncé des principaux concepts du calcul ma-


triciel, parsemé de quelques exercices et exemples. Pour un exposé plus dé-
taillé, on pourra consulter avec profit le livre de S TRANG [94].

Le tableau des données


En Analyse des Données, on manipule des tableaux de nombres (matrices)
et le tableau de départ est généralement le tableau des données Z
V ariables
0 (colonnes) 1
z1;1 : : : z1;i : : : z1;N
B .. .. .. C
Echantillons B . . . C = [z i ] = Z
B
(lignes) B z ;1 z ;i z ;N C
C
B . .. .. C
@ .. . . A
zn;1 : : : zn;i : : : zn;N
L’élément z i dénote la valeur numérique placée au croisement de la ligne
numéro (indice de l’échantillon) et de la colonne numéro i (indice de la va-
riable).

Matrice, vecteur, scalaire


Une matrice est un tableau rectangulaire de nombres

A = [aij ]
avec des indices
i = 1; : : : ;n j = 1; : : : ;m
On parle d’une matrice d’ordre nm pour désigner une matrice de n lignes
et m colonnes.
Un vecteur (par convention: un vecteur colonne) de dimension n est une
matrice d’ordre n  1, c’est-à-dire une matrice ne possédant qu’une seule co-
lonne.
Un scalaire est un nombre (si l’on veut: une matrice d’ordre 1  1).

1
Du point de vue des notations, les matrices seront désignées par des ma-
juscules en caractères gras et les vecteurs par des minuscules en caractères
gras.

Addition
Deux matrices de même ordre peuvent être additionnées
A + B = [aij ] + [bij ] = [aij + bij ]
L’addition de matrices se fait en additionnant les éléments de même indice
i et j .

Multiplication par un scalaire


Une matrice peut être multipliée à droite ou à gauche par un scalaire 
A  =  A = [ aij ]
Cela revient à multiplier tous les éléments aij par le scalaire .

Multiplication de deux matrices


Le produit AB de deux matrices A et B ne peut être réalisé que si B a
autant de lignes que A a de colonnes. Soit A d’ordre n  m et B d’ordre m  l.
La multiplication de A par B donne une matrice C d’ordre n  l,
" #
m
X
A  B =
(nm) (ml)
aij bjk = [cik ] = C
(nl)
j =1
où i = 1; : : : ;n et k = 1; : : : ;l.
Le produit BA de ces mêmes matrices n’est possible que si n est égal à l et
le résultat est une matrice d’ordre m  m.

Transposition
La transposée A> d’une matrice A d’ordre n  m est obtenue en inversant
la séquence des indices, de sorte que les lignes de A deviennent les colonnes
de A>
A = [aij ]; A > = [a ]
ji
(nm) (mn)
La transposée du produit de deux matrices est égal au produit des trans-
posées en séquence inverse
(AB)> = B> A>

2
E XERCISE 1.1 Soit 1 le vecteur de dimension n dont les éléments sont tous
> >
égaux à 1. Effectuer les produits 1 1 et 11 .

E XERCISE 1.2 Calculer les matrices résultant des produits

1 > 1 >
Z1 et 11 Z
n n
où Z est la matrice n  N des données.

Matrice carrée
Une matrice carrée a autant de lignes que de colonnes.

Matrice diagonale
Une matrice diagonale D est une matrice carrée dont les seuls éléments
non nuls se trouvent sur la diagonale
0 1
d11 0 0
D = 0 ... 0 A
@
0 0 dnn
En particulier, il y a la matrice identité
0 1
1 0 0
I = @ 0 ... 0 A
0 0 1
qui, multipliant à droite ou à gauche une matrice de même ordre, ne la modifie
pas
AI = IA = A

Matrice orthogonale
Une matrice A carrée est orthogonale, si elle vérifie

A> A = A A> = I

Matrice symétrique
Une matrice carrée A est symétrique, si elle est égale à sa transposée

A = A>
3
E XEMPLE 1.3 Un exemple de matrice symétrique est la matrice de variance-
covariance V, contenant les variances sur la diagonale et les covariances en
dehors de celle-ci
1
V = [ij ] = (Z M)> (Z M)
n
où M est la matrice rectangulaire n  m des moyennes (solution de l’exercice
1.2), dont tous les éléments de chaque colonne sont égaux à la moyenne de la
variable correspondant à cette colonne.

E XEMPLE 1.4 Un autre exemple de matrice symétrique est la matrice R des


corrélations
R = [ij ] = D 1 V D 1

où D 1 est la matrice diagonale contenant les inverses des écarts-types des


variables 0 1
p111 0 0
B C
D 1 = @ 0 ...
0 A
0 0 p1NN

Indépendance linéaire
Un ensemble de vecteurs fa1 ; : : : ;am g est linéairement indépendant, si il
n’existe pas d’ensemble non trivial de scalaires fx1 ; : : : ;xm g, tel que
m
X
a j xj = 0
j =1

Autrement dit, l’indépendance linéaire des colonnes d’une matrice A est


acquise, si seul le vecteur nul x = 0 satisfait à l’équation Ax = 0.

Rang d’une matrice


Une matrice rectangulaire peut être subdivisée en l’ensemble des vecteurs
colonnes qui la constituent. De même, on peut considérer les vecteurs “lignes”
de cette matrice, qui sont en fait les vecteurs colonnes de sa transposée.
Le rang des colonnes d’une matrice est le nombre maximal de vecteurs
colonnes linéairement indépendants. Le rang des lignes de la matrice est défini
de manière analogue. On démontre que le rang des lignes est égal au rang des
colonnes.
Le rang d’une matrice A rectangulaire n  m est donc au plus égal à la plus
petite de ses deux dimensions

rang(A)  min(n;m)

4
Le rang de la matrice A indique la dimension 1 des espaces vectoriels
R(A>) et R(A) engendrés par les colonnes et les lignes de A
R(A>) = fy : y = Axg et R(A) = fx : x = y>Ag
où x désigne un vecteur de dimension m et y un vecteur de dimension n.

Matrice inverse
Une matrice A carrée n  n est singulière, si rang(A) < n, et non singulière,
si rang(A) = n.
Si A est non singulière (inversible), il existe une matrice inverse A 1 tel
que
AA 1 = A 1A = I
L’inverse Q 1 d’une matrice orthogonale Q est sa transposée Q> .

Déterminant d’une matrice


Le déterminant jAj d’une matrice A carrée n  n est

X n
Y
jAj = det(A) = ( 1)N (k1 ;:::;kn ) aiki
i=1

où la somme porte sur l’ensemble des permutations (k1 ; : : : ;kn ) des entiers
(1; : : : ;n) et où N (k1 ; : : : ;kn ) est le nombres de transpositions de deux entiers
nécessaires pour passer de l’ensemble de départ (1; : : : ;n) à la permutation
(k1 ; : : : ;kn ) de cet ensemble.
Dans le cas d’une matrice 2  2 on a la formule bien connue
 
A = ac db ; det(A) = a d b c

Un déterminant non nul indique que la matrice est inversible.

Trace
La trace d’une matrice carrée n  n est égale à la somme de ses éléments
diagonaux
n
X
tr(A) = aii
i=1

1. ne pas confondre: la dimension d’un vecteur et la dimension d’un espace vectoriel.

5
Valeurs propres
Soit A une matrice carrée n  n. L’équation caractéristique

j I A j = 0
a n solutions  en général complexes, appelées valeurs propres de A.
La somme des valeurs propres est égale à la trace de la matrice
n
X
tr(A) = p
p=1

Le produit des valeurs propres est égal au déterminant de la matrice


n
Y
det(A) = p
p=1

Si A est symétrique, toutes les valeurs propres sont réelles.

Vecteurs propres
Soit A une matrice carrée et  une valeur propre de A. Il existe des vecteurs
x et y, différents du vecteur nul 0, satisfaisant
( I A)x = 0; y> ( I A) = 0
c’est-à-dire
A x =  x; y> A =  y>
Les vecteurs x sont les vecteurs propres des colonnes de A et les y sont les
vecteurs propres des lignes de A.
Lorsque A est symétrique, il n’y a pas lieu de distinguer entre des vecteurs
propres de colonnes et de lignes.

E XERCISE 1.5 Montrer que les valeurs propres du carré d’une matrice A sy-
métrique, A2 = AA, sont égales au carré des valeurs propres de A. Et que
tout vecteur propre de A est un vecteur propre de A2 .

Matrice définie positive


D ÉFINITION :
Une matrice A symétrique n  n est définie positive, ssi (si et seulement si)
pour tout vecteur x non nul la forme quadratique

x> Ax > 0
6
De même, A est qualifiée de semi-définie positive (définie non négative), ssi
x> Ax  0 pour tout vecteur x. Ou encore, A est indéfinie, ssi x>Ax > 0
pour certains x et x> Ax < 0 pour d’autres x.
On remarque que cette définition est identique à celle d’une fonction de
type positif.
Suivent trois critères très utiles, énoncés pour des matrices semi-définies
positives.
P REMIER C RITÈRE :
A est semi-définie positive, ssi il existe une matrice W telle que A =
>
W W. p
Une telle matrice W s’écrit parfois A.
D EUXIÈME C RITÈRE :
A est semi-définie positive, ssi toutes les valeurs propres p  0.
T ROISIÈME C RITÈRE :
A est semi-définie positive, ssi tous les mineurs principaux sont non néga-
tifs.
Un mineur principal est le déterminant d’une sous-matrice principale
de A. Une sous-matrice principale est obtenue en biffant k colonnes (k =
0;1; : : : ;n 1) et les lignes correspondantes les croisant sur les éléments dia-
gonaux. La combinatoire des mineurs principaux à vérifier rend ce critère peu
intéressant dans les applications avec n > 3.

R EMARQUE 1.6 On vérifie aisément avec le troisième critère que la matrice


(n + 1)  (n + 1) membre gauche du Krigeage Ordinaire, écrite en covariances,
n’est pas semi-définie positive.
La sous-matrice principale S obtenue en biffant toutes les colonnes et les
lignes se croisant en des éléments diagonaux, sauf les deux dernières,
 
S= cnn 1
1 0
a un déterminant qui vaut 1.
Le calcul des valeurs propres de la matrice membre gauche du KO donne
une valeur propre négative (dûe à la condition d’universalité) et n valeurs
propres positives (ou nulles) dans le cas de covariances. Constituée à l’aide de
la fonction de covariance, cette matrice est indéfinie, alors qu’elle est (semi-
)définie négative dans le cas du variogramme.

Décomposition en valeurs et vecteurs propres


Pour une matrice A symétrique, les valeurs propres p et des vecteurs
propres qp normés à l’unité forment le système
AQ = Q avec Q> Q = I
7
où  est la matrice diagonale des valeurs propres et Q est la matrice orthogo-
nale des vecteurs propres.
Etant donné que Q> = Q 1 , on aboutit à une décomposition de la matrice
symétrique A,
A = Q  Q>

Décomposition en valeurs singulières

L’Analyse des Données étant l’art de décomposer des tableaux, une dé-
composition s’appliquant à une matrice rectangulaire (dans le même es-
prit que la décomposition d’une matrice symétrique en valeurs et vecteurs
propres) va évidemment jouer un rôle central.
La décomposition en valeurs singulières p d’une matrice A rectangulaire
n  m de rang r s’écrit:

A = Q1    Q>2
(n  m) ( n  n) ( n  m) ( m  m)
où Q1 et Q2 sont des matrices orthogonales et où  est une matrice rectan-
gulaire avec r valeurs positives p sur la diagonale (à savoir l’ensemble des
éléments d’indices égaux) et des zéros ailleurs. Par exemple, dans le cas où
n > m et r = m, la matrice  a la structure suivante
0
1 0 0 1
B 0 ... 0 C
B C
B 0 0  C
=B
B r C
C
B 0 0 0 C
@ .. .. .. A
. . .
0 0 0

Une telle décomposition existe toujours et peut être obtenue en calculant


les valeurs propres p de AA> et de A> A, qui sont identiques et positives ou
nulles. Les valeurs singulières sont les racines carrées des valeurs propres non
nulles,
p
p = p
Dans cette décomposition, Q1 est la matrice des vecteurs propres de AA> ,
tandis que Q2 est la matrice des vecteurs propres de A> A.

E XERCISE 1.7 Quelle est la décomposition en valeurs singulières d’une ma-


trice symétrique?

8
Inverse généralisée de Moore-Penrose
Une matrice inverse existe pour toute matrice carrée non singulière. Il est
intéressant de généraliser le concept d’inverse à des matrices singulières et à
des matrices rectangulaires.
Une matrice X d’ordre m  n est inverse généralisée de Moore-Penrose
d’une matrice A rectangulaire n  m, si elle vérifie les quatres conditions sui-
vantes

AXA = A
XAX = X
(A X)> = AX
(X A)> = XA

Une telle matrice X est notée A+ .

E XERCISE 1.8 Est-ce que l’inverse A 1 d’une matrice carrée non singulière A
est une inverse généralisée de Moore-Penrose?
L’inverse de Moore-Penrose s’obtient à partir de la décomposition en va-
leurs singulières en intervertissant les deux matrices orthogonales, en trans-
posant  et en inversant chacune des valeurs singulières:

A+ = Q2 + Q>1
La matrice + est d’ordre m  n et a, dans le cas où n > m et r = m, la
structure
0 1 0 1
1 1 0 0 0 : : : 0 1 1=2 0 0 0 ::: 0
..
+ = B
@ 0 . 0 0 ::: 0CA =
B
@ 0
...
0 0 ::: 0C A
0 0 r 1 0 : : : 0 0 0 r 1=2 0 : : : 0
E XEMPLE 1.9 (K RIGEAGE SIMPLE AVEC UN DOUBLON ) On peut se demander
si l’inverse de Moore-Penrose peut être utilisée pour résoudre un système de
krigeage dont le membre gauche est singulier. Nous n’allons pas traiter le
problème de manière générale, mais nous contenter d’un petit exercice très
simple.
On cherche à estimer une valeur en x0 à partir de deux valeurs situées au
même point x1 . Le système de krigeage simple est
    
a a w1 = bb
a a w2
où a est la variance des données et où b est la covariance entre les points x1 et
x0 .
9
La matrice A étant singulière on va recourir à l’inverse généralisée de MP.
Soit    
2 2
AA> = A> A = 22aa2 22aa2 = cc cc = C
On a

det(C) = 0 ) 2 = 0
tr(C) = 2c ) 1 = 2 c
et une matrice de vecteurs propres normés
!
p1 p1
2 2
Q= 1
p p1
2 2
La solution du système au sens de l’inverse généralisée est
pb ! b
!
w = A+ b = Q + Q> b = b
2c
= 2a
b
p 2a
2c
En considérant des données de moyenne nulle, on a en fin de compte l’es-
timation par krigeage simple
 
b z1 (x1 ) + z2 (x1 )
z ? (x 0) =
a 2
Cette solution satisfait l’esprit, puisque l’estimateur prend la moyenne des
deux valeurs z1 et z2 mesurées au point x1 et la multiplie par le pondérateur
que livre le krigeage simple lorsqu’il n’y a qu’une seule information dispo-
nible.

10
CH III : BASES CONCEPTUELLES DE LA
GEOSTATISTIQUE

1- PHENOMENES NATURELS ET INTERPRETATION PROBABILISTE

Pour les phénomènes géologiques d’existence unique, pour lesquels la géostatistique a


été initialement été batie, le Professeur G. Mathérob, propose d’assimiler la mesure
unique disponible à une réalisation aléatoire du phénomène par tirage au sort dans
l’infinité des cas possibles en foction de sa loi de probabilité. La démarche probabiliste
est, par ce biais, rendue possible. La formulation mathématique de cette abstraction est
décrite ci-dessous.
Sur un champ d’investigation, on connait les valeurs numériques d’un phénomènes
régionalisé en N points. Sur chaque xi, la mesure unique z(xi) s’interprète comme la
valeur numérique d’une variable aléatoire (V.A.) Z(xi) obtenue par tirage au sort
suivant sa loi de probabilité F(Zi). En considérant l’ensemble des N points, on définit
une V.A. Z à N composantes, obéissant à un ensemble simultané de N lois de
probabilité F ( Z1, Z2, Z3,…, Zn). Lorsque NÆ∞, on introduit la notion de fonction
aléatoire (FA) équivalente à une VA à une infinité de composantes.
La fracturation, la pollution, l’inondation, la pluviométrie, etc., phénomènes spatiaux
peuvent donc se prêter à l’analyse géostatistique. Il suffit dans un premier temps de
pouvoir les transposer en un champ représentatif de valeurs numériques. Ceci est
réalisé par le biais de la variable « densité de fracturation » (DF) i.e. cumul des
longueurs de fractures par unité de surface élémentaire dans le cas de la fracturation.
Si ce champ de valeurs numériques peut toujours être interprété, a priori, comme une
réalisation particulière d’une FA, se pose en corollaire le problème de l’utilisation
pratique des outils et résultats de cette théorie. Et dans l’ordre des questions, la
première est relative à l’inférence statistique, ou comment reconstituer la loi de
probabilité de la FA. Il n’existe qu’un cas particulier de FA où cette objection peut être
levée : le cas des FA stationnaires.
Mathématiquement, une FA est dite stationnaire si la loi de probabilité des valeurs
prises par cette fonction en N points arbitraires de l’espace est invariante pour une

1
translation d’ensemble de ces points. En termes concrets et vis-à-vis des points de DF,
cette hypothèse de stationnarité signifierait que la loi de probabilité de chaque point est
indépendante de sa situation géographique. La stationnarité sous-entend en quelque
sorte une certaine répétitivité du phénomène dans l’espace.

2-LES HYPOTHESES D’APPLICATION DE LA GEOSTATISTIQUE


L’application de la géostatistique suppose qu’un certain nombre d’hypothèses doit être
fait, en particulier l’hypothèse de stationnarité et l’hypothèse intrinsèque.

2-1- Stationnarité au sens large


Afin de rendre plus apte l’application aux phénomènes géologiques, des hypothèses
ont été émises. La stationnarité au sens large permet d’imposer uniquement aux deux
premiers moments (moyenne et covariance) de la loi de probabilité de la fonction
aléatoire d’être invariant par translation. Cela donne :

E [Z (x)] = m (x) = m 1
E [(Z (x) - m) - (Z (x') - m)] = K (x - x') = K (h)

avec :
E : espérance mathématique ;
m : moyenne ;
K : covariance entre deux supports ;
h : vecteur de module (x-x’).

L’équation (1) signifie que la moyenne est indépendante du point x, c’est à dire ne
dépend pas de la position géographique et la seconde (IV.7) signifie que la covariance
ne dépend que de la distance séparant les deux points de mesure. De ces équations, il
en résulte que la variance au point x ou l’autocovariance (K(0)), doit être indépendante
de la position du point x.

VAR [Z (x)] = E [(Z (x) - m)2 ]= K (0)

2
K(0) : autocovariance ou variance a priori ;
VAR [Z(x)] : variance au point x.
Le point faible de cette hypothèse, c’est qu’elle ne prend pas en compte la faculté de
dispersion des phénomènes naturels. Nous nous tournons alors vers l’hypothèse
intrinsèque.

2-2- Hypothèse intrinsèque


Dans ce modèle les accroissements de la F.A. (Fonction Aléatoire) sont stationnaires
d’ordre 2. La fonction aléatoire est, par définition, la réalisation de la Variable
Régionalisée ; c’est une variable aléatoire à une infinité de composantes correspondant
chacune à un point de l’espace. Cette fonction est définie à la fois dans un espace
géographique et dans un espace probabilisé. Pour deux points quelconques,
l’accroissement Z(x+h)-Z(x) admet des moments d’ordre 1 et 2, et ces moments sont
stationnaires. L’étude géostatistique des phénomènes naturels peut être approchée par
le biais de ces accroissements. Ce modèle est caractérisé par une espérance nulle des
accroissements et une variance indépendante du point x. Les relations suivantes
peuvent être écrites :

E [Z (x + h) - Z (x)] = 0
et
VAR [Z (x + h) - Z (x)] = 2γ (h)
Une F.A. qui satisfait à cette hypothèse est appelée F.A. intrinsèque d’ordre 2.
La première condition de cette hypothèse exprime que la moyenne des accroissements
est nulle ; la seconde, que la variance des accroissements est indépendante du point x.
l’expression « 2γ(h) » est appelé fonction intrinsèque ou variogramme.

3
2- variogrammes 1

2. LE VARIOGRAMME

Idée fondamentale: La nature n'est pas entièrement "imprévisible". Deux observations situées l'une près de
l'autre devraient, en moyenne, se ressembler davantage que deux observations éloignées.

Ex.
Soit trois localisations x0, x1 et x2, que l'on promène dans le gisement. On mesure la teneur en chacun de
ces points.

x1 x0 x2

La teneur au point x1 devrait ressembler plus (en moyenne) à celle observée en x0 qu'à celle en x2.

On a peut-être intérêt à utiliser l'information contenue en x1 et x2 pour fournir un meilleur estimé de x0 que si l'on
n'utilisait que x1.

Notion de "continuité" de la minéralisation.

Implicitement toutes les méthodes d'estimation reposent sur ce concept plus ou moins défini.

En géostatistique, on cherche à quantifier cette continuité préalablement à tout calcul effectué sur le gisement.

Soit deux points x et x+h séparés d'une distance h.

x< > x+h

La teneur en x est une variable aléatoire Z(x).


La teneur en x + h aussi, Z(x+h).

La différence entre les valeurs prises par ces deux v.a. est Z(x) - Z(x+h). C'est également une v.a. dont on peut
calculer la variance. Cette variance devrait être plus petite lorsque les points sont rapprochés (les valeurs se
ressemblent plus en moyenne) et plus grande lorsque les points sont éloignés. On appelle variogramme la demi-
variance de cette différence, i.e. γ(x,x+h)=0.5*Var(Z(x)-Z(x+h))

Si l’on considère n localisations différentes x1,x2...xn, la meilleure description que l'on puisse faire des n variables
aléatoires Z(x1), Z(x2),...Z(xn) est d'établir la fonction de distribution conjointe (multivariable). Clairement, ceci
n'est pas possible puisqu'on ne peut disposer généralement que d'une seule observation à chacun de ces n points.
On pourrait formuler une hypothèse très forte du genre: le vecteur des v.a. suit une loi multinormale de moyennes
et variances-covariances spécifiées. Ceci serait beaucoup trop restrictif.

La géostatistique a des visées plus modestes. On veut estimer des paramètres statistiques à partir des données et
non imposer un modèle à priori qui aurait toutes les chances de s'avérer inadéquat. Les paramètres que l'on
cherchera à estimer ne sont pas la fonction de distribution conjointe, ni même la fonction de distribution
bivariable (i.e. les v.a. considérées deux à deux) mais simplement les deux premiers moments (moyenne,
variance, covariance) des v.a. prises deux à deux. Même réduit à cela, on ne dispose toujours que d'une seule
paire d'observations situées précisément aux points x et x+h. On ne peut donc estimer les paramètres statistiques
sans formuler certaines hypothèses. Ces hypothèses ont uniquement pour but de permettre l'estimation des
paramètres statistiques de notre modèle à partir des données. On les appelle hypothèses de stationnarité du second
2- variogrammes 2

ordre; elles visent essentiellement à "détacher" les deux premiers moments de localisations précises en permettant
des translations des emplacements x et x+h. La covariance (et le variogramme) deviennent donc des fonctions
dépendant uniquement de la distance séparant les points d'observation et non plus de leur localisation exacte.

2.1 Hypothèses de base et définition:

Bref, on suppose que:

i. L'espérance mathématique ne dépend pas de x,


i.e. E[Z(x)]=m
ou
L'espérance des écarts est zéro
i.e. E[Z(x) - Z(x+h)] = 0

ii. La covariance entre Z(x) et Z(x+h) ne dépend que de h


i.e. Cov(Z(x),Z(x+h)) = C(h) ; stationnarité du second ordre, C(h) est appelé fonction de covariance
ou covariogramme
ou
Le variogramme γ(h) ne dépend pas de la localisation x, seulement de h (soit en module, soit en module
et en direction).

i.e. 1/2 Var(Z(x)-Z(x+h)) = γ(h); hypothèse intrinsèque (cette dernière hypothèse est légèrement moins restrictive
que la stationnarité du second ordre)

Évidemment, ces hypothèses supposent une certaine régularité, une certaine homogénéité du gisement étudié. Si
on peut reconnaître des zones très différentes géologiquement, on a habituellement intérêt à les traiter séparément.

La fonction la plus utilisée en géostatistique pour décrire la continuité de la minéralisation est le variogramme, et
ce surtout parce qu'elle est plus simple à estimer que la covariance (qui demande l'estimation préalable de
l'espérance mathématique), mais également parce qu'elle permet d'accommoder les situations ou Var(Z(x)) n'est
pas définie.

Le variogramme théorique est défini comme:

1
2
1
[
γ(h)= Var[Z(x) - Z(x + h)] = E (Z(x) - Z(x + h))2
2
]
où x est le vecteur de coordonnées (1, 2 ou 3 coordonnées selon le cas)
h est le vecteur distance .

Cette fonction, habituellement croissante en fonction de h, synthétise beaucoup d'informations concernant le


comportement conjoint des variables aléatoires et concernant "la continuité" de la minéralisation. Ainsi, pour les
modèles de variogramme montrant un seuil, on a :

i. Portée a : Distance où deux observations ne se ressemblent plus du tout en moyenne, elles ne sont plus liées
(covariance nulle) linéairement. À cette distance, la valeur du variogramme correspond à la
variance de la variable aléatoire.

ii. Palier σ2 = Co + C: Variance de la v.a. (Var(Z(x))


2- variogrammes 3

Écarts les plus grands, en moyenne entre deux v.a.

iii. Effet de pépite : C0: Variation à très courte échelle, erreurs de localisation, erreurs d'analyse et précision
analytique.

Ex. Une carotte fendue en deux et dont chaque partie est analysée séparément ne
fournira pas exactement les mêmes valeurs pour les deux moitiés. Un même
paquet de poudre, séparé en deux parties pour analyse ne donnera pas
exactement la même teneur.

Notes : i. Lorsque h = 0 on a

1
γ (0) = Var ( Z(x) - Z(x) ) = 0 et non C o
2

par contre,

l im γ ( ε ) = Co
ε →0 +

i.e. on a une discontinuité à l'origine du variogramme.

ii. Parfois les variogrammes ne montrent pas de palier (dans ce cas, la covariance et la variance n'existent pas).

iii. Lorsque les variogrammes montrent un palier alors on peut facilement établir le lien entre la valeur du
variogramme pour la distance h et la covariance pour deux observations séparées de h.

1
γ (h) = Var ( Z(x) - Z(x + h) )
2
1
= [ Var ( Z(x) ) + Var ( Z(x + h) ) - 2 Cov ( Z(x) , Z(x + h) )
2
= σ 2 - Cov ( Z(x) , Z(x + h) ) = σ 2 - C(h)
donc,

γ (h) = σ 2 - C(h)
C(h) est appelé le covariogramme de Z. Cette relation est importante et elle est continuellement utilisée en
géostatistique.

On voit que lorsque la portée est atteinte, il n'y a plus de covariance entre les v.a., i.e. C(h) = 0 si h ≥ a.
Lorsqu'il y a un palier, les deux fonctions sont équivalentes en ce sens qu'elles fournissent la même information
sur le processus.

Le variogramme possède toutefois deux avantages sur le covariogramme.

i. Le variogramme est défini même s'il n'y a pas de palier.


2- variogrammes 4

ii. Dans l'expression du variogramme, la constante "m" n'apparaît pas et l'on n'a donc pas besoin de l'estimer
comme c'est le cas lorsqu'on veut calculer directement le covariogramme.
Variogramme expérimental et théorique

Palier (C0+C)
)
h(
γ

C0 Portée (a)

distance h

Chaque phénomène géologique possède un variogramme qui lui est propre. Ainsi,

• Un gisement d'or présentera un variogramme erratique avec un fort effet de pépite et une faible portée.
• Un gisement de cuivre porphyrique montrera un variogramme linéaire à l'origine avec faible effet de pépite et
grande portée.
• Un gisement sédimentaire de fer présentera une portée plus grande parallèlement à la stratification que
perpendiculairement à celle-ci (anisotropie géométrique).
• La topographie pourra présenter un variogramme très continu avec comportement parabolique à l'origine et
absence d'effet de pépite.

Variogramme => outil descriptif puissant utilisable dans une multitude de domaines.
2- variogrammes 5

2.3 Estimation du variogramme

On estime le variogramme à l'aide de

1 N( h )
γ e (h) = ∑ [Z( xi ) - Z( xi + h)] 2
2 N(h) i =1

où N(h) nombre de paires dont les points sont espacées de h.

Pour un champ donné, rien n'assure que la continuité soit identique dans toutes les directions. Par exemple, il se
pourrait que des teneurs montrent une meilleure continuité parallèlement à la stratigraphie que
perpendiculairement à celle-ci. De même, pour la contamination par des hydrocarbures, on pourrait observer une
meilleure continuité horizontalement que verticalement en raison de la gravité. Si le nombre d'observations le
permet (typiquement au moins 50, préférablement 100), on peut chercher à vérifier ce point en calculant le
variogramme expérimental dans différentes directions.

On peut aussi calculer le variogramme selon certaines directions spécifiques:

1 N ( h ,θ )
γ e (h,θ ) = ∑ [Z( xi ) - Z( xi + h)] 2
2 N(h, θ ) i =1

où N(h,θ) = nombre de paires séparées de h dans la direction θ.

En pratique on s'accorde une tolérance sur h et sur θ afin d'avoir suffisamment de paires pour chaque h et chaque
θ. Pour chacune des classes ainsi formées, on calcule la distance moyenne séparant les extrémités des paires
(abscisse) et on évalue le variogramme expérimental pour chaque classe. On obtient donc une série de points
expérimentaux auxquels on cherche à ajuster un modèle (i.e. expression analytique) permettant de déduire la
covariance entre deux points quelconque en fonction de leur espacement géographique (et, éventuellement, de la
direction qu'ils définissent). Une fois le modèle adopté, toute la suite des calculs se fait avec les valeurs obtenues
du modèle et non avec les valeurs expérimentales.

La figure suivante illustre quelques exemples de surface et le variogramme expérimental correspondant. Les
simulations ont été réalisées avec GSLIB-SGSIM, en imposant les valeurs 0, 2 , 2 et 4 aux 4 coins. De haut
en bas, on a simulé un gaussien de portée 25, un sphérique de portée 25, un sphérique avec 20% d’effet de
pépite et portée 25, un sphérique avec 80% d’effet de pépite et portée 25. Comme on le voit, le variogramme
expérimental décrit bien le degré d'irrégularité des surfaces.
2- variogrammes 6

Variogramme
5 2
z(x,y)

0
-5 1
20
20
10 10
0
y 0 0 x 0 2 4 6 8 10
distance (h)

5 Variogramme 2
z(x,y)

0
-5 1
20
20
10 10
0
y 0 0 x 0 2 4 6 8 10
distance (h)

3
Variogramme

5 2
z(x,y)

0
-5 1
20
20
10 10
0
y 0 0 x 0 2 4 6 8 10
distance (h)

3
2- variogrammes 7

Note: Sur les 4 figures précédentes, les points (0,0), (20,0), (0,20) et (20,20) ont des valeurs identiques de
respectivement 0,2,2 et 4.

2.3.1 Exemple numérique

Soit une matrice de données 3 x 3 ayant les valeurs suivantes (la distance horizontale et verticale entre 2 éléments
consécutifs est de 1 m et NaN indique une donnée manquante).

3 6 5
7 2 2
4 NaN 0

Le calcul du variogramme selon la direction horizontale donne:

h g(h) N(h)
1 4.375 4
2 7.5 3

Note: g(1)=0.5/4*[(3-6)2+(6-5)2+(7-2)2+(2-2)2]

Dans la direction verticale, on calcule:

h g(h) N(h)
1 5.4 5
2 6.5 2

Dans la direction 45, on calcule:

h g(h) N(h)
1.41 2.33 3
2.82 0.5 1

2e Exemple numérique (1D)

Soit les séquences 1D suivantes :

0123210

3102120

Ces deux séries ont même moyenne et même variance, toutefois clairement elles n'ont pas le même degré de
continuité spatiale, la 1ère série étant nettement plus continue que la seconde. Voyons leur variogramme:
h g(h) - 1ère série g(h) - 2e série
1 0.5 1.25
2 1.6 1.2
3 2.5 1.13
2- variogrammes 8

Le variogramme de la 1ère série montre une croissance soutenue alors que la seconde série montre un
variogramme à peu près constant à un niveau près de la variance expérimentale (1.06).

2.4 Modélisation

Les modèles sont des expressions analytiques que l'on tente d'ajuster le mieux possible aux points des
variogrammes expérimentaux.

Condition d'admissibilité des modèles:

Toute fonction ne peut être utilisée comme modèle. Soit une somme quelconque de variables aléatoires (plus
généralement, une combinaison linéaire de telles v.a.), la variance de cette combinaison est nécessairement
positive (une variance est, par définition, toujours positive). Or cette variance peut s'exprimer en fonction du
covariogramme (modèles avec palier) ou du variogramme (modèles avec palier ou sans palier pourvu que la
somme des poids de la combinaison linéaire donne 0). Il faut donc que le covariogramme ou le variogramme
assure des variances positives quelle que soit la combinaison des v.a. considérée.

Bref, soit une combinaison linéaire ∑ λi Zi . Dans le cas stationnaire (variogramme avec palier),
i
Var( ∑ λ i Z i ) = ∑ ∑ λ i λ j Cov( Z i , Z j ) = ∑ ∑ λ i λ j C( hi , j ) ≥ 0
i i j i j
Dans le cas intrinsèque (variogramme sans palier)

Sous la condition ∑ λ i = 0 , on a Var( ∑ λ i Z i ) = −∑ ∑ λ i λ j γ( hi , j ) ≥ 0


i i i j

La vérification de l'admissibilité d'un modèle donné est relativement complexe et dépasse le cadre de ce cours.
Dans la pratique on se limite à des modèles éprouvés et à des modèles construits à partir de modèles éprouvés en
utilisant des propriétés comme :
- une combinaison linéaire (avec coefficients positifs) de variogrammes admissibles donne un modèle admissible;
- un produit de modèles de covariance admissibles donne un modèle de covariance admissible;
- un modèle admissible en Rp est admissible en Rp-1 (l’inverse n’est pas nécessairement vrai).

Types de modèles courants

En géologie, les modèles les plus courants sont :

- Effet de pépite.
- Puissance (cas particulier : linéaire).
- Sphérique.
- Gaussien.
- Exponentiel.

Effet de pépite: γ(h)= 0 si h = 0


Co si h > 0
2- variogrammes 9

Sphérique : γ(h)= C [1.5 h/a - 0.5 (h/a)3] si 0 < h < a


C si h ≥ a

Gaussien: γ(h)= C [1 - exp(-3(h/a)2)]

Exponentiel γ(h)= C [1 - exp(-3h/a)]

Puissance γ(h)= C hb 0<b<2 (linéaire : b=1)

On peut combiner plusieurs modèles en les additionnant. Ainsi, l'effet de pépite est presque toujours présent en
association avec un ou plusieurs des autres modèles décrits plus haut. Il est important de noter que ces cinq
modèles ne sont pas les seuls que l'on peut utiliser, en réalité, il en existe un très grand nombre.

Il y a un lien étroit entre la nature de la variable étudiée et le type de modèle que l’on est susceptible de
rencontrer. Ainsi, le modèle gaussien exprime une très grande continuité typique d’une variable comme la
topographie, l’épaisseur d’une formation, le champ gravimétrique, la charge hydraulique. Ce modèle n’est
pratiquement jamais rencontré pour des variables comme les teneurs de gisement, les propriétés mécaniques des
roches, les analyses géochimiques en général. Pour ces variables, les modèles sphérique et exponentiel sont
beaucoup plus courants. Pour des variables discrètes, le modèle gaussien est même à proscrire complètement.

Notes :

i. Lorsque h = 0, par définition γ(0)=0.


Lorsque h = 0+, alors γ(h)=C0.
L'effet de pépite se présente donc comme une discontinuité à l'origine du variogramme. L’effet de pépite
peut représenter des erreurs d’analyse (voir théorie d’échantillonnage de P. Gy), de réelles micro-
structures ou/et des structures d’une certaine taille non-détectées par un échantillonage insuffisant.

ii. Parfois les variogrammes ne montrent pas de palier (cas du modèle linéaire). D’autre fois ils ne montrent
qu'un palier atteint asymptotiquement (cas des modèles exponentiel et gaussien). Dans ce dernier cas,
l’on définit la portée effective comme la distance où est atteint 95% du palier. Ainsi, pour les modèles
exponentiel et gaussien, la portée effective est "a". Lorsque le variogramme ne montre pas de palier et
que sa croissance s’effectue à un taux supérieur à h2 alors il y a lieu de suspecter une dérive de la
moyenne (i.e. l’hypothèse stationnaire ou intrinsèque ne tient pas).

iii. Lorsque les variogrammes montrent un palier alors on peut facilement établir le lien entre la valeur du
variogramme pour la distance h et la covariance pour deux observations séparées de h. Lorsqu'il y a un
palier, covariogramme et variogramme sont équivalents en ce sens que les deux fonctions fournissent la
même information spatiale sur le phénomène étudié.
Le variogramme possède toutefois deux avantages sur le covariogramme.

- Le variogramme est défini même s'il n'y a pas de palier.


- Dans l'expression du variogramme, la constante "m" n'apparaît pas. On n'a donc pas besoin de l'estimer
comme c'est le cas lorsqu'on veut calculer directement le covariogramme.

Note: Lorsqu’on suppose que la moyenne et le covariogramme ne dépendent pas des emplacements précis
considérés (x), ceci implique une certaine homogénéité du champ étudié. En termes statistique, on
formule une hypothèse dite de stationnarité du 2e ordre. Si on suppose plutôt que le variogramme ne
dépend pas de l’emplacement `x`, alors ce cas inclut les cas sans paliers, et est donc légèrement plus
2- variogrammes 10

général que le précédent. Cette hypothèse est nommée hypothèse intrinsèque. Elle est en fait une
hypothèse de stationnarité de 2e ordre postulé pour les incréments de Z plutôt que pour Z lui-même. On
peut généraliser ce modèle en supposant la stationnarité d’ordre 2 pour des incréments d’ordre supérieur
de Z (dans ce cas, de nouvelles fonctions de structure spatiale, les covariances généralisées, peuvent être
utilisées). À l’opposé, des modèles plus restrictifs (stationnarité stricte au niveau univariable ou même
multivariable) sont utilisés en géostatistique non-linéaire.

200 effet de pépite 200 linéaire

100 100
g(h) g(h)
0 0
0 100 200 0 100 200
h h
200 sphérique 200 gaussien

100 100
g(h) g(h)
0 0
0 100 200 0 100 200
h h
200 exponentiel

100
g(h)
0
0 100 200
h

2.4.1 Anisotropies

La continuité spatiale n'est pas nécessairement la même dans toutes les directions.

ex. - gisement présentant une forme lenticulaire; on peut avoir une meilleure continuité selon
l'allongement principal des lentilles;
- gisement stratiforme; meilleure continuité parallèlement aux strates que perpendiculairement.
- placer; meilleure continuité le long des paléochenaux que perpendiculairement.
- etc.

Bien que dans la nature il existe une très grande variété d'anisotropies, en géostatistique, on ne peut modéliser
aisément que les anisotropies géométriques.

Anisotropie géométrique

Caractéristiques :

- On observe dans diverses directions des paliers et des composantes pépitiques identiques
mais des portées différentes.
- Les portées maximales (ag) et minimales (ap) s'observent selon deux directions orthogonales.
2- variogrammes 11

- On peut rendre les portées identiques (et égales à ag suivant toutes les directions en multipliant la
composante de la portée parallèle à ap par le facteur (ag/ap). Bref, les portées décrivent une ellipse
dont l'axe majeur est orienté parallèlement à ag.
i.e.
( aθ cosθ )2 ( aθ sin θ )2
+ = 1
a 2g a 2p

Connaissant ag et ap, on peut trouver aθ , où θ désigne l'angle mesuré par rapport à la direction où est rencontré ag.

aga p
aθ =
{a }
1/ 2
2
p cos2 θ + a g2 sin 2 θ

On peut ainsi évaluer γ(h, θ) soit en utilisant aθ , soit en corrigeant la distance h pour tenir compte de l'anisotropie:

γ ( hθ ,θ ) = γ ( h g )

modèle isotrope avec portée ag

avec,
2
 ag 
hg = ( hθ cosθ )2 +  hθ sin θ 
ap 

Typiquement on retrouve l'anisotropie géométrique là où le corps étudié montre des allongements


préférentiels. (lentilles, paléochenaux, strates...).

Note: Pour l'anisotropie géométrique, on peut toujours, par simple rotation et dilatation se ramener à un modèle
isotrope, c’est ce qui est fait dans la méthode utilisant le calcul de hg .

Exemple:

Un gisement 2D est modélisé par un modèle avec anisotropie géométrique. Le modèle est sphérique avec
C=17%2 et effet de pépite C0=13%2 et les portées sont de 100m dans la direction (convention trigonométrique) de
plus grande continuité (30o) et 60m dans la direction de plus petite continuité (120o). Quelle est la valeur du
variogramme entre deux observations situées aux coordonnées (x1,y1)=(10,30) et (x2,y2)=(40,20)

1ère méthode:

On calcule la distance séparant les deux points et la direction qu’ils définissent:

h=((20-30)2+(40-10)2)1/2=31.62m
2- variogrammes 12

 y − y1   −10 o
θ = arctan 2  = arctan  = −18.4
 x 2 − x1   30 

Cette direction forme un angle de 48.4o avec la direction de plus grande continuité.

On calcule la portée dans cette direction en utilisant la formule plus haut :

100 * 60
aθ = = 70.81m
{ }
1/ 2
2 2 2 2
60 cos ( 48.4) + 100 sin ( 48.4)

On calcule la valeur du variogramme en utilisant l’équation du modèle sphérique pour la distance plus haut et
avec la portée 70.81m:

 31.62m  31.62m
3
γ θ ( 31.62m) = 13% 2 + 17% 2 *  1.5 * − 0.5 *    = 23.63% 2
 70.81m  70.81m  
 
2e méthode

On calcule la distance équivalente dans la direction de meilleure continuité avec la formule précédente, où θ
représente l’angle entre la direction de meilleure continuité et la direction définie par les deux points (48.4o ).

2
 100m 
hg = ( 31.62m cos( 48.4) )2 +  31.62m sin 48.4 = 44.65m
 60m 

On calcule la valeur du variogramme en utilisant l’équation du sphérique pour la distance 44.65m et avec la
portée ag= 100m.

 44.65m  44.65m
3
γ g ( 44.65m) = 13% 2 + 17% 2 *  1.5 * − 0.5 *    = 23.63% 2
 100m  100m  
 

Remarques importantes concernant la détection d’anisotropies géométriques:

a) Le facteur d’anisotropie géométrique obtenu avec les variogrammes expérimentaux sous estime en général
le véritable facteur d’anisotropie en raison de l’utilisation d’une fenêtre angulaire et du fait que les
variogrammes expérimentaux ne sont pas nécessairement orientés exactement selon les directions principales
de l’ellipse d’anisotropie.

b) L’estimation correcte et à la limite, la détection, d’anisotropie géométrique n’est possible, en pratique,


qu’à quatre conditions (fortement liées) devant être remplies simultanément:
• Le nombre de données est suffisant (au moins 50)
• Le facteur d’anisotropie est important (au moins 1.5)
• Une des directions utilisées dans le calcul du variogramme est près de la direction de plus grande portée.
• La fenêtre angulaire utilisée est suffisamment étroite.
2- variogrammes 13

La figure suivante montre le rapport d’anisotropie apparent observé en considérant les directions θ et θ+90 (θ :
angle avec la direction de plus grande portée) en fonction du rapport d’anisotropie (plus grande portée/plus petite
portée). On constate qu’un rapport d’anisotropie peut facilement être sous-estimé si on n’identifie pas
correctement la direction de plus grande portée.

Rapport apparent en fonction de la direction (θ: angle avec ag) et du rapport d'anisotropie
4

3.5

θ
Rapport apparent: aθ / aθ+90

3 0

10
2.5

2 20

1.5 30

0.5
1 1.5 2 2.5 3 3.5 4
Rapport vrai: ag / ap
2- variogrammes 14

La figure suivante montre le rapport d’anisotropie apparent que l’on devrait observer en fonction de l’angle de
tolérance (fenêtre angulaire) adopté dans le calcul du variogramme. Le tableau suivant illustre les résultats pour
un rapport d’anisotropie réel de 5.
Rapport apparent en fonction de la tolérance et du rapport d'anisotropie
4

3.5

3 tolérance 0
10
Rapport apparent

20
2.5
30

2 40

1.5

1
1 1.5 2 2.5 3 3.5 4
Rapport vrai: ag / ap

Rapport d’anisotropie apparent en fonction de la tolérance pour un rapport vrai de 5

Tolérance angulaire Rapport apparent


45o 2.4
22.5o 3.6
10o 4.5
5o 4.9

Anisotropie zonale

Parfois, une simple correction géométrique ne suffit pas à rendre les modèles isotropes. C'est le cas par exemple si
l’on observe des paliers différents ou si les portées ne décrivent pas une ellipse. On peut alors tenter d'ajuster les
variogrammes expérimentaux directionnels à l'aide d'une somme (ou éventuellement d'un produit de covariances)
de modèles isotropes ou avec anisotropie géométrique. Parfois la physique du phénomène peut aider à déterminer
le modèle. Ainsi, en hydrogéologie, la charge hydraulique est une quantité anisotrope par sa nature même; en
effet, dans le sens de l'écoulement on observe les variations maximales alors que perpendiculairement à
l'écoulement la charge est constante.

La modélisation d'anisotropies zonales est généralement assez délicate et nécessite une certaine expérience. Le
modèle le plus simple d'anisotropie zonale consiste à combiner une ou plusieurs composantes isotropes à une
composante avec anisotropie géométrique dont ag est infinie.
2- variogrammes 15

γ zonal (h,θ ) = γ isotrope (h) + γ p (h sin θ )

où l'indice p réfère au modèle anisotrope suivant la direction de portée minimale

Cas 3D:

En 3D, l’ellipse d’anisotropie devient un ellipsoïde. Pour entièrement spécifier le modèle, il faut fournir les trois
portées principales (axes de l'ellipsoïde) et les 3 angles de rotation qui permettent de faire coïncider le système de
référence avec les axes de l'ellipsoïde. Souvent la géologie dictera les directions où calculer le variogramme pour
tenter de détecter une éventuelle anisotropie (ex. perpendiculairement à la stratigraphie et dans le plan de la
stratigraphie.

Lors de l'utilisation d'un programme de calcul de variogramme ou de krigeage, il est très important de bien
comprendre les conventions utilisées pour le système de référence et les rotations afin de spécifier correctement
les modèles. Habituellement, le système de référence utilisé est le système « main droite » (pouce pointe vers "z",
la main droite repliée va de "x" vers "y").

La modélisation en 3D est parfois très difficile en raison d’une disposition défavorable des observations. Si l’on
prend l’exemple d’une grille régulière de forages verticaux, on dispose de beaucoup de paires pour toute distance
selon la verticale. Par contre, dans le plan horizontal, aucune paire ne peut être formé pour des distances autres
qu’un multiple du pas de grille. Si le pas est large, ce qui est souvent le cas, on aura très peu de points sur le
variogramme expérimental et la détermination des portées dans ces directions sera difficile. La situation se
complique davantage lorsque la géologie ne suit pas les directions du système de référence.

Finalement, il faut noter qu’en 3D, la spécification des paramètres de recherche de paires pour le calcul du
variogramme nécessite une bonne dose de réflexion afin de s’assurer que la zone spécifiée correspond bien à celle
désirée. Par exemple, une tolérance angulaire de 10o sur la direction et sur le pendage du vecteur souhaité ne
représentent pas du tout la même enveloppe si le vecteur considéré est horizontal ou vertical. Ce ne sont pas tous
les programmes qui permettent de spécifier un cône de tolérance autour de l'orientation du vecteur distance
souhaitée.

2.5 Remarques concernant le calcul de variogrammes et l’ajustement de modèles

- On accorde plus de poids aux points du variogramme expérimental calculés avec beaucoup de paires.
- On essaie d’avoir N(h) ≥ 30 pour chaque point expérimental du variogramme. Si ce n’est pas possible pour
certaines classes, on accorde moins d’importance à ces points. Si le nombre de paires est très faible (≤10), on
ne considère plus du tout le point.
- On accorde plus de poids aux premiers points du variogramme (h petit) car ce sont ces valeurs qui ont le plus
d'impact dans les calculs géostatistiques.
- Lorsque h dépasse environ dmax/2, on ne tient pas compte des valeurs du variogramme. dmax est la taille du
phénomène étudié dans la direction considérée.
- On cherche à obtenir des modèles les plus simples possible qui rendent bien compte des valeurs
expérimentales.
2- variogrammes 16

Stratégie de modélisation (cas 2D)

- Calculer les variogrammes directionnels selon différentes directions (ex. 0°, 45°, 90°, 135°) ainsi que le
variogramme omnidirectionnel (i.e. sans tenir compte de la direction).
La géologie peut apporter une information précieuse dans le choix des directions et la présence ou non
d'anisotropies.
- Vérifier les critères ci-dessus : N(h) ≥ 30, h < dmax/2
- Si nécessaire, augmenter la tolérance angulaire ou le pas de calcul de façon à augmenter N(h).
- Déterminer s'il y a anisotropie (différences de palier ou de portées qui ne peuvent raisonnablement être
imputées à des fluctuations aléatoires du variogramme). Une bonne méthode consiste d'abord à ajuster le
variogramme omnidirectionnel et de vérifier si ce modèle est acceptable pour les différents variogrammes
directionnels. L'effet de pépite et le palier en particulier devraient être estimés à l'aide du variogramme
omnidirectionnel et gardés constants lors de l'ajustement des variogrammes directionnels. Si les paliers
changent d’une direction à l’autre, on peut soit essayer de modéliser une anisotropie zonale, soit adopter un
palier compromis, surtout si l’ajustement est adéquat à courte distance.
- Procéder à l'ajustement d'un modèle anisotrope ou isotrope selon le cas (habituellement par essai et erreur, bien
que l'on puisse aussi obtenir ces ajustements de façon automatique par régression (pondérée, et souvent, non-
linéaire).
- Chercher à respecter la règle de la parcimonie: adopter les modèles les plus simples possibles qui permettent
un ajustement adéquat. Comparer des modèles concurrents à l'aide de la technique de validation croisée.

Note:
- Plus les classes sont larges, plus il y a de paires dans chaque classe, et plus le variogramme expérimental est
lisse (et donc facile à modéliser) mais moins on a de définition pour connaître le comportement du
variogramme, surtout à faible distance. On cherche habituellement à avoir au moins trois ou quatre classes, et si
possible davantage, avant d'atteindre le palier.

- Pour les variogrammes directionnels, plus l'angle de tolérance est grand, plus on a de paires pour chaque point
du variogramme mais moins le variogramme expérimental permettra de déceler les anisotropies. On ne devrait
pas excéder 22.5 degrés de part et d'autre de la direction considérée. On peut descendre jusqu'à 0+ degrés si les
données sont abondantes et sur une grille parfaitement régulière. Une valeur typique pourrait être de 10 degrés
de part et d'autre de la direction considérée. On spécifie le calcul du variogramme omnidirectionnel en utilisant
un angle de tolérance de 90 degrés de part et d'autre d'une direction arbitraire, le choix de la direction n'ayant
dès lors aucune importance.

- Souvent en 3D les seules directions pour lesquelles on peut véritablement calculer un variogramme fiable sont
les directions prises le long des forages. Une des raisons pour cela est que les trous de forage peuvent dévier
considérablement et que l'arpentage des trous de forage, même s'il a été réalisé, est souvent fort imprécis. Les
positions véritables des observations n'étant pas connues l'effet de pépite est accru, la forme du variogramme
expérimental est altérée, et les variogrammes deviennent plus erratiques. Cet effet est particulièrement
important dans le cas de gisement à faible continuité spatiale.

- Plusieurs problèmes 3D peuvent être simplifiés à des problèmes 2D. C'est le cas notamment de gisements se
présentant sous la forme de veines minces. Habituellement on travaille alors avec l'accumulation de métal
(produit épaisseur x teneur) et l'épaisseur de la veine qui sont 2 variables additives (alors que la teneur ne l'est
pas dans ce cas). On obtient la teneur estimée par division de l'accumulation estimée par l'épaisseur estimée.
Certains praticiens préfèrent toutefois travailler avec la teneur directement même si celle-ci n'est pas additive.
(Par additif, on entend que la valeur de la variable sur une zone est donnée par la moyenne des valeurs des
2- variogrammes 17

points de la zone. Si l'épaisseur d'une veine varie alors la teneur pour une portion de la veine n'est plus égale à la
teneur moyenne des points correspondants mais plutôt à une moyenne pondérée par les épaisseurs).

2.6 Problèmes courants avec les variogrammes et solutions possibles

2.6.1 Données extrêmes

Le variogramme étant une moyenne de différences au carré, il est clair que la contribution d'une donnée
extrême peut être déterminante. Si la localisation d'une donnée extrême est telle qu'elle apparaît plus souvent
dans certaines classes de distance que d'autres, alors le variogramme sera très bruité. Si elle est située en
périphérie du domaine, elle introduira une tendance croissante sur le variogramme. Si elle est située au
centre, elle introduira plutôt une tendance décroissante.

Exemple:

10 0 0 0 0 0
Variogramme expérimental

70

60

50
gamma(h)

40

30

20

10

0
0 1 2 3 4 5 6
Distance
2- variogrammes 18

0 0 10 0 0 0

Variogramme expérimental

35

30

25
gamma(h)

20

15

10

0
0 1 2 3 4 5 6
Distance

Comme on le voit, la position de la valeur extrême dans le champ a une influence prépondérante sur la forme
du variogramme.

Solutions possibles:
• Si la donnée extrême est une erreur, on l'enlève tout simplement.
• Enlever la donnée extrême pour le calcul et la modélisation du variogramme afin de mieux cerner la
structure spatiale sous-jacente. Toutefois, il faut remettre cette donnée au moment de l'estimation.
Généralement, il faut aussi modifier le modèle de façon à ce que son palier reflète mieux la variance des
données lorsque les données extrêmes s'y trouvent (par exemple, ajout d'un effet de pépite ou
multiplication de C et C0 par une constante appropriée.
• Transformer les données de façon à diminuer l'influence des données extrêmes (ex. couper les valeurs
extrêmes à un seuil maximal, prendre le logarithme, la racine carrée, etc.). On peut par la suite identifier
les grandes caractéristiques du variogramme (modèle, isotropie-anisotropie, importance approximative
de C0/(C0+C)) avec les données transformées puis on cherche à retrouver ces caractéristiques sur les
variogrammes expérimentaux. Normalement on ne peut estimer les valeurs transformées car la
transformation inverse pose un problème de biais difficile à contourner.
• Utiliser un estimateur robuste aux données extrêmes (ex. au lieu de prendre la moyenne des écarts-carrés,
on pourrait en prendre la médiane). Toutefois cet estimateur sous-estime la variabilité spatiale et il doit
être modifié pour tenir compte de ce fait.
2- variogrammes 19

2.6.2 Pas d'échantillonnage variable selon les zones d'un gisement

Zone A: (pas de 2m)


4 4 5 6 6 7 6 5 4

Zone B: (pas de 1m)


8 6 8 10 12 8 10 12 14 10 8 6 12 8 10 10 8 10

Variogramme expérimental

7
11
6
12
gamma(h)

5 Zone B
16 10
18
4 15 13
15 9

24 Zone A+B
3 17
14

21
2 6 5
Zone A
1 7

8
0
0 1 2 3 4 5 6 7 8 9 10
Distance

Le variogramme A est plus bas car la zone A est moins variable. Le variogramme B est le plus élevé car la
zone B est la plus variable et le variogramme A+B est un mélange des 2 zones. Toutefois, comme les pas
d'ordre impair (1,3,5..) n'apparaissent pas dans la zone A, le variogramme A+B est identique au variogramme
B pour ces pas.

Solutions possibles:
• Séparer en 2 zones d'étude distinctes si possible, sinon
• Uniformiser l'échantillonnage, par exemple en prenant 1 point sur 2 dans la zone B.
2- variogrammes 20

2.6.3 Ré-échantillonnage des zones riches

Un problème semblable à celui rencontré précédemment survient lorsqu'on échantillonne préférentiellement


à proximité des valeurs fortes que l'on rencontre (pour confirmer disent certains). Comme les distributions
des teneurs des gisements typiques sont fortement asymétriques avec peu de valeurs fortes, les chances sont
très grandes qu'une valeur forte ne sera pas "confirmée". On aura donc ainsi plusieurs valeurs fortes
accompagnées de valeurs nettement plus faibles à proximité. Les seules paires de données à petite distance
peuvent provenir précisément de ces ré-échantillonnages. Conséquemment, ceci aura pour effet de faire
paraître la continuité spatiale beaucoup moins forte qu'elle ne l'est réellement.

Exemple: On simule 225 valeurs sur une grille régulière de pas 1 (15*15). On décide d'échantillonner les 10
valeurs les plus fortes en se plaçant à 0.1 (en x) du point. Voici les 3 variogrammes obtenus en utilisant:
1- les 225 points
2- les 225 points + les 10 "doublons"
3- les 225 points et les 225 "doublons" (i.e. chaque point est ré-échantillonné à 0.1 de façon systématique.

Variogrammes
50
Grille regulière
45 Grille+10 doublons
Grille+doublons
40

35

30

) 25
Gamma

h(
γ

20

15

10

0
0 1 2 3 4 5 6 7 8 9
h

Solutions possibles:
• Éviter les stratégies d'échantillonnage biaisées vers les valeurs fortes
• Décimer l'échantillon pour assurer une couverture uniforme partout
2- variogrammes 21

2.6.4 Erreurs de localisation

Les erreurs de localisation viennent fausser les distances et donc fausser le variogramme expérimental. Ainsi,
certaines paires à petites distances seront considérées comme à des distances plus grandes qu’elles ne le sont
réellement et vice-versa. L'effet net est d'augmenter l'effet de pépite apparent sur le variogramme.

Exemple: On simule 225 données sur une grille régulière de 15 x 15 et de pas 1, puis on suppose que chaque
point a été mal localisé et que la position rapportée se situe à ± 1 en x et y. Voici les variogrammes obtenus
en utilisant les vraies localisations et les localisations rapportées:

Variogrammes
1.8
Localisations vraies
1.6 Localisations erronnées

1.4

1.2

1
Gamma

)
h(
γ

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9 10
h
Solutions possibles:
• Localiser avec soin les données
• Si on a une idée sur la distribution des erreurs de localisation, on peut essayer d'en tenir compte lors de
l'estimation (il subsiste quand même une perte d'information substantielle)

Note: Ce problème est particulièrement aigu avec des données de forages (3D) qui dévient souvent de façon
importante et pour lesquels les méthodes de mesure de déviations ne sont pas toujours précises.

2.6.5 Systèmes de coordonnées géologiques

Une bonne connaissance de la géologie peut parfois permettre de définir un système de coordonnée plus
naturel pour le phénomène étudié. Pour l'illustrer, imaginons un gisement qui se forme dans des roches
sédimentaires (ex. skarn). les teneurs montreront une continuité spatiale dictée par le phénomène de
minéralisation.
2- variogrammes 22

Supposons qu'un événement tectonique tardif vienne plisser les roches. Les distances entre les points, après
plissement, seront modifiées altérant ainsi la structure spatiale. Dans certains cas, lorsque la tectonique n,est
pas trop compliquée et que la géologie est bien connue, il est possible de "déplisser" le gisement pour
retrouver les positions originales des points et ainsi mieux décrire la structure spatiale de la minéralisation.

Positions observées Positions "dépliées"


20 20

15 15

10 10

y y
5 5

0 0

-5 -5
-5 0 5 10 15 20 -5 0 5 10 15 20
x x

Variogrammes initiaux Variogrammes après "dépliage"


1.4 1.4

1.2 1.2

1 1

0.8 0.8
Gamma

Dir. x
) )
Gamma

h( Dir. y h( // strates
γ

0.6 0.6 Perpendiculaire


0.4 0.4

0.2 0.2

0 0
0 2 4 6 8 10 0 2 4 6 8 10
h h

Exemples géologiques:
• Structures plissées
• Minéralisation ou hydrocarbures liés à la présence de chenaux
• Contamination se déplaçant dans l'eau souterraine suivant les directions d'écoulement

Remarques:
• La transformation des coordonnées demande une très bonne connaissance géologique du phénomène.
• Certains logiciels (coûteux) incluent des fonctions pour effectuer cette transformation
5- krigeage 1

5. KRIGEAGE

Puisqu'on peut calculer la variance d'estimation pour tout estimateur linéaire, pourquoi ne pas choisir celui
qui assure la variance d'estimation minimale? C'est précisément ce qu'effectue le krigeage. Dans le cas
stationnaire, on en reconnaît 2 types principaux, selon que la moyenne du processus est connu ou non, soit le
krigeage simple et le krigeage ordinaire. Ce dernier est, de loin, le plus fréquemment utilisé.

5.1 Krigeage ordinaire

Supposons que l'on veuille estimer un bloc v centré au point x0. Notons Zv la vraie valeur (inconnue) de ce
bloc et Zv* l'estimateur que l'on obtient.

L'estimateur est linéaire, i.e.:


n
*
Zv = ∑
i=1
λi Zi

où les Zi désignent les v.a. correspondant aux points échantillons.


On veut minimiser:

σ 2e = Var[ Z v - Z*v ] = Var[ Z v ] + Var[ Z*v ] - 2 Cov[ Z v , Z*v ]

Substituant l'expression de l'estimateur dans cette équation, on obtient:


n n n
σ = Var[ Z v ] +
2
e ∑∑
i=1 j=1
λ i λ j Cov[ Z i , Z j ] - 2 ∑
i=1
λ i Cov[ Z v , Z i ]

Pour que l'estimateur soit sans biais, il faut que:


n


i=1
λi = 1

En effet, dans ce cas, E [ Z v* ] = ∑ λ i E [ Z i ] = ∑ λ i m = m


i i
On a un problème de minimisation d'une fonction quadratique (donc convexe) sous contrainte d'égalité que
l'on solutionne par la méthode de Lagrange. On forme le lagrangien:
 n 
L( λ ) = σ e2 + 2 µ  λ i
 ∑ - 1
 i=1 
n n n  n 
= Var[ Z v ] + ∑∑ ∑
λ i λ j Cov[ Z i , Z j ] - 2 λ i Cov[ Z v , Z i ] + 2 µ  λ i ∑ - 1
i=1 j=1 i=1  i=1 
Où µ est le multiplicateur de Lagrange. Le minimum est atteint lorsque toutes les dérivées partielles par
rapport à chacun des λi et par rapport à µ s'annulent. Ceci conduit au système de krigeage ordinaire:
5- krigeage 2

Système de krigeage ordinaire


j=1
λ j Cov[ Z i , Z j ] + µ = Cov[ Z v , Z i ] ∀ i = 1...n
n


j=1
λj = 1

La variance d'estimation minimale, appelée variance de krigeage, est obtenue en substituant les équations de
krigeage dans l'expression générale pour la variance d'estimation:
n
σ 2k = Var[ Z v ] - ∑
i=1
λ i Cov[ Z v , Z i ] - µ

Note: Cette variance de krigeage ne dépend pas des valeurs observées, elle ne dépend que du variogramme
et de la configuration des points servant à l'estimation par rapport au point (ou bloc) à estimer.

Système de krigeage écrit en terme du variogramme:

Comme la variance d'estimation s'écrit aussi directement en terme du variogramme, on peut aussi écrire le
système de krigeage en fonction du variogramme. Ceci tient au fait que C(h) = σ2 - γ(h) et que Σλi=1.

n
∑ λ j γ( xi , x j ) − µ = γ( v, xi ) ∀ i = 1...n
j=1
n


j=1
λj = 1
et , alors
n
σ2k = ∑ λi γ( v, xi ) − γ( v ,v ) - µ
i=1

Il est intéressant de visualiser le système de krigeage ordinaire et la variance de krigeage ordinaire sous forme
matricielle:

K o λ o = ko
σ k2o = σ v2 − λ' o k o


 σ2 Cov( Z1 , Z 2 ) • Cov( Z1 , Z n ) 1
 
Cov( Z 2 , Z1 ) σ2 • Cov( Z 2 , Z n ) 1
Ko =  • • • • •
 
Cov( Z n , Z1 ) Cov( Z n , Z 2 ) • σ2 1
 1 1 • 1 0

5- krigeage 3

 Cov( Z1 , Z v )   λ1 
Cov( Z , Z ) λ 
 2 v   2
ko =  •  , λo =  • 
   
Cov( Z n , Z v ) λ n 
 1   µ 

et σ v2 = C ( v , v )

5.2 Krigeage simple

Parfois on connaît la moyenne "m" du champ à estimer ou du moins on en possède un estimé fiable. On peut
alors former un estimateur sans biais sans imposer la contrainte que la somme des poids soit égale à 1.

n  n 
Z *v = ∑ λi Z i + 1- ∑ λi  m
i=1  i=1 

Tout comme pour le krigeage ordinaire, on écrit la variance d'estimation et on substitue l'expression
précédente pour l'estimateur Zv*. On trouve:
n n n
σ 2e = Var[ Z v ] + ∑∑
i=1 j=1
λ i λ j Cov[ Z i , Z j ] - 2 ∑
i=1
λ i Cov[ Z v , Z i ]

On dérive cette expression par rapport à chacun des λi. On trouve alors le système de krigeage
simple:

Système de krigeage simple

∑j=1
λ j Cov[ Z i , Z j ] = Cov[ Z v , Z i ] ∀ i = 1...n

et la variance d'estimation, appelée variance de krigeage simple s'écrit:


n
σ 2ks = Var[ Z v ] - ∑ λ i Cov[ Z v , Z i ]
i=1
Note: - La variance de krigeage simple est toujours inférieure à la variance de krigeage ordinaire car on n'a
pas besoin d'imposer de contrainte sur les poids λ i . Toutefois, elle requiert la connaissance de la
moyenne "m". De plus, l'hypothèse de stationnarité requise est plus forte que dans le cas du krigeage
ordinaire. Dans le cas du krigeage ordinaire, seule l'hypothèse intrinsèque est requise. Dans le cas du
krigeage simple, la stationnarité est nécessaire. Ainsi, il n'est pas possible d'effectuer un krigeage
simple si le variogramme ne présente pas de palier.
5- krigeage 4

- Le système de krigeage simple (KS) ne peut s'écrire directement en termes de variogrammes


puisqu'on n'a pas Σλi= 1.
- En termes pratiques, les estimés obtenus par krigeage ordinaire (KO) et simple (KS) sont très
similaires lorsqu'on effectue le krigeage à courte distance par rapport aux points connus et par
rapport à la portée du variogramme et que le variogramme montre une structure importante.
Lorsqu'on effectue l'estimation à grande distance ou si le variogramme montre un effet de pépite plus
important, alors l'estimation KO consistera essentiellement en une moyenne des points du voisinage
et l'estime KS sera simplement la moyenne supposée connue, i.e. "m".

- Règle générale, le KO est préférable au KS. Dans certaines applications telles le krigeage
d'indicatrices et les simulations il est préférable de recourir au KS.

5.3 Quelques cas très simples de krigeage

Ces quelques cas sont présentés dans le seul but d'acquérir une certaine intuition du comportement du
krigeage. On suppose un variogramme sphérique de portée finie "a".

i. Estimation d'un point par un autre point situé à une distance "h"

Krigeage ordinaire :
(
λ1 = 1, σ k2o = 2 σ 2 − C( h ) = 2 γ( h ) ) (Note si h>a, σ k2o = 2σ 2 )

Krigeage simple:
C( h ) C( h ) 2
λ1 = 2
, σ 2ks =σ − 2
2
(Note si h>a, σ 2ks = σ 2 )
σ σ

Remarque: Il est possible d'avoir une variance de krigeage ordinaire supérieure à la variance théorique de la
variable étudiée!

ii. Estimation d'un bloc "v" par un point situé en "x1".

Krigeage ordinaire :
λ1 = 1, σ k2o = σ 2 + σ v 2 − 2C ( v , x1 )

Krigeage simple :
C ( v , x1 ) C ( v , x1 ) 2
λ1 = , σ k2s = σ v2 −
σ2 σ2

iii. Estimation d'un point situé en x0 par deux points situés en "x1" et "x2"

Krigeage ordinaire:
σ 2 + C( x0 , x1 ) − C( x1 , x 2 ) − C( x0 , x 2 ) σ 2 + C( x0 , x 2 ) − C( x1 , x 2 ) − C( x0 , x1 )
λ1 = ,λ2 =
(
2 σ 2 − C( x1 , x 2 ) ) (
2 σ 2 − C( x1 , x 2 ))
Krigeage simple:
5- krigeage 5

σ 2 * C( x0 , x1 ) − C( x1 , x 2 )* C( x0 , x 2 ) σ 2 * C( x0 , x 2 ) − C( x1 , x 2 )* C( x0 , x1 )
λ1 = ,λ2 =
(σ )
2 2
− (C( x1 , x 2 ))2 (σ )
2 2
− (C( x1 , x 2 ))2

Note: dans les deux cas, les poids peuvent être négatifs dépendant de la position respective des trois points.
Dans le cas du krigeage simple, les poids sont nuls si les 2 points sont à une distance de x0 supérieure à la
portée.

iv. Estimation d'un point par "n" points en présence d'un variogramme effet de pépite pur.

Krigeage ordinaire :
1 (n + 1 ) 2
λi = , et σ 2ko = σ
n n

Krigeage simple :
λ i = 0 , et σ 2ks = σ 2

5.4 Lien entre krigeage simple et krigeage ordinaire

On peut démontrer que le krigeage ordinaire d'un point ou d'un bloc à partir de "n" points observations peut
se décomposer en 2 étapes:

i. Estimation de la moyenne "m" (inconnue) du processus par krigeage ordinaire en utilisant les "n" points.
ii. Estimation du point ou du bloc par krigeage simple en prenant la moyenne estimée par krigeage ordinaire
comme une moyenne connue et toujours utilisant les mêmes "n" points.

Soit λ m,i , µ m et σ 2ko , m les poids de krigeage ordinaire, le multiplicateur de Lagrange et la variance de
krigeage ordinaire obtenus pour l'estimation de la moyenne. Soit λ o ,i et µ les poids et le multiplicateur de
Lagrange pour le krigeage ordinaire du point ou bloc, λ s ,i les poids de krigeage simple et Ss = (1 − ∑λ
i
s ,i )

le poids attribué à la moyenne dans le krigeage simple. On a alors les égalités suivantes:

λ o,i = λ s,i + Ss λ m,i


µ = Ssµm
σ 2ko = σ 2ks + S s2 σ 2ko ,m

• Lorsque les données sont abondantes et que la structure spatiale est forte, alors le poids attribué à la
moyenne dans le krigeage simple, Ss, est faible et conséquemment les poids de krigeage ordinaire et
simple de même que les variances de krigeage ordinaire et simple sont presque égaux.

• Lorsque les données sont peu abondantes (loin du point ou bloc à estimer) ou que la structure est faible,
alors le poids accordé à la moyenne dans le krigeage simple, Ss, augmente. Les poids de krigeage
ordinaire et simple diffèrent davantage et la variance de krigeage ordinaire augmente par rapport à celle
de krigeage simple. Ceci reflète la difficulté accrue d'estimer la moyenne étant donné le peu
d'information disponible.
5- krigeage 6

• Les krigeages simples ou ordinaire fournissent donc des estimations similaires dans les zones fortement
échantillonnées. Dans les zones sous échantillonnées, le krigeage simple attribue un poids important à la
moyenne globale supposée connue, alors que le krigeage ordinaire attribue le même poids à une
moyenne estimée localement. Cette plus grande flexibilité du KO en fait habituellement la méthode de
choix. Comme la moyenne est constamment réestimée localement (utilisant les points retenus pour le
krigeage), l'hypothèse de stationnarité requise pour ce krigeage est moindre (il suffit que la moyenne soit
localement constante et non globalement comme pour le KS).

Exemple: Considérons en 1D un variogramme sphérique de palier 2 et de portée 10 et trois points x0, x1 et x2


situés respectivement en x=0, x=3 et x=4. On veut estimer la teneur au point x0 à partir des 2 autres points.

On trouve : σ 2 = 2 , C(1,2)=1.701, C(1,0)=1.127, C(2,0)=0.864

Appliquant les relations précédentes (voir 5.3 iii.), on trouve:


λ o,1 = 0.9398
λ s,1 = 0.7088
λ o, 2 = 0.0602
KO: , KS: λ s,2 = −0.1708 et donc Ss=(1-0.7088-(-0.1708))=0.462
µ = −0.855
σ 2ks = 1.3488
σ 2ko = 1.7438

Si l'on estime la moyenne par krigeage ordinaire, l'on trouve les poids suivants (note le système de krigeage
demeure le même sauf pour le membre de droite pour lequel toutes les covariances deviennent 0):

λ m,1 = 0.5
λ m,2 = 0.5
µ m = −1.8505
σ 2ko,m = 1.8505

On vérifie que l'on a bien :


0.7088+0.462*0.5=0.9398= λ o,1 et -0.1708+0.462*0.5=0.0602= λ o,2
de même:
0.462*-1.8505=-0.855 (multiplicateur de Lagrange du KO)
et
1.3488+0.4622*1.8505=1.7438 (variance de krigeage du KO)
5- krigeage 7

5.5 Propriétés du krigeage

Les principales propriétés et caractéristiques associées au krigeage sont:

i. Linéaire, sans biais, à variance minimale, par construction.

ii. Interpolateur exact. : si l’on estime un point connu, on retrouve la valeur connue.

iii. Présente un effet d'écran: les points les plus près reçoivent les poids les plus importants. Cet effet d'écran
varie selon la configuration et selon le modèle de variogramme utilisé pour le krigeage. Plus l'effet de
pépite est important, moins il y a d'effet d'écran.

iv. Tient compte de la taille du champ a estimer et de la position des points entre eux.

v. Par l'utilisation du variogramme, tient compte de la continuité du phénomène étudié (effet de pépite,
anisotropie, etc.).

vi. Effectue généralement un lissage, i.e. les estimations sont moins variables que les teneurs réelles (point
ou bloc) que l'on cherche à estimer.

vii. Presque sans biais conditionnel. Ceci signifie que lorsqu'on applique une teneur de coupure à des valeurs
estimées, on récupérera approximativement la teneur prévue. C'est une propriété très importante pour les
mines. Cette propriété implique que l'estimateur utilisé soit plus lisse que la valeur qu'il cherche à
estimer, ce qui est le cas pour le krigeage.

viii. Transitif. Si l’on observe en un point une valeur coïncidant avec la valeur krigée pour ce point, alors les
valeurs krigées en d'autres points ne sont pas modifiées par l'inclusion de ce nouveau point dans les
krigeages. Par contre les variances de krigeage, elles, sont diminuées. De même, si l’on krige un certain
nombre de points et que l’on utilise les valeurs krigées comme si c’étaient de nouvelles données, alors les
krigeages subséquents ne s’en trouvent pas modifiés (sauf pour la variance de krigeage).
5- krigeage 8

INTERPOLATEUR EXACT

Exemples d'interpolation par krigeage en 1D, utilisant différents modèles de variogrammes:

Modèle linéaire Modèle gaussien (a=10)


10 10

8 8

6 6
) )
x( x(
Z 4 Z 4

2 2

0 0
0 5 10 0 5 10
x x
Modèle sphérique (C0=25%, a=10) Effet de pépite pur
10 10

8 8

6 6
) )
x( x(
Z 4 Z 4

2 2

0 0
0 5 10 0 5 10
x x

Note: Aux points échantillons, le krigeage retourne la valeur de l'échantillon. Pour éviter les discontinuités
dans des cartes il est donc recommandé de ne pas kriger un point échantillon. En somme, on s'assure d'avoir
au moins une distance "epsilon" entre le point à kriger et le point échantillon. Comme souvent l'effet de
pépite représente une erreur de mesure, il est justifié de s'écarter des valeurs observées.
5- krigeage 9

EFFET D'ÉCRAN

- Cas extrême : modèle linéaire en 1-D

- Diminue lorsque l'effet de pépite augmente


(il n'y a pas d'effet d'écran lorsqu'on a un effet de pépite pur)

- Permet de limiter les systèmes de krigeage aux observations avoisinantes (voisinages glissants)

Variogramme sphérique; C=100, a=100, C0=0

Var.k.= 29.0 Var.k.= 28.0

l= -0.02 l= -0.01 l= -0.01 l= -0.02


50 50

l=0.25 l=0.25 l= -0.01 l= 0.29 l= 0.29 l= -0.01

0 0
l=0.25 l=0.25 l= -0.01 l= 0.29 l= 0.29 l= -0.01

l= -0.02 l= -0.01 l= -0.01 l= -0.02


-50 -50

-50 0 50 -50 0 50
5- krigeage 10

INFLUENCE DE LA TAILLE DU CHAMP

Lorsque la taille du champ estimé augmente,

- Les poids tendent à devenir égaux

- La variance d'estimation diminue puis augmente si on cherche à estimer un champ plus grand que
celui renfermant les données (extrapolation)

Var. k. = 8.24 Var. k. = 1.56

-0.02 0 0 -0.02 02 05 05 02
50 50

0 0.27 0.27 0 05 12 12 05

0 0
0 0.27 0.27 0 05 12 12 05

-0.02 0 0 -0.02 02 05 05 02
-50 -50

-50 0 50 -50 0 50

Var. k. = 1.06 Var. k. = 5.03


100
06 06 06 06
50
12 06 06 12
50
06 06 06 06
06 01 01 06

0 0
06 06 06 06 06 01 01 06

12 06 06 12
-50
06 06 06 06
-50
-100
-50 0 50 -100 -50 0 50 100
5- krigeage 11

POSITION DES POINTS ENTRE EUX

Contrairement aux méthodes de type "inverse de la distance", la position des points entre eux est très
importante. Chaque point est pondéré automatiquement en fonction de sa "zone d'influence". (Les poids par
inverse de la distance auraient été 1/3 pour chaque point dans les 2 cas). (Toujours variogramme sphérique
avec a=100, C=100, C0=0).

Var. k. = 29.29 Var. k. = 8.84


50 50

42 27
0 16 0 47
42 27

-50 -50
-60 -40 -20 0 20 40 -50 0 50
5- krigeage 12

INFLUENCE DE L'EFFET DE PEPITE ET DE LA PORTÉE

Plus l'effet de pépite est important (relativement à un plateau fixe), plus la variance d'estimation augmente.
Inversement, plus la portée augmente, plus la variance d’estimation diminue.

variance de krigeage vs proportion relative de pépite


7

6 modèle sphérique, a=100, c0+c=100; bloc de 133 x 133; grille centrée de 4x4

4
var. k.
3

1
0 10 20 30 40 50 60 70 80 90 100
proportion relative de pépite

variance de krigeage vs portée


5

3 modèle sphérique, c0=0; c=100; bloc de 133 x 133; grille centrée de 4x4
var. k.

0
0 50 100 150 200 250 300
portée (m)
5- krigeage 13

INFLUENCE D'ANISOTROPIES

On doit adapter l'échantillonnage en augmentant la densité d'échantillonnage dans la direction de plus faible
portée.

Dans cet exemple, le modèle est sphérique avec Co=0; C=100 et ax==200 et ay=50. Les 3 exemples ci-contre
correspondent à une même densité d'échantillonnage (1 échantillon par surface de 33*33 unités). Pour le
même coût d'échantillonnage on peut donc obtenir des estimations beaucoup plus précises si l'on ajuste la
stratégie d’échantillonnage à l’anisotropie.

var. k. = 26.5 var. k. = 87.1 var. k. = 12.1

-0.01 -0.02 -0.02 -0.01


50 50 50 -0.02 -0.02
0.17 0.04 0.04
0.04 0.04 0.17 0.01 0.01
0.1 0.19 0.19 0.1
0.26 0.26
0 0 0 0.26 0.26
0.1 0.19 0.19 0.1
0.01 0.01
0.17 0.04 0.04
-0.02 -0.02
-0.01 -0.02 -0.02 -0.01 0.04 0.04 0.17
-50 -50 -50

-50 0 50 -50 0 50 -50 0 50


5- krigeage 14

INFLUENCE DU CHOIX DU MODÈLE

Le choix du modèle a peu d'influence sur les résultats du krigeage pour autant que chaque modèle fournisse
un ajustement équivalent pour les courtes distances. Ici, le champ fait 100m x 100m et chaque point est
espacé de 33.3m. On estime le point au centre de la grille. Les modèles théoriques fournissent à peu près les
mêmes valeurs pour les distances de 0 à 25m, or les points centraux, recevant les poids les plus élevés, sont
à 24m du point à estimer.

λ1 λ2
+ + + +
λ3
+ + + +

+ + + +

+ + + +

quatre modèles de variogrammes


200

lin(1.5)
150
sph(150,150)

sph(100,100)
100

exp(150,290)
50

0
0 50 100
distance

Sphérique: C=100 Sphérique: C=150


a=100m a=150m
λ1=-.02 λ1=-.01
λ2=-.01 λ2=-.01
λ3= .29 λ3= .29
σk2= 28.0 σk2= 27.8

Exponentiel: C=150 Linéaire: Pente=1.5


a=290m
λ1=-.01 λ1=-.01
λ2=-.01 λ2=-.01
λ3= .28 λ3= .28
σk2= 28.2 σk2= 27.6
5- krigeage 15

EFFET DE LISSAGE

Krigeage simple:

Des équations du krigeage simple, il découle directement que:

Var( Z v ) = Var( Z v* ) + σ 2ks

Pour "v" fixe, le terme Var(Zv) ne dépend pas de la localisation, les termes Var(Zv*) et σ 2ks ,eux, dépendent
du bloc considéré et des échantillons disponibles.

Krigeage ordinaire:

Des équations du krigeage ordinaire, il découle directement que:

Var( Z v ) = Var( Z v* ) + σ 2ko + 2µ

Pour "v" fixe, le terme Var(Zv) ne dépend pas de la localisation, les termes Var(Zv*) et σ 2k 0 et µ ,eux,
dépendent du bloc considéré et des échantillons disponibles. Normalement, σ 2ko + 2µ > 0 , d'où l'effet de
lissage annoncé.

Exemple. Considérons un bloc carré de taille 10 x 10 estimé par ses 4 coins. Le variogramme est sphérique
avec palier de 1 et portée de 20. L'estimation est faite par krigeage ordinaire (poids égaux à 0.25).

Utilisant les abaques, on trouve :

Var(Zv)=0.6278
σ 2ko = 0.1311

De plus, Var(Zv*)=1/16*(4*1+8*0.3125+4*0.1161)=0.4353

On trouve en substituant dans les équations de krigeage ordinaire µ = 0.0307

On a bien. 0.4353+0.1311+2*0.0307=0.6278

On peut étendre la relation de lissage aux variances de dispersion des blocs et des valeurs krigées (on
suppose que la taille du voisinage utilisée pour le krigeage est faible par rapport à la taille du gisement et que
le voisinage ne change pas d'un bloc à l'autre):

Krigeage simple:
D 2 ( Z v | G ) = Var ( Z v ) − C (V, V) = Var ( Z*v ) − C (G , G ) + σ 2ks ≈ D 2 ( Z*v | G ) + σ 2ks
Krigeage ordinaire:

D 2 ( Z v | G ) = Var ( Z*v ) + σ 2ko + 2µ − C (G , G ) ≈ D 2 ( Z*v | G ) + σ 2ko + 2µ


5- krigeage 16

BIAIS CONDITIONNEL

Considérons la teneur réelle du bloc Zv et son estimation Zv*. Supposons que l'espérance conditionnelle de Zv
étant donné Zv* est linéaire (ce sera assuré si les deux suivent une loi binormale). On aura alors:

[ ]
E Z v | Z v* = a + bZ v*

Cov( Z v , Z v* )
où b = et a=(1-b)m
Var( Z v* )

Krigeage simple,
Par construction, on a : Var( Z v* ) = Cov( Z v , Z v* ) ⇒ b = 1, a = 0
Conséquemment,
[ ]
E Z v | Z v* = Z v*
ce qui démontre que dans ce cas on retire en moyenne ce que l'on a prévu (absence de biais conditionnel).

Krigeage ordinaire
Par construction on a alors:
µ −µ
Var( Z v* ) + µ = Cov( Z v , Z v* ) ⇒ b = 1 + ,a =
Var(Z*v ) Var(Z*v )
Conséquemment,
[ ]
E Z v | Z v* = Z v* +
µ
Var( Z v* )
( Z v* − m )

ce qui indique que le krigeage présente un biais conditionnel. Ce biais sera très faible lorsque l'estimation sera
précise (faible variance de krigeage et multiplicateur de Lagrange près de zéro, forte Var(Zv*)).

Généralement, le multiplicateur de Lagrange est légèrement négatif, ce qui implique que la pente de la
régression est inférieure à 1. Donc en utilisant les valeurs krigées directement, on surestime légèrement aux
fortes teneurs et on sous-estime aux faibles teneurs.

Note : pour l’estimateur par méthode polygonale, l’on a :


Cov( Z v , Z*v ) Cov( Z v , Zi )
b= = <1
Var( Z*v ) σ2
cet estimateur présente un biais conditionnel qui sera d’autant plus important que le point utiliser sera éloigné
du bloc à estimer.

Remarque: lien entre lissage et biais conditionnel


Cov( Z v , Z v* )
Comme on l'a vu, on a b =
Var( Z v* )
ρσ v σ*v ρσ v
On peut réécrire cela comme: b = =
Var( Z v* ) σ*v
5- krigeage 17

ρ est le coefficient de corrélation entre Zv et Zv* et est nécessairement inférieur (ou égal) à 1 et
σ*v = Var(Z *v )0.5 . Pour que b=1, il faut donc obligatoirement que l'on ait σ*v ≤ σ v . On conclut que si un
estimateur est plus variable que la quantité qu'il cherche à estimer alors il présente certainement un biais
conditionnel (la pente de la régression sera inférieure à 1). C'est, par exemple, le cas pour l'estimateur par
méthode polygonale ou la variance des valeurs estimées est égale à la variance des données ponctuelles. Le
lissage de l'estimateur (propriété du krigeage) est un préalable essentiel à l'absence de biais conditionnel.

5.6 Pratique du krigeage

Grille de krigeage: Souvent, le krigeage est réalisé sur une grille régulière de points ou de blocs.

Dans le cas de points, L'objectif est habituellement de fournir une carte de la variable étudiée. La grille de
krigeage doit être alors assez dense pour que la carte corresponde effectivement au krigeage et non à la
méthode particulière (souvent inconnue) utilisée pour tracer les isocontours.

Lorsque des blocs sont estimés, ceux-ci correspondent en général à des unités de sélection (SMU: small
mining units) de la mine et leur taille est donc dictée par l'opération. L'objectif peut être d'appliquer une
teneur de coupure à ces blocs pour prévoir les ressources du gisement. Toutefois, le nombre de blocs de la
grille ne devrait généralement pas dépasser d'un facteur 10 le nombre d'observations dans la zone d'intérêt.
En effet, les ressources estimées varient très peu au-delà d'un certain niveau de discrétisation. Passé ce seuil,
on augmente considérablement le temps de krigeage sans effet réel sur les estimés.

Voisinage utilisé pour le krigeage:

i. Habituellement en voisinages glissants.


ii. Nombre de points suffisant ( >10; peut atteindre jusqu'à 50-100).
iii. Zone de recherche des points assez grande pour assurer un minimum de points dans le krigeage.
S'il y a anisotropie, on peut adopter une zone de recherche elliptique parallèle à la direction de meilleure
continuité. Toutefois une zone de recherche circulaire peut être suffisante si l'on augmente suffisamment
le nombre de points dans le krigeage.
iv. Recherche par quadrants assure une répartition plus uniforme des points (exiger au moins 2 ou 3 points
par quadrant)

Exemple: Recherche circulaire avec un maximum de deux points par quadrant.

3 et 11 sont rejetés car en dehors du cercle de recherche.


8 est rejeté car deux autres points sont plus rapprochés du point à estimer dans ce quadrant.

7 6

10
9

3 2 8
5 11
5- krigeage 18

5.7 Validation croisée

Une pratique intéressante pour valider le modèle de variogramme et le voisinage utilisé pour le krigeage
consiste à effectuer une validation croisée. Le principe est d'éliminer à tour de rôle chaque observation et de
l'estimer à l'aide de ses voisins. En chaque point, on obtient donc une valeur vraie et une valeur estimée que
l'on peut comparer pour déterminer si le modèle fournit des estimations se comportant comme prévu , si le
voisinage utilisé est adéquat, etc.

Plus précisément, soit Zi* l'estimation obtenue par krigeage au point "i" (en enlevant la valeur observée Zi)
ei
ainsi que la variance de krigeage σ 2ki . On peut définir un résidu ei=Zi-Zi* et un résidu normalisé ni = .
σ ki
Un modèle et un voisinage adéquats devraient fournir:

i. ∑ ei ≈ 0 et ∑ ni ≈ 0
i i
ii. ∑ | ei | min ou ∑ ei2 min
i i
0.5
1 
iii.  ∑ ni2  ≈1
n 
 i 

iv. Il faut aussi examiner l'histogramme des ei et des ni, de même que leur disposition spatiale pour
vérifier si les statistiques précédentes pourraient être causées par 1 ou 2 données extrêmes et vérifier
si les résidus sont spatialement homogènes.

Remarques:

• Dans le krigeage pour la validation croisée, il faut chercher à reproduire autant que possible un contexte
d'estimation semblable à celui qui sera utilisé au moment du krigeage proprement dit. Ainsi, si les
données proviennent de forages, on n'utilisera pas tous les voisins du point à estimer car lorsqu'on
estimera un bloc, les observations montreront des distances supérieures, par rapport au bloc, à celles
rencontrées le long d'un forage. On devrait donc, pour estimer un point d'un forage, éviter d'utiliser des
observations du même forage. Également, on devrait éviter d'inclure les points de la périphérie qui se
trouvent alors estimés en situation d'extrapolation. On peut les repérer assez facilement à l'aide des
variances de krigeage qui seront supérieures pour ces points.
• Les statistiques précédentes sont assez peu sensibles à des changements mineurs de voisinage ou de
modèle de variogramme. Il faut les utiliser en conjonction avec le variogramme expérimental.
• Pour choisir entre 2 modèles, les statistiques des erreurs brutes sont préférables. On peut ensuite ajuster
ce modèle, par exemple en multipliant le variogramme par une constante (C0 et C). Dans ce cas les
estimations ne changent pas mais les variances de krigeage sont multipliées par cette constante. Si la
statistique des résidus normalisés, en (iii), est trop élevée, alors on doit utiliser un variogramme montrant
moins de structure (i.e. fournissant une plus grande variance de krigeage).
5- krigeage 19

Illustration de la validation croisée

Les 4 figures suivantes montrent les résultats de simulation effectuées pour 1600 points (40 x 40) à des pas
variables (abscisse sur les graphes). En ordonnée, on retrouve dans la figure du maut la moyenne des erreurs
de krigeage (par validation) au carré et la moyenne des variances de krigeage. Dans la figure du bas on a la
moyenne des erreurs de krigeage normalisées par la variance de krigeage. Tous les krigeages sont effectués
avec 50 voisins. Le véritable modèle utilisé pour la simulation est sphérique avec a=10 (C0=0) pour les 3
premières figures et un effet de pépite pur pour la dernière. Dans tous les cas, la variance des données
simulées est 1.

Figure 1 : le krigeage est effectué avec le bon modèle.


Validation croisée, bon modele: e2
2
Moy e2
1.5 Moy σ 2

0.5

0
2 3 4 5 6 7 8
2
n (erreurs normalisées)
2

1.5

0.5

0
2 3 4 5 6 7 8
Pas de la grille

On note :
- la variance de krigeage prédit parfaitement la précision accrue due à une grille plus resserrée;
- les erreurs normalisées ont une variance de 1 comme prévu.
5- krigeage 20

Figure 2 : On a fourni un modèle trop pessimiste (effet de pépite pur) au lieu du vrai modèle :
Effet pépite pur au lieu de sphérique a=10: e2
2
Moy e2
1.5 Moy σ 2

0.5

0
2 3 4 5 6 7 8
2
n (erreurs normalisées)
2

1.5

0.5

0
2 3 4 5 6 7 8
Pas de la grille

On note :
- pour la grille espacée (pas de 6 à 8), la structure est faible et la variance de krigeage prédit assez bien la
précision obtenue;
- pour les grilles serrées (2 à 4), la variance de krigeage est supérieure à la variance des erreurs (vue
pessimiste) ce qui résulte en une variance des erreurs normalisées inférieure à 1.

Figure 3 : On a fourni un modèle trop optimiste par rapport à la réalité de la simulation (a=20 au lieu de
a=10)

Sphérique a=20 au lieu de a=10: e2


2
Moy e2
1.5 Moy σ 2

0.5

0
2 3 4 5 6 7 8
2
n (erreurs normalisées)

0
2 3 4 5 6 7 8
Pas de la grille
5- krigeage 21

On note que la variance de krigeage sous-estime la variance des erreurs (vue optimiste); la variance des
erreurs normalisées est donc supérieure à 1.

Figure 4 : On a fourni un modèle trop optimiste par rapport à la réalité (sphérique avec a=10 fourni vs
réalité : effet de pépite pur)

Sphérique a=10 au lieu de pépite pur: e2


2
Moy e2
1.5 Moy σ 2

0.5

0
2 3 4 5 6 7 8
2
n (erreurs normalisées)

0
2 3 4 5 6 7 8
Pas de la grille

On note :
- la variance des erreurs augmente puis décroît en fonction du pas de la grille;
- bien qu’une grille au pas 4 représente 4 fois plus d’échantillons qu’une grille au pas 8, la variance des
erreurs est supérieure. En spécifiant le mauvais modèle, on ne profite pas de l’information accrue
disponible. . Il peut donc être assez dangereux de fournir un modèle exagérément optimiste.
L’explication pour la détérioration de la précision est que les poids de krigeage présentent un fort effet
d’écran lorsqu’ils sont près du point à estimer (grille serrée) et que l’on se trouve donc à faire une
moyenne sur quelques points seulement au lieu des 50 points lorsque la grille est assez espacée pour que
les corrélations (et l’effet d’écran) soient faibles.
- la variance des erreurs normalisées est nettement supérieure à 1, indiquant que le modèle est
exagérément optimiste

Autres mesures de validation

∑ (Z i − Z ) ) devrait être égale à la variance de


1 2
ˆ2=
i. La variance expérimentale des teneurs (i.e. σ
n
dispersion d'un point dans le gisement D2(•|G).

ii. La relation de lissage du krigeage (voir section 5.3) fournit naturellement un outil de validation du modèle.
Une fois le modèle fixé, on peut calculer les variances de bloc pour différentes tailles de bloc. On peut
également réaliser les krigeages pour différentes tailles de bloc et calculer la variance expérimentale des
5- krigeage 22

valeurs krigées ( σ 2
ˆ *Z ) les moyennes des multiplicateurs de Lagrange ( µ )et des variances de krigeage σ ko .
v

On devrait alors avoir: σˆ *Zv ≈ D 2 ( Z v | G ) − σ ko


2
− 2µ .

5.8 Exemple numérique de krigeage

Soit les points suivants:

x1

x2 x0 x3

x1=(0,1) Z1=9
x2=(0,0) Z2=3
x3=(3,0) Z3=4

On veut estimer le point x0 situé à (1,0). Supposons que l'on a un modèle sphérique, avec effet de pépite 1,
palier 11 et portée 3. On calcule d'abord les distances entre toutes les paires de points:
h
x0 x1 x2 x3
x0 0 1.4 1 2
x1 1.4 0 1 3.2
x2 1 1 0 3
x3 2 3.2 3 0

On évalue le variogramme sphérique à chacune de ces distances avec l'équation:


γ h = 0 si h = 0
 h  h 
3
γ h = 1 + 10 1.5 - 0.5    si 0 < h ≤ 3
 3  3 

= 11 h > 3

γ(h)
x0 x1 x2 x3
x0 0 7.55 5.81 9.52
x1 7.55 0 5.81 11
x2 5.81 5.81 0 11
x3 9.52 11 11 0
5- krigeage 23

On calcule la covariance correspondante

C(h)=11-γ(h)
x0 x1 x2 x3
x0 11.0 3.45 5.19 1.48
x1 3.45 11 5.19 0
x2 5.19 5.19 11 0
x3 1.48 0 0 11

Ceci permet de construire le système de krigeage:

K λ = k0

i.e., dans ce cas:

    =  
 11 5.19 0 1  λ 1  3.45
 5.19 11 0 1    5.19 
  λ 2   
 0 0 11 1    1.48 
  λ 3   
 1 1 1 0    1
 µ

dont la solution est:

  =  
 λ 1  .21
   .51
λ 2   
   .28
λ 3   
 µ -1.55
 

L’estimation est alors:

Σ λiZi = (.21)*9 + (.51)*3 + (.28)*4 = 4.54

La variance de krigeage est donnée par:

σ 2ko = 11 - λ′ k 0 = 8.76
Note: λ ' k 0 = (.21 * 3.45) + (.51 * 519
. ) + (.28 * 1.48) − (155
. * 1) = 2.24
9- Cokrigeage 1

9. Cokrigeage

Souvent l'on a plusieurs variables mesurées, soit aux mêmes points échantillons, soit en des points
différents. Par exemple on pourrait connaître la position du sommet d'un réservoir pétrolier en quelques
points et disposer d'une large couverture sismique donnant la position approximative pour ce sommet. On
pourrait avoir un gisement de Cu et Ni où les deux variables sont mesurées en tout point. En
hydrogéologie, on pourrait connaître les charges hydrauliques en quelques points et les transmissivités en
un nombre plus restreint de points, etc.

Sans perte de généralité, l'on va considérer le cas où une des variables est identifiée comme prioritaire
(variable principale Z), et les autres sont des variables secondaires. Pour simplifier l'écriture, on va
considérer que l'on a une seule variable secondaire (Y). Toutefois l'extension à plusieurs variable est
immédiate et ne pose aucun problème théorique particulier.

Comment peut-on utiliser l'information fournie par la variable secondaire pour améliorer l'estimation de la
variable principale? La démarche suivie est une généralisation de celle vue au chapitre sur le krigeage.

Cokrigeage ordinaire

On veut former une estimation linéaire de la variable principale à partir d'observations de la variable
principale et de la variable secondaire:

nz ny
Z 0* = ∑ λ i Z i + ∑ α i Yi
i =1 i =1
L'estimateur doit être sans biais, ceci est assuré en imposant:

nz ny
∑ λ i = 1 et ∑ α i = 0
i =1 i =1
La variance d'estimation s'écrit:

nz nz ny ny nz ny nz ny
Var( Z0 − Z0* ) = Var( Z0 ) + ∑∑λiλ jCov(Zi ,Z j ) + ∑∑αiα jCov(Yi ,Yj ) + 2∑ ∑λiα jCov(Zi ,Yj )− 2∑λiCov(Z0 ,Zi ) −2∑αiCov(Z0 ,Yi )
i =1 j =1 i =1 j =1 i =1 j =1 i =1 i =1
On forme le Lagrangien et l'on dérive par rapport aux poids inconnus et aux 2 multiplicateurs de Lagrange
introduits pour tenir compte des contraintes de non-biais. On obtient le système de cokrigeage ordinaire:

nz ny
∑ λ j Cov( Z i , Z j ) + ∑ α j Cov( Z i ,Y j ) + µ z = Cov( Z 0 , Z i ) ∀i = 1...nz
j =1 j =1
nz ny
∑ λ j Cov( Yi , Z j ) + ∑ α j Cov( Yi ,Y j ) + µ y = Cov( Z 0 ,Yi ) ∀i = 1...ny
j =1 j =1
nz
∑ λi = 1
i =1
ny
∑ αi = 0
i =1
9- Cokrigeage 2

Substituant ces équations dans l'expression de la variance d'estimation, on trouve la variance de


cokrigeage ordinaire:

nz ny
2
σ ck = Var( Z 0 ) − ∑ λ i Cov( Z 0 , Z i ) − ∑ α i Cov( Z 0 ,Yi ) − µ z
i =1 i =1

Évidemment ce système s'écrit très simplement sous forme matricielle:


2
Kλ = k et σ ck = Var( Z 0 ) − λ' k

où la matrice K de taille (nz+ny+2) x (nz+ny+2) contient toutes les covariances point observation -point
observation pour les 2 variables, le vecteur k (nz+ny+2) contient toutes les covariances entre le point (ou
bloc) à estimer et les points de données pour les 2 variables.

Note: Il est nécessaire d'avoir au moins une observation de la variable principale et 2 observations de la
variable secondaire pour effectuer le cokrigeage ordinaire.

Cokrigeage simple

Si l'on connaît les deux moyennes, mz et my, on n'a qu'à les soustraire et à travailler avec les résidus. On
estime alors en x0 un résidu auquel on rajoute la moyenne mz. Les conditions de non-biais ne sont plus
requises. La matrice de cokrigeage est alors de taille (nz+ny) x (nz+ny). Il résulte:

nz ny
∑ λ j Cov( Z i , Z j ) + ∑ α j Cov( Z i ,Y j ) = Cov( Z 0 , Z i ) ∀i = 1...nz
j =1 j =1
nz ny
∑ λ j Cov( Yi , Z j ) + ∑ α j Cov( Yi ,Y j ) = Cov( Z 0 ,Yi ) ∀i = 1...ny
j =1 j =1

et
nz ny
2
σ ck = Var( Z 0 ) − ∑ λ i Cov( Z 0 , Z i ) − ∑ α i Cov( Z 0 ,Yi )
i =1 i =1
Note: Contrairement au cokrigeage ordinaire, il n'est pas nécessaire d'avoir des observations de la variable
principale, et on peut avoir une seule observation de la variable secondaire (si l'on n'a aucune observation
de la variable secondaire, ce n'est plus un cokrigeage, c'est un krigeage).

Si une seule des deux variables est à moyenne connue, on utilise alors un système de cokrigeage ordinaire
avec une seule condition de non-biais sur la variable de moyenne inconnue.

Propriétés du cokrigeage

Toutes les propriétés du krigeage sont valides pour le cokrigeage. En plus,


9- Cokrigeage 3

i. Si l'on estime directement par cokrigeage une combinaison linéaire des variables, la valeur
cokrigée sera égale à la même combinaison linéaire appliquée aux valeurs cokrigées de chaque
variable. (Ce ne serait pas le cas pour le krigeage).

Une application de cette propriété est le problème de tracer le haut et la base d'une formation. On pourrait
kriger directement le haut, kriger directement le bas et kriger directement l'épaisseur de la formation. Les
deux estimés du bas obtenus, soit directement, soit en prenant le haut - l'épaisseur, ne seront pas les
mêmes. Au contraire, si l'on avait effectué un cokrigeage, l'on aurait été assuré que les estimations
coïncident pour les 2 approches.

Une autre illustration de cette propriété est l'inversion gravimétrique. En cokrigeant les densités de bloc
par les anomalies gravimétriques, on est assuré que les densités estimées vont reproduire exactement
l'anomalie mesurée aux points observations.

ii. Propriété de cohérence. Si l'on effectue le cokrigeage pour estimer une variable et sa dérivée, on a
alors que le cokrigeage (i.e. l'estimation) de la dérivée est égale à la dérivée du cokrigeage. De
même, pour toute transformation linéaire de Z, le cokrigeage de la transformation linéaire est la
transformation appliquée à la valeur estimée Z* par cokrigeage. Cette propriété généralise la
propriété "i."

iii. La variance de cokrigeage est toujours inférieure (ou égale) à la variance de krigeage.

iv. Si la variable secondaire est échantillonnée aux mêmes points (ou en un sous ensemble des mêmes
points) que la variable principale et que les covariances croisées et directes sont proportionnelles,
(i.e. il existe un modèle unique C(h) permettant de décrire toutes les covariances à une constante
multiplicative près) alors le cokrigeage est identique au krigeage.

Une conséquence de cette propriété est, qu'en général, on aura très peu de gain d'un cokrigeage si la
variable secondaire n'est pas échantillonnée de façon plus abondante que la variable principale (ou du
moins en d'autres points). De plus il faut une corrélation assez forte entre les variables principale et
secondaire pour justifier le cokrigeage (>0.5 et même, dans bien des cas >0.7).

Remarque: Une situation courante de cokrigeage est le cas d'une variable secondaire connue presque en
tout point. Dans ce cas, il vaut mieux constituer le voisinage de cokrigeage en prenant, au moins, la
variable secondaire aux mêmes points que la variable principale et au point où l'on veut faire l'estimation.
On peut aussi ajouter quelques observations de la variable secondaire à proximité du point à estimer en
prenant garde toutefois de ne pas rendre la matrice de cokrigeage quasi-singulière par l'inclusion de deux
points très proches l'un de l'autre.

9.1 Fonctions de covariance admissibles

On a vu précédemment que l'on devait connaître Cov(Zi,Zj), Cov(Yi,Yj), et Cov(Zi,Yj). Les deux premières
covariances sont dites simples, la dernière croisée. Comme pour le cas univariable, on utilisera
généralement pour les covariances simples des modèles connus admissibles, toutefois, pour la covariance
croisée, les coefficients effet de pépite, et paliers peuvent être négatifs (cas d'une corrélation négative entre
les variables Z et Y. De plus, Cov(Zi,Yj) n'est pas nécessairement une fonction symétrique. La vérification
que le modèle multivariable (i.e. globalement les covariances simples et croisée) est admissible est donc
plus complexe que pour le cas univariable. De façon générale, on doit évaluer les transformées de Fourier
9- Cokrigeage 4

(analytique) de chaque modèle (covariances simples et croisées), former à chaque fréquence la matrice de
densité spectrale et vérifier que celle-ci est positive semi-définie pour chaque fréquence.

Toutefois, il existe des cas où la vérification est plus aisée:

i. Relations déterministes entre Z et Y (ex. Y est la dérivée de Z). Dans ce cas, il existe aussi une
relation entre les covariances simples et croisée des 2 variables et l'on est assuré que le modèle
ainsi formé est admissible. En particulier, si on considère Z et L(Z) où L(Z) est un opérateur
linéaire quelconque appliqué à Z (ex. dérivée de tout ordre, intégration, combinaison linéaire,
etc.), on a Cov(Z(x),L(Z(x+h)))=L(Cov(Z(x),Z(x+h))).
ii. Covariances proportionnelles. Toutes les covariances peuvent être écrites en fonction d'un seul
modèle commun à une constante multiplicative près. Ainsi,
C zz ( h ) C zy ( h )  B zz B zy 
C ( h ) C ( h ) =  B B yy 
C( h ) = BC( h )
 yz yy   yz
La matrice de coefficients B est symétrique et il faut qu'elle soit positive semi-définie (i.e.
déterminant positif ou nul). Dans ce modèle, si chaque observation est analysée pour Z et Y, alors
le cokrigeage devient équivalent au krigeage et l'on n'a donc aucun intérêt à effectuer le
cokrigeage. Si Y est échantillonné en des points différents de Z et qu'il existe une bonne
corrélation entre ces 2 variables, alors le cokrigeage peut être profitable.
Remarque: Le modèle proportionnel est le seul pour lequel la corrélation entre Z et Y ne varie pas
en fonction du support sur lequel on mesure Z et Y. De plus c'est le seul modèle où une
décomposition en facteurs orthogonaux (analyse en composantes principales, assure que les
facteurs sont orthogonaux pour toute distance (i.e. la covariance croisée des facteurs est nulle).

iii. Modèle linéaire de corégionalisation (le plus fréquemment utilisé). Toutes les covariances peuvent
s'écrire comme une combinaison linéaire de covariances élémentaires. Ainsi,

C zz ( h ) C zy ( h )  B1,zz B1,zy   B2 ,zz B2 ,zy 


C ( h ) C ( h ) =  B C
B1, yy  1
( h ) + B C ( h ) + ... = B1C1 ( h ) + B2 C 2 ( h ) + ...
B2 , yy  2
 yz yy   1, yz  2 , yz

Dans ce modèle, les matrices de coefficients B1, B2,... sont toutes symétriques et doivent être
positives semi-définies. Si l'une des matrices n'est pas positive semi-définie alors ce n'est pas un
modèle linéaire de corégionalisation et l'on ne sait pas si le modèle est admissible à moins d'en
vérifier la validité dans le domaine spectral.

9.1.1 Exemple

On a 2 variables Z et Y. La variable Z montre un effet de pépite de 1 et une covariance sphérique de portée


30m et de palier 2. La variable Y montre un effet de pépite de 1 et une covariance sphérique de portée
30m et de palier 4. La covariance entre Z et Y est symétrique, montre un effet de pépite nul et une
covariance sphérique de portée 30m et de palier 2.4. On peut donc écrire:

C zz ( h ) C zy ( h ) 1 0  2 2. 4 
C ( h ) C ( h ) =   δ( h ) +   Sphérique( a = 30m , C = 1 )
 yz yy  0 1  2.4 4 
Note: δ( h ) =1 si h=0, 0 si |h|>0.
9- Cokrigeage 5

La forme du modèle est celle d'un modèle linéaire de corégionalisation. Le déterminant de la 1ère matrice
de coefficients est 1, celui de la 2e matrice est 2.24. Le modèle est donc admissible. Supposons que l'on
cherche à évaluer Cov(Z(x),Y(x+10)). Avec ce modèle, l'on aura:
Cov(Z(x),Y(x+10))= 0+2.4*[1- (1.5*10/30-0.5*(10/30)3)]=1.244.

Note: ce modèle procure une corrélation, à la distance 0, de (2.4/(3*5)0.5)=0.62, qui est assez faible.
Toutefois, si on interprète l'effet de pépite comme un bruit blanc, alors la corrélation entre les variables
non bruitées serait de: 2.4/(2*4)0.5=0.85, ce qui est beaucoup plus élevé.

Ex. de cokrigeage: supposons que l'on ait observé Z1 et Y1 en x1=0 , Z2 en x2=10 et Y0 en x0=5.
Comparons l'estimation de Z0 (au point x0=5) par krigeage et cokrigeage simples. On suppose les deux
variables de moyenne 0.

On a: Z1,Y1 Y0 Z2
Z0 ? x
0 5 10

Par krigeage simple:


Z 1 Z 2 Z0
Z1  3 1.037   λ 1  1.5046
=

Z 2 1.037 3  λ 2  1.5046

λ 1 = λ 2 = 0.3727 et σ 2k = 1.8784

Par cokrigeage simple, on trouve:


Z 1 Z 2 Y1 Y 0 Z0
Z1  3 1.037 2.4 1.8056   λ 1, z  1.5046
Z2  1.037 3 1 . 2444 1. 8056  λ  1.5046
   2, z  =  
Y1  2.4 1.2444 5 3.0093  λ 1, y  1.8056
    
Y0 1.8056 1.8056 3.0093 5  λ 0, y   2.4 

2
λ1,z = 0.2294, λ 2 ,z = 0.2336, λ1, y = 0.0072, λ 0 , y = 0.3085 et σ ck = 1.5500

Noter que i. la variable auxiliaire a reçu un poids important au point x0, ii.la symétrie pour les poids des 2
points Z n'est pas préservée car en un de ces points on connaît aussi Y, iii. la réduction assez importante de
la variance d'estimation procurée par le cokrigeage.

Par krigeage ordinaire, on aurait eu:


λ1 = λ 2 = 0.5 et σ 2k = 2.0093

Par cokrigeage ordinaire:


2
λ 1,z = 0.5494, λ 2 ,z = 0.4506, λ 1, y = −0.1678, λ 0 , y = 0.1678 et σ ck = 1.9067
9- Cokrigeage 6

Noter que la somme des poids de la variable Z donne 1 et celle de Y donne 0 tel que prévu. Cette dernière
contrainte empêche ici le cokrigeage ordinaire d'améliorer substantiellement la prédiction du krigeage
ordinaire comme l'indique la variance de cokrigeage.

9.1.2 Le variogramme croisé

Une autre fonction de structure croisée que l'on peut utiliser lorsqu'on sait que les covariances sont
symétriques est le variogramme croisé, défini comme:

γ zy ( h ) = 0.5* E[(Z( x ) − Z( x + h ))(Y( x ) − Y( x + h ))] = 0.5 * Cov((Z( x ) − Z( x + h )),(Y( x ) − Y ( x + h )))


Comme on le voit de la définition, le variogramme croisé est une fonction symétrique et seuls les points
où les 2 variables sont connues peuvent contribuer à l'estimation du variogramme croisé. Ce lourd
handicap est à comparer aux deux avantages principaux du variogramme croisé, soit le fait que l'on n'ait
pas besoin d'estimer les moyennes de Z et Y et le fait que les modèles n'ont pas nécessairement de palier.
Personnellement, je crois préférable, dans la majorité des cas, d'utiliser la covariance croisée.

On a la relation suivante entre covariance croisée et variogramme croisé:


( )
γ zy ( h ) = C zy ( 0 ) − 0.5 * C zy ( h ) + C zy ( −h )
Pour une covariance symétrique, on retrouve une relation analogue à celle du cas univariable. De plus si
on pose Y=Z, i.e. cas univariable, on retrouve l'expression du cas univariable.

9.2 Exemple d'application (inspiré de Gloaguen, M.Sc.A., 2000)

Des forages dans un aquifère à nappe libre peu profond ont permis la détermination du niveau du fond de
l'aquifère en 4 points (25,25), (75,25), (75,75) et (25,75). On a aussi effectué un levé géoradar sur une
grille régulière de 10m allant de 0 à 100m en x et y. L'objectif est de décrire la forme du fond de l'aquifère
en utilisant les deux type de données. On effectue un cokrigeage ordinaire en utilisant les 4 forages et les
121 points de levés géoradar. Les données géoradar prennent 2 valeurs distinctes soit -0.5 et -3.5, -3.5
correspondant au fond d'un chenal. Les 4 forages montrent la valeur -1. Noter que les valeurs radars
semblent indiquer un décalage par rapport aux valeurs des forages (-0.5 vs -1) .

Un modèle linéaire de corégionalisation est adopté avec composante sphérique de portée 100m, et
 2 1.8
B=  (donc corrélation de 0.9 entre les 2 variables). La figure suivante montre que les
1.8 2 
estimations aux mêmes points que les données radar prennent également 2 valeurs à -1.11 et -3.8. Le
décalage des données radar a donc été filtré par le cokrigeage ordinaire (un décalage plus grand aurait
donné exactement les mêmes résultats), et l'on a pu retrouver la forme du chenal presque parfaitement.
Par contraste, un krigeage ordinaire effectué avec les seuls 4 forages aurait donné une surface plane au
niveau -1.
9- Cokrigeage 7

Vous aimerez peut-être aussi