Vous êtes sur la page 1sur 29

VINCENT VALLES

OUTILS MATHÉMATIQUES ET STATISTIQUES POUR LES GÉOSCIENCES:

INITIATION AU TRAITEMENT DES DONNÉES PAR GÉOSTATISTIQUES ET


CHRONOSTATISTIQUES

Ceci ne constitue qu’une simple introduction aux géostatistiques afin de donner


quelques notions. Quelques simplifications ou raccourcis ont été faites pour aider
l’apprentissage et pour un travail plus profond, il faudra se référer à des ouvrages de
géostatistiques. De très bons ouvrages spécialisés existent, notamment ceux de Webster, et il
est vivement conseillé de s’y référer afin d’approfondir ces questions.
Un petit logiciel de géostatiques et un autre de chronostatiques ont été élaborés pour
les questions plus spécifiques à l’hydrochimie. Il sera prochainement possible de les
télécharger à partir du site Terre Et Eau. En cas de nécessité, veuillez vous manifester afin
d’obtenir une version de ce logiciels sur CD.

Introduction:
Approche intuitive et justification de l’intérêt de la géo/chrono statistique

Dans la continuation du baccalauréat, les enseignements de statistique lors des


premières années universitaires en STU ou bio ont essentiellement été consacrées aux
traitement de séries de données non localisées dans le temps ou l’espace. En sciences de la
terre, la prise en compte de la structure spatiale ou temporelle des variations d’un ou plusieurs
paramètres est importante. Il permet de calculer des cartes t de connaître leur fiabilité ou bien
de quantifier le caractère cyclique de certaines variations, par exemple influencées par le
climat.
Les approches géostatistiques et chronostatistiques sont très voisines car l’axe
monodimensionnel temporel est comparable à un axe monodimensionnel de l’espace.
Cependant, le traitement des séries temporelles peut présenter des spécificités par rapport à
des structures spatiales monodimensionnelles.
En sciences de la terre, on traite souvent de structures spatiales bidimensionnelles,
plus rarement tridimensionnelles ou monodimensionnelles.
Qu’apporte la localisation dans l’espace ou le temps de la mesure par rapport à des
donnes non localisées?
Illustration par l’exemple :

Cas de géostatistiques 1D ou de chronostatistique :


Si l’on considère les trois cas de figure A, B et C suivants: (l’utilité des valeurs
marquées en rouge sera expliquée plus bas).

A B C
50.47 44.17 44.17
49.67 45.85 45.85
49.97 56.93 48.04
49.95 60.87 49.67
49.85 48.04 50.97
49.80 50.97 55.08
49.78 55.18 55.18
50.23 55.08 56.93
50.20 64.16 60.87
49.87 49.67 64.16

Les trois séries présentent la même moyenne (50 environ).


Si l’on compare les séries A d’un coté et B et C de l’autre, ces sériés diffèrent par la
variabilité:
- pour la série B et C la variance est supérieure à celle de la série A (plus forte
hétérogénéité des valeurs autour de 50).
- Pour les séries B et C moyenne et variance sont identiques, mais la disposition
dans l’espace (si la série est un transect) ou le temps (s’il s’agit d’une série
temporelle) est différente. La description d’une série de données par la
moyenne et la variance est insuffisante dès lors que l’on localise ces données
dans le temps ou l’espace. Le but de ce chapitre est de vous permettre de
caractériser cette structure spatiale ou temporelle.

Si l’on souhaite faire une estimation de données entre les deux valeurs représentées en
rouge sur chaque série, la situation sera différente entre chaque cas A, B et C :
- Dans le cas A, il est raisonnable de proposer la valeur 50 qui est la moyenne de
la série. Cette estimation sera probablement poche de la réalité car dans cette
série, la variabilité est faible. Les valeurs ‘écartent peu de la moyenne.
- Dans le cas B, il faudra retenir aussi la moyenne, c’est à dire 50 comme
meilleure estimation de la valeur. Cependant, comme cette série présente une
variance plus forte, cette estimation sera plus hasardeuse que dans le cas A.
- Dans le cas C qui présente la même moyenne et la même variance que pour la
série B, l’estimation sera différente. Les valeurs montrent une évolution
progressive (croissante depuis la première jusqu’à la dernière). On pourra
estimer la valeur par la moyenne entre les deux données qui encadrent la valeur
à estimer, moyenne arithmétique ou géométrique, soient respectivement 62.52
ou 62.49. Cette estimation sera beaucoup plus fiable que dans le cas B.

Ainsi, pour une même moyenne et un même écart type, on perçoit intuitivement que la
localisation des données dans le temps ou l’espace introduit une information supplémentaire
qu’il convient d’intégrer en terme de structure spatiale ou temporelle, information qui sera
très utile lors des estimations. Le but de ce chapitre est précisément de caractériser la structure
spatiale ou temporelle, de déterminer les meilleures méthodes d’estimation et enfin de
caractériser la fiabilité des ces estimations de valeurs temporelles ou spatiales. Cette approche
est indispensable pour le tracé de carte.
Il est possible de transposer ce qui précède au cas de géostatistques 2D :
Cas de géostatistiques 2D ou chronostatistique :

Comme pour le 1D, il est possible de comparer 3 séries présentant la même moyenne.
Si nous considérons un point localisé entre les quatre valeurs marquées en rouge, point
pour lequel il faudrait réaliser une estimation :

Série A :
49.75 49.89 50.27 50.34
49.77 50.39 49.92 49.80
50.01 50.03 49.61 50.26
49.75 50.01 50.40 49.97
49.94 49.83 49.64 50.18
50.37 50.39 50.21 49.64
49.84 50.34 50.42 50.45
50.44 49.73 50.19 49.90
50.36 49.85 49.58 50.17
50.02 50.11 49.79 49.93
50.26 49.77 50.21 50.11
50.03 50.01 50.19 50.38

Série B :

52.70 45.78 36.28 45.50


44.45 41.30 35.81 49.93
42.46 46.20 52.65 36.11
49.67 39.35 64.14 35.50
56.62 41.13 64.49 37.01
64.92 38.67 56.63 44.90
46.06 53.38 51.88 35.98
62.59 49.27 35.22 55.43
63.50 61.04 41.08 56.39
62.07 48.01 43.25 37.82
55.86 57.48 45.87 58.01
42.17 60.90 56.51 44.43

Série C :

35.22 35.50 36.11 39.35


35.81 35.98 38.67 42.17
36.28 37.82 41.30 44.45
37.01 41.13 44.43 45.87
41.08 43.25 45.78 49.27
42.46 45.50 48.01 52.65
44.90 46.20 51.88 55.86
46.06 49.93 55.43 56.63
49.67 53.38 56.62 61.04
52.70 56.51 60.90 63.50
56.39 58.01 62.59 64.49
57.48 62.07 64.14 64.92

Les trois séries présentent la même moyenne (50 environ).


Si l’on compare les séries A d’un coté et B et C de l’autre, ces sériés diffèrent par la
variabilité:
- pour la série B et C la variance est supérieure à celle de la série A (plus forte
hétérogénéité des valeurs autour de 50).
- Pour les séries B et C moyenne et variance sont identiques, mais la disposition
dans l’espace est différente. La description d’une série de données par la
moyenne et la variance est insuffisante dès lors que l’on localise ces données
dans le temps ou l’espace. Le but de ce chapitre est de vous permettre de
caractériser cette structure spatiale ou temporelle.

Si l’on souhaite faire une estimation de données entre les deux valeurs représentées en
rouge sur chaque série, la situation sera différente entre chaque cas A, B et C :
- Dans le cas A, il est raisonnable de proposer la valeur 50 qui est la moyenne de
la série. Cette estimation sera probablement poche de la réalité car dans cette
série, la variabilité est faible. Les valeurs ‘écartent peu de la moyenne.
- Dans le cas B, il faudra retenir aussi la moyenne, c’est à dire 50 comme
meilleure estimation de la valeur. Cependant, comme cette série présente une
variance plus forte, cette estimation sera plus hasardeuse que dans le cas A.
- Dans le cas C qui présente la même moyenne et la même variance que pour la
série B, l’estimation sera différente. Les valeurs montrent une évolution
progressive (croissante selon un axe nord-ouest vers le sud-est). On pourra
estimer la valeur par la moyenne entre les quatre données qui encadrent la
valeur à estimer, moyenne arithmétique ou géométrique, soit 64.03 dans les
deux cas (la différence n’affectant que les décimales suivantes). Cette
estimation sera plus fiable que dans le cas B.

En résumé, la connaissance le la position de la données dans le temps ou l’espace doit


être prise en compte lors de l’estimation.
En géosciences, l’utilisation des cartes ou encore leur élaboration est fréquent. Or
réaliser une carte revient à estimer en tout point de la carte une information dont on a une
connaissance en plusieurs points. Il est important de savoir d’une part de savoir quel est le
meilleur estimateur des valeurs en chaque point, et d’autre part quelle est la fiabilité de cette
estimation en ce point.
Le but du chapitre est précisément de répondre à ces questions. Plusieurs logiciels de
calcul et tracé de cartes existent. Il n’est pas question ici de former des concepteurs de
logiciels de géostatistique ou chronostatistique, mais de former des utilisateurs avertis
pouvant contrôler les options et les méthodes choisies par ces logiciels.
Enfin, il faut être vigilant. Les logiciels proposent de belles cartes aux qualités
graphiques indiscutables, mais parfois les options choisies par défaut par ces outils ne sont pas
adaptées au cas étudiés. Après étude de ce chapitre, vous devriez être capable de devenir des
utilisateurs avertis et critiques pouvant piloter ces outils afin de les utiliser au mieux de leurs
possibilités.
Le paragraphe suivant va être consacré à un moyen de caractériser la structure spatiale
ou temporelle des variations, c' est-à-dire à la manière de différencier le cas B et le cas C
présenté dans les exemples précédents.
STRUCTURE SPATIALE OU TEMPORELLE
VARIOGRAMMES ET CORRELOGRAMMES

L’étude de la structure spatiale ou temporelle des variations par le calcul du


variogramme est très importante car elle permet d’avoir une vision critique de la validité du
dispositif d’acquisition des données et parce que le variogramme est indispensable pour le
calcul de cartes.

1) Schéma d’acquisition variogramme, corrélogramme.


Dans un premier temps, on suppose que l’on dispose d’un plan d’acquisition de
données. La position de ces acquisitions est représentée en 2D et en 1D (espace ou temps)
selon les deux schémas ci-dessous. LA position des points de mesure n’est pas forcémment
régulière.

Schémas d’acquisition selon un dispositif 2D

Schémas d’acquisition selon un dispositif 1D

On considère les couples de points proches, c' est-à-dire séparés par une distance
faible. Ces couples ont été représentés en vert sur les schémas.
Il est possible de réaliser la même chose avec des couples de points séparés par des
distances plus importante (en bleu sur les schémas) puis pour des distances plus importantes
(rouge puis marron sur les schémas).
Les données relatives aux couples de points séparés par de faibles distances peuvent
être représentées en colonne : la premier donnée sur la première colonne, la seconde données
sur la seconde colonne. Si en un point la mesure donne une valeur faible, il est probable que
juste à proximité, la valeur sera faible aussi. De même si la valeur mesurée est forte, juste à
coté, il est très probable que la valeur mesurée sera forte aussi. Il y aura alors une bonne
corrélation entre les deux colonnes.
On va mesurer la semi variance s ( chez les anglo saxons), c' est-à-dire la moyenne
des écarts au sein de couples de points. Cette semi variance sera faible, alors que le coefficient
de corrélation sera proche de 1, comme illustré sur le schéma suivant.
valeur 1 valeur 2 écart
20.1278511 19.7851299 0.34272119 40
y = 1.0036x - 0.1213
21.077882 20.8378852 0.23999686 35 R2 = 0.9969
21.7948562 22.2423752 0.44751904
22.878848 23.2243022 0.34545425 30
24.2254665 23.7453451 0.4801214 25

seconde valeur
24.9436638 25.2593272 0.3156634
20
26.0098547 26.3983591 0.38850445
27.2169252 26.9912245 0.22570071 15
27.9061544 27.7097045 0.19644989
10
28.9834141 28.8178599 0.16555422
29.9696823 29.541435 0.42824739 5
31.081396 30.7846778 0.29671824 0
31.8536175 32.0916805 0.23806293 0 5 10 15 20 25 30 35 40
33.1135615 33.0976994 0.01586206
33.969496 33.9743297 0.0048337 première valeur
35.2248952 35.4416376 0.21674245
36.2029266 36.0557812 0.1471454
37.1009895 37.341729 0.24073948

semi-variance
0.26311317

Si on réalise la même opération avec les couples de points séparés par une distance
plus grande, on obtient une situation un peu différente. En effet, si une mesure réalisée en un
point est faible, la mesure effectuée à une distance relativement éloignée ne sera pas
forcément bien corrélée avec la première. En moyenne l’écart entre les deux valeurs sera plus
élevé que si les deux mesures sont réalisées à faible distance l’une de l’autre. La corrélation
sera moins bonne comme illustré sur le schéma suivant.

valeur 1 valeur 2 Ecart


20.1278511 21.9445248 1.81667377 40
21.077882 22.6936742 1.61579211 y = 0.8603x + 4.1683
35
21.7948562 23.826467 2.03161083 R2 = 0.9542
22.878848 22.76754 0.11130801 30
24.2254665 24.785897 0.56043058 25
seconde valeur

24.9436638 25.9181838 0.97452


20
26.0098547 25.9682318 0.04162291
27.2169252 26.7531475 0.46377768 15
27.9061544 26.8986208 1.0075336
10
28.9834141 30.4635796 1.48016549
29.9696823 29.971211 0.00152866 5
31.081396 29.3498564 1.73153965 0
31.8536175 32.2703599 0.41674238 0 5 10 15 20 25 30 35 40
33.1135615 34.9868801 1.87331863
33.969496 32.4030907 1.56640537 première valeur
35.2248952 35.2271883 0.00229308
36.2029266 35.3644873 0.83843928
37.1009895 35.3614998 1.7394897

Semi-variance
1.01517732
La distance augmentant, la corrélation entre deux valeurs mesurées est moins bonne,
la semi variance augmente.

Enfin, pour une distance encore plus grande, on obtient :

valeur 1 valeur 2 Ecart


20.1278511 29.648922 9.52107096 50
21.077882 30.5083743 9.43049224 45
21.7948562 30.8371764 9.04232017 40
y = 0.789x + 7.8089
22.878848 23.1918597 0.3130117 35
R2 = 0.3157
24.2254665 16.9126015 7.31286492 30
24.9436638 29.1251265 4.1814626

seconde valeur
25
26.0098547 16.0824943 9.92736044
20
27.2169252 25.0955303 2.12139488
15
27.9061544 31.9813397 4.07518527
28.9834141 34.7071677 5.72375357 10
29.9696823 28.7427994 1.22688292 5
31.081396 32.6892883 1.6078923 0
31.8536175 33.108078 1.25446051 0 5 10 15 20 25 30 35 40
33.1135615 26.5039477 6.60961376 première valeur
33.969496 36.240948 2.27145198
35.2248952 45.0712277 9.84633249
36.2029266 44.4495462 8.2466196
37.1009895 30.9808579 6.12013165

semi-variance
5.49068344

Il est alors possible de tracer l’évolution de la semi variance en fonction de la distance


entre les mesures. Ce type de graphique est un variogramme. De la même manière, l’évolution
du coefficient de corrélation avec la distance est le corrélogramme.
Habituellement la semi variance est faible à faible distance, elle augmente avc la
distance pour plafonner vers un maximum « c » à partir d’une distance « a » nommée la
portée.
En considérant l’ensemble des données de manière non localisées, ces données
présentent une semi variance. Il est clair que même à forte distance, la semi variance ne peut
augmenter indéfiniment. Elle ne peut se stabiliser que vers une valeur voisine de la semi
variance globale (en fait légèrement supérieure à la semi variance globale).
La portée est une caractéristique de ce paramètre dans cette zone. Pour le même
schéma d’acquisition de données, mais pour un autre paramètre mesuré, la portée est en
général différente.
Le coefficient de corrélation diminue et tend vers 0 à forte distance.
La portée est un paramètre important.
Si une mesure et réalisée en un point donné, l’information acquise ponctuellement est
utile pour estimer les valeurs en des points situés à faible distance du point de mesure.
Cependant la qualité de l’information se dégrade avec la distance. Au-delà de la portée, la
valeur acquise ponctuellement n’est d’aucun secours, il faudra utiliser la moyenne globale
comme estimateur.
Ainsi, autour de chaque point de mesure ou de manière plus générale d’acquisition, il
est possible de tracer un cercle de rayon égal à la portée. Toute surface de la zone étudiée qui
n’est pas à l’intérieur d’un cercle, correspond à des lieux ou la carte sera très peu précise. Il
n’y a pas d’estimation fiable. Ceci peut nous permettre de revoir le dispositif expérimental
d’acquisition des données.
Par ailleurs, ceci peut nous amener à reconsidérer la distribution des points de mesure.
En effet, on tachera dans la mesure du possible d’avoir suffisamment de couples de points
dans chaque classe de distance. Pour pouvoir correctement calculer la semi variance et le
coefficient de corrélation dans chaque classe de distance, il faut un minimum de couples dans
cette classe. On considère en général que l’on doit avoir au moins 80 couples. Lorsque le
nombre devient nettement inférieur à cette valeur, le calcul de s et r est peu fiable et le
variogramme(de même que le corrélogramme) présente une allure en dent de scie, allure ne
correspondant pas à la réalité de la structure. C’est un artéfact du à l’insuffisance du nombre
de couples utilisés pour l’estimation de la semi variance.

0.14

0.12

0.1
semivariance

0.08

0.06 Variogramme

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
Distance

0.9
0.8
0.7
0.6
0.5
R

0.4 Corrélogramme
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
Distance
Exemple de distribution de points d’acquisition
de données. Les points d’acquisition sont figurés
par des croix et le rayon des cercles correspond à
la portée calculée à partir du variogramme.
Le dispositif d’acquisition permet d’estimer une
carte fiable sur toute la zone à l’exception de
l’est et surtout du nord-est où la carte ne sera pas
fiable. La valeur estimée dans l’angle nord-est
sera la moyenne générale de la zone et cette
estimation sera peu fiable. Si cette zone est
importante en terme de gestion, il faudrait
rajouter de points supplémentaires d’acquisition.
Enfin, on essayera, dès la conception du dispositif expérimental, d’avoir un nombre de
points suffisamment rapprochés pour pouvoir calculer s et r aux faibles distances. Cet aspect
est crucial pour déceler l’effet de pépite (confer infra) mais aussi pour avoir les données
nécessaires à l’ajustement d’une fonction sur les données du variogramme. Il est important
d’ajuster bien sur les faibles distances pour le calcul de cartes (confer infra).

10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10

Exemple de dispositif d’acquisition sur maille carrée régulière. Les


dispositifs à maille triangulaire sont aussi très utilisés. Les acquisitions de
données sont réalisées sur les intersections.
Certaines mailles sont volontairement subdivisées de même que certaines
sous mailles afin d’affiner le calcul du variogramme à faible distance.

2 Quelques caractéristiques des variogrammes

Notion d’effet de pépite


Si des mesures sont réalisées sur le même point, et donnent les mêmes valeurs, ainsi
pour une distance nulle (puisque les données sont superposées deux à deux), la semi variance
est alors nulle (même valeur mesuré, écart nul). La variogramme passe dans ce cas par le
point de coordonnes (0,0).
Parfois la semi variance est non nulle pour une distance nulle.
Deux cas de figure peuvent être distingués.
- Si la semi variance est inférieure à l’imprécision de la mesure (de
l’acquisition), la semi variance observée pour d=0 ne correspond qu’à cette
imprécision.
- Si la semi variance est supérieure à l’imprécision de la mesure, alors cette
dernière ne peut être invoquée pour expliquer le fait que le variogramme ne
passe pas par le point (0,0). Il y a un « effet de pépite ».
0.14

0.12

0.1
semivariance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

0.14

0.12

0.1
semivariance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

Effet de pépite: la taille des figurés est égale à la précision de la mesure.


Sur le graphique du haut, un vrai effet de pépite : c1= 0.01.
Sur le graphique du bas : pas d’effet de pépite : la précision de la mesure
est supérieure à la valeur c1 qui ne représente donc pas un effet de pépite.

Variations cycliques
Si la structure spatiale présente des « taches » avec une certaine cyclicité (figure
suivante (a)), ou bien des variations temporelles plus ou moins cycliques, alors le variograme
a une allure différente de ce qui a été décrit précédemment.
En effet, à faible distance (couples reliés par des traits bleus sur la figure (b) suivante),
la semi variance est faible car si un des deux points du couple est dans la tache alors l’autre
point du couple a toutes les chances d’y être aussi, et si le premier est hors de la tache, le
second y sera aussi très probablement à cause de la faible distance séparent les deux.
(a)

(b)

Pour des distances plus importantes (trait violet), si l’un de deux points est hors de la
tache, le second a toutes les chances d’être dans la tache et réciproquement. La semi variance
est maximale.
Enfin, pour des distances encore plus grandes (traits rouges), si l’un des points est
dans une tache, l’autre peut se trouver dans une autre tache. La semi variance est moindre que
dans le cas précédent.
Pour les structures temporelles plus ou moins cycliques, le même type de
raisonnement peut être appliqué.
Il en résulte que la semi variance augmente puis diminue avant d’augmenter à nouveau
pour atteindre le pallier.
Pour la chronostatistique, le caractère cyclique est très fréquent pour les paramètres
liés au climat. Les variations temporelles de ces paramètres ne sont pas uniquement liées aux
variations climatiques et donc il est possible de caractériser par cette méthode le degré de
cyclicité des variations et de classer ces différents paramètres. De nombreux exemples seront
présentés en chrostatistiques et simulateurs de climat. Un exemple simple est présenté en bas
de document.

Variogrammes et corrélogrammes directionnels :

En géosciences, il est relativement de rencontrer des structures directionnelles, c'


est-à-
dire présentant une certaine direction préférentielle.
C’est le cas, par exemple de champs de dunes actuelles ou passées qui sont allongées
selon une direction orthogonale au vent dominant, ou bien de structures sédimentaires
régulièrement inclinées selon un pendage et qui recoupent la surface topographique en bandes
plus ou moins parallèles.
Il peut être alors intéressant de quantifier objectivement cette anisotropie.

Pour cela on choisi une direction de l’espace et sa direction orthogonale. On effectue


le calcul de variogramme et corrélogramme non pas avec tous les couples de points comme
précédemment mais en ne retenant que ceux qui sont orientés selon la direction choisie (et son
orthogonal pour le second vario/corrélogramme).
Si la direction choisie correspond à une direction préférentielle d’organisation spatiale,
alors les deux variogrammes seront significativement différents quant à la portée.
De fait on fera tourner progressivement la direction principale (et donc son
orthogonal) de sorte à obtenir deux variogrammes directionnels les plus différents possibles.
Ceci permettra de déterminer précisément la direction recherchée. Si les deux portées sont très
proches, quelque soit la direction de l’espace, alors ceci traduit que malgré les apparences, il
n’y a pas de direction préférentielle.
Lorsque les deux variogrammes sont différents, avec deux portées a1 et a2 selon la
direction et son orthogonal, il est possible de tracer l’ellipse de grandeurs caractéristiques a1
et a2 autour de chaque point de mesure au lieu de tracer le cercle de rayon a, comme pour le
cas de structure non orientées.
Avec les variogrammes directionnels,
on mesure a1 et a2 portées dans les
deux directions. Pour une direction
préférentielle nord-sud, les ellipses sont
tracées autour des points de mesures.
Dans le cas représenté ici, la densité de
points s’avère insuffisante et il convient
de prévoir une campagne d’acquisition
pour avoir un réseau de données plus
dense.

0.14

0.12

0.1
semivariance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
distance

0.9
0.8
0.7
0.6
0.5
R

0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
distance

Les deux variogrammes et corrélogrammes directionnels ont été représentés avec des
couleurs différentes: bleu dans le sens de la direction préférentielle et rouge dans la direction
perpendiculaire à la première.
Les deux portées a1 et a2 correspondent aux pointillés bleu et rouge.
Structures emboîtées:
En géosciences, on rencontre fréquemment des niveaux de structures emboîtées en
terme de variabilité. Ainsi, si plusieurs couches géologiques affleurent, au sein de chaque
couche, pour des distances faibles, il existe une certaine variabilité c1 avec une portée a1,
mais pour des distances plus fortes, lorsque l’on considère des couples de points éloignés,
dont l’un est dans une couche et le second dans une autre couche, la variabilité augmente
fortement jusqu’à un second pallier c2 supérieur au premier, et pour une portée a2 supérieure
à a1. Il en résulte un variogramme avec un ou plusieurs paliers correspondant aux différents
niveaux de structures emboîtées.

0.4
0.35
0.3
semi variance

0.25
0.2
0.15
0.1
0.05
0
0 0.5 1 1.5 2 2.5 3 3.5
diatance

Exemple de variogramme avec structures emboîtées. La portée a1 est égale à


0.9, la portée a2 est égale à 2.7. Les semi variances maximales correspondant
à chaque niveau de structure sont c1= 0.13 et c2= 0.33.

3 Ajustement de fonctions sur le variogramme

Lors du paragraphe consacré au calcul de carte, on verra que pour effecteur un


krigeage, il est indispensable de pouvoir estimer la semi variance pour toute distance entre le
points d’acquisition et le point où l’on souhaite effectuer l’estimation de la valeur.
Pour cela, il faut ajuster une fonction sur les points du variogramme.
Tout type de fonction ne peut être utilisé. En effet, ces fonctions doivent respecter
certaines conditions, et en particulier elle doivent tendre vers une valeur finie c lorsque la
distance tend vers l’infini. Dans le cas contraire, par exemple si la semi variance estimée par
la fonction tend vers l’infini, ceci signifie que l’écart autour de la moyenne tend vers l’infini,
c’est à dire que l’on acquiert des mesures infiniment positives et infiniment négatives, ce qui
est impossible. L’exemple de l’hydrochimie qui ne peut accepter des concentrations négatives
illustre parfaitement cette impossibilité.
Voici donc quelques types de fonctions couramment utilisées pour des ajustements sur
des variogrammes.
Afin de comparer les différents types d’ajustement, voici un exemple de variogramme
qui sera utilisé par la suite.
La portée est de a = 0.45 et la semi variance maximale est de c=0.122.
Concrètement, pour le calcul de carte par krigeage, il est important que l’ajustement
soit bon en particulier pour les faibles distances. En effet, pour les fortes distances,
l’information apportée par un point est nulle, la semi variance tend vers le maximum c et donc
il importe moins d’avoir un bon ajustement. Il faut donc prêter une attention particulière à la
qualité de l’ajustement pour les faibles distances.

0.14

0.12

0.1
semi variance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

Fonction linéaire bornée


Les fonctions les plus commodes à utiliser sont des fonctions linéaires. Cependant ces
fonctions tendent vers l’infini lorsque la distance augmente (hormis pour la fonction constante
qui et inutile), ce qui est incompatible avec les exigence d’ajustement sur un variogramme. Il
est donc indispensable de la borner pour palier à ce défaut.
Si d est la distance (h pour les anglo saxons)

- s(d) = c si d>a
- s(d)= d*c/a si d<a

Le type d’ajustement obtenu est représenté sur la figure suivante :

Exemple d’ajustement
0.14
linéaire borné. L’ajustement
0.12 est représenté en rouge, le
0.1 variogramme par les étoiles et
semi variance

0.08 traits bleus.


0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

On notera le très mauvais ajustement avec ce type de fonction notamment pour les
faibles distances. Il est possible de « tricher » sur l’ajustement en diminuant la portée a, mais
le résultat est très mauvais comme en témoigne la figure suivante.
0.14

0.12

0.1
semi variance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

Ceci montre l’importance de contrôler les calculs réalisés par les logiciels. En effet, ce
type d’ajustement est utilisé par défaut par certains logiciels prisés des étudiants (à cause de
leur convivialité) pour tracer des cartes.
En utilisateur averti, il faut contrôler le type d’ajustement effectué ainsi que la qualité
de l’ajustement avant de se fier à la carte obtenue, aussi esthétique soit-elle.
D’autres types d’ajustements donnent généralement de meilleurs résultats.

Ajustement sphérique.

0.14
Exemple d’ajustement sphérique.
0.12

0.1
semi variance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

La fonction d’ajustement sphérique est du type:


s(d)=c(1.5d/a -0.5(d/a)3) si d<a
s(d)=c si d>a
On remarque sur l’exemple ci-dessus que la qualité de l’ajustement est nettement
meilleure qu’avec un ajustement linéaire borné, mais que sur l’exemple choisi, l’ajustement
sphérique ne donne pas des résultats acceptables.

Ajustement pentasphérique

La fonction d’ajustement pentasphérique est du type:


s(d)=c(15d/8a -5(d/a)3/4 + 3(d/a)5/8) si d<a
s(d)=c si d>a
La qualité de l’ajustement est meilleure que pour les fonctions précédemment
présentées (linéaire bornée et sphériques).
0.14
Exemple d’ajustement
pentasphérique.
0.12

0.1
semi variance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

Ajustement circulaire

s(d)= c(1-(2/pi)*cos-1(d/a)/(2d/(pi*a))*racine(1-(h/a)²))

Ajustement exponentiel
Il s’agit d’un ajustement de type s(d)= c(1-e-kad)
K est empirique, mais peut être déterminé par ajustement (méthode des moindres
carrés) ou par valeur moyenne des k estimés par :
e-kad =1 - s(d)/c
kad= ln(1-s(d)/c)
k = [ ln(1-s(d)/c)]/ad

Un exemple d’ajustement exponentiel du variogramme précédent a été présenté plus


bas avec k=20.
L’ajustement semble nettement meilleur dans ce cas que les autres types d’ajustement.

0.14
Ajustement exponentiel.
0.12

0.1
semi variance

0.08

0.06

0.04

0.02

0
0 0.2 0.4 0.6 0.8 1
distance

Combinaison de plusieurs type d’ajustement.


Lorsque le variogramme est de type sphérique avec un effet de pépite, il faudra
adapter la fonction sphérique pour prendre en compte cet effet de pépite.
Ainsi, pour un ajustement sphérique avec effet de pépite c1, la fonction utilisée est du
type;

s(d)=c1+ (c-c1)*(1.5d/a -0.5(d/a)3) si d<a


s(d)=c si d>a

où c représente la semivariance maximale et c1 l’effet de pépite.

A FAIRE

Variogrammes et processus cycliques en chronostatistqiues:

1) Exemple de variations temporelles de paramètres physicochimiques en hydrologie

En zone tempérée, les variations saisonnières liées partiellement au climat sont


fréquentes.
Si on considère les caratèristiques hydrochimiues relevées mensuellement dans une
rivière du nord ouest de l’Espagne, avec la concentration en divers éléments dissous et la
température de l’eau, il est possible de mesurer le degré de saisonnalité des variations
temporelles pour chaque paramètre. Ce travail est réalisé avec Manuel VIDAL BARDAN de
l’Université de Leon (Espagne).
Si on considère un paramètre très lié au climat, comme la température de l’eau de la
rivière, on obtient les variations suivantes.

AQUA W Chronostatistiques Température


22.5

20.0

17.5
T e m p é r a tu r e

15.0

12.5

10.0

5 10 15 20 25 30 35 40
mois

On remarque que les températures maximales surviennent tous les douze mois. C’est
aussi l’intervalle séparant les minimales. Le caractère annuel des variations est donc évident.
Cependant, on remarque que d’une année sur l’autre, la température de l’eau n’est pas
exactement identique. Le caractère cyclique est partiel d’où l’intérêt de le quantifier pour le
comparer avec les valeurs obtenues pour d’autres paramètres physicochimiques de l’eau.
(Au passage remarquer la mauvaise intrapolation entre les points de mesures effectués
par des méthodes dites empiriques (voir chapitre suivant) d’où l’intérêt d’être vigilant sur le
choix de la méthode d’estimation).
Il est possible de calcule le variogramme et le corrélogramme.
C o e f f ic ie n t d e c o r r é la t io n

Hydro AQUA: corrélogramme Hydro AQUA: variogramme


Température Température
0.75
25.0
0.50 22.5

S e m iv a r i a n c e
0.25 20.0
17.5
-0.00
15.0
-0.25 12.5
-0.50 10.0
7.5
-0.75
5.0
0 5 10 15 20 25 30 35 40
temps (mois) 0 5 10 15 20 25 30 35 40
Temps (mois)

A douze mois et pour des multiples de douze mois, le coefficient de corrélation est de
0.73 environ, ce qui assez fort.

Pour d’autres paramètres :

Le magnésium :
D’origine lithologique, ses variations présentent des fluctuations, mais aussi un
caractère saisonnier quelque peu marqué.
AQUA W Chronostatistiques Mg

0.225

0.200

0.175
M g [e - 3 ]

0.150

0.125

0.100

0.075

5 10 15 20 25 30 35 40
mois
C o e f f ic ie n t d e c o r r é la t io n Hydro AQUA: corrélogramme Hydro AQUA: variogramme
Mg Mg
0.40

S e m iv a r i a n c e [ e - 8 ]
0.50
0.35

0.25 0.30

0.00 0.25

0.20
-0.25
0.15
-0.50
0.10

0 5 10 15 20 25 30 35 40
0 5 10 15 20 25 30 35 40 Temps (mois)
temps (mois)

Le corrélogramme confirme la cyclicité et le coefficient de corrélation à 12 mois est


voisin de 0.55, ce qui est nettement moins fort que pour la température. La structure spatiale
de la pluie et de l’évaporation ainsi que d’autres facteurs interfèrent sur la température pour
expliquer les variations de teneur en Mg.
Le caractère cyclique annuel est moins marqué que pour la température.

La conductivité électrique :
La conductivité électrique traduit la charge ionique dissoute ; C’est donc un paramètre
global intégrant les variations de concentration d’un grand nombre d’éléments au
comportement différent.
Les variations temporelles montrent un certain caractère cyclique, mais encore moins
marqué que pour le magnésium. Le coefficient de corrélation à 12 mois est de 0.3 environ. Il
est la résultante de paramètres tel que le Mg et d’autres paramètres dont les variations ne sont
pas du tout cycliques.
AQUA W Chronostatistiques CE
0.475

0.450

0.425

0.400

0.375
CE

0.350

0.325

0.300

0.275

0.250

5 10 15 20 25 30 35 40
mois
C o e f f ic ie n t d e c o r r é la t io n Hydro AQUA: corrélogramme Hydro AQUA: variogramme
CE CE
0.55

S e m iv a r ia n c e [ e - 2 ]
0.75
0.50
0.50 0.45
0.40
0.25 0.35
0.30
-0.00
0.25
0.20
-0.25
0.15

-0.50 0 5 10 15 20 25 30 35 40
Temps (mois)
0 5 10 15 20 25 30 35 40
temps (mois)

Le nitrate:
Les variations temporelles des teneurs en nitrates sont peu cycliques.
Le coefficient de corrélation ne varie pas régulièrement avec la durée de l’intervalle de
temps séparant deux mesures. Un très léger caractère cyclique est traduit par coefficient
positif à 12 mois, mais il est très faible si on le compare au magnésium ou à la température.

AQUA W Chronostatistiques NO3

0.150

0.125

0.100
N O 3 [e - 3 ]

0.075

0.050

0.025

5 10 15 20 25 30 35 40
C o e f f ic ie n t d e c o r r é la t io n

mois

Hydro AQUA: corrélogramme Hydro AQUA: variogramme


NO3 NO3
0.4
S e m iv a r i a n c e [ e - 8 ]

0.225
0.3
0.200
0.2
0.1 0.175
0.0
0.150
-0.1
-0.2 0.125
-0.3 0.100
-0.4
-0.5 0.075

0 5 10 15 20 25 30 35 40
0 5 10 15 20 25 30 35 40 Temps (mois)
temps (mois)

L’étude de la structure temporelle des variations permet de faire une typologie des
paramètres physicochimiques et renseigne aussi sur les mécanismes responsables de leurs
variations.
Enfin, il est possible pour un même élément chimique, par exemple le Magnésium, il
est possible de cartographier les variations spatiales du caractère saisonnier. L’exemple
présenté ci-dessus est issu d’une station hydrométrique faisant partie d’un vaste réseau. Le
même type de calcul a été réalisé pour chacune de ces stations. Il apparaît ainsi que ce
coefficient d’ »auto corrélation à 12 mois varie régulièrement de manière géographique en
fonction notamment d’un axe allant de l’océan atlantique vers le centre de l’Espagne au
climat continental. Tout ceci sera prochainement publié dans une revue internationale.

2) Exemple de variations temporelles de paramètres climatiques à plusieurs échelles


de temps.

Deux types de données ont été recueillis, des données mensuelles et des données
journalières.

Données mensuelles:

Etude chronostatistique de la pluviométrie mensuelle


Pour les données mensuelles, les 475 valeurs de pluviométrie ont permis de calculer le
variogramme et le corrélogramme. Compte tenu du grand nombre de données, ces calculs sont
très fiables car le nombre de couples de valeurs dépasse les 150 pour un intervalle de temps
inférieur à 425 mois.

Hydro AQUA: corrélogramme Hydro AQUA: variogramme


mm mm
0.4 7000
0.3
6000
Coefficient de corrélation

0.2
5000
0.1
Semivariance

0.0 4000
-0.1 3000
-0.2
2000
-0.3
-0.4 1000

0
0 50 100 150 200 250 300 350 400 450
temps (mois) 0 50 100 150 200 250 300 350 400 450
Temps (mois)

Corrélogramme et variogramme de la pluviométrie mensuelle

Le variogramme montre une périodicité de la pluviométrie mensuelle, c'


est-à-dire un
effet de saisonnalité.
Le corrélogramme indique cependant que cette saisonnalité est très faible. En effet le
coefficient de corrélation à 12, 24 ou 36 mois est de l’ordre de 0.2 à 0.25, ce qui très faible.
Ce résultat confirme qu’il existe bien une certaine saisonnalité de la pluviométrie, mais
cette saisonnalité ne représente qu’une faible partie de la variabilité générale, ce qui justifie à
posteriori ce choix d’un simulateur de climat pour représenter le caractère très aléatoire de
cette pluviométrie.

Etude chronostatistique de l’évaporation mensuelle


Le corrélogramme montre un caractère saisonnier très marqué. Pour des valeurs espacées
de 12 mois ou de multiples de 12 mois, le coefficient d’autocorrélation dépasse 0.76, ce qui
nettement plus fort que pour la pluviométrie.(0.24). Ceci confirme le caractère plus régulier
d’une année sur l’autre de l’évaporation par rapport à la pluviométrie. L’écart entre 0.75 et 1
traduit la variabilité inter annuelle de l’évaporation mensuelle.
C o e f f ic ie n t d e c o r r é la t io n

Hydro AQUA: corrélogramme


évapo
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00

0 50 100 150 200 250 300 350 400 450 500


temps (mois)

Hydro AQUA: variogramme


évapo

25
S e m iv a r ia n c e

20

15

10

0 50 100 150 200 250 300 350 400 450 500


Temps (mois)
Corrélogramme et variogramme de l’évaporation mensuelle

Données journalières:

La pluviométrie
Les données journalières de la pluviométrie et de l’évaporation de plus de 12000 jours
consécutifs ont été utilisées. La mesure de l’évaporation journalière est plus délicate que la
mesure mensuelle car l’erreur de lecture est non négligeable par rapport aux variations
mesurées d’un jour à l’autre.
Le volume important des données ont induit des calculs extrêmement lourds nécessitant
de nombreuses heures de processeur.
Les 12 000 données journalières ont été traitées de la même manière que les données
mensuelles. Ces calculs croisent ces données entre elles soient 144 000 000 couples, ce qui est
considérable (et laborieux). Un corrélogramme nécessite 30 heures CPU de calcul pour un
processeur 2.66 Ghz.
Le corrélogramme montre un caractère saisonnier de la pluviométrie journalière, mais
les valeurs du coefficient de corrélation sont encore plus bas (0.04) que pour la pluviométrie
mensuelle (0.25). Cet écart traduit la variabilité à l’échelle du jour et l’effet moyennant des
calculs mensuels. Ainsi, à l’échelle de la journée, la pluie apparaît encore moins stable
temporellement, c’est à dire encore moins prévisible. Ainsi, il est préférable d’utiliser un
simulateur de climat sur les données mensuelles que sur les données journalières.
C o e f f ic ie n t d e c o r r é la t io n

Hydro AQUA: corrélogramme Hydro AQUA: variogramme


pluie pluie
0.25 100
0.20 90
S e m iv a r ia n c e

80
0.15
70
0.10 60
0.05 50
40
0.00
journalières.
-0.05
30
20
10
0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500
temps (jour) Temps (jour)

Corrélogramme et variogramme de la pluviométrie journalière

L’évaporation
Le corrélogramme obtenu à partir des données journalières présente des caractéristiques
bien différentes de celui présenté précédemment pour la pluviométrie.
Le caractère saisonnier est très marqué. Le coefficient d’autocorrélation à 365 jours
atteint 0.73, ce qui très légèrement inférieur à la valeur obtenue pour l’évaporation mensuelle
(0.76). ceci montre la structure saisonnière très marquée de l’évaporation, même à l’échelle de
la journée. L’écart entre les deux valeurs traduit d’une part l’effet moyennant des données
mensuelles, et d’autre part probablement l’erreur relative plus importante sur la mesure de
l’évaporation journalière.

Hydro AQUA: corrélogramme Hydro AQUA: variogramme


C o e f f ic ie n t d e c o r r é la t io n

evaporation evaporation

0.75 20.0

S e m iv a r ia n c e
0.50 17.5
15.0
0.25
12.5
0.00
10.0
-0.25 7.5

-0.50 Corrélogramme et variogramme


5.0 de l’évaporation journalière
2.5
-0.75
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000

temps (jour) Temps (jour)

POUR DEUX VARIABLES


Lorsque l’on a deux variables x et y, il est possible de tracer le covariogramme. On
sépare les couples de points (localisations) selon la distance entre les deux points comme pour
le variogramme et on calcule la covariance entre x et y en fonction de la distance, idem pour
le coefficient de corrélation y/x.

Donc, à partir d’un schéma d’acquisition de données, il est possible de caractériser la


structure spatiale ou temporelle des variations observées grâce aux variogrammes et
corrélogrammes. Il est alors possible de justifier la densité des mesures ou bien peut a
contrario conduire à revoir le schéma d’acquisition.
La portée est un paramètre très important. Il détermine une zone autour de chaque
point de mesure dans laquelle, ce point d’acquisition porte de l’information utile pour réaliser
une estimation. Au-delà de cette zone, le point de mesure ne donne aucune information.
Le variogramme est utile pour le calcul de carte par, mais il doit faire l’objet d’un
ajustement mathématique pour lequel il faut être vigilant.
Le calcul de carte sera vu dans le prochain chapitre.

Vous aimerez peut-être aussi