Académique Documents
Professionnel Documents
Culture Documents
Introduction:
Approche intuitive et justification de l’intérêt de la géo/chrono statistique
A B C
50.47 44.17 44.17
49.67 45.85 45.85
49.97 56.93 48.04
49.95 60.87 49.67
49.85 48.04 50.97
49.80 50.97 55.08
49.78 55.18 55.18
50.23 55.08 56.93
50.20 64.16 60.87
49.87 49.67 64.16
Si l’on souhaite faire une estimation de données entre les deux valeurs représentées en
rouge sur chaque série, la situation sera différente entre chaque cas A, B et C :
- Dans le cas A, il est raisonnable de proposer la valeur 50 qui est la moyenne de
la série. Cette estimation sera probablement poche de la réalité car dans cette
série, la variabilité est faible. Les valeurs ‘écartent peu de la moyenne.
- Dans le cas B, il faudra retenir aussi la moyenne, c’est à dire 50 comme
meilleure estimation de la valeur. Cependant, comme cette série présente une
variance plus forte, cette estimation sera plus hasardeuse que dans le cas A.
- Dans le cas C qui présente la même moyenne et la même variance que pour la
série B, l’estimation sera différente. Les valeurs montrent une évolution
progressive (croissante depuis la première jusqu’à la dernière). On pourra
estimer la valeur par la moyenne entre les deux données qui encadrent la valeur
à estimer, moyenne arithmétique ou géométrique, soient respectivement 62.52
ou 62.49. Cette estimation sera beaucoup plus fiable que dans le cas B.
Ainsi, pour une même moyenne et un même écart type, on perçoit intuitivement que la
localisation des données dans le temps ou l’espace introduit une information supplémentaire
qu’il convient d’intégrer en terme de structure spatiale ou temporelle, information qui sera
très utile lors des estimations. Le but de ce chapitre est précisément de caractériser la structure
spatiale ou temporelle, de déterminer les meilleures méthodes d’estimation et enfin de
caractériser la fiabilité des ces estimations de valeurs temporelles ou spatiales. Cette approche
est indispensable pour le tracé de carte.
Il est possible de transposer ce qui précède au cas de géostatistques 2D :
Cas de géostatistiques 2D ou chronostatistique :
Comme pour le 1D, il est possible de comparer 3 séries présentant la même moyenne.
Si nous considérons un point localisé entre les quatre valeurs marquées en rouge, point
pour lequel il faudrait réaliser une estimation :
Série A :
49.75 49.89 50.27 50.34
49.77 50.39 49.92 49.80
50.01 50.03 49.61 50.26
49.75 50.01 50.40 49.97
49.94 49.83 49.64 50.18
50.37 50.39 50.21 49.64
49.84 50.34 50.42 50.45
50.44 49.73 50.19 49.90
50.36 49.85 49.58 50.17
50.02 50.11 49.79 49.93
50.26 49.77 50.21 50.11
50.03 50.01 50.19 50.38
Série B :
Série C :
Si l’on souhaite faire une estimation de données entre les deux valeurs représentées en
rouge sur chaque série, la situation sera différente entre chaque cas A, B et C :
- Dans le cas A, il est raisonnable de proposer la valeur 50 qui est la moyenne de
la série. Cette estimation sera probablement poche de la réalité car dans cette
série, la variabilité est faible. Les valeurs ‘écartent peu de la moyenne.
- Dans le cas B, il faudra retenir aussi la moyenne, c’est à dire 50 comme
meilleure estimation de la valeur. Cependant, comme cette série présente une
variance plus forte, cette estimation sera plus hasardeuse que dans le cas A.
- Dans le cas C qui présente la même moyenne et la même variance que pour la
série B, l’estimation sera différente. Les valeurs montrent une évolution
progressive (croissante selon un axe nord-ouest vers le sud-est). On pourra
estimer la valeur par la moyenne entre les quatre données qui encadrent la
valeur à estimer, moyenne arithmétique ou géométrique, soit 64.03 dans les
deux cas (la différence n’affectant que les décimales suivantes). Cette
estimation sera plus fiable que dans le cas B.
On considère les couples de points proches, c' est-à-dire séparés par une distance
faible. Ces couples ont été représentés en vert sur les schémas.
Il est possible de réaliser la même chose avec des couples de points séparés par des
distances plus importante (en bleu sur les schémas) puis pour des distances plus importantes
(rouge puis marron sur les schémas).
Les données relatives aux couples de points séparés par de faibles distances peuvent
être représentées en colonne : la premier donnée sur la première colonne, la seconde données
sur la seconde colonne. Si en un point la mesure donne une valeur faible, il est probable que
juste à proximité, la valeur sera faible aussi. De même si la valeur mesurée est forte, juste à
coté, il est très probable que la valeur mesurée sera forte aussi. Il y aura alors une bonne
corrélation entre les deux colonnes.
On va mesurer la semi variance s ( chez les anglo saxons), c' est-à-dire la moyenne
des écarts au sein de couples de points. Cette semi variance sera faible, alors que le coefficient
de corrélation sera proche de 1, comme illustré sur le schéma suivant.
valeur 1 valeur 2 écart
20.1278511 19.7851299 0.34272119 40
y = 1.0036x - 0.1213
21.077882 20.8378852 0.23999686 35 R2 = 0.9969
21.7948562 22.2423752 0.44751904
22.878848 23.2243022 0.34545425 30
24.2254665 23.7453451 0.4801214 25
seconde valeur
24.9436638 25.2593272 0.3156634
20
26.0098547 26.3983591 0.38850445
27.2169252 26.9912245 0.22570071 15
27.9061544 27.7097045 0.19644989
10
28.9834141 28.8178599 0.16555422
29.9696823 29.541435 0.42824739 5
31.081396 30.7846778 0.29671824 0
31.8536175 32.0916805 0.23806293 0 5 10 15 20 25 30 35 40
33.1135615 33.0976994 0.01586206
33.969496 33.9743297 0.0048337 première valeur
35.2248952 35.4416376 0.21674245
36.2029266 36.0557812 0.1471454
37.1009895 37.341729 0.24073948
semi-variance
0.26311317
Si on réalise la même opération avec les couples de points séparés par une distance
plus grande, on obtient une situation un peu différente. En effet, si une mesure réalisée en un
point est faible, la mesure effectuée à une distance relativement éloignée ne sera pas
forcément bien corrélée avec la première. En moyenne l’écart entre les deux valeurs sera plus
élevé que si les deux mesures sont réalisées à faible distance l’une de l’autre. La corrélation
sera moins bonne comme illustré sur le schéma suivant.
Semi-variance
1.01517732
La distance augmentant, la corrélation entre deux valeurs mesurées est moins bonne,
la semi variance augmente.
seconde valeur
25
26.0098547 16.0824943 9.92736044
20
27.2169252 25.0955303 2.12139488
15
27.9061544 31.9813397 4.07518527
28.9834141 34.7071677 5.72375357 10
29.9696823 28.7427994 1.22688292 5
31.081396 32.6892883 1.6078923 0
31.8536175 33.108078 1.25446051 0 5 10 15 20 25 30 35 40
33.1135615 26.5039477 6.60961376 première valeur
33.969496 36.240948 2.27145198
35.2248952 45.0712277 9.84633249
36.2029266 44.4495462 8.2466196
37.1009895 30.9808579 6.12013165
semi-variance
5.49068344
0.14
0.12
0.1
semivariance
0.08
0.06 Variogramme
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
Distance
0.9
0.8
0.7
0.6
0.5
R
0.4 Corrélogramme
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
Distance
Exemple de distribution de points d’acquisition
de données. Les points d’acquisition sont figurés
par des croix et le rayon des cercles correspond à
la portée calculée à partir du variogramme.
Le dispositif d’acquisition permet d’estimer une
carte fiable sur toute la zone à l’exception de
l’est et surtout du nord-est où la carte ne sera pas
fiable. La valeur estimée dans l’angle nord-est
sera la moyenne générale de la zone et cette
estimation sera peu fiable. Si cette zone est
importante en terme de gestion, il faudrait
rajouter de points supplémentaires d’acquisition.
Enfin, on essayera, dès la conception du dispositif expérimental, d’avoir un nombre de
points suffisamment rapprochés pour pouvoir calculer s et r aux faibles distances. Cet aspect
est crucial pour déceler l’effet de pépite (confer infra) mais aussi pour avoir les données
nécessaires à l’ajustement d’une fonction sur les données du variogramme. Il est important
d’ajuster bien sur les faibles distances pour le calcul de cartes (confer infra).
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
0.12
0.1
semivariance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
0.14
0.12
0.1
semivariance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
Variations cycliques
Si la structure spatiale présente des « taches » avec une certaine cyclicité (figure
suivante (a)), ou bien des variations temporelles plus ou moins cycliques, alors le variograme
a une allure différente de ce qui a été décrit précédemment.
En effet, à faible distance (couples reliés par des traits bleus sur la figure (b) suivante),
la semi variance est faible car si un des deux points du couple est dans la tache alors l’autre
point du couple a toutes les chances d’y être aussi, et si le premier est hors de la tache, le
second y sera aussi très probablement à cause de la faible distance séparent les deux.
(a)
(b)
Pour des distances plus importantes (trait violet), si l’un de deux points est hors de la
tache, le second a toutes les chances d’être dans la tache et réciproquement. La semi variance
est maximale.
Enfin, pour des distances encore plus grandes (traits rouges), si l’un des points est
dans une tache, l’autre peut se trouver dans une autre tache. La semi variance est moindre que
dans le cas précédent.
Pour les structures temporelles plus ou moins cycliques, le même type de
raisonnement peut être appliqué.
Il en résulte que la semi variance augmente puis diminue avant d’augmenter à nouveau
pour atteindre le pallier.
Pour la chronostatistique, le caractère cyclique est très fréquent pour les paramètres
liés au climat. Les variations temporelles de ces paramètres ne sont pas uniquement liées aux
variations climatiques et donc il est possible de caractériser par cette méthode le degré de
cyclicité des variations et de classer ces différents paramètres. De nombreux exemples seront
présentés en chrostatistiques et simulateurs de climat. Un exemple simple est présenté en bas
de document.
0.14
0.12
0.1
semivariance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
distance
0.9
0.8
0.7
0.6
0.5
R
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
distance
Les deux variogrammes et corrélogrammes directionnels ont été représentés avec des
couleurs différentes: bleu dans le sens de la direction préférentielle et rouge dans la direction
perpendiculaire à la première.
Les deux portées a1 et a2 correspondent aux pointillés bleu et rouge.
Structures emboîtées:
En géosciences, on rencontre fréquemment des niveaux de structures emboîtées en
terme de variabilité. Ainsi, si plusieurs couches géologiques affleurent, au sein de chaque
couche, pour des distances faibles, il existe une certaine variabilité c1 avec une portée a1,
mais pour des distances plus fortes, lorsque l’on considère des couples de points éloignés,
dont l’un est dans une couche et le second dans une autre couche, la variabilité augmente
fortement jusqu’à un second pallier c2 supérieur au premier, et pour une portée a2 supérieure
à a1. Il en résulte un variogramme avec un ou plusieurs paliers correspondant aux différents
niveaux de structures emboîtées.
0.4
0.35
0.3
semi variance
0.25
0.2
0.15
0.1
0.05
0
0 0.5 1 1.5 2 2.5 3 3.5
diatance
0.14
0.12
0.1
semi variance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
- s(d) = c si d>a
- s(d)= d*c/a si d<a
Exemple d’ajustement
0.14
linéaire borné. L’ajustement
0.12 est représenté en rouge, le
0.1 variogramme par les étoiles et
semi variance
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
On notera le très mauvais ajustement avec ce type de fonction notamment pour les
faibles distances. Il est possible de « tricher » sur l’ajustement en diminuant la portée a, mais
le résultat est très mauvais comme en témoigne la figure suivante.
0.14
0.12
0.1
semi variance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
Ceci montre l’importance de contrôler les calculs réalisés par les logiciels. En effet, ce
type d’ajustement est utilisé par défaut par certains logiciels prisés des étudiants (à cause de
leur convivialité) pour tracer des cartes.
En utilisateur averti, il faut contrôler le type d’ajustement effectué ainsi que la qualité
de l’ajustement avant de se fier à la carte obtenue, aussi esthétique soit-elle.
D’autres types d’ajustements donnent généralement de meilleurs résultats.
Ajustement sphérique.
0.14
Exemple d’ajustement sphérique.
0.12
0.1
semi variance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
Ajustement pentasphérique
0.1
semi variance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
Ajustement circulaire
s(d)= c(1-(2/pi)*cos-1(d/a)/(2d/(pi*a))*racine(1-(h/a)²))
Ajustement exponentiel
Il s’agit d’un ajustement de type s(d)= c(1-e-kad)
K est empirique, mais peut être déterminé par ajustement (méthode des moindres
carrés) ou par valeur moyenne des k estimés par :
e-kad =1 - s(d)/c
kad= ln(1-s(d)/c)
k = [ ln(1-s(d)/c)]/ad
0.14
Ajustement exponentiel.
0.12
0.1
semi variance
0.08
0.06
0.04
0.02
0
0 0.2 0.4 0.6 0.8 1
distance
A FAIRE
20.0
17.5
T e m p é r a tu r e
15.0
12.5
10.0
5 10 15 20 25 30 35 40
mois
On remarque que les températures maximales surviennent tous les douze mois. C’est
aussi l’intervalle séparant les minimales. Le caractère annuel des variations est donc évident.
Cependant, on remarque que d’une année sur l’autre, la température de l’eau n’est pas
exactement identique. Le caractère cyclique est partiel d’où l’intérêt de le quantifier pour le
comparer avec les valeurs obtenues pour d’autres paramètres physicochimiques de l’eau.
(Au passage remarquer la mauvaise intrapolation entre les points de mesures effectués
par des méthodes dites empiriques (voir chapitre suivant) d’où l’intérêt d’être vigilant sur le
choix de la méthode d’estimation).
Il est possible de calcule le variogramme et le corrélogramme.
C o e f f ic ie n t d e c o r r é la t io n
S e m iv a r i a n c e
0.25 20.0
17.5
-0.00
15.0
-0.25 12.5
-0.50 10.0
7.5
-0.75
5.0
0 5 10 15 20 25 30 35 40
temps (mois) 0 5 10 15 20 25 30 35 40
Temps (mois)
A douze mois et pour des multiples de douze mois, le coefficient de corrélation est de
0.73 environ, ce qui assez fort.
Le magnésium :
D’origine lithologique, ses variations présentent des fluctuations, mais aussi un
caractère saisonnier quelque peu marqué.
AQUA W Chronostatistiques Mg
0.225
0.200
0.175
M g [e - 3 ]
0.150
0.125
0.100
0.075
5 10 15 20 25 30 35 40
mois
C o e f f ic ie n t d e c o r r é la t io n Hydro AQUA: corrélogramme Hydro AQUA: variogramme
Mg Mg
0.40
S e m iv a r i a n c e [ e - 8 ]
0.50
0.35
0.25 0.30
0.00 0.25
0.20
-0.25
0.15
-0.50
0.10
0 5 10 15 20 25 30 35 40
0 5 10 15 20 25 30 35 40 Temps (mois)
temps (mois)
La conductivité électrique :
La conductivité électrique traduit la charge ionique dissoute ; C’est donc un paramètre
global intégrant les variations de concentration d’un grand nombre d’éléments au
comportement différent.
Les variations temporelles montrent un certain caractère cyclique, mais encore moins
marqué que pour le magnésium. Le coefficient de corrélation à 12 mois est de 0.3 environ. Il
est la résultante de paramètres tel que le Mg et d’autres paramètres dont les variations ne sont
pas du tout cycliques.
AQUA W Chronostatistiques CE
0.475
0.450
0.425
0.400
0.375
CE
0.350
0.325
0.300
0.275
0.250
5 10 15 20 25 30 35 40
mois
C o e f f ic ie n t d e c o r r é la t io n Hydro AQUA: corrélogramme Hydro AQUA: variogramme
CE CE
0.55
S e m iv a r ia n c e [ e - 2 ]
0.75
0.50
0.50 0.45
0.40
0.25 0.35
0.30
-0.00
0.25
0.20
-0.25
0.15
-0.50 0 5 10 15 20 25 30 35 40
Temps (mois)
0 5 10 15 20 25 30 35 40
temps (mois)
Le nitrate:
Les variations temporelles des teneurs en nitrates sont peu cycliques.
Le coefficient de corrélation ne varie pas régulièrement avec la durée de l’intervalle de
temps séparant deux mesures. Un très léger caractère cyclique est traduit par coefficient
positif à 12 mois, mais il est très faible si on le compare au magnésium ou à la température.
0.150
0.125
0.100
N O 3 [e - 3 ]
0.075
0.050
0.025
5 10 15 20 25 30 35 40
C o e f f ic ie n t d e c o r r é la t io n
mois
0.225
0.3
0.200
0.2
0.1 0.175
0.0
0.150
-0.1
-0.2 0.125
-0.3 0.100
-0.4
-0.5 0.075
0 5 10 15 20 25 30 35 40
0 5 10 15 20 25 30 35 40 Temps (mois)
temps (mois)
L’étude de la structure temporelle des variations permet de faire une typologie des
paramètres physicochimiques et renseigne aussi sur les mécanismes responsables de leurs
variations.
Enfin, il est possible pour un même élément chimique, par exemple le Magnésium, il
est possible de cartographier les variations spatiales du caractère saisonnier. L’exemple
présenté ci-dessus est issu d’une station hydrométrique faisant partie d’un vaste réseau. Le
même type de calcul a été réalisé pour chacune de ces stations. Il apparaît ainsi que ce
coefficient d’ »auto corrélation à 12 mois varie régulièrement de manière géographique en
fonction notamment d’un axe allant de l’océan atlantique vers le centre de l’Espagne au
climat continental. Tout ceci sera prochainement publié dans une revue internationale.
Deux types de données ont été recueillis, des données mensuelles et des données
journalières.
Données mensuelles:
0.2
5000
0.1
Semivariance
0.0 4000
-0.1 3000
-0.2
2000
-0.3
-0.4 1000
0
0 50 100 150 200 250 300 350 400 450
temps (mois) 0 50 100 150 200 250 300 350 400 450
Temps (mois)
25
S e m iv a r ia n c e
20
15
10
Données journalières:
La pluviométrie
Les données journalières de la pluviométrie et de l’évaporation de plus de 12000 jours
consécutifs ont été utilisées. La mesure de l’évaporation journalière est plus délicate que la
mesure mensuelle car l’erreur de lecture est non négligeable par rapport aux variations
mesurées d’un jour à l’autre.
Le volume important des données ont induit des calculs extrêmement lourds nécessitant
de nombreuses heures de processeur.
Les 12 000 données journalières ont été traitées de la même manière que les données
mensuelles. Ces calculs croisent ces données entre elles soient 144 000 000 couples, ce qui est
considérable (et laborieux). Un corrélogramme nécessite 30 heures CPU de calcul pour un
processeur 2.66 Ghz.
Le corrélogramme montre un caractère saisonnier de la pluviométrie journalière, mais
les valeurs du coefficient de corrélation sont encore plus bas (0.04) que pour la pluviométrie
mensuelle (0.25). Cet écart traduit la variabilité à l’échelle du jour et l’effet moyennant des
calculs mensuels. Ainsi, à l’échelle de la journée, la pluie apparaît encore moins stable
temporellement, c’est à dire encore moins prévisible. Ainsi, il est préférable d’utiliser un
simulateur de climat sur les données mensuelles que sur les données journalières.
C o e f f ic ie n t d e c o r r é la t io n
80
0.15
70
0.10 60
0.05 50
40
0.00
journalières.
-0.05
30
20
10
0 2500 5000 7500 10000 12500 0 2500 5000 7500 10000 12500
temps (jour) Temps (jour)
L’évaporation
Le corrélogramme obtenu à partir des données journalières présente des caractéristiques
bien différentes de celui présenté précédemment pour la pluviométrie.
Le caractère saisonnier est très marqué. Le coefficient d’autocorrélation à 365 jours
atteint 0.73, ce qui très légèrement inférieur à la valeur obtenue pour l’évaporation mensuelle
(0.76). ceci montre la structure saisonnière très marquée de l’évaporation, même à l’échelle de
la journée. L’écart entre les deux valeurs traduit d’une part l’effet moyennant des données
mensuelles, et d’autre part probablement l’erreur relative plus importante sur la mesure de
l’évaporation journalière.
evaporation evaporation
0.75 20.0
S e m iv a r ia n c e
0.50 17.5
15.0
0.25
12.5
0.00
10.0
-0.25 7.5