Académique Documents
Professionnel Documents
Culture Documents
UNIVERSITE DE KINSHASA
Assistants :
INTRODUCTION
Le mot de Géostatistique a fait son apparition en 1962. Elle est largement reconnue
aujourd’hui dans l’industrie minière comme étant un outil indispensable pour l’estimation des
ressources et la quantification des incertitudes.
On peut définir la Géostatistique comme l’étude des variables numériques réparties dans
l’espace ou encore la méthode de traitement statistique de données localisées
Ainsi lorsqu’on élabore des données statistiques ce qui est bien souvent le cas en
géologie, on parcourt trois étapes essentielles :
Lors d’une analyse statistique, le schéma suivant est souhaitable d’être abordé :
La première partie traitera les notions de base de statistique dont la compréhension parait
indispensable à une utilisation de cet outil ;
La deuxième partie fournira de façon très succincte quelques tests statistiques de traitement de
données ;
La troisième partie est relative aux applications de l’outil statistique dans différents domaines de
la géologie sans que pour cela ces applications soient exhaustives.
A. Généralités
B. Traitements
C. Application à l’aide du logiciel
D. Exercices d’application en géologie
[2]
I. NOTIONS FONDAMENTALES
I.1. Information
Dans une analyse statistique, la variable est ce critère, cet élément ou facteur quantifiable qui peut
permettre de diviser la population d’étude en sous groupes. C’est un phénomène observable,
susceptible de porter toute autre valeur numérique sur une échelle.
Il existe des variables qui peuvent prendre qu’une valeur : ce sont des « variables constantes ». Mais
nous pouvons catégoriser les variables en deux grandes variétés :
On appelle variable aléatoire, une grandeur d’un sens physique déterminé dont les valeurs sont
soumises à une certaine dispersion lors de la répétition du processus donné (de l’essai, de
l’observation, de l’expérience...) (définition donnée par S. AIVAZIAN).
Cette notion de variable aléatoire peut être élargie à celle d’événement aléatoire. Tel événement est
imprévisible, son apparition n’est pas rigoureusement déterminée. Dans ces conditions, on appelle
variables aléatoires, une grandeur qui peut prendre dans l’expérience l’une quelconque des valeurs
possibles, inconnue d’avance.
Lors du jet de dé on sait que l’on obtiendra l’une de ces six valeurs : la variable est dite discrète ou
discontinue.
Certains auteurs parlent des variables dépendantes (ou liaisons probabilistes ou stochastiques).
Lorsque l’évolution de l’une entraine aussi celle de l’autre et des variables indépendantes dans le cas
contraire.
Connaissant la valeur de x, on ne peut pas déterminer la valeur exacte de y, mais seulement donner sa
loi de répartition qui dépend de x
La collecte des données statistiques statiques est liée à la définition de l’objet à étudier, puis de
l’assemblage des documents utiles à fournir les informations.
Lorsque l’enquêteur entre directement en contact avec les sujets de la population d’étude (ou
une partie), on parle de collecte directe car il descend sur terrain. Cette technique peut poser
des difficultés lorsque la population d’étude est assez grande ;
[3]
La collecte est indirecte dite aussi documentaire est utilisée lorsque le statisticien (le
chercheur) trouve des informations dans des archives, des encyclopédies, banques de
données,…
Lorsqu’on doit mener une enquête, tous les sujets des êtres, des événements, objets inertes qui sont
conservés par l’étude constituent ce qu’on appelle population d’étude. Certains auteurs parlent de
« référentiel », ensemble statistique, univers.
Il est donc utile que tous les individus de population aient les mêmes caractéristiques de base, on
parlera de population homogène.
Lorsque le chercheur ne peut atteindre tous les sujets de sa population d’étude, il est autorisé de porter
son enquête sur une partie des sujets = échantillon. Ce dernier peut designer aussi une mesure
unique effectué selon un protocole analytique précis et portant sur le support choisis.
La dimension de l’échantillon qui doit être représentatif, c.à.d. où les sujets ont des caractéristiques
requises dépendra des autres, ½, ¼, 1/10, 1/20, 1/100, selon la grandeur de la population parente.
Les caractéristiques ou paramètres statiques, sont des aspects spécifiques des séries. On peut les
subdiviser en caractéristiques de positions et celles de dispersions. Ce sont des valeurs typiques qui
représentent l’ensemble de données du phénomène étudié.
Elles s’appellent aussi « mesures de tendance centrale » qui expriment l’idée de l’ensemble ou
noyau, l’essentiel des données permettant d’établir des comparaisons entre des séries à partir d’elles.
On note dans cette première catégorie, les indices tels que les moyennes, le mode et le médian.
① Les moyennes
La moyenne (m) ou encore espérance mathématique (E(x)) est la valeur (ou élément noyau de la série)
à laquelle on peut s’attendre comme étant la plus probable si l’on effectuait un grand nombre
d’épreuves.
[4]
La moyenne (m ou Ẍ) est la note dont s’écartent toutes les autres notes de la série, de telle sorte que la
somme algébrique de ces écarts individuels à la médiane soit = 0.
Σ (X - Ẍ …) = 0 ou Σ x = δ ou voisine de zéro.
On distingue 4 types de moyennes :
Arithmétique ;
Géométrique ;
Harmonique et ;
Quadratique.
Les deux dernières sortes sont très rarement utilisées.
a) Moyenne arithmétique
Elles peuvent être simples ou pondérées
a1) Moyenne arithmétique simple :
C’est la moyenne des notes prises simplement et individuellement, sans tenir compte de leurs
importances.
Σ
=
Lorsque les données sont groupées, les variables X correspondent aux X c (groupées classifiées) et
sont multipliées au préalable par les effectifs simples.
= Σ (ni xi)/ N
EX :
X 15 20 25 26 30
N 3 4 2 5 1
N= 3+4+2+5+1
= 15(3) + 20(4) + 25(2) + 26(5) + 30(1) / 15 = 17
Une moyenne arithmétique est dite pondérée lorsque dans ses calculs on a pris en compte des
coefficients indiquent le poids ou l’importance (W ou P) de chaque terme de la série. Généralement,
ces pondérations ont la même signification que les effectifs.
P = Σ (Xip)/ ΣP
b) Moyennes géométriques Mg = g… ou G
b.1) Moyenne géométrique simple
→ Série groupée :
② La médiane ou le médian
Elle correspond à la note qui divise la série en deux parties égales 50% inférieurs.
≡ point N/2 : c’est la moyenne de position des valeurs car la médiane indique l’emplacement, la position
des valeurs.
Dans une série non groupée, on ordonne d’abord les valeurs, puis on trouve la position médiane.
EX : X = 3, 5, 8,3 ,5 → 3, 3, 5, 5, 8
Dans une série impaire, la médiane est une note concrète qui est choisie, placée au beau milieu de la
série ordonnée. C’est dans une série paire qu’on cherche à trouver la valeur moyenne de notes situées
au milieu de la sérié ordonnée.
[6]
EX : X = 3, 5, 8, 3 → 3, 3, 5, 8
Lorsque la série est groupée, on distingue la médiane brute qui est la valeur centrale de la classe
médiane et la médiane dérivée, trouvée à partir de formule d’interpolation suivante :
Mé = L1 + ((N/2 - nc)*I)/ni
L1 : limite inférieure (exacte) de la classe où tombent les 50% d’observation (classe médiane),
à partir des effectifs cumulés ;
nc : effectif cumulé croissant de la classe immédiatement inférieure à la classe médiane ;
ni : effectif simple de la classe médiane (N/2) ;
I : intervalle de la classe médiane.
Ex :
X 11 12 14 15 16 19 20
Ni 2 3 5 7 4 3 2
nc 2 5 10 17 21 24 26
N/2 = 26/2 = 13
Le mode est la valeur de la variable X à laquelle correspond la plus grand fréquence. Il va de soit que
dans une graphique tracé à l’aide des effectifs simples, le mode est le point le plus élevée, le culminant
du graphique.
On distingue :
Des séries sans mode : laquelle aucune valeur ne se répète, plus que les autres.
Ex : X = 2, 5, 7, 8
Des séries numériques unimodales : à un seul mode, une simple variable se répète le plus.
Ex : X = 2 ; 4 ; 2 ; 5 : Mo = 2
Des séries bimodales : à 2 modes
Ex X = 2 ; 3 ; 4 ; 5 ; 2 ; 3 Mo = 2 et 3
[7]
Lorque la série est groupée non classifiée, le mode est la variable qui a l’effectif simple le plus élevé.
Ex :
= +
+
Ex :
X 20 - 24 25 – 39 40 – 44 45 - 69
n 2 3 2 12
i = 20 = 12 - 2 = 10 = 12- 0 = 12
= . + = ,
+
N.B : Les relations entre les caractéristiques de position ont été élaborées par PEARSON.
Me = M=
Les caractéristiques de répartition permettent de dire si les écarts entre les notes individuelles et la
valeur centrale sont égaux, grands (notes peu concentrées) ou petit (notes plus concentrées).
La comparaison des séries sont plus aisée avec ces caractéristiques qu’avec celles des positons.
Ex : tension salariale, …
On parle de dispersion relative lorsqu’on tient compte en interprétation des résultats de sens des
unités de mesures utilisées dans l’observation. Dans ce cas, on retrouve des indices tels que l’écart-
type et la variance, l’écart-moyen absolu, l’étendu de variation.
[8]
C’est dans la disposition absolue qu’on fait abstraction d’unités de mesures. Ici, ce sont les indices
comme la covariance et l’écart-réduit qui s’appelle aussi variable standardisée ou Z score.
C’est la différence arithmétique entre les valeurs extrêmes prises dans 1 série.
E.V = L- l = U
Ces deux indices sont le plus important tout sur le plan pratique que théorique pour les indices de
dispersion.
Cependant, l’écart-type (S ou σ) est plus concret que la variance (= fluctuation) car il est plus proche de
la moyenne par sa formule.
Si pour une population donnée nous avons la moyenne , nous avons une estimation de cette
population : N dont la variance sera S2/N.
On appelle s=S/√ l’erreur type de la moyenne. Grace à elle, nous verrons ultérieurement comment
on peut avoir une bonne estimation de la moyenne à partir de la moyenne estimée.
σ ou S = ∑ −
∑
ou bien
[9]
(∑ )
S= ∑ −
∑ ∑
(∑ )
Variance : S2=∑ ∑ − ∑
Ou
S2=∑ ∑ −
Pour décrire la variation d’une population sans tenir compte de la position on a utilisé un coefficient
sans dimension appelé coefficient de variation ou covariance.
V=
Pour de nombreuses comparaisons ce coefficient, de par sa définition, est très utile. Toute fois, il ne
faut jamais oublier les informations contenues dans les données originales.
En effet, une augmentation ou une diminution du V peuvent être le fait d’une dispersion plus au moins
(+) grande donc d’une variation de S. Mais cela peut être dû aussi à une variation de et … donc
aucun rapport avec la dispersion.
Si bien qu’une comparaison des coefficients de variations doit toujours être accompagnée de celles
des moyennes et des écart-types.
C.Vq =
④ Ecart-réduit (z)
C’est variable standardisée ou variable centrée réduite exprimée par un rapport entre une différence et
une valeur fixe ou entre 2 quantités.
−
=
EM
I= x 100
a
[10]
⑥ Coefficient interquartile = é
x 100
Les quantiles sont des paramètres qui divisent la série en un certain nombre des parties égales. On
distingue les quartiles (Q) divisent la série en 4 parties, soit 25% de par quartier:
Q1 = L1 + Q3 = L3 +
Où
N : effectif total
L1 : limite inferieure (exacte) de la classe où tombent les 25% de cas ;
L3 : limite inferieure (exacte) de la classe où tombent les 75% de cas ;
nc : effectif cumulé croissant de la classe immédiatement inferieure à celle où tombent les 25
ou les 75% des cas ;
ni : effectif simple de la où tombent les 25% ou 75% ;
i : intervalle de classe de la classe où tombent les 25% ou 75%.
Exemple :
X n nc
140-144 1 1
145-149 3 4
150-154 2 6
155-159 4 10
160-164 4 14
165-169 6 20
170-174 10 30
175-179 8 38
180-184 5 43
185-189 4 47
190-194 2 49
195-199 1 50
50
.
Q1 = 159,5 + x 5 = 162,625
.
Q3 = 174,5 + x 5 = 179,189
Q2 Q3 − Q1
= = Déviation quantile en espace semi − interquartile
2 2
Les déciles (D)
Ces indices divisant la série en 10 parties égales. Ce sont le 1er et le 9me qui sont plus calcules.
D1 = L1 + Xi
D9 = L1 + Xi
C1 = L1 + Xi
C9 = L1 + Xi
Exercice
X N Nc
60-64 2 19
55-59 3 17
50-54 4 14
45-49 5 10
40-44 2 5
35-39 3 3
C1 = 34,5 + 5 = 34,82
,
C99 = 53,5 + 5 = 102,25
Ce sont des valeurs qui caractérisent une série statistique En effet, les données se distribuent dans
une série, elle donne une certaine forme dont la dissymétriques ou asymétrie et l’aplatissement ou la
voussure.
[12]
Les moments sont aussi considérés comme caractéristiques importantes de la série statistique.
Le moment d’une série statistique est la moyenne des écarts à la moyenne de cette distribution élevée
à des puissances successives. On distingue des moments centrés (plus utilisés) et non centrés.
µk = ( − ) = E [(X - ) ]k k ϵ No
µ1 = 0
µ2 = ( − ) ou µ2 = ∑(X - )2/N
Note : Il existe aussi des moments indiqués à partir d’une origine arbitraire qui peut changer.
µ’1 = ∑(X-A)/N
µ’2 = ∑(X-A)2/N
Les moments nous permettent d’obtenir deux (2) coefficients importants dits « coefficient de
FISHER », indépendants de la transformation linéaire
a) Coefficient d’asymétrie
ɣ1 = µ3/S3
S = écart-type
µ3 = moment d’ordre 3
I Y II
X
[13]
ɣ2 = µ4 /S4 -3
Il mesure l’étalement ou la concentration d’une distribution. Il est rarement extérieur à l’intervalle [-2,
+2].
Ɣ2 = 0 : distribution normale
Courbe III ← Ɣ2 < 0 : distribution étalée que la normale (aplatissement négatif)
Courbe II ← Ɣ2 > 0 : distribution + concentrée que la normale (aplatissement positif) → II
X
On parle alors de la courbe :
f f f
X X X
Ɣ<0 Ɣ2 = 0 Ɣ2 > 0
[14]
Note : Dans le cas ou l’échantillonnage est fait par intervalles, il est parfois utile de faire appel aux
fractiles (centiles, déciles, quantiles,…), limites d’intervalles comprenant un pourcentage déterminé de
la variable.
( ) ( ) ( ) ( )
Skg = ou
On a : Ou
Skg = 0 : symétrie ;
Skg > 0 : asymétrie positive ;
Skg < 0 : asymétrie négative.
L’espace interquantile : Q3 – Q1
–
L’espace semi-interquantile : Q =
Ku =
Q1 = l1 +
Q3 = l1 +
I. Corrélation et régression
Corrélation
La corrélation est la tendance à la relation qu’on peut observer entre certaines variables.
Elle cherche à déterminer comment cette relation est décrite ou expliquée, à travers une équation
linéaire ou non. C’est donc une relation probable.
Par l’observation empirique du plan graphique des points qui permettent une détermination qualitative
du type de corrélation et par quelques coefficients qui permettent une mesure quantitative des
corrélations.
En ce qui concerne la régression des lignes des moindres carrés, cette mesure consiste à déterminer
les paramètres de l’équation de Y en X en cas de 2 variables seulement.
Y = ax + b ou X = ay + b
∑ –(∑ )(∑ )
a= ∑ (∑ )
ou =
variable expliquée
r=± variable totale
Où :
Variable expliquée de Y = ∑ (Y estimé - Ῡ) 2
Variable totale de Y = ∑ (Y - Ῡ) 2 ou ∑ Y2
Lorsqu’il ya une relation linéaire entre les 2 variables, l’équation du coefficient de détermination se
transforme en r de BRAVAIS et de PEARSON. Où r est le coefficient de corrélation
∑ −∑ ∑
=
[ ∑ − ( ) ][ ∑ – (∑ ) ]
∑ ∑
∑ −
(∑ ) (∑ )
∑ − ∑ −
r= 0 à 1
[16]
∑( − )−( − )
=
Si les variables sont liées par une relation fonctionnelle linéaire, le produit de leurs écarts types est égal
à la covariance.
∑( − )−( − )
=
∑( − ) .∑ ( − )
Ainsi choisi le seuil de corrélation pour définir la dépendance de 2 variables ou leur indépendance n’a
de sens que si leur relation est linéaire.
La régression
La régression est la fonction qui relie 2 variables présentant une dépendance (problème d’ajustement).
L’une des variables est dite expliquée ou dépendante, l’autre explicative ou indépendante.
(Si la liaison est fonctionnelle Y = f(x) est une fonction, si la liaison est stochastique Y = f(x) est une
régression).
La régression sera utilisée pour prédire l’une des variables à partir de l’autre en exprimant la variabilité.
Remarque :
Dans de nombreux cas la variable explicative correspond aux causes et la variable expliquée aux
conséquences.
Mais ce n’est pas systématiquement vrai et il serait dangereux de le considérer toujours ainsi.
Il faut savoir qu’une même cause peut avoir plusieurs conséquences et parfois l’analyse porte sur des
variables issues de deux conséquences d’une même cause.
[17]
∑( )
=
∑
∑ − ∑ − )
=
∑( − )
= −
a = coefficient de régression.
Y = Ryx x + b b= − Ryx
Lors d’observation ou d’expériences, les résultats obtenus présentent une certaines variation due à de
multiples facteurs et notamment à l’appareillage utilisé ou à la méthode. C’est ce que nous venons de
voir avec l’application au calcul d’erreur. Si maintenant nous voulons comparer deux ou plusieurs séries
de mesures, le problème qui se pose est le suivant : la variation obtenue est elle d’une différence
réelle entre les séries de mesures, ou bien correspond – t – elle à l’imprécision des résultats ?
Le test Student, le test Fisher, l’analyse de la variance répondent précisément à ce problème.
Dans une série métamorphique on a pu observer deux générations de biotites. Les plis contemporains
de cette schistosité ont été repris par une déformation postérieure. On cherche à savoir si la deuxième
génération de biotites est voisine de la première ou si elle est contemporaine de la deuxième
déformation ou postérieure. Les échantillons observés ne permettent pas de le distinguer de façon
affirmative.
On va mesurer la direction d’allongement de ces biotites. Ces directions présentent une assez grande
variabilité. Si ces deux générations de biotites appartiennent à la même population (au niveau des
orientations) les deux échantillonnages ne devraient pas montrer de différences significatives. C’est
cette hypothèse que l’on va tester. Les mesures d’angle pour la direction ont été faites à partir d’un
repère commun ; on a obtenu :
- Lorsque l’on prend deux échantillons d’une même population distribuée de façon normale on
obtient pour chaque échantillon une moyenne et une variance :
S S
= + (S étant l érreur type).
Faisons le rapport = √
, équivalent d un écart type réduit
Si les populations testées sont distribuées de façon normale X − X suit une distribution normale.
La somme + suivra toujours dans les mêmes conditions une distribution du χ à (n-1) degré de
liberté. Par suite le rapport, et donc t, correspondra à une distribution de Student à ( + − 2)
degrés de liberté.
Si la valeur de t obtenue supérieure à celle de la distribution de Student cela veut dire, au seuil choisi
bien sûr, que les deux moyennes comparées sont différentes et correspondent à des populations
différentes. Soulignons que deux hypothèses sont formulées. La première est que les populations
comparées sont distribuées de façons normale ; la seconde est que ces populations possèdent une
même variance, (sinon le calcul est très compliqué car en plus des variations de la variance
d’échantillonnage, il faudrait introduire celles de la variance des populations).
(∑ ) (∑ ) ∑ ∑
∑ – ∑ – –
= ( – )
, = ( – )
, = à( + −
( ) (∑ )
∑ ∑ –
( )
2) degrés de liberté
= 8, = 12.875, = 5.554,
= 7, = 18.429, = 15.952,
Généralement l’expérience montre que l’on doit choisir le seuil de 5% pour une différence significative
et le seuil de 1% pour une différence très significative.
. = 2.16, . = 3.01
[19]
Prenons le seuil de 1% cela veut dire qu’il existe 99% de chance pour que l’écart type réduit obtenu à
partir de deux échantillonnages d’une même population soit inférieur ou égal à 3.01 (voir table). Nous
avons trouvé 3.335 ce qui semble dire que les deux générations de biotites ont une orientation
différente de façon très significative.
Revenons à la théorie statistique. Lorsque l’on utilise, comme ici, un test (statistique inférentielle) on
part d’une hypothèse. Dans ce cas, on suppose qu’il existe aucune différence significative (c’est ce que
l’on l’hypothèse nulle) et c’est cette hypothèse nulle que l’on teste. On peut alors commettre deux types
d’erreur :
1° Erreur de 1ère espèce en rejetant cette hypothèse alors qu’elle était vraie,
2° Erreur de 2ème espèce en acceptant cette hypothèse alors qu’elle était fausse. Le seuil de
signification nous permet d’apprécier en probabilité l’erreur de 2 ème espèce il est nécessaire de
déterminer ce que l’on appelle une fonction de puissance.
Remarque :
Il convient bien sûr d’être très prudent quant à l’interprétation des résultats. Dans le cas étudié une
différence significative indique qu’il existe une forte probabilité d’avoir affaire à des populations
différentes ; il faut ensuite chercher à vérifier par l’observation si cette différence répond bien aux
causes que l’on a évoquées. S’il n’y avait aucune différence significative, il faudrait rester méfiant car le
deuxième déformation peut orienter les biotites dans la même direction que la première et l’utilisation
sans discernement du test conduirait à une conclusion aberrante. Pour d’autres exemples, c’est
l’inverse qui se produit. Aussi, nous rappelons à propos de ces tests qu’il faut être toujours très vigilant
dans l’emploi des statistiques et de ne jamais les utiliser comme de simple recettes passe partout.
Utilisons toujours l’exemple précédent. Les biotites de 2ème génération présentent semble – t – il une
plus grande variabilité dans leur direction. On a supposé que la variance des deux populations était
égale. Si l’on constate que les variabilités des deux échantillonnages ne présentent aucune différence
significatives, on peut penser que les populations d’où sont issus ces échantillons ont toutes les deux la
même variance (l’inverse n’étant pas forcement vrai en raison de l’échantillonnage). On va tester
l’hypothèse de l’égalité des deux variances :
Si les variances sont égales = 1. En réalité que nous désignons par F est différent de 1 et en
faisant que le numérateur soit toujours supérieur au dénominateur, cherchons la loi de distribution de F.
S suit une loi du χ à ( − 1) degrés de liberté, S également d’où F suit une distribution de
snedecor.
F= ≥ .
= = 15.952 à 6 é é, = S = 5.554 à 7 é é.
[20]
15.952
= = 2.872
5.554
Généralement pour ce test l’expérience montre qu’il faut utiliser un seuil de 5%. Pour ces degrés de
liberté et au seuil choisi la distribution de snedecor nous indique que F = 3.87 (voit table). Cela veut
dire qu’il y a 5 chances sur 100 pour que ≥ 3.87. La variabilité des variances observées ne soit
pas significative.
Le rapport des deux variances est d’un emploi particulièrement intéressant lorsque l’on veut tester deux
méthodes ou deux appareils utilisés pour une même mesure.
Lors d’une analyse de roche on dose le fer d’un même échantillon par deux méthodes différentes, la
première classique, la seconde par fluorescence X. on a obtenu les résultats suivants :
1. Première méthode : (A) : 3.4 ppm – 3.6 – 3.9 – 4 4.1 – 4.3 – 4.4 – 4.7 – 4.9 – 4.9 (10 mesures)
2. Deuxième (B) : 3.9 – 4 – 4.1 – 4.2 – 4.3 – 4.4 – 4.5 (7 mesures)
= 4.2 , = 0.268 ; = 4.2 , = 0.047.
.
= .
= 5.596.
Au seuil de 5% pour ces degrés de liberté F = 4.10. le deux variances diffèrent de façon significative.
Ce qui revient à dire que la dispersion est significative plus faible avec la méthode B qui parait ainsi
plus précise.
TEST FISHER
La schistosité qui matérialise le plan axial de plis présente un caractère régional. Cette schistosité, en
tant que plan, est identifiée par la direction d’une horizontale de ce plan et par son prolongement.
Ce sont ces deux variables qui sont prises en compte. Ces variables présentent une certaine variabilité
soit par ce qu’il n’est pas très aisé de réaliser leurs mêmes, soit parce que le plan lui-même compte
tenu de la nature variable de roche affectée n’a pas une direction et un prolongement constants.
Au niveau des quatre points d’observation une analyse de détail permet d’établir des rapports entre des
microstructures et une schistosité.
Le 1er problème posé, comme on réalise une synthèse dans ces rapports sur les quatre secteurs
d’affleurement, est de chercher à savoir si on s’adresse toujours à la même schistosité. L’absence de
continuité entre les points d’observation ne permet pas de dire. Par ailleurs, il serait intéressant de se
rendre compte si cette schistosité, dans la mesure où elle correspondrait à une même phase, ne serait
pas déformée. Là encore l’observation directe sur ces affleurements n’apporte pas d’éléments de
réponse.
La loi de probabilité avec laquelle sont comparées les distributions des échantillons peut être estimée à partir de la distribution de l’ensemble des échantillons.
A B C D Sommes
1 A1 B1 C1 D1 A1+B2…..
2 A2 B2 C2 D2 A2+B2…
3. A3 B3 C3 D3 A3+B3 ….
On réalise la somme :
[24]
A + B + C +D
=
T
A + B + C +D
=
T
A + B + C +D
=
T
VARIOGRAMME
Un des aspects saillants de la géostatistique est la préoccupation de donner une bonne estimation (et
utilisation) de la fonction de covariance. Considérons donc cet aspect, prenons h la maille de
prélèvement définissant la distance entre deux échantillons voisins suivant une direction donnée. Cette
distance constitue le pas.
Chaque paire est un carré de la différence des données de prélèvement voisines X i et Xi+1 séparées par
les pas h, 2h, … nh.
Paire = (X − X )
Le variogramme expérimental est la somme des paires possibles (n) correspondant à chaque pas
divisé par les nombres des paires expérimental.
2∗( ) = ∑ X –X où n = N − 1
1
en pratique ∶ ∗( ) = (X – X ) constitue le semi variogramme
2n
Sur le graphique, on porte les pas en abscisse et les valeurs correspondantes de ∗( ) en ordonnée.
L’allure de la courbe expérimentale ∗( ) détermine le modèle du semi variogramme. On déduit ensuite
l’équation.
En pratique, il existe plus moins cinq modèles : le modèle sphérique, linéaire, monôme, exponentiel et
polynôme.
Modèle sphérique
1. la pépite ou ”effet nugget” N ; c’est une discontinuité (saut) en l’origine, qui peut être attribuée
à l’impossibilité d’estimer les détails microscopiques. C’est le point origine (0) ou N situé l’axe
des ordonnées.
2. le palier total ou ”sill” ou encore plateure (c) ; c’est la limite de la semi variance quand la
distance des pairs augmente.
[25]
3. la portée ou ”range parameter” (a), ou encore zone d’influence : c’est la distance au delà de la
quelle la corrélation devient pratiquement 0 et la semi variance devient constante (égale au
palier total), indépendamment de la distance. C’est la distance à la quelle débute la plateure.
Autrement dit, au delà de la portée, la structure disparait et les valeurs cessent d’être en
relation les unes avec les autres, et la semi variance devient égale à la variance des
observations (l’inclusion des pairs au delà de la portée dans le variogramme ne ramène donc
aucune information).
3h h
( ) =C – pour h <
2a 2a
( ) = C pour h = a
Le modèle de variogramme
Chaque phénomène géologique possède un variogramme qui lui est propre. Ainsi,
- Un gisement d'or présentera un variogramme erratique avec un fort effet de pépite et une faible
portée ;
- Un gisement de cuivre porphyrique montrera un variogramme linéaire à l'origine avec faible
effet de pépite et grande portée ;
- Un gisement sédimentaire de fer présentera une portée plus grande parallèlement à la
stratification que perpendiculairement à celle-ci (anisotropie géométrique) ;
- La topographie pourra présenter un variogramme très continu avec comportement parabolique
à l'origine et absence d'effet de pépite.
Variogramme => outil descriptif puissant utilisable dans une multitude de domaines.
[26]
C 10l l
C( ) = 20 − – où a = a − l et C > C
20 a a
3h h
( ) =C –
2a 2a
Le variogramme est donc la fonction la plus utilisée en géostatistique pour décrire la continuité de la
minéralisation, et ce surtout parce qu'elle est plus simple à estimer que la covariance (qui demande
l'estimation préalable de l'espérance mathématique), mais également parce qu'elle permet
d'accommoder les situations ou Var(Z(x)) n'est pas définie.
TESTS STATISTIQUES
En ce qui concerne le traitement des données pluviométriques, leur connaissance peut fournir des
renseignements utiles pour :
L’analyse de ces données devra être intégrée dans l’étude (hydrologique) globale du bassin versant
concerné selon le cas où l’objectif envisagé.
Dans le traitement des données géologiques, les tests statistiques permettent d’effectuer une
adéquation de la distribution des teneurs.
C’est une loi continue dont la courbe de fréquence est symétrique par rapport à la valeur modale, de
sorte que la moyenne, le mode et la médiane sont confondus.
( ) .
√
En pratique,
( )
∅( ) = ∫ ù = : Variable réduite de Gauss.
√
N : Nombre d’observation
- Chercher pour chaque F.o, la valeur de la variable réduite de Gauss trouvée dans la table de
Laplace – Gauss.
- Porter sur un graphique (un papier millimétré), en abscisses, les événements et en ordonnées
les valeurs de u correspondantes aux fréquences observées (où expérimentales).
- Tracer la droite de Henry sachant que lorsque :
= → =0
= − (é )→ = −1
= + → = +1
Car : =
Sur le graphique, quant il y a bon hissage de la droite, on dit qu’il y a une bonne adéquation de la loi de
Laplace – Gauss. On peut ainsi calculer les différentes probabilités au non dépassement de chaque
événement.
[28]
Marche à suivre
k : nombre de classes.
e. v
I= où e. v: étendue de variation (différence entre les valeurs extrême)
k
I : longueur de classe (ou intervalle)
1
ρ( ) = e → fonction de densité, donne la probabilité individuelle
√2π
( )
u= x ∶ moyenne
s : écart type
- On multiplie pour chaque classe p par N (nombre total d’observation). Np qui est le nombre
théorique que l’on aurait observé dans chaque chose s’il y avait une bonne adéquation entre la
loi de Laplace – Gauss et la répartition des événements.
∑ ( )
- Faire la somme : χ =
- Déterminer le nombre de degrés de liberté DL :
- A l’aide de la table de la fonction CHI CARRE, on détermine la probabilité pour que les écarts
observés soient dus au hasard.
α: P[X > X ] = α.
NB : si l’on traite plutôt le log des valeurs numériques. On parle de la loi Log-normale= Loi de GALTON.
s
> 0.5
x
s
< 0.5 n
x
S : écart type
x: moyenne.
ρ % × 1.96 = a
I. C (95%) ÷ [x ± a]
ρ % × 1.96 = a
- I. C ÷ [s ± b]
Note :
Le χ peut permettre de tester l’homogénéité ou l’indépendance d’un échantillon. On parle alors du test
d’homogénéité ou test d’indépendance.
Supposons que la population soit homogène et affectons lui une loi de probabilité donnée. On peut
tester successivement chacun des échantillons par rapport à cette loi, une moyenne χ . Toutefois il est
plus naturel de tester l’ensemble des échantillons en le considérant comme un échantillon unique (
χ globale = χ + χ + ⋯ . + χ ).
Comme les échantillons sont indépendants, la somme obéit à une loi χ et le nombre de degrés de
liberté de chaque terme.
( )
χ = ∑ χ avec χ = ∑
On abaisse le degré de 1 par n, toujours pour des raisons d’estimation de la loi de probabilité.
Si P (χ > χ ) = 0.05, on peut considérer que la population n’est pas homogène. Ce test est
utilisable comme test d’indépendance. En effet, on démontre que lorsque deux variables aléatoires
sont indépendantes le χ tend vers zéro.
Le problème traité ici, consiste à confronter des résultats expérimentaux avec une loi de probabilité
donnée. Soit y une variable aléatoire obtenue expérimentalement. On suppose que cette variable suit
une certaine loi de probabilité et c’est ce que nous voulons tester.
Soit n le nombre d’épreuves qui d’après la aloi envisagée correspond à une probabilité p et constituons
la variable aléatoire :
−
=
Si nous répétons l’opération pour plusieurs valeurs de y (k fois) nous saurons que la variable :
(y − np )
χ = va suivre la loi de χ à (k − 1)degrés de liberté
np
Si la valeur de la variable aléatoire y obéit à la loi choisie, la valeur de est proche de zéro. On a en
fait :
Si en revanche on veut rejeter l’appartenance d’une variable étudiée à une loi de probabilité
déterminée. On utilise la relation :
Pour la non appartenance à une loi déterminée on prend les seuils de 5% (différence significative) et
de 1% (différence très significative)
Toujours pour les mêmes degrés de liberté (DL), supposons qu’on ait obtenu X + 9.5. On ne peut
pas dire que la variable trouvée suit de façon significative la loi choisie. En effet :
Si la loi est bonne, le χ à 50% de chances d’être inférieur à 9.5. pour que le test soit significatif ou très
significatif il est nécessaire de prendre :
[31]
Dans l’interprétation du test du χ il ne faut pas oublier ces considérations. En outre, nous savons que
n doit être suffisamment grand ( > 30) pour que la variable U suive une loi normale.
Enfin, il faut également que np ne soit pas trop petit (np doit toujours être supérieur à 5 et il est
préférable qu’il ne soit pas inférieur à 10).
Si tel était les cas on pourrait y remédier en regroupant les résultats correspondants avec ceux qui le
suivent ou le précédent.
Si le degré de liberté est supérieur à 30, la loi du χ est pratiquement équivalente à une loi normale.
En ce qui la variable U nous avons supposé qu’elle suivait une loi continue.
Le passage de la loi binomiale discrète à la loi normale continue prend en compte non plus les entiers
mais les aires comprise entrée + ou – ½ par rapport aux entiers.
Afin d’améliorer la précision du résultat, au lieu de considérer une valeur donnée pour en connaitre la
probabilité de dépassement par exemple, on va considérer l’aire correspondante.
Si la valeur prise en compte est x, l’aire est déterminée par les abscisses comprises entre x-1/2 et
x+1/2.
Ceci constitue la correction de continuité de YATES qui, surtout pour les valeurs de n faible, améliore
l’approximation normale de loi binomiale.
(y − np + 0.5) (y − np + 0.5)
χ = +
np np
Si n est grand cette correction devient négligeable. Enfin soulignons que si nous ne connaissions que
les pourcentages ou des proportions d’effectifs, le χ
Ne pourrait pas être calculé. Il faut avoir les données d’énumérations brutes.
EXERCICES
[1]
EXERCICES
1. En vue de son usage en géotechnique routière, un échantillon de sable a été prélevé dans une
plaine alluviale de Kinshasa. Une série normalisée de tamis à mailles carrées (Normes
AFNOR) est utilisée pour l’analyse granulométrique. Les résultats obtenus sont les suivants
(dimensions en microns) :
Classes Nombres
(microns) (effectifs)
100 – 150 5
150 – 200 6
200 – 250 10
250 –300 14
300 – 350 19
350 – 400 16
400 – 450 9
450 – 500 4
1) Représentation graphique
- Polygone des fréquences, en déduire le mode ;
- Courbe de fréquence cumulative.
2) Calculez :
- Moyenne arithmétique et géométrique
- Coefficient de HAZEN et commentez.
2. Pinda supérieur est un important réservoir pétrolier de l’offshore congolais. Il est
essentiellement constitué de calcaire, dolomie, grès et quelques passées argileuses qui gênent
la production. Les résultats de diagraphies différées d’un puits du champ Mibale sont
consignés dans le tableau ci-dessous.
Les porosités de ce réservoir pétrolier sont – elles dépendantes de la teneur en argile ? Argumentez.
Le rapport L/H (en pour mille) appelé indice d’épaisseur donne les renseignements suivants :
a. Représentation graphique :
- Polygones et histogrammes de fréquences ;
- Diagrammes de points et en bâton.
b. Calcul de quelques paramètres : Moyennes, Mode, Médiane, écart type, variance et coefficient
de variation ou covariance.
c. Interprétation.
4. Un réseau d’attaque de roche, divisé en 4 lots de volume identique, a fourni au tri : 28, 21, 35,
32 chitinozoaires.
Le nombre moyen de chitinozoaires par lot étant de 29, calculer la variance.
5. Sur 760 échantillons de roches sédimentaires appartenant au Jurassique et au crétacé du
bassin de Paris, on a déterminé les teneurs en silice (S), argiles (A) et carbonates (C) ainsi que
les teneurs en divers éléments, nommément en titane (Ti).
Pour 10 roches prises au hasard dans le lot initial, on a trouvé :
29 54 17 2,87
12 49 39 3,25
20 62 15 4,49
26 70 3 5,80
A été obtenu pour l’ensemble des observations en utilisant les techniques de la régression multiple.
|∆|
∆= [ ] − [ ]′ =
[ ]
N° % de % de
dolomitisation porosité
1. 38,5 5,2
2 47 5,7
3 34,5 5,2
4 34,5 5,0
5 40 5,3
6 40,5 5,3
7 43 5,2
8 33,5 4,9
9 33,5 4,9
10 31 4,85
11 28 4,7
12 22 4,35
13 21 4,25
14 43 5,8
15 30 4,8
16 25,5 4,55
17 29 4,8
18 28 4,75
19 36,5 5,3
20 32 5,0
21 41,5 5,7
22 27 4,7
23 36 5,4
24 40 5,6
25 34 5,2
26 28 4,7
27 26 4,6
28 24 4,5
29 57 6,4
8. On effectue en laboratoire des essais de fluage sur des éprouvettes de gneuss pour en
déterminer le comportement mécanique. On utilise l’appareillage Berthier – Kilian. En fonction
du temps de mise sous contrainte, on constate une déformation en mm que l’on mesure.
0,34 1,50
0,47 2,00
0,62 3,00
0,68 4,00
0,72 5,00
0,79 6,00
0,85 8,00
0,91 10,00
0,92 12,00
Interpréter :
a) Calculer l’écart type réduit (distribution de Student) et dites si la 2 ème génération de biotites est
voisine de la 1ère ou si elle est contemporaine ou postérieure à la 2ème déformation.
b) Les biotites de 2ème génération présentent-elles une plus grande variabilité dans leur
direction ? (utiliser la loi de distribution F de Snedecor)
10. Lors d’une analyse de roche, on dose le fer d’un même échantillon par deux méthodes
différentes : la première, classique et la seconde par fluorescence X. on a obtenu les résultats
suivants :
4,4 4,5
4,7 (ppm)
4,9
4,9 (ppm)
11. Dans deux niveaux lithologiques différents, une pelite argilo gréseuse et une phyllade, on
observe une phase de déformation particulière avec une apparition de Kink-bands. Les
expériences réalisées semblent indiquer que ces Kinks-bands sont liés à lanisotropie de la
roche.
Avec les phyllades, sur 400 observations, on a constaté 128 cas avec des Kink-bands.
On vous demande de dire s »il existe une liaison entre l’anisotropie de la roche et l’apparition des KInk-
bands.
12. Vérifier si les données pluviométriques annuelles ci-dessous sont en adéquation avec la loi de
LAPLACE-GAUSS (utiliser la droite de Henry et le test de chi-carré)
N° Pluies (mm)
0. 917
02 920,7
03 926,7
04 938,4
05 1034,4
06 1123,4
07 1134,6
08 1144,3
09 1158,7
10 1165,3
11 1175,0
12 1193,2
13 1195,5
14 1206,3
15 1212,0
16 1224,4
17 1231,2
18 1245,4
19 1266,4
20 1283,9
21 1290,6
22 1292,4
23 1294,6
24 1303,6
25 1409,0
[9]
26 1411,9
27 1427,4
28 1442,7
29 1449,8
30 1510,1
13. A la station pluviométrique de Kipushi, on a prélevé les données du tableau ci-joint pour le
mois de mars.
a) Donner une loi de répartition statistique en adéquation avec ces données ;
b) A l’aide de cette loi, déterminer la probabilité au non dépassement de la pluie de 259,4 mm ;
c) Quelle est la pluie dont la période de retour est de cent ans ?
Années Hauteurs de
hydrologiques pluies (mm)
1953 – 1954 121,9
1954 – 1955 221,2
1955 – 1956 337,6
1956 – 1957 272,7
1957 – 1958 143
1958 – 1959 89,1
1959 – 1960 168,7
1960 – 1961 199,4
1961 – 1962 260,9
1952 – 1963 193
1963 – 1964 215,1
1964 – 1965 263,6
1965 – 1966 182,7
1966 – 1967 300,9
1967 – 1968 233,4
1968 – 1969 271,1
1969 – 1970 127,6
1970 – 1971 134,6
1971 – 1972 259,4
1972 – 1973 115
1973 – 1974 338,6
1974 – 1975 307
1975 – 1976 194 ;3
1976 – 1977 156,1
1977 – 1978 353,7
1978 – 1979 294,5
1979 – 1980 171,4
1980 – 1981 208
1981 – 1982 59,5
1982 – 1983 107,6
[10]
14. On effectue une granulométrie d’un sable et on a obtenu les résultats suivants sur 100 g de
sédiment.
Comment savoir si la distribution de cette population est normale ou non ? Justifiez votre réponse.
15. L’analyse statistique faite sur un échantillon de 20 cumuls annuels des pluies de la ville de
Matadi a révélé que la répartition des pluies annuelles dans cette ville est en adéquation avec
la loi de Laplace – Gauss. L’échantillon analysé présente les caractéristiques suivantes :
module pluviométrique annuel : 975,0 mm, écart type : 250,4 mm.
a) Quel est le cumul annuel qui ne peut être dépassé qu’une fois tous les 25 ans ?
b) Quel est le nombre des cumuls annuels devrait-on, en principe, trouver dans l’intervalle 742,5
et 854,6 ?
16. Les pluies de durée de 60 minutes présentent, à Binza Méteo, des intensités dont la
distribution n’est pas en contradiction avec la loi de Gibrat – Galton. L’analyse d’un échantillon
d’une population de 22 valeurs des intensités maximales annuelles a présenté les paramètres
suivants :
- Moyenne des intensités : 1,03 mm/minute
- Ecart type des intensités : 0,18 mm/minute
- Moment d’ordre trois : 0,003
- IO : -0,03
- A (coefficient angulaire) : 13,65
- B (coefficient à l’origine) : -0,26
a) Les intensités supérieures à 1,25mm/minute provoquent des inondations et des érosions.
Quelle est la période de retour d’un tel phénomène ?
b) L’année hydrologique 1996 – 1997 a présenté une intensité maximum de 0,84 mm/minute. En
quelle année hydrologique va-t-on espérer dépasser cette intensité ?
17. L’étude palynologique de 110 échantillons du mésozoïque d’aquitaine a permis de dresser le
tableau de contingence ci-dessous.
On vous demande de dire si, au seuil de signification de 0,05, la couleur et la présence (ou absence)
de spores et pollens sont liées.
18. Les données ci-dessous se rapportent à l’étude du granite du Sidobre dans la région de
Castres. 595 échantillons sont analysés et les résultats regroupés en 7groupes de granite que
l’on a considérés comme différents
Est-ce que l’ensemble de ce granite est homogène ou non ? Justifiez votre réponse.
Groupes 1 2 3 4 5 6 7
Analyses Granite Granite Granite Granite Granite non Granite à Granite
bleu gris-bleu gris blanc porphyroide 2 micas aplitique
porphyroide
SiO2 69,34 69,75 69,84 70,73 71,67 75,95 76,73
Al2O3 15,06 15,21 15,17 14,84 14,55 13,20 13,08
Fe2O3 3,23 2,88 2,96 2,57 2,20 0,71 0,63
total
MnO 0,07 0,06 0,06 0,06 0,06 0,04 0,03
MgO 0,92 0,98 0,95 0,84 0,62 0,10 0,00
CaO 2,63 2,46 2,39 2,23 1,94 0,80 0,91
Na2O 3,25 3,23 3,27 3,30 3,33 3,50 3,32
K2O 3,76 3,83 3,80 3,94 4,09 4,78 4,66
TiO2 0,40 0,37 0,36 0,30 0,25 0,01 0,01
PF 0,83 1,01 1,06 0,95 0,92 0,90 0,83
19. Donnez le coefficient de variation pour un sondage dont les teneurs se répartissent de
la manière suivante :
Passe (m)
3,5 A 2,50%
2,0 A 4,60%
4,0 A 3,80%
7,5 A 5,70%
10,8 A 7,50%
9,5 à 4,80%
7,0 A 2,90%
6,5 à 5,30%
20. Dans un gisement stratiforme de nickel, l’analyse les teneurs moyennes en pourcent
des carottes donne :
Mesures
N19°E/9°ESE
N180°/0°
N12°E/6°WNW
N162°E/vertical
N72°E/vertical
N180°/10°W
N45°E/9°NW
N56°E/10°SE
N92°/ 24°NNE
N12°E/0˚ESE
N92°/0˚NNE
N87°E/10°NNW
N72°E/44°NW
N68°E/36°SE
N72°E/2°NW
N4°E/ verticale
N22°E/12°ESE
N68°E/24°NW
N68°E/24°SE
N130°/24°NE
N0°E/10°W
N93°/4°NNE
N34°E/9°SE
N128°/6°SW
N56°E/2°NW
N89°E/14°NNW
N122°/10°NE
N139°/4°SW
N105°/10°SSW
N14°E/12°WNW
N84°E/4°NNW
N144°/2°SW
N18°E/4°ESE
N56°E/2°SE
N53°E/2°NW
N119°/0°
[13]
N25°E/ 4°NW
N105°/30°NNE
N78°E/28°SSE
N 44°E/12°SE
N4°E/32°ESE
N31°E/22°SE
N112°/18°NNE
N85°E/8°SSE
N173°/4°ENE
N59°E/2°NW
N175°/10°ENE
N45°E/4°NW
N136°/8°SW
N107°/5°NNE
N31°E/10°NW
N12°E/2°ESE
N42°E/2°NW
N100°/vertical
N165°/2°ENE
N79°E/19°NNW
N105°/8°NNE
N12°E/vertical
N55˚E/6˚SE
N5˚E/8˚WNW
N71˚E/8˚NW
N134°/18°NE
N50°E/4°SE
N1°E/vertical
N48°E/4°NW
N4°E/6°WNW
N127°/vertical
N97°/2°NNE
N117°/5°SSW
N8°E/12°WNW
N167°/8°ENE
N70°E/36°NW
N30°E/ 8°SE
N119°/10°NNE
N58°E/14°SE
N161°/12°WSW
N8°E/16°ESE
[14]
N44°E/4°SE
N132° /26°SW
N168°/10°WSW
N72°E/18°NW
N23°E/2°NW
N130°/22°SW
N54°E/8°SE