Vous êtes sur la page 1sur 46

[1]

UNIVERSITE DE KINSHASA

FACULTE DES SCIENCES


Département des Géosciences

TRAVAUX PRATIQUES DE GEOSTATISTIQUE

Destine aux étudiants de Premier Licence Génie Géologique

Assistants :

Ivon NDALA & Derick UNGU

Année Académique 2019-2020


[1]

INTRODUCTION
Le mot de Géostatistique a fait son apparition en 1962. Elle est largement reconnue
aujourd’hui dans l’industrie minière comme étant un outil indispensable pour l’estimation des
ressources et la quantification des incertitudes.

On peut définir la Géostatistique comme l’étude des variables numériques réparties dans
l’espace ou encore la méthode de traitement statistique de données localisées

Ainsi lorsqu’on élabore des données statistiques ce qui est bien souvent le cas en
géologie, on parcourt trois étapes essentielles :

 Collecte des données chiffrées ;


 Leur traitement ; et
 Leur interprétation.

Lors d’une analyse statistique, le schéma suivant est souhaitable d’être abordé :

Définition de l’objet Acquisition


Documentation
d’étude des données

Interprétation + programmation Traitement


Ainsi, ce schéma constitue l’objectif de ce cours et expliquer la division de cette dernière
en 3 parties :

 La première partie traitera les notions de base de statistique dont la compréhension parait
indispensable à une utilisation de cet outil ;
 La deuxième partie fournira de façon très succincte quelques tests statistiques de traitement de
données ;
 La troisième partie est relative aux applications de l’outil statistique dans différents domaines de
la géologie sans que pour cela ces applications soient exhaustives.

A. Généralités
B. Traitements
C. Application à l’aide du logiciel
D. Exercices d’application en géologie
[2]

I. NOTIONS FONDAMENTALES

I.1. Information

I.1.1. Les variables

Dans une analyse statistique, la variable est ce critère, cet élément ou facteur quantifiable qui peut
permettre de diviser la population d’étude en sous groupes. C’est un phénomène observable,
susceptible de porter toute autre valeur numérique sur une échelle.

Il existe des variables qui peuvent prendre qu’une valeur : ce sont des « variables constantes ». Mais
nous pouvons catégoriser les variables en deux grandes variétés :

 Variables qualitatives : couleur du minéral, intensité de la pluie etc. ;


 Variables quantitatives : taille 2m etc.

On appelle variable aléatoire, une grandeur d’un sens physique déterminé dont les valeurs sont
soumises à une certaine dispersion lors de la répétition du processus donné (de l’essai, de
l’observation, de l’expérience...) (définition donnée par S. AIVAZIAN).

Cette notion de variable aléatoire peut être élargie à celle d’événement aléatoire. Tel événement est
imprévisible, son apparition n’est pas rigoureusement déterminée. Dans ces conditions, on appelle
variables aléatoires, une grandeur qui peut prendre dans l’expérience l’une quelconque des valeurs
possibles, inconnue d’avance.

Exemple : quel temps fera t il j/J dans un mois ?

Lors du jet de dé on sait que l’on obtiendra l’une de ces six valeurs : la variable est dite discrète ou
discontinue.

Certains auteurs parlent des variables dépendantes (ou liaisons probabilistes ou stochastiques).

Lorsque l’évolution de l’une entraine aussi celle de l’autre et des variables indépendantes dans le cas
contraire.

Connaissant la valeur de x, on ne peut pas déterminer la valeur exacte de y, mais seulement donner sa
loi de répartition qui dépend de x

Exemple : Dans certaines séquences géologiques, la porosité est fonction de la roche.

I.1.2. Techniques de collecte des données statistiques

La collecte des données statistiques statiques est liée à la définition de l’objet à étudier, puis de
l’assemblage des documents utiles à fournir les informations.

On peut citer la collecte directe et la collecte indirecte :

 Lorsque l’enquêteur entre directement en contact avec les sujets de la population d’étude (ou
une partie), on parle de collecte directe car il descend sur terrain. Cette technique peut poser
des difficultés lorsque la population d’étude est assez grande ;
[3]

 La collecte est indirecte dite aussi documentaire est utilisée lorsque le statisticien (le
chercheur) trouve des informations dans des archives, des encyclopédies, banques de
données,…

Lorsqu’on doit mener une enquête, tous les sujets des êtres, des événements, objets inertes qui sont
conservés par l’étude constituent ce qu’on appelle population d’étude. Certains auteurs parlent de
« référentiel », ensemble statistique, univers.

Dans un processus de traitement environnemental, on appelle support cette extension spatiale


(spatio-temporelle) sur lequel portera effectivement la mesure.

Il est donc utile que tous les individus de population aient les mêmes caractéristiques de base, on
parlera de population homogène.

Lorsque le chercheur ne peut atteindre tous les sujets de sa population d’étude, il est autorisé de porter
son enquête sur une partie des sujets = échantillon. Ce dernier peut designer aussi une mesure
unique effectué selon un protocole analytique précis et portant sur le support choisis.

La dimension de l’échantillon qui doit être représentatif, c.à.d. où les sujets ont des caractéristiques
requises dépendra des autres, ½, ¼, 1/10, 1/20, 1/100, selon la grandeur de la population parente.

I.1.3. Caractéristiques statistiques

Les caractéristiques ou paramètres statiques, sont des aspects spécifiques des séries. On peut les
subdiviser en caractéristiques de positions et celles de dispersions. Ce sont des valeurs typiques qui
représentent l’ensemble de données du phénomène étudié.

Une caractéristique statique doit remplir 6 conditions, elle doit :

 Tenir compte de toutes les notes de la série, y compris celle externes ;


 Être objective (vérifiable) ;
 Avoir une signification concrète ;
 Simple à calculer ;
 Être peu sensible aux fluctuations de l’échantillonnage utilisé dans l’enquête ;
 Doit se prêter aux calculs algébriques ultérieurs.
I.1.3.1. Caractéristiques de position

Elles s’appellent aussi « mesures de tendance centrale » qui expriment l’idée de l’ensemble ou
noyau, l’essentiel des données permettant d’établir des comparaisons entre des séries à partir d’elles.

On note dans cette première catégorie, les indices tels que les moyennes, le mode et le médian.

① Les moyennes

La moyenne (m) ou encore espérance mathématique (E(x)) est la valeur (ou élément noyau de la série)
à laquelle on peut s’attendre comme étant la plus probable si l’on effectuait un grand nombre
d’épreuves.
[4]

La moyenne (m ou Ẍ) est la note dont s’écartent toutes les autres notes de la série, de telle sorte que la
somme algébrique de ces écarts individuels à la médiane soit = 0.

Σ (X - Ẍ …) = 0 ou Σ x = δ ou voisine de zéro.
On distingue 4 types de moyennes :
 Arithmétique ;
 Géométrique ;
 Harmonique et ;
 Quadratique.
Les deux dernières sortes sont très rarement utilisées.
a) Moyenne arithmétique
Elles peuvent être simples ou pondérées
a1) Moyenne arithmétique simple :
C’est la moyenne des notes prises simplement et individuellement, sans tenir compte de leurs
importances.
Σ
=

Σxi Pi = Σxi mi/n = Σxi /n= …

Lorsque les données sont groupées, les variables X correspondent aux X c (groupées classifiées) et
sont multipliées au préalable par les effectifs simples.

= Σ (ni xi)/ N

EX :

X 15 20 25 26 30
N 3 4 2 5 1
N= 3+4+2+5+1


= 15(3) + 20(4) + 25(2) + 26(5) + 30(1) / 15 = 17

a2) Moyenne arithmétique pondérée P

Une moyenne arithmétique est dite pondérée lorsque dans ses calculs on a pris en compte des
coefficients indiquent le poids ou l’importance (W ou P) de chaque terme de la série. Généralement,
ces pondérations ont la même signification que les effectifs.

P = Σ (Xip)/ ΣP

12(4), 8(8), 13(2), 10(2)


P = 12x4 + 8x8 + 13x2 + 12x2 + 10x2 / 4 + 8 + 2 + 2 + 2 = 10,1
[5]

b) Moyennes géométriques Mg = g… ou G
b.1) Moyenne géométrique simple

→ Série non groupée :

 Série non log : g…= √X1. X2. X3 … Xn


 Avec log : log g….= Σ (log x)/ N

→ Série groupée :

 Sans log : g = √n1X1. n2X2. n3X3 … n3Xn. .


 Avec log : log g…= Σ (n log X)/N

b.2) Moyenne géométrique pondérée gp

 Sans log : gp = √X1P1. X2P2. X3P3 … XnPn


 Avec log : log gp = Σ (P log X)/N

Inconvénients de la moyenne géométrique :

 Elle a des calculs difficiles et compliqués ;


 Elle se fait absorber en cas de note nulle dans la série.

H < G < X…< Q


→ Relation empirique entre les quatre moyennes (si pas de note nulle).

② La médiane ou le médian

Elle correspond à la note qui divise la série en deux parties égales 50% inférieurs.

≡ point N/2 : c’est la moyenne de position des valeurs car la médiane indique l’emplacement, la position
des valeurs.

Position médiane = n+1/2 ième valeur.

Dans une série non groupée, on ordonne d’abord les valeurs, puis on trouve la position médiane.

EX : X = 3, 5, 8,3 ,5 → 3, 3, 5, 5, 8

Position médiane = n+1/2 = 5+1 /2 = 3ème valeur.

Dans une série impaire, la médiane est une note concrète qui est choisie, placée au beau milieu de la
série ordonnée. C’est dans une série paire qu’on cherche à trouver la valeur moyenne de notes situées
au milieu de la sérié ordonnée.
[6]

EX : X = 3, 5, 8, 3 → 3, 3, 5, 8

 Position médiane : 4+1/2 = 2,5 (entre 2è et 3è valeurs)


 Médiane = 3+5/2= 4 tombe entre 2me et 3e valeurs.

Lorsque la série est groupée, on distingue la médiane brute qui est la valeur centrale de la classe
médiane et la médiane dérivée, trouvée à partir de formule d’interpolation suivante :

Mé = L1 + ((N/2 - nc)*I)/ni
 L1 : limite inférieure (exacte) de la classe où tombent les 50% d’observation (classe médiane),
à partir des effectifs cumulés ;
 nc : effectif cumulé croissant de la classe immédiatement inférieure à la classe médiane ;
 ni : effectif simple de la classe médiane (N/2) ;
 I : intervalle de la classe médiane.

Ex :

X 11 12 14 15 16 19 20
Ni 2 3 5 7 4 3 2
nc 2 5 10 17 21 24 26
N/2 = 26/2 = 13

Mé brute = 15 → 15 + (13 – 10)/ 7 x 1 = 15,43 vraie médiane (dérivée).

La médiane peut être obtenue aussi par la méthode graphique.

On construit la droite a d’équation y = 0,5.

 Si a coupe le graphique en un point, la médiane est l’abscisse de ce point.


 Si a coupe le graphique suivant un segment [AB], la médiane est la moyenne arithmétique des
abscisses des points A et B.

NOTE : la comparaison da la médiane et de la moyenne permet se rendre compte de la symétrie ou


de la dissymétrie d’une distribution.

③ Le mode (Mo) ou le dominant

Le mode est la valeur de la variable X à laquelle correspond la plus grand fréquence. Il va de soit que
dans une graphique tracé à l’aide des effectifs simples, le mode est le point le plus élevée, le culminant
du graphique.

On distingue :

 Des séries sans mode : laquelle aucune valeur ne se répète, plus que les autres.
Ex : X = 2, 5, 7, 8
 Des séries numériques unimodales : à un seul mode, une simple variable se répète le plus.
Ex : X = 2 ; 4 ; 2 ; 5 : Mo = 2
 Des séries bimodales : à 2 modes
Ex X = 2 ; 3 ; 4 ; 5 ; 2 ; 3 Mo = 2 et 3
[7]

 Des séries polymodales : à plus des 2 modes

Lorque la série est groupée non classifiée, le mode est la variable qui a l’effectif simple le plus élevé.

Ex :

Boules Bleue Noire Verte blanche Jaune


Effectifs 2 4 2 5 4
Lorque la série groupée est classifiée, on distingue le mode brut qui est la valeur centrale Xc de la
classe modale (celle qui a l’effectif simple le plus élevé) et le mode dérivé, le vrai, trouvé à partir de la
formule d’interpolation :

= +
+

 : Excédent d’effectif entre les effectifs de la classe modale et ceux de la classe


immédiatement inferieure à la classe modale ;
 : Excédent d’effectif de la classe modale avec celui de la classe immédiatement
supérieure à la classe modale ;
 L1 : limite inferieur (ou exacte) de la classe modale.

Ex :

X 20 - 24 25 – 39 40 – 44 45 - 69
n 2 3 2 12
i = 20 = 12 - 2 = 10 = 12- 0 = 12

Mode brut : Xo entre 45 - 6,4 = 54,5

= . + = ,
+
N.B : Les relations entre les caractéristiques de position ont été élaborées par PEARSON.

Mo= M-3 (M-Mé)

Me = M=

I.1.3.2. Les caractéristiques de dispersion

Les caractéristiques de répartition permettent de dire si les écarts entre les notes individuelles et la
valeur centrale sont égaux, grands (notes peu concentrées) ou petit (notes plus concentrées).

La comparaison des séries sont plus aisée avec ces caractéristiques qu’avec celles des positons.

Ex : tension salariale, …

On parle de dispersion relative lorsqu’on tient compte en interprétation des résultats de sens des
unités de mesures utilisées dans l’observation. Dans ce cas, on retrouve des indices tels que l’écart-
type et la variance, l’écart-moyen absolu, l’étendu de variation.
[8]

C’est dans la disposition absolue qu’on fait abstraction d’unités de mesures. Ici, ce sont les indices
comme la covariance et l’écart-réduit qui s’appelle aussi variable standardisée ou Z score.

① L’étendue de variation (E.V ou U)

C’est la différence arithmétique entre les valeurs extrêmes prises dans 1 série.

E.V = L- l = U

Ex : X = 3, 3, 5, 5, 8, 10, 5, 12, 2 → E.V = 12 - 2 = 10

② L’écart-type (σ) ou S et variance (σ2S2)

On appelle écart d’une valeur Xi, le nombre Xi- .

Ou est la moyenne des Xi (i=1, …, m).

L’écart-type ou standard-dérivation est la Mé quadratique des écarts à la Mé.

La variance est le carré de l’écart-type.

Ces deux indices sont le plus important tout sur le plan pratique que théorique pour les indices de
dispersion.

Cependant, l’écart-type (S ou σ) est plus concret que la variance (= fluctuation) car il est plus proche de
la moyenne par sa formule.

a) Dans une série non groupée



 Ecart-type: S= √ ou S=
(N ≥ 30 ech.) Inverse (N < 30 ech.)
 Variance: S2 = ∑ ( − )

Si pour une population donnée nous avons la moyenne , nous avons une estimation de cette
population : N dont la variance sera S2/N.

On appelle s=S/√ l’erreur type de la moyenne. Grace à elle, nous verrons ultérieurement comment
on peut avoir une bonne estimation de la moyenne à partir de la moyenne estimée.

b) Dans une série groupée

Dans ce cas, on utilise la formule mathématique de proportionnalité en clases :

 σ ou S = ∑ −

ou bien
[9]

(∑ )
 S= ∑ −
∑ ∑
(∑ )
 Variance : S2=∑ ∑ − ∑
Ou
S2=∑ ∑ −

Note : dispersion relation=

③ Le coefficient de variation (V ou C.V)

Pour décrire la variation d’une population sans tenir compte de la position on a utilisé un coefficient
sans dimension appelé coefficient de variation ou covariance.

Il égale au rapport entre l’écart-type et la moyenne :

V=

Pour de nombreuses comparaisons ce coefficient, de par sa définition, est très utile. Toute fois, il ne
faut jamais oublier les informations contenues dans les données originales.

En effet, une augmentation ou une diminution du V peuvent être le fait d’une dispersion plus au moins
(+) grande donc d’une variation de S. Mais cela peut être dû aussi à une variation de et … donc
aucun rapport avec la dispersion.

Si bien qu’une comparaison des coefficients de variations doit toujours être accompagnée de celles
des moyennes et des écart-types.

En termes de quartles, on peut trouver la covariance selon la formule suivante :

C.Vq =

④ Ecart-réduit (z)

C’est variable standardisée ou variable centrée réduite exprimée par un rapport entre une différence et
une valeur fixe ou entre 2 quantités.


=

Cette valeur est à trouver pour chaque note individuelle X1 ; X2 ; X3 ….Xn.

⑤ Indice de dispersion (I) = Rapport entre écart moyen (E.M) et la moyenne.

EM
I= x 100
a
[10]

 Dans une distribution normale : EM = 0,79795


 Dans une distribution dissymétrique : EM =

⑥ Coefficient interquartile = é
x 100

Les quantiles sont des paramètres qui divisent la série en un certain nombre des parties égales. On
distingue les quartiles (Q) divisent la série en 4 parties, soit 25% de par quartier:

 1éré quartile ou point en duquel tombent le 25% de cas (Q1) ;


 2me quartile ou tombent les 50%. Celui-ci correspond à la médiane et n’est pas assez usuel ;

3me quartile ou tombent les 75% des cas (Q3) ;

4me quartile ou les 100%.

Q1 = L1 + Q3 = L3 +

Q1 et Q3 sont les plus utilisés


N : effectif total
L1 : limite inferieure (exacte) de la classe où tombent les 25% de cas ;
L3 : limite inferieure (exacte) de la classe où tombent les 75% de cas ;
nc : effectif cumulé croissant de la classe immédiatement inferieure à celle où tombent les 25
ou les 75% des cas ;
 ni : effectif simple de la où tombent les 25% ou 75% ;
 i : intervalle de classe de la classe où tombent les 25% ou 75%.
Exemple :

X n nc
140-144 1 1
145-149 3 4
150-154 2 6
155-159 4 10
160-164 4 14
165-169 6 20
170-174 10 30
175-179 8 38
180-184 5 43
185-189 4 47
190-194 2 49
195-199 1 50
50

Q1 → L 1 = = = 12,5 dans 160 - 164 (25% de 50) → 12,5


[11]

Q2 → L 3 = = = 37,5 dans 175-179 (75% de 50) =37,5

.
Q1 = 159,5 + x 5 = 162,625
.
Q3 = 174,5 + x 5 = 179,189

Q2 Q3 − Q1
= = Déviation quantile en espace semi − interquartile
2 2
 Les déciles (D)

Ces indices divisant la série en 10 parties égales. Ce sont le 1er et le 9me qui sont plus calcules.

D1 = L1 + Xi

D9 = L1 + Xi

 Les centiles (C)

C1 = L1 + Xi

C9 = L1 + Xi

Exercice

X N Nc
60-64 2 19
55-59 3 17
50-54 4 14
45-49 5 10
40-44 2 5
35-39 3 3

C1 = = = 0,19 dans 35-39

C1 = 34,5 + 5 = 34,82

,
C99 = 53,5 + 5 = 102,25

I.1.3.3. Les paramètres de symétrique et de voussure

Ce sont des valeurs qui caractérisent une série statistique En effet, les données se distribuent dans
une série, elle donne une certaine forme dont la dissymétriques ou asymétrie et l’aplatissement ou la
voussure.
[12]

Les moments sont aussi considérés comme caractéristiques importantes de la série statistique.

 Les moments (µ)

Le moment d’une série statistique est la moyenne des écarts à la moyenne de cette distribution élevée
à des puissances successives. On distingue des moments centrés (plus utilisés) et non centrés.

µk = ( − ) = E [(X - ) ]k k ϵ No

µ1 = 0

µ2 = ( − ) ou µ2 = ∑(X - )2/N

Note : Il existe aussi des moments indiqués à partir d’une origine arbitraire qui peut changer.

 µ’1 = ∑(X-A)/N
 µ’2 = ∑(X-A)2/N

Les moments nous permettent d’obtenir deux (2) coefficients importants dits « coefficient de
FISHER », indépendants de la transformation linéaire

X’i = axi + b a > 0, de la variable X.

a) Coefficient d’asymétrie

ɣ1 = µ3/S3

S = écart-type

µ3 = moment d’ordre 3

 Asymétrie positive : ɣ1 > 0 (droite) courbe I


 Asymétrie négative : ɣ2 < 0 (gauche) courbe II

I Y II

X
[13]

b) Coefficient d’aplatissement ou Voussure ou Kurtosis

ɣ2 = µ4 /S4 -3

Il mesure l’étalement ou la concentration d’une distribution. Il est rarement extérieur à l’intervalle [-2,
+2].

 Ɣ2 = 0 : distribution normale
 Courbe III ← Ɣ2 < 0 : distribution étalée que la normale (aplatissement négatif)
 Courbe II ← Ɣ2 > 0 : distribution + concentrée que la normale (aplatissement positif) → II

X
On parle alors de la courbe :

 Leptocurtique →forte concentration, Ɣ2 > 0 ;


 Mésocurtique →courbe normale Ɣ2 = 0 ;
 Platycurtique→courbe plate ou faible Ɣ2 < 0 .

f f f

X X X
Ɣ<0 Ɣ2 = 0 Ɣ2 > 0
[14]

Note : Dans le cas ou l’échantillonnage est fait par intervalles, il est parfois utile de faire appel aux
fractiles (centiles, déciles, quantiles,…), limites d’intervalles comprenant un pourcentage déterminé de
la variable.
( ) ( ) ( ) ( )
Skg = ou

On a : Ou

 Skg = 0 : symétrie ;
 Skg > 0 : asymétrie positive ;
 Skg < 0 : asymétrie négative.

 L’espace interquantile : Q3 – Q1

 L’espace semi-interquantile : Q =

 Percentile ou centile 90 : P90 = l1 +

 Percentile ou centile 10 : P10 = l1 +

Ku =

 Courbe normale : Ku = 0,263


 Leptocurtique : Ku > 0,263
 Platycurtique : Ku < 0,263

Q1 = l1 +

Q3 = l1 +

Avec : fd: Fréquence cumulée de la classe inferieure

fw : Fréquence simple de la classe on tombe N/4

I. Corrélation et régression

 Corrélation

La corrélation est la tendance à la relation qu’on peut observer entre certaines variables.

Elle cherche à déterminer comment cette relation est décrite ou expliquée, à travers une équation
linéaire ou non. C’est donc une relation probable.

Il ya plusieurs mesures de corrélation :


[15]

Par l’observation empirique du plan graphique des points qui permettent une détermination qualitative
du type de corrélation et par quelques coefficients qui permettent une mesure quantitative des
corrélations.

Dans le cas de mesure quantitative, on note :

 La régression des lignes des moindres carrés ;


 L’erreur-type ou standard de l’estimation ;
 La variable expliquée et inexpliquée à y ;
 Le coefficient de corrélation.

En ce qui concerne la régression des lignes des moindres carrés, cette mesure consiste à déterminer
les paramètres de l’équation de Y en X en cas de 2 variables seulement.

Y = ax + b ou X = ay + b

∑ –(∑ )(∑ )
a= ∑ (∑ )
ou =

(∑ ) –(∑ )(∑ )(∑ )


b= ∑ (∑ )
ou = −

On appelle coefficient de détermination, le rapport de la variable expliquée/ variable totale.

variable expliquée
r=± variable totale

Où :

Variable expliquée de Y = ∑ (Y estimé - Ῡ) 2

Variable totale de Y = ∑ (Y - Ῡ) 2 ou ∑ Y2

Cas non linéaire.

Lorsqu’il ya une relation linéaire entre les 2 variables, l’équation du coefficient de détermination se
transforme en r de BRAVAIS et de PEARSON. Où r est le coefficient de corrélation

∑ −∑ ∑
=
[ ∑ − ( ) ][ ∑ – (∑ ) ]
∑ ∑
∑ −
(∑ ) (∑ )
∑ − ∑ −

r= 0 à 1
[16]

 ( ) 0 et 0,20 : Relation très faible existe pas ;


 ( ) 0,20 et 0,04 : Relation faible, modérée ;
 ( ) 0,04 et 0,60 : Relation modérée ;
 ( ) 0,60 et 0,80 : Relation forte ;
 ( ) 0,80 et 1 : Relation très forte.

Note : nous verrons que dans le cas de système de variables aléatoires :

∑( − )−( − )
=

Cas des variables indépendantes : Kx,y = 0, r = 0.

Si les variables sont liées par une relation fonctionnelle linéaire, le produit de leurs écarts types est égal
à la covariance.

∑( − )−( − )
=
∑( − ) .∑ ( − )

Ainsi choisi le seuil de corrélation pour définir la dépendance de 2 variables ou leur indépendance n’a
de sens que si leur relation est linéaire.

Alors la corrélation va donc nous permettre de juger de la dépendance de 2 variables.

 La régression

La régression est la fonction qui relie 2 variables présentant une dépendance (problème d’ajustement).

L’une des variables est dite expliquée ou dépendante, l’autre explicative ou indépendante.

(Si la liaison est fonctionnelle Y = f(x) est une fonction, si la liaison est stochastique Y = f(x) est une
régression).

La régression sera utilisée pour prédire l’une des variables à partir de l’autre en exprimant la variabilité.

On constate que la nation de régression élargit celle de corrélation.

Remarque :

Dans de nombreux cas la variable explicative correspond aux causes et la variable expliquée aux
conséquences.

Mais ce n’est pas systématiquement vrai et il serait dangereux de le considérer toujours ainsi.

Il faut savoir qu’une même cause peut avoir plusieurs conséquences et parfois l’analyse porte sur des
variables issues de deux conséquences d’une même cause.
[17]

Il conviendra donc d’être méfiant au niveau de l’interprétation.

Méthode des moindres carrés :

∑( )
=

∑ − ∑ − )
=
∑( − )

= −

a = coefficient de régression.

Y = Ryx x + b b= − Ryx

2. COMPARAISON ENTRE PLUSIEURS SERIES DE MESURES.

Lors d’observation ou d’expériences, les résultats obtenus présentent une certaines variation due à de
multiples facteurs et notamment à l’appareillage utilisé ou à la méthode. C’est ce que nous venons de
voir avec l’application au calcul d’erreur. Si maintenant nous voulons comparer deux ou plusieurs séries
de mesures, le problème qui se pose est le suivant : la variation obtenue est elle d’une différence
réelle entre les séries de mesures, ou bien correspond – t – elle à l’imprécision des résultats ?
Le test Student, le test Fisher, l’analyse de la variance répondent précisément à ce problème.

a. Premier exemple (test Student)

Dans une série métamorphique on a pu observer deux générations de biotites. Les plis contemporains
de cette schistosité ont été repris par une déformation postérieure. On cherche à savoir si la deuxième
génération de biotites est voisine de la première ou si elle est contemporaine de la deuxième
déformation ou postérieure. Les échantillons observés ne permettent pas de le distinguer de façon
affirmative.

On va mesurer la direction d’allongement de ces biotites. Ces directions présentent une assez grande
variabilité. Si ces deux générations de biotites appartiennent à la même population (au niveau des
orientations) les deux échantillonnages ne devraient pas montrer de différences significatives. C’est
cette hypothèse que l’on va tester. Les mesures d’angle pour la direction ont été faites à partir d’un
repère commun ; on a obtenu :

1ère génération, 8 mesures,

10°, 11°, 12°, 13°, 14°, 15°, 17°

2ème génération, 7 mesures,

18°, 17°, 13°, 15°, 20°, 21°, 25°.


[18]

- Lorsque l’on prend deux échantillons d’une même population distribuée de façon normale on
obtient pour chaque échantillon une moyenne et une variance :

xA, SA et xB, SB.


2 2
Si les moyennes xA et xB étaient des moyennes vraies, X − X = 0, elles auraient pour variance la
somme des deux des moyennes obtenues

S S
= + (S étant l érreur type).

Faisons le rapport = √
, équivalent d un écart type réduit

Si les populations testées sont distribuées de façon normale X − X suit une distribution normale.
La somme + suivra toujours dans les mêmes conditions une distribution du χ à (n-1) degré de
liberté. Par suite le rapport, et donc t, correspondra à une distribution de Student à ( + − 2)
degrés de liberté.

Si la valeur de t obtenue supérieure à celle de la distribution de Student cela veut dire, au seuil choisi
bien sûr, que les deux moyennes comparées sont différentes et correspondent à des populations
différentes. Soulignons que deux hypothèses sont formulées. La première est que les populations
comparées sont distribuées de façons normale ; la seconde est que ces populations possèdent une
même variance, (sinon le calcul est très compliqué car en plus des variations de la variance
d’échantillonnage, il faudrait introduire celles de la variance des populations).

(∑ ) (∑ ) ∑ ∑
∑ – ∑ – –
= ( – )
, = ( – )
, = à( + −
( ) (∑ )
∑ ∑ –
( )

2) degrés de liberté

Dans l’exemple qui a été pris nous avons :

= 8, = 12.875, = 5.554,

= 7, = 18.429, = 15.952,

= 3.335 à 13 degrés de liberté.

Généralement l’expérience montre que l’on doit choisir le seuil de 5% pour une différence significative
et le seuil de 1% pour une différence très significative.

Pour 13 degrés de liberté on trouve :

. = 2.16, . = 3.01
[19]

Prenons le seuil de 1% cela veut dire qu’il existe 99% de chance pour que l’écart type réduit obtenu à
partir de deux échantillonnages d’une même population soit inférieur ou égal à 3.01 (voir table). Nous
avons trouvé 3.335 ce qui semble dire que les deux générations de biotites ont une orientation
différente de façon très significative.

Revenons à la théorie statistique. Lorsque l’on utilise, comme ici, un test (statistique inférentielle) on
part d’une hypothèse. Dans ce cas, on suppose qu’il existe aucune différence significative (c’est ce que
l’on l’hypothèse nulle) et c’est cette hypothèse nulle que l’on teste. On peut alors commettre deux types
d’erreur :

1° Erreur de 1ère espèce en rejetant cette hypothèse alors qu’elle était vraie,

2° Erreur de 2ème espèce en acceptant cette hypothèse alors qu’elle était fausse. Le seuil de
signification nous permet d’apprécier en probabilité l’erreur de 2 ème espèce il est nécessaire de
déterminer ce que l’on appelle une fonction de puissance.

Remarque :

Il convient bien sûr d’être très prudent quant à l’interprétation des résultats. Dans le cas étudié une
différence significative indique qu’il existe une forte probabilité d’avoir affaire à des populations
différentes ; il faut ensuite chercher à vérifier par l’observation si cette différence répond bien aux
causes que l’on a évoquées. S’il n’y avait aucune différence significative, il faudrait rester méfiant car le
deuxième déformation peut orienter les biotites dans la même direction que la première et l’utilisation
sans discernement du test conduirait à une conclusion aberrante. Pour d’autres exemples, c’est
l’inverse qui se produit. Aussi, nous rappelons à propos de ces tests qu’il faut être toujours très vigilant
dans l’emploi des statistiques et de ne jamais les utiliser comme de simple recettes passe partout.

COMPARAISON DES VARIANCES

Utilisons toujours l’exemple précédent. Les biotites de 2ème génération présentent semble – t – il une
plus grande variabilité dans leur direction. On a supposé que la variance des deux populations était
égale. Si l’on constate que les variabilités des deux échantillonnages ne présentent aucune différence
significatives, on peut penser que les populations d’où sont issus ces échantillons ont toutes les deux la
même variance (l’inverse n’étant pas forcement vrai en raison de l’échantillonnage). On va tester
l’hypothèse de l’égalité des deux variances :

Si les variances sont égales = 1. En réalité que nous désignons par F est différent de 1 et en
faisant que le numérateur soit toujours supérieur au dénominateur, cherchons la loi de distribution de F.
S suit une loi du χ à ( − 1) degrés de liberté, S également d’où F suit une distribution de
snedecor.

F= ≥ .

Dans l’exemple cité

= = 15.952 à 6 é é, = S = 5.554 à 7 é é.
[20]

15.952
= = 2.872
5.554
Généralement pour ce test l’expérience montre qu’il faut utiliser un seuil de 5%. Pour ces degrés de
liberté et au seuil choisi la distribution de snedecor nous indique que F = 3.87 (voit table). Cela veut
dire qu’il y a 5 chances sur 100 pour que ≥ 3.87. La variabilité des variances observées ne soit
pas significative.

Le rapport des deux variances est d’un emploi particulièrement intéressant lorsque l’on veut tester deux
méthodes ou deux appareils utilisés pour une même mesure.

Lors d’une analyse de roche on dose le fer d’un même échantillon par deux méthodes différentes, la
première classique, la seconde par fluorescence X. on a obtenu les résultats suivants :

1. Première méthode : (A) : 3.4 ppm – 3.6 – 3.9 – 4 4.1 – 4.3 – 4.4 – 4.7 – 4.9 – 4.9 (10 mesures)
2. Deuxième (B) : 3.9 – 4 – 4.1 – 4.2 – 4.3 – 4.4 – 4.5 (7 mesures)
= 4.2 , = 0.268 ; = 4.2 , = 0.047.
.
= .
= 5.596.

Au seuil de 5% pour ces degrés de liberté F = 4.10. le deux variances diffèrent de façon significative.
Ce qui revient à dire que la dispersion est significative plus faible avec la méthode B qui parait ainsi
plus précise.

TEST FISHER

La schistosité qui matérialise le plan axial de plis présente un caractère régional. Cette schistosité, en
tant que plan, est identifiée par la direction d’une horizontale de ce plan et par son prolongement.

Ce sont ces deux variables qui sont prises en compte. Ces variables présentent une certaine variabilité
soit par ce qu’il n’est pas très aisé de réaliser leurs mêmes, soit parce que le plan lui-même compte
tenu de la nature variable de roche affectée n’a pas une direction et un prolongement constants.

Sur un affleurement en quatre points. On a pu réaliser un certain nombre de mesures de schistosité.


On s’est rendu compte qu’il existait plusieurs phases de plis successives et pour deux d’entre elles des
schistosités bien marquées et très voisines l’une de l’autre.

Au niveau des quatre points d’observation une analyse de détail permet d’établir des rapports entre des
microstructures et une schistosité.

Le 1er problème posé, comme on réalise une synthèse dans ces rapports sur les quatre secteurs
d’affleurement, est de chercher à savoir si on s’adresse toujours à la même schistosité. L’absence de
continuité entre les points d’observation ne permet pas de dire. Par ailleurs, il serait intéressant de se
rendre compte si cette schistosité, dans la mesure où elle correspondrait à une même phase, ne serait
pas déformée. Là encore l’observation directe sur ces affleurements n’apporte pas d’éléments de
réponse.

Les mesures effectuées sont consignées dans le tableau suivant.


[23]

1ère Série 2ème Série 3èmeSérie 4ème Série


Direction Plongement Direction Plongement Direction Plongement Direction Plongement
N 115°E 78°SSW N118°E 75°SSW N117°E 73°SSW N112°E 80°SSW
112 82°SSW N114°E 75°SSW N122°E 71°SSW N112°E 85°SSW
114 74°SSW N114°E 75°SSW N113°E 74°SSW N107°E 72°SSW
110 87°SSW N121°E 76°SSW N114°E 71°SSW N114°E 73°SSW
117 71°SSW N118°E 75°SSW N113°E 75°SSW N113°E 75°SSW
111 70°SSW N113°E 72°SSW N119°E 74°SSW N111°E 81°SSW
111 74°SSW N113°E 72°SSW N113°E 73°SSW
113 84°SSW

La loi de probabilité avec laquelle sont comparées les distributions des échantillons peut être estimée à partir de la distribution de l’ensemble des échantillons.

Exemple : soit en 4 variables avec 3 échantillons :

A B C D Sommes
1 A1 B1 C1 D1 A1+B2…..
2 A2 B2 C2 D2 A2+B2…
3. A3 B3 C3 D3 A3+B3 ….
On réalise la somme :
[24]

A1+ B1+ …..+ A2 + B2 + … + A3 + B3 +….. = T

La distribution estimée est calculée de la façon suivante :

A + B + C +D
=
T
A + B + C +D
=
T
A + B + C +D
=
T
VARIOGRAMME

Un des aspects saillants de la géostatistique est la préoccupation de donner une bonne estimation (et
utilisation) de la fonction de covariance. Considérons donc cet aspect, prenons h la maille de
prélèvement définissant la distance entre deux échantillons voisins suivant une direction donnée. Cette
distance constitue le pas.

Chaque paire est un carré de la différence des données de prélèvement voisines X i et Xi+1 séparées par
les pas h, 2h, … nh.

Paire = (X − X )

Le variogramme expérimental est la somme des paires possibles (n) correspondant à chaque pas
divisé par les nombres des paires expérimental.

2∗( ) = ∑ X –X où n = N − 1

1
en pratique ∶ ∗( ) = (X – X ) constitue le semi variogramme
2n
Sur le graphique, on porte les pas en abscisse et les valeurs correspondantes de ∗( ) en ordonnée.
L’allure de la courbe expérimentale ∗( ) détermine le modèle du semi variogramme. On déduit ensuite
l’équation.

En pratique, il existe plus moins cinq modèles : le modèle sphérique, linéaire, monôme, exponentiel et
polynôme.

Modèle sphérique

Les variogrammes ont trois caractéristiques saillantes :

1. la pépite ou ”effet nugget” N ; c’est une discontinuité (saut) en l’origine, qui peut être attribuée
à l’impossibilité d’estimer les détails microscopiques. C’est le point origine (0) ou N situé l’axe
des ordonnées.
2. le palier total ou ”sill” ou encore plateure (c) ; c’est la limite de la semi variance quand la
distance des pairs augmente.
[25]

L’effet pépite abaisse la plateure à C-N= C’.

3. la portée ou ”range parameter” (a), ou encore zone d’influence : c’est la distance au delà de la
quelle la corrélation devient pratiquement 0 et la semi variance devient constante (égale au
palier total), indépendamment de la distance. C’est la distance à la quelle débute la plateure.
Autrement dit, au delà de la portée, la structure disparait et les valeurs cessent d’être en
relation les unes avec les autres, et la semi variance devient égale à la variance des
observations (l’inclusion des pairs au delà de la portée dans le variogramme ne ramène donc
aucune information).

3h h
( ) =C – pour h <
2a 2a

( ) = C pour h = a

Le modèle de variogramme

Chaque phénomène géologique possède un variogramme qui lui est propre. Ainsi,

- Un gisement d'or présentera un variogramme erratique avec un fort effet de pépite et une faible
portée ;
- Un gisement de cuivre porphyrique montrera un variogramme linéaire à l'origine avec faible
effet de pépite et grande portée ;
- Un gisement sédimentaire de fer présentera une portée plus grande parallèlement à la
stratification que perpendiculairement à celle-ci (anisotropie géométrique) ;
- La topographie pourra présenter un variogramme très continu avec comportement parabolique
à l'origine et absence d'effet de pépite.

Variogramme => outil descriptif puissant utilisable dans une multitude de domaines.
[26]

Régularisation du semi variogramme

Elle permet de revenir au cas des échantillons potentiels en utilisant l’équation :

C 10l l
C( ) = 20 − – où a = a − l et C > C
20 a a

Remplacer C et a dans l’équation modèle

3h h
( ) =C –
2a 2a

Le variogramme est donc la fonction la plus utilisée en géostatistique pour décrire la continuité de la
minéralisation, et ce surtout parce qu'elle est plus simple à estimer que la covariance (qui demande
l'estimation préalable de l'espérance mathématique), mais également parce qu'elle permet
d'accommoder les situations ou Var(Z(x)) n'est pas définie.

TESTS STATISTIQUES

Ils sont applicables en géologie dans le traitement de données pluviométriques, géologiques,…

En ce qui concerne le traitement des données pluviométriques, leur connaissance peut fournir des
renseignements utiles pour :

- les travaux de génie civil (barrage, pont,…) ;


- les précisions de l’inondation, des crues, érosions ;
- les travaux miniers, exhaure dans les mines ;
- les travaux hydrogéologiques (nappes aquifères,…) ;
- la navigation d’un cours d’eau ;
- l’agriculture,… et sur tous les effets d’entrainements que cela peut avoir dans d’autres secteurs
de la vie.

L’analyse de ces données devra être intégrée dans l’étude (hydrologique) globale du bassin versant
concerné selon le cas où l’objectif envisagé.

Dans le traitement des données géologiques, les tests statistiques permettent d’effectuer une
adéquation de la distribution des teneurs.

Pour ce faire, on utilise la loi de LAPLACE GAUSS.

L’adéquation à la loi de Gauss peut être vérifiée par les tests :

- de la droite théorique de HENRY ;


- χ (chi − deux) ;
- dl histogramme ;
- du quotient di écart type par la moyenne,…
1. Loi normale de la Place – Gauss
[27]

C’est une loi continue dont la courbe de fréquence est symétrique par rapport à la valeur modale, de
sorte que la moyenne, le mode et la médiane sont confondus.

( ) .

En pratique,

( )
∅( ) = ∫ ù = : Variable réduite de Gauss.

La fonction ∅( ) donne la probabilité P au non dépassement. On se sert de la table de la loi normale


(annexe).

La teneur de coupure (non dépassement) entraine un taux de récupération.

2. Test par la droite de HENRY

C’est une droite dont la pente et l’ordonnée à l’origine dépendent de X et de σ.

- On classe les données par ordre de grandeurs croissantes ;


- On calcule les fréquences observées par la formule :
.
F. o = où i : n° d’ordre du tableau (Rang)

N : Nombre d’observation

F.o : Fréquence observée pour chaque i.

- Chercher pour chaque F.o, la valeur de la variable réduite de Gauss trouvée dans la table de
Laplace – Gauss.
- Porter sur un graphique (un papier millimétré), en abscisses, les événements et en ordonnées
les valeurs de u correspondantes aux fréquences observées (où expérimentales).
- Tracer la droite de Henry sachant que lorsque :

= → =0

= − (é )→ = −1

= + → = +1

Car : =

En pratique, Il y a adéquation si la moyenne = mode = médiane.

Sur le graphique, quant il y a bon hissage de la droite, on dit qu’il y a une bonne adéquation de la loi de
Laplace – Gauss. On peut ainsi calculer les différentes probabilités au non dépassement de chaque
événement.
[28]

Test d’adéquation par le chi carre (poisson).

Marche à suivre

- Classer les événements en ordre des grandeurs croissantes,


- Subdiviser les données en différentes classes k :

k = 1 + 3.3logN où N: Nombre total d observations

k : nombre de classes.
e. v
I= où e. v: étendue de variation (différence entre les valeurs extrême)
k
I : longueur de classe (ou intervalle)

- On détermine le nombre d’observations (ni) comprises dans chaque classe.


- Calculer la probabilité théorique (p ) pour un événement de tomber dans chaque classe, à
partir de f et

1
ρ( ) = e → fonction de densité, donne la probabilité individuelle
√2π

∅( ) = ∫ e du ∅( ) : fonction de répartition de Gauss qui est tabulée.


( )
u= x ∶ moyenne

s : écart type

u : variable réduite de Gauss.

- On multiplie pour chaque classe p par N (nombre total d’observation). Np qui est le nombre
théorique que l’on aurait observé dans chaque chose s’il y avait une bonne adéquation entre la
loi de Laplace – Gauss et la répartition des événements.
∑ ( )
- Faire la somme : χ =
- Déterminer le nombre de degrés de liberté DL :

DL=k-1-q k: nombres de classes

q : paramètres de la loi théorique calculée à partir de l’échantillon : 2 (moyenne, écart


type) pour une loi normale.

- A l’aide de la table de la fonction CHI CARRE, on détermine la probabilité pour que les écarts
observés soient dus au hasard.

P ≥ 0.05: bonne adéquation

P < 0.05: d adéquation → chercher une autre loi.


[29]

α: P[X > X ] = α.

NB : si l’on traite plutôt le log des valeurs numériques. On parle de la loi Log-normale= Loi de GALTON.
s
> 0.5
x
s
< 0.5 n
x
S : écart type

x: moyenne.

Intervalle de confiance pour la moyenne.

- L’erreur type sur la moyenne : =ρ


ρ % × 1.96 = a

I. C (95%) ÷ [x ± a]

Intervalle de confiance pour l’écart type :

- L’erreur type sur l’écart type : = ρ


ρ % × 1.96 = a

- I. C ÷ [s ± b]

Note :

Le χ peut permettre de tester l’homogénéité ou l’indépendance d’un échantillon. On parle alors du test
d’homogénéité ou test d’indépendance.

Ainsi, on parle de plusieurs échantillons indépendants et distincts on veut déterminer si ces


échantillons appartiennent à la population.

Supposons que la population soit homogène et affectons lui une loi de probabilité donnée. On peut
tester successivement chacun des échantillons par rapport à cette loi, une moyenne χ . Toutefois il est
plus naturel de tester l’ensemble des échantillons en le considérant comme un échantillon unique (
χ globale = χ + χ + ⋯ . + χ ).

Comme les échantillons sont indépendants, la somme obéit à une loi χ et le nombre de degrés de
liberté de chaque terme.
( )
χ = ∑ χ avec χ = ∑

Les degrés de liberté DL du χ sera donc (k-1)(n-1).


[30]

On abaisse le degré de 1 par n, toujours pour des raisons d’estimation de la loi de probabilité.

Si P (χ > χ ) = 0.05, on peut considérer que la population n’est pas homogène. Ce test est
utilisable comme test d’indépendance. En effet, on démontre que lorsque deux variables aléatoires
sont indépendantes le χ tend vers zéro.

Le problème traité ici, consiste à confronter des résultats expérimentaux avec une loi de probabilité
donnée. Soit y une variable aléatoire obtenue expérimentalement. On suppose que cette variable suit
une certaine loi de probabilité et c’est ce que nous voulons tester.

Soit n le nombre d’épreuves qui d’après la aloi envisagée correspond à une probabilité p et constituons
la variable aléatoire :

=

Lorsque n devient grand, cette variable suit une distribution normale.

Si nous répétons l’opération pour plusieurs valeurs de y (k fois) nous saurons que la variable :

(y − np )
χ = va suivre la loi de χ à (k − 1)degrés de liberté
np

Si la valeur de la variable aléatoire y obéit à la loi choisie, la valeur de est proche de zéro. On a en
fait :

[ < ]= à ( − 1) degrés de liberté.

Si en revanche on veut rejeter l’appartenance d’une variable étudiée à une loi de probabilité
déterminée. On utilise la relation :

[ > ]= 1− à ( − 1) degrés de liberté.

Exemple : supposons que pour 10 degrés de liberté on ait obtenu χ = 32.5

Pour la non appartenance à une loi déterminée on prend les seuils de 5% (différence significative) et
de 1% (différence très significative)

Or : X . =18.31 (pour DL=10), X . = 23.21 (pour DL=10)

On dira que la différence est très significative.

Toujours pour les mêmes degrés de liberté (DL), supposons qu’on ait obtenu X + 9.5. On ne peut
pas dire que la variable trouvée suit de façon significative la loi choisie. En effet :

[ > 9.5] ≠ 0.5 d’après les tables du χ pour DL=10

Si la loi est bonne, le χ à 50% de chances d’être inférieur à 9.5. pour que le test soit significatif ou très
significatif il est nécessaire de prendre :
[31]

χ . = 3.94 et χ . = 2.56 pour DL=10.

Dans l’interprétation du test du χ il ne faut pas oublier ces considérations. En outre, nous savons que
n doit être suffisamment grand ( > 30) pour que la variable U suive une loi normale.

Enfin, il faut également que np ne soit pas trop petit (np doit toujours être supérieur à 5 et il est
préférable qu’il ne soit pas inférieur à 10).

Si tel était les cas on pourrait y remédier en regroupant les résultats correspondants avec ceux qui le
suivent ou le précédent.

Si le degré de liberté est supérieur à 30, la loi du χ est pratiquement équivalente à une loi normale.

En ce qui la variable U nous avons supposé qu’elle suivait une loi continue.

Le passage de la loi binomiale discrète à la loi normale continue prend en compte non plus les entiers
mais les aires comprise entrée + ou – ½ par rapport aux entiers.

Afin d’améliorer la précision du résultat, au lieu de considérer une valeur donnée pour en connaitre la
probabilité de dépassement par exemple, on va considérer l’aire correspondante.

Si la valeur prise en compte est x, l’aire est déterminée par les abscisses comprises entre x-1/2 et
x+1/2.

Ceci constitue la correction de continuité de YATES qui, surtout pour les valeurs de n faible, améliore
l’approximation normale de loi binomiale.

(y − np + 0.5) (y − np + 0.5)
χ = +
np np

Si n est grand cette correction devient négligeable. Enfin soulignons que si nous ne connaissions que
les pourcentages ou des proportions d’effectifs, le χ

Ne pourrait pas être calculé. Il faut avoir les données d’énumérations brutes.

Traitement informatique des données : Logiciels "SURFER 8" et ‘’Excel’’


C’est un logiciel de multiples utilisation, il a été utilisé pour le calcul des variogrammes et
l’établissement des cartes d’iso valeurs, la visualisation des résultats de krigeage et de cartographie
automatique.
[32]

EXERCICES
[1]

EXERCICES
1. En vue de son usage en géotechnique routière, un échantillon de sable a été prélevé dans une
plaine alluviale de Kinshasa. Une série normalisée de tamis à mailles carrées (Normes
AFNOR) est utilisée pour l’analyse granulométrique. Les résultats obtenus sont les suivants
(dimensions en microns) :

Classes Nombres
(microns) (effectifs)
100 – 150 5
150 – 200 6
200 – 250 10
250 –300 14
300 – 350 19
350 – 400 16
400 – 450 9
450 – 500 4

1) Représentation graphique
- Polygone des fréquences, en déduire le mode ;
- Courbe de fréquence cumulative.
2) Calculez :
- Moyenne arithmétique et géométrique
- Coefficient de HAZEN et commentez.
2. Pinda supérieur est un important réservoir pétrolier de l’offshore congolais. Il est
essentiellement constitué de calcaire, dolomie, grès et quelques passées argileuses qui gênent
la production. Les résultats de diagraphies différées d’un puits du champ Mibale sont
consignés dans le tableau ci-dessous.

Profondeur GR Teneur Porosité


(m) (API) en argile
(%)
1637 – 1664 22,5 0,48 22,5
1664 – 1685 16,8 0,22 17,2
1685 – 1700 16,5 0,24 36,5
1700 – 1710 15,6 0,19 25,5
1710 – 1715 16,5 0,21 27
1715 – 1720 12,5 0,11 36
1720 – 1722 16 0,20 28,5
1722 – 1731 27,5 0,21 27,5
1731 – 1780 34,16 0,46 17,5
1780 – 1790 21,75 0,33 21,5
1790 – 1810 7,5 0,59 28

Les porosités de ce réservoir pétrolier sont – elles dépendantes de la teneur en argile ? Argumentez.

3. Un lot protogrammoceras (Ammonite) a permis de faire les mesures suivantes :


[2]

- Diamètre de la coquille (D) ;


- Tailler de l’ombilic (O) ;
- Hauteur du tour de spire (H) ;
- Largeur (L) ;

Le rapport L/H (en pour mille) appelé indice d’épaisseur donne les renseignements suivants :

L/H (%) Nombre


d’individus
(effectifs)
495 – 515 2
515 – 535 3
535 – 555 3
555 – 575 10
575 – 595 7
595 – 615 23
615 – 635 14
635 – 655 10
655 – 675 5
675 – 695 2
695 – 715 4
715 – 735 2
735 – 755 1
755 – 775 1
Faites une brève étude statistique de ces données :

a. Représentation graphique :
- Polygones et histogrammes de fréquences ;
- Diagrammes de points et en bâton.
b. Calcul de quelques paramètres : Moyennes, Mode, Médiane, écart type, variance et coefficient
de variation ou covariance.
c. Interprétation.
4. Un réseau d’attaque de roche, divisé en 4 lots de volume identique, a fourni au tri : 28, 21, 35,
32 chitinozoaires.
Le nombre moyen de chitinozoaires par lot étant de 29, calculer la variance.
5. Sur 760 échantillons de roches sédimentaires appartenant au Jurassique et au crétacé du
bassin de Paris, on a déterminé les teneurs en silice (S), argiles (A) et carbonates (C) ainsi que
les teneurs en divers éléments, nommément en titane (Ti).
Pour 10 roches prises au hasard dans le lot initial, on a trouvé :

(S) (%) (A) (%) (C) (%) (Ti)%


1 4 95 0,26
0 2 98 0,28
0 1 98 0,29
3 10 86 0,77
90 0 10 2,30
4 27 69 2,31
[3]

29 54 17 2,87
12 49 39 3,25
20 62 15 4,49
26 70 3 5,80

[ ]′ = 10 {−413[ ] + 3023 [ ] − 3067 [ ] + 3067}

A été obtenu pour l’ensemble des observations en utilisant les techniques de la régression multiple.

|∆|
∆= [ ] − [ ]′ =
[ ]

Calculez les moyennes et S2 de [ ], [ ]′ , [∆], et commentez.

6. Dans la perspective d’une évaluation des potentialités pétrolières du bassin sédimentaire de la


cuvette centrale de la RDC, une étude sédimentologiques des formations Jurassiques
(Schistes bitumeux) de Kisangani – Wanie – Rukula – Ubundu a été effectuée. Pour ce faire,
des galets échantillonnés dans les 3 sites ont fourni les renseignements suivants (tableaux1, 2,
3). Il vous est demandé :
a. D’opérer un traitement statistique de ces données (graphique + calcul des paramètres ou
caractéristiques de dispersion ou de position, de symétrie et de voussure) ;
b. Commenter et comparer les résultats de 3 stations d’observations.

Tableau1 : CHUTES WAGENIA

N° galet L (cm) I e(cm) L+l/2e


1. 3,70 2,30 0,90
2 5,00 3,30 1,90
3 2,60 1,80 1,60
4 3,10 2,00 1,20
5 3,40 2,50 1,00
6 2,20 1,50 0,90
7 1,95 1,40 0,70
8 1,55 0,90 1,10
9 1,15 0,80 0,40
10 1,25 0,80 0,50
11 1,05 0,70 0,35
12 2,30 1,80 0,80
13 3,10 1,40 0,60
14 2,30 1,20 0,70
15 2,20 1,60 1,10
16 2,30 1,70 1,10
17 1,80 1,20 1,10
18 2,10 1,50 0,70
19 2,90 1,70 0,80
20 1,40 1,00 0,60
21 2,00 1,50 0,80
22 210 1,60 1,10
[4]

23 1,30 1,10 0,90


24 1,80 1,20 0,60
25 2,60 1,10 0,90
26 2,20 1,60 0,40
27 2,70 1,50 1,00
28 2,00 1,10 0,30
29 0,90 0,60 0,50
30 1,40 1,30 0,40
31 1,90 1,40 0,70
32 1,20 1,10 0,70
33 1,50 1,20 0,70
34 1,40 1,00 0,60
35 1,50 1,20 0,70
36 1,60 0,90 0,50
37 1,50 1,30 1,10
38 2,20 1,30 1,10
39 1,60 1,40 0,70
40 1,80 1,20 0,90
41 1,70 1,20 0,90
42 1,30 0,70 0,50
43 1,00 0,80 0,60
44 1,50 0,90 0,60
45 1,60 1,10 0,30
46 1,20 0,80 0,70
47 1,70 0,80 0,90
48 1,10 0,70 0,60
49 1,10 0,70 0,50
50 0,80 0,70 0,50

Tableau 2 : RIVIERE MAIKO

N° galet L (cm) I e(cm) L+l/2e


1. 1,60 1,200 1,70
2 2,30 1,90 0,70
3 1,20 1,10 1,00
4 1,70 1,60 0,50
5 2,00 1,40 1,20
6 1,70 1,20 0,50
7 1,40 1,30 0,70
8 1,50 1,20 1,00
9 1,00 0,60 0,40
10 0,70 0,60 0,60
11 2,20 1,50 0,90
12 1,60 1,40 0,70
13 1,30 1,10 0,90
14 1,90 1,40 0,70
15 1,55 0,90 1,10
16 1,50 1,30 1,10
[5]

17 1,00 0,80 0,60


18 1,70 1,20 0,90
19 0,80 1,20 0,50
20 1,70 1,40 0,50
21 1,70 0,60 0,50
22 1,60 1,20 1,70
23 2,00 1,40 1,20
24 1,00 0,60 0,40
25 1,50 1,20 0,70
26 0,90 0,60 0,50
27 1,80 1,20 1,10
28 2,20 1,60 1,10
29 1,60 1,10 0,30
30 2,30 1,70 1,10

Tableau 3 : RIVIERE TSHOPO

N° galet L (cm) I e(cm) L+l/2e


1. 2,20 1,70 1,10
2 1,00 0,80 0,80
3 1,60 0,95 1,10
4 1,05 0,60 0,50
5 1,50 1,00 1,00
6 2,20 1,10 1,20
7 1,15 0,90 0,70
8 1,20 0,80 0,80
9 1,00 1,00 0,60
10 0,70 0,70 0,60
11 1,20 1,10 1,00
12 2,60 1,80 1,60
13 1,00 1,00 0,60
14 1,05 0,60 0,50
15 1,25 0,85 0,50
16 2,20 1,70 1,10
17 1,60 0,95 1,10
18 2,20 1,10 1,20
19 2,30 1,70 1,10
20 2,00 1,40 1,20
21 1,50 1,20 1,00
22 0,70 0,60 0,60
23 0,90 0,60 0,50
24 1,00 1,00 0,60
25 1,70 1,20 0,90
26 1,20 1,10 0,70
27 1,00 0,80 0,60
28 0,50 1,30 1,10
29 1,70 0,80 0,90
30 1,80 1,20 1,10
[6]

7. Lors de l’étude d’un bassin sédimentaire carbonaté, on a trouvé les pourcentages de la


dolomitisation et de porosité pour 29 échantillons y prélevés.
Montrer qu’il existe une liaison entre porosité et dolomitisation. Commenter.

N° % de % de
dolomitisation porosité
1. 38,5 5,2
2 47 5,7
3 34,5 5,2
4 34,5 5,0
5 40 5,3
6 40,5 5,3
7 43 5,2
8 33,5 4,9
9 33,5 4,9
10 31 4,85
11 28 4,7
12 22 4,35
13 21 4,25
14 43 5,8
15 30 4,8
16 25,5 4,55
17 29 4,8
18 28 4,75
19 36,5 5,3
20 32 5,0
21 41,5 5,7
22 27 4,7
23 36 5,4
24 40 5,6
25 34 5,2
26 28 4,7
27 26 4,6
28 24 4,5
29 57 6,4

8. On effectue en laboratoire des essais de fluage sur des éprouvettes de gneuss pour en
déterminer le comportement mécanique. On utilise l’appareillage Berthier – Kilian. En fonction
du temps de mise sous contrainte, on constate une déformation en mm que l’on mesure.

Déformation Temps (heure)


(mm)
0,15 1,00
0,22 1,25
[7]

0,34 1,50
0,47 2,00
0,62 3,00
0,68 4,00
0,72 5,00
0,79 6,00
0,85 8,00
0,91 10,00
0,92 12,00

Interpréter :

- Etablir l’équation de régression linéaire ;


- Montrer (si possible) comment peut-on remonter, à partir de l’équation linéaire, à l’équation
réelle de régression curviligne
9. Dans une série métamorphique on a pu observer deux générations de biotites.
La 1ère souligne une schistosité bien marquée dont les plis contemporains ont été repris par
une déformation postérieure.
Les mesures de la direction d’allongement de ces biotites faites à partir d’un repère ont fourni
les résultats suivants :

1ère génération 2ème génération


10° 18°
11° 17°
11° 13°
12° 15°
13° 20°
14° 21°
15° 25°
17°

a) Calculer l’écart type réduit (distribution de Student) et dites si la 2 ème génération de biotites est
voisine de la 1ère ou si elle est contemporaine ou postérieure à la 2ème déformation.
b) Les biotites de 2ème génération présentent-elles une plus grande variabilité dans leur
direction ? (utiliser la loi de distribution F de Snedecor)
10. Lors d’une analyse de roche, on dose le fer d’un même échantillon par deux méthodes
différentes : la première, classique et la seconde par fluorescence X. on a obtenu les résultats
suivants :

1ère méthode (A) 2ème méthode (B)


3,4 3,9
3,6 4,0
3,9 4,1
4,0 4,2
4,1 4,3
4,3 4,4
[8]

4,4 4,5
4,7 (ppm)
4,9
4,9 (ppm)

On vous demande de dire quelle est la méthode la plus précise et pourquoi ?

11. Dans deux niveaux lithologiques différents, une pelite argilo gréseuse et une phyllade, on
observe une phase de déformation particulière avec une apparition de Kink-bands. Les
expériences réalisées semblent indiquer que ces Kinks-bands sont liés à lanisotropie de la
roche.

Ave la pelite, sur 100 observations, dans 20 cas, on a vu des Kink-bands.

Avec les phyllades, sur 400 observations, on a constaté 128 cas avec des Kink-bands.

On vous demande de dire s »il existe une liaison entre l’anisotropie de la roche et l’apparition des KInk-
bands.

12. Vérifier si les données pluviométriques annuelles ci-dessous sont en adéquation avec la loi de
LAPLACE-GAUSS (utiliser la droite de Henry et le test de chi-carré)

N° Pluies (mm)
0. 917
02 920,7
03 926,7
04 938,4
05 1034,4
06 1123,4
07 1134,6
08 1144,3
09 1158,7
10 1165,3
11 1175,0
12 1193,2
13 1195,5
14 1206,3
15 1212,0
16 1224,4
17 1231,2
18 1245,4
19 1266,4
20 1283,9
21 1290,6
22 1292,4
23 1294,6
24 1303,6
25 1409,0
[9]

26 1411,9
27 1427,4
28 1442,7
29 1449,8
30 1510,1

13. A la station pluviométrique de Kipushi, on a prélevé les données du tableau ci-joint pour le
mois de mars.
a) Donner une loi de répartition statistique en adéquation avec ces données ;
b) A l’aide de cette loi, déterminer la probabilité au non dépassement de la pluie de 259,4 mm ;
c) Quelle est la pluie dont la période de retour est de cent ans ?

Années Hauteurs de
hydrologiques pluies (mm)
1953 – 1954 121,9
1954 – 1955 221,2
1955 – 1956 337,6
1956 – 1957 272,7
1957 – 1958 143
1958 – 1959 89,1
1959 – 1960 168,7
1960 – 1961 199,4
1961 – 1962 260,9
1952 – 1963 193
1963 – 1964 215,1
1964 – 1965 263,6
1965 – 1966 182,7
1966 – 1967 300,9
1967 – 1968 233,4
1968 – 1969 271,1
1969 – 1970 127,6
1970 – 1971 134,6
1971 – 1972 259,4
1972 – 1973 115
1973 – 1974 338,6
1974 – 1975 307
1975 – 1976 194 ;3
1976 – 1977 156,1
1977 – 1978 353,7
1978 – 1979 294,5
1979 – 1980 171,4
1980 – 1981 208
1981 – 1982 59,5
1982 – 1983 107,6
[10]

14. On effectue une granulométrie d’un sable et on a obtenu les résultats suivants sur 100 g de
sédiment.

Tailles 8 4 2 1 0,5 0,25 0,125 0,063 0,031 <


des 0,031
tamis en
mm
Echelle -3 -2 -1 0 1 2 3 4 5
de 
Poids en 2 2 8 12 25 23 15 7 5 1
grammes

Comment savoir si la distribution de cette population est normale ou non ? Justifiez votre réponse.

15. L’analyse statistique faite sur un échantillon de 20 cumuls annuels des pluies de la ville de
Matadi a révélé que la répartition des pluies annuelles dans cette ville est en adéquation avec
la loi de Laplace – Gauss. L’échantillon analysé présente les caractéristiques suivantes :
module pluviométrique annuel : 975,0 mm, écart type : 250,4 mm.
a) Quel est le cumul annuel qui ne peut être dépassé qu’une fois tous les 25 ans ?
b) Quel est le nombre des cumuls annuels devrait-on, en principe, trouver dans l’intervalle 742,5
et 854,6 ?
16. Les pluies de durée de 60 minutes présentent, à Binza Méteo, des intensités dont la
distribution n’est pas en contradiction avec la loi de Gibrat – Galton. L’analyse d’un échantillon
d’une population de 22 valeurs des intensités maximales annuelles a présenté les paramètres
suivants :
- Moyenne des intensités : 1,03 mm/minute
- Ecart type des intensités : 0,18 mm/minute
- Moment d’ordre trois : 0,003
- IO : -0,03
- A (coefficient angulaire) : 13,65
- B (coefficient à l’origine) : -0,26
a) Les intensités supérieures à 1,25mm/minute provoquent des inondations et des érosions.
Quelle est la période de retour d’un tel phénomène ?
b) L’année hydrologique 1996 – 1997 a présenté une intensité maximum de 0,84 mm/minute. En
quelle année hydrologique va-t-on espérer dépasser cette intensité ?
17. L’étude palynologique de 110 échantillons du mésozoïque d’aquitaine a permis de dresser le
tableau de contingence ci-dessous.

Couleur Richesse Gris-foncé Grisâtre Rougeâtre Gris-foncé grisâtre


ou rougeâtre
Non fossilifère 26 19 18 63
Plus ou moins 34 9 4 47
fossilifère
Fossilifère ou non 60 28 22 110
[11]

On vous demande de dire si, au seuil de signification de 0,05, la couleur et la présence (ou absence)
de spores et pollens sont liées.

18. Les données ci-dessous se rapportent à l’étude du granite du Sidobre dans la région de
Castres. 595 échantillons sont analysés et les résultats regroupés en 7groupes de granite que
l’on a considérés comme différents
Est-ce que l’ensemble de ce granite est homogène ou non ? Justifiez votre réponse.

Groupes 1 2 3 4 5 6 7
Analyses Granite Granite Granite Granite Granite non Granite à Granite
bleu gris-bleu gris blanc porphyroide 2 micas aplitique
porphyroide
SiO2 69,34 69,75 69,84 70,73 71,67 75,95 76,73
Al2O3 15,06 15,21 15,17 14,84 14,55 13,20 13,08
Fe2O3 3,23 2,88 2,96 2,57 2,20 0,71 0,63
total
MnO 0,07 0,06 0,06 0,06 0,06 0,04 0,03
MgO 0,92 0,98 0,95 0,84 0,62 0,10 0,00
CaO 2,63 2,46 2,39 2,23 1,94 0,80 0,91
Na2O 3,25 3,23 3,27 3,30 3,33 3,50 3,32
K2O 3,76 3,83 3,80 3,94 4,09 4,78 4,66
TiO2 0,40 0,37 0,36 0,30 0,25 0,01 0,01
PF 0,83 1,01 1,06 0,95 0,92 0,90 0,83

19. Donnez le coefficient de variation pour un sondage dont les teneurs se répartissent de
la manière suivante :

Passe (m)
3,5 A 2,50%
2,0 A 4,60%
4,0 A 3,80%
7,5 A 5,70%
10,8 A 7,50%
9,5 à 4,80%
7,0 A 2,90%
6,5 à 5,30%

20. Dans un gisement stratiforme de nickel, l’analyse les teneurs moyennes en pourcent
des carottes donne :

X 5.2 4.7 4.2 3.5 3.4 3.6 3.7 4.6 5.1


Y 3.0 2.9 2.7 2.3 2.2 2.3 2.4 2.5 2.8
X 4.5 5.0 5.3 5.0 4.5 4.8 4.0 4.3 3.8
Y 2.6 2.7 2.8 2.9 2.8 2.7 2.4 2.5 2.3
[12]

a. Effectuer une brève étude statistique sur les caractéristiques de position et de


dispersion
b. Calculer le coefficient de corrélation des données groupées.
21. Les mesures structurales (tableau ci-dessous) prélevées dans la région de Mbuji-Mayi
indiquent que cette région a été soumise à une tectonique compressive dont la contrainte
principale S1 dirigée SW-NE est à mettre vraisemblablement en relation avec le
développement de la vaste structure synclinale d’axe orienté NW-SE.

Mesures
N19°E/9°ESE
N180°/0°
N12°E/6°WNW
N162°E/vertical
N72°E/vertical
N180°/10°W
N45°E/9°NW
N56°E/10°SE
N92°/ 24°NNE
N12°E/0˚ESE
N92°/0˚NNE
N87°E/10°NNW
N72°E/44°NW
N68°E/36°SE
N72°E/2°NW
N4°E/ verticale
N22°E/12°ESE
N68°E/24°NW
N68°E/24°SE
N130°/24°NE
N0°E/10°W
N93°/4°NNE
N34°E/9°SE
N128°/6°SW
N56°E/2°NW
N89°E/14°NNW
N122°/10°NE
N139°/4°SW
N105°/10°SSW
N14°E/12°WNW
N84°E/4°NNW
N144°/2°SW
N18°E/4°ESE
N56°E/2°SE
N53°E/2°NW
N119°/0°
[13]

N25°E/ 4°NW
N105°/30°NNE
N78°E/28°SSE
N 44°E/12°SE
N4°E/32°ESE
N31°E/22°SE
N112°/18°NNE
N85°E/8°SSE
N173°/4°ENE
N59°E/2°NW
N175°/10°ENE
N45°E/4°NW
N136°/8°SW
N107°/5°NNE
N31°E/10°NW
N12°E/2°ESE
N42°E/2°NW
N100°/vertical
N165°/2°ENE
N79°E/19°NNW
N105°/8°NNE
N12°E/vertical
N55˚E/6˚SE
N5˚E/8˚WNW
N71˚E/8˚NW
N134°/18°NE
N50°E/4°SE
N1°E/vertical
N48°E/4°NW
N4°E/6°WNW
N127°/vertical
N97°/2°NNE
N117°/5°SSW
N8°E/12°WNW
N167°/8°ENE
N70°E/36°NW
N30°E/ 8°SE
N119°/10°NNE
N58°E/14°SE
N161°/12°WSW
N8°E/16°ESE
[14]

N44°E/4°SE
N132° /26°SW
N168°/10°WSW
N72°E/18°NW
N23°E/2°NW
N130°/22°SW
N54°E/8°SE

Après analyse statistique :


- Dites si la distribution est normale ou asymétrique. Au regard du résultat trouvé confirmez vous
l’hypothèse émise par (CAHEN et MORTELMANS, 1947 ; DUPONT, 1971 ; LEPERSONNE,
1973) telle que décrite ci-dessus.
- Etablissez les histogrammes de fréquence de pendage et direction et donner une interprétation
sommaire sur la région.
- Etablissez l’équation de régression linéaire et dites si ces deux variables (direction et pendage)
sont dépendantes.
22. Les données relatives au champ d’IABE obtenues après forage d’exploration sont consignées
dans le tableau ci-dessous :

Profondeur Argile (%) Dolomie (%) Calcaire (%) Porosité


8640 35.3 22 20.4 0.4
8650 81.7 24 16.0 15
8660 51.2 23 19.2 11
8670 20.7 27.2 25 11.2
8680 36.6 35.2 33 14.8
8690 75.6 43 31 14
8700 20.7 32 22 12.2
8710 46.3 39 27.2 12.1
8720 32.9 32 23 12.4
8730 6.6 28 20 10.5
8740 8.5 39.2 33 18
8750 26.8 45 21.2 17
8760 69.5 41.2 26 12.6
8770 75.6 37.6 26 18.4
8780 26.8 30.4 27 12.2
8790 8.5 39 31.2 15
8800 14.6 45.2 33 5
8810 63.4 40 32.4 9.8
8820 93.0 55.6 30.4 12
8830 57.3 45 29.6 16.8
8840 57.3 48 30 23.2
8850 39 43.6 31 21.6
8860 52.4 32.4 33.6 18.8
8870 39 41.6 36 22
8880 57.3 34.4 34.8 15.8
8890 57.3 33.2 30 7.8
8900 69.5 29 21 5
[15]

8910 56.1 27.2 8.8 11.4


8920 57.3 27.6 14.4 12
8930 55.6 19.6 13.6 11.4
8940 69.5 23.6 12.4 12.4

- Chercher les différentes corrélations entre : Argile/Dolomie, Calcaire/Dolomie, Argile/Calcaire


et Argile/porosité ;
- Tracer les courbes Profondeur/Argile, Profondeur/calcaire, Profondeur/dolomie, et
Profondeur/porosité ;
- Commenter

Vous aimerez peut-être aussi