Vous êtes sur la page 1sur 55

Géostatistiques et analyse des

données Géologiques
Introduction

Distribution Uni-variée

Distribution Bi-variée
Théorie
Analyse spatiale
Pratique (Excel, R,
Machine Learning Python…)
Analyse Multivariée
Visualisation des données
• Affichage des données
brutes / carte de
localisation
• Pas de biais spatial
• Pas de modèle
• Pratique souvent en 2D
• Peu pratique en 3D
Visualisation des données

• Affichage des données brutes /


carte de localisation
• Exemple pour un contaminant
avec une transformation binaire
• point blanc si supérieur aux seuils
• Remarque : il s'agit d'un
indicateur de transformation de
données continues.
Visualisation des données
• Affichage des
données brutes
Representation des distributions Uni-variées

• La distribution statistique - la
distribution d'une variable est une
description du nombre relatif de fois que
chaque résultat possible se produira
dans un ensemble suffisamment grand
d‘experiences.
• Qu’est ce qu’il nous apprend:
• Quel est le minimum et le maximum ?
• Avons-nous beaucoup de valeurs basses ?
• Avons-nous beaucoup de valeurs élevées ?
• Avons-nous des valeurs extrêmes (aberrantes)
(valeurs qui n'ont pas de sens et qui doivent être
expliquées) ?
Histogramme uni-varié
Comment visualizer les distributions ?
• L'histogramme est une fréquence pour un ensemble
exhaustif de classes.

• la fonction de densité de probabilité (FDP) f(x) est la


probabilité que le résultat ait une valeur égale à x.
• L'aire sous la courbe FDP est égale à 1,0 :
• Pour les variables discrètes

• pour les variables continues


Histogramme uni-varié
• Mesure valide de la probabilité sur l'ensemble des
intervalles possibles.

Pour les variables discrètes

Pour les variables continues

mesure de la densité (pourrait > 1,0), si


Histogramme uni-varié
Comment générer un FDP classée?
• Etape 1 : trier les points de données dans un ordre croissant
tel que X1 ≤ X2 ≤ X3 ≤... ≤ Xn
• Etape 2 : Calcule de l’amplitude des classes: deviser la plage
de données (Xn-X1) dans les classes désirés :

• Etape 3 : Compter le nombre de données dans la classe i


pour trouver f et calculer la probabilité de la barre

• Etape 4 : Tracer le milieu de l'intervalle de la classe (Xi < X <


Xi+Dx) en fonction de Pi
Faire un histogramme et le convertir en barres de fonction de
densite de probabilite
Histogramme uni-varié

a b

Oui- pas de données

Oui si surface sous la Non - probabilité Non si P (a < x< b) > 1


courbe = 1 négative
Histogramme uni-varié
Effet de la taille des classes
• Des classes trop grands masquent l'information
• Manque de résolution
• Les classes trop petits brouillent l’information
• Manque d'échantillons dans chaque classe pour une
évaluation stable de la fréquence ou de la proportion
• Choisissez la résolution la plus élevée avec un
faible bruit.

Note bien : Les très grandes et très petites classes


tendront vers une proportion égale dans chaque
classe (tous dans un seul classe ou une donnée
dans chaque classe).
Histogramme uni-varié
Fonction de distribution cumulative :

• La fonction de distribution cumulative (FDC) est la


somme d'une FDP discrète ou l'intégrale d'une FDP
continue. La fonction de distribution cumulative
Fx(X) est la probabilité que la variable prenne une
valeur inférieure ou égale à x.

• Pour la FDC, il n'y a pas de problème de sélection de


la taille du classe continu.
• Augmentation monotone. Une diminution
nécessiterait une probabilité négative sur un
intervalle
Histogramme uni-varié
Comment utiliser un FDC ?
• Une fonction de la probabilité que
tout échantillon aléatoire soit inférieur
à un seuil.

• Exemple :
Quelle est la probabilité qu'une carotte
aléatoire ait une porosité égale ou
inférieure à 26% ?
Histogramme uni-varié
Comment utiliser un FDC ?
• Une fonction de la probabilité que
tout échantillon aléatoire soit inférieur
à un seuil.

• Exemple :
quelle est la probabilité qu'une porosité 12%
aléatoire de la carotte soit > 15% et 15%
égale ou inférieure à 26%.

P(a<X<b) = Fx(b) – Fx(a) = 71% - 12% = 59%


Histogramme uni-varié
Comment utiliser un FDC ?
• Une fonction de la probabilité que
tout échantillon aléatoire soit inférieur
à un seuil.

• Exemple :
quel est le 90ème percentile (la valeur 28%
pour laquelle 90% des valeurs aléatoires
seraient inférieures à celle-ci) ?

P90𝑥 = 𝐹𝑥−1 (0.9) = Porosité de 28%


Histogramme uni-varié
Exemple :

P(Porosité < 20%) ? = 0.30

P( Porosité < 26%) = 0.67

P(20% < Porosité < 26%) ? = 0.67 – 0.30 = 0.37

P50 ? = 24%

P20 ? = 18%
Histogramme uni-varié

Oui Oui (Présence d’un pique) Oui, pas de données Non, Negative Prob
Histogramme uni-varié
Comment générer un CDF ?
• Étape 1 : Triez les points de données dans un ordre croissant
de sorte que 𝑋1 ≤𝑋2 ≤ 𝑋3 ≤ ... ≤ 𝑋𝑛 .
• Étape 2 : Attribuer une probabilité 𝑓𝑖 à chaque événement
(Typiquement uniforme pour chacun) :
• Étape 3 : Intégrer en additionnant les probabilités pour
calculer la probabilité cumulative d'être ≤ à chaque valeur de
données.

En cas de pondération égale

• Étape 4 : Tracer xi en fonction de Fi.


Histogramme uni-varié
Exercice

Échantillon de perméabilité: 20, 50, 100, 200, 500 mD


Fréquence: 1/5, 1/5, 1/5, 1/5, 1/5
𝐹𝑘 𝐾 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑒 𝑘 < 𝑘𝛼 = 20%, 40%, 60%, 80%, 100%
Fréquence Cumulée

Perméabilité (%)
Histogramme uni-varié

• Calcule des distributions dans les projets de


subsurface ? Pour les variables catégorielles :

• 1. Les données sont regroupées, pondérées


puis les fréquences sont calculées pour chaque
catégorie / PDF.

• 2. Les statistiques sommaires ne sont que des


proportions.

• 3. On calcule une FDC.


Statistiques uni-variée
Mesures de la tendance centrale
• Moyenne arithmétique / Moyenne

Moyenne de l'échantillon

Si N est impair
• Médiane (P50) Si N est pair

Mode = Calcaire

Mode = 27%
Mode: Valeur la plus dominante
• Continu
Sensible aux classes
• Catégorique
Fréquence la plus élevée
Statistiques uni-variée
Mesures de la tendance centrale
La fraction suivante de schiste a été mesurée à partir de 9 échantillons de
carottes. Elles ont été triées par ordre croissant.
3%, 4%, 8%, 8%, 8%, 10%, 13%, 16%, 20%.

Quelle est la moyenne, la mediane et le mode?

Moyenne : Somme/compte= 90/9= 10%


Mediane : Trier et prendre la 5e valeur = 8%
Mode : Prendre la valeur la plus dominante = 8%
Statistiques uni-variée
Mesures de la tendance centrale
• Exemple
• Distribution normale

• Mode = Médiane = Moyenne


Statistiques uni-variée
Mesures de la tendance centrale
• Exemple
• Distribution logarithmique
• Mode< Médiane < Moyenne
Statistiques uni-variée
Mesures de la tendance centrale
• Calculer la médiane d'un
exemple non paramétrique

Médiane
Statistiques uni-variée
Mesures de la tendance centrale
• Moyenne géométrique

• Cas d'une progression, d'une suite, et non pas d'une suite d'entités indépendantes.
• Plus souvent utilisée pour des séries de valeurs de nature exponentielle

• Moyenne harmonique

• Perméabilité effective pour un écoulement perpendiculaire aux couches.

• La perméabilité effective pour l'écoulement le long des couches est une moyenne
arithmétique.
Statistiques uni-variée
Mesures de la tendance centrale
• Une forme plus générale est la moyenne de la loi de puissance

• Utile pour calculer la perméabilité effective lorsque l'écoulement n'est ni parallèle ni perpendiculaire à des
couches de perméabilité distinctes.
• La simulation de l'écoulement est utilisée pour calibrer à un calcul la puissance appropriée.
Mesure de la dispersion
Variance

• Variance de la population: Différence quadratique


moyenne par rapport à la moyenne

• Estimation sans biais de la variance de la population à partir


d'un ensemble d'échantillons.

Variance de l'échantillon

Écart-type
Mesure de la dispersion
Gamme

• Valeur maximale - Valeur minimale


• Gamme(x) =

Exemple :

• Gamme (Porosité de la carotte) = 34.1 - 2.6 = 31.5


2.6 34.1
Mesure de la dispersion

Problème
• Le min et le max sont les mesures les moins fiables.

• Quelle est la probabilité que vous ayez échantillonné les


extrêmes ? Il y a très, très peu de valeurs sur les queues.

• Il pourrait s'agir de valeurs aberrantes (Extrêmes).

• Il est plus sûr de travailler avec des quartiles.


2.6 34.1
Mesure de la dispersion
Quartiles
Plus sûr de travailler avec des quartiles
P25, P50, P75

Intervalle interquartile :

IQR=

Exemple
IQR = 26,8-19,0 = 7,8
Mesure de la dispersion
Détection de valeurs extrêmes
• Clôture inférieure = P25-1,5(IQR)

• Clôture supérieure = P75 + 1,5(IQR)

inferieure

supérieure
Clôture

Clôture
• Valeur aberrante si :
• X< Clôture inférieure
• X> Clôture supérieure

• Exemple :
• P25 = 19,0, P75=26,8
• IQR = P75 - P25 = 7,8
• Clôture inférieure = 19,0 - 1,5 (7,8) = 7,3 Les Extrêmes
• Clôture supérieure = 26,8 + 1,5(7,8) = 38.5
Mesure de la dispersion
Détection de valeurs extrêmes

• Que faire une fois les valeurs aberrantes


détectées ?

inferieure

supérieure
Clôture

Clôture
• 1. Supprimer : il faut être capable de
démontrer que les données sont
erronées.
• 2. Transformer (voir plus loin) :
remodeler la distribution pour l'analyse.
• 3. Séparer : Retirer les valeurs aberrantes
et les traiter séparément. Supposons
qu'il s'agit de populations différentes.

Les Extrêmes
Box Plots
(Diagrammes en boîte)
Box Plots

• Visualisation / comparaison de
distributions multiples

• Considérez les diagrammes en boîte


(boîte et moustaches (whiskers)).

• La fin des moustaches varie selon le


logiciel. Les limites supérieure et
inférieure indiquées sont utiles pour la
détection des valeurs aberrantes.
Distributions paramétriques

• Une variété de fonction de probabilité


paramétrés sont disponibles.
• Elles fournissent une fonction complète et
continue avec très peu de paramètres à déduire.
• Aide à l'inférence (si la distribution est appropriée).
• Ajustement de la distribution aux données

• Une variété de fonction de probabilité paramétrés


sont disponibles.
• Propriétés statistiques connues et utiles
• Apparaissent couramment dans la nature
• par exemple, le théorème de la limite centrale

• Englobent une gamme d'hypothèses


• Par exemple, la distribution uniforme est la distribution
d'incertitude maximale.
Distributions paramétriques
Fonctions de densité de probabilité couramment utilisées

Distribution uniforme Distribution binomiale ou de Bernoulli Distribution de Poisson


Distributions paramétriques
FDP: FDC:

Exemple : Un dé à 6 faces, N = 6, x prend les valeurs discrètes 1, 2, ...,6.

Plusieurs résultats, tous aussi


probables les uns que les autres

• Distribution de l'incertitude maximale. Utilisée lorsque très peu d'informations sont


disponibles.
Distribution binomiale
• Multiples expériences avec deux résultats possibles
Distribution binomiale
Utilisation pour des expériences multiples avec un résultat binaire (0, 1)
FDP: FDC: Rappel : pour des événements
N choisir x
combinatoire indépendants, P(A, B, C)=
Probabilité
x succès
probabilité P(A)*P(B)*P(C0).
N-x d'échec

Probabilité de x succès
dans N expériences
Exp Pile ou face
Exemple: PPF, PFP, FPP
Exemple : distribution avec des tentatives et une probabilité de succès variables.
Distribution binomiale
Exemple
Le taux d'échec du forage d'exploration est de 70 %. Votre entreprise a
prévu de forer jusqu'à 10 puits.

Quelle est la probabilité de seulement 3 découvertes réussies ?

COMBINE(10,3) = 120, 120 x 0.3^3 x (1.0-0.3)^7= 0.267


BINOM.DIST(3,10,0.3,FALSE) = 0.267

quelle est la probabilité d'un échec de votre programme d'exploration


?

COMBIN(10,0) = 1, 1 x 0.3^0 x (1.0 – 0.3)^10 = 0.028


BINOM.DIST(0,10,0.3, FALSE) = 0.028
Distribution de Poisson vs. distribution binomiale.
Les deux sont binaires - succès / échec

• Distribution de Poisson :
• Lorsque l'on connaît le nombre moyen de réussites
d'un événement par intervalle, unité de temps (ou
cycle) ou espace, on utilise la distribution de
Poisson.
• Supposons : Taux constant, événements
indépendants, binaire
• Comparer avec la distribution binomiale
• Utilisez la distribution binomiale lorsqu'on vous
donne la probabilité exacte de succès pour un Le volcan Cumbre Vieja, Iles Canaris
essai et que vous voulez des succès sur un certain
nombre d'essais.
• Par exemple, pourriez-vous utiliser la distribution
binomiale pour un volcan ? Combien d'essais en un
an ?
Distribution de Poisson
Distribution de Poisson

Où λ est le nombre moyen d'occurrences dans la période de temps et x est le nombre réel
d'occurrences.
Distribution de Poisson
Exemple
Lors du forage dans une formation spécifique, il y a eu en
moyenne 3 incidents de perte de fluide. Quelle est la
probabilité de 5 incidents de perte de fluide pour le prochain
puits?

POISSON.DIST(5.3.FALSE) = 0.101

Quelle est la probabilité qu'il n'y ait aucun incident de perte


de fluide ?

POISSON.DIST(0.3.FALSE) = 0.050
Géostatistiques et analyse des
données Géologiques
Introduction

Distribution Uni-variée

Distribution Bi-variée
Théorie
Analyse spatiale
Pratique (Excel, R,
Machine Learning Python…)
Analyse Multivariée
Statistiques bivariées
Analyse bivariée
• Analyse bivariée : Comprendre et quantifier la relation entre deux variables.
• Exemple : Relation entre la porosité et la perméabilité
Statistiques bivariées
Analyse bivariée
• Analyse bivariée : Comprendre et quantifier la relation entre deux variables.
• Exemple : Relation entre la concentration des minéraux dans les roches
Statistiques bivariées
Analyse bivariée
• Analyse bivariée : Comprendre et quantifier la relation entre deux variables.
• Exemple : Relation entre magnitude séismique et volume de glissement de
terrain
Statistiques bivariées
Analyse bivariée
• Analyse bivariée : Comprendre et quantifier la relation entre deux
variables.
• Relation générale
Statistiques bivariées
Analyse bivariée
• Analyse bivariée : Comprendre et quantifier la relation entre deux variables.
• Contrainte physique
Statistiques bivariées
Analyse bivariée
• Analyse bivariée : Comprendre et quantifier la relation entre deux variables.
• Segmentation
Statistiques bivariées
Analyse bivariée

• Analyse bivariée : Comprendre et quantifier la


relation entre deux variables.
• Quantification:
• Corrélation, Covariance
• Statistique conditionnelle
Statistiques bivariées
Coefficient de corrélation de Pearson
Coefficient de corrélation du produit-moment de Pearson
• Fournit une mesure du degré de relation linéaire

• Le coefficient de corrélation est une covariance standardisée.


Covariance et la variance
La covariance et la variance sont liées

• Covariance: Une mesure de la façon dont deux variables varient ensemble.

• Variance: Une mesure de la façon dont une variable varie avec elle-même.
Statistiques bivariées
Coefficient de corrélation de Pearson
• Interprétation du coefficient de corrélation

Le coefficient de corrélation de Pearson est-


il une mesure fiable de la corrélation ?
Corrélation et causalité
• La corrélation n'implique pas la
causalité
• Nous avons besoin d'une
véritable expérience où une
variable est manipulée et les
autres sont rigoureusement
contrôlées.
Acknowledgment

Vincent Valles Professeur d'Université UMR 1114 EMMAH - Michael Pyrcz, an Associate Professor in both the Cockrell
Environnement Méditerranéen et Modélisation des School of Engineering and the Jackson School of
AgroHydrosystèmes Département Hydro-Géologie Geosciences at the University of Texas at Austin

https://michaelpyrcz.com/
https://www.researchgate.net/profile/Vincen
https://github.com/GeostatsGuy
t-Valles

Vous aimerez peut-être aussi