Vous êtes sur la page 1sur 8

Unversité de Metz

IUT Thionville-Yutz
S1M1 - Mathématiques

Doc S1 - Statistiques - Fondamentaux

Introduction
Les outils statistiques de base correspondent à ce qu’on appelle la ‘statistique descriptive’.
Ils permettent de synthétiser des données, c’est-à-dire une information fournie par des
observations réalisées sur un nombre généralement limité d’individus ou d’entités
considérées, constituant une fraction, un échantillon de la population totale.

Les outils en question vous sont déjà partiellement connus, il s’agit par exemple de la
moyenne (arithmétique), de la médiane, de la variance, de l’écart-type, du coefficient de
variation… Ces outils correspondent à une analyse à posteriori des données.

L’accumulation de données a permis également de théoriser, de modéliser les comportements


statistiques observés, et d’en tirer des modèles de répartition, de distribution des données (par
exemple la loi la normale, la loi de Student…). Ces modèles de référence permettent alors par
exemple d’associer une probabilité d’occurrence (de réalisation) aux événements observés ou
susceptibles d’être observés.

C’est par exemple sur la base de l’acceptation d’un modèle de référence (loi normale, loi de
Student) décrivant la répartition supposée de la variable observée, que l’on peut fournir un
intervalle de confiance autour d’une valeur calculée sur un échantillon restreint.

Il s’agit donc déjà de ‘statistique inférentielle’, où l’on infère (prédit) un résultat en associant
un petit nombre de données à un comportement (de la variable retenue) sensé suivre un
modèle donné. Ce faisant, on génère de l’information à priori, sous la forme par exemple
d’une probabilité de réalisation, ou qu’une hypothèse peut être rejetée ou non, pour un niveau
de risque consenti.

Après le rappel des outils statistiques de base, nous considérerons le domaine de la


quantification en microbiologie, et plus particulièrement du dénombrement bactérien.

Outils statistiques de base


Soit X la variable aléatoire qui décrit la densité cellulaire (nombre de cellules par unité de
volume) d’un échantillon.
Différents prélèvements indépendants du même échantillon permettent d’obtenir diverses
réalisations de cette variable. (La variable X prend les valeurs x1, x2, …, xn.)

La détermination de la densité cellulaire réelle, µ, serait fournie par l’analyse de l’intégralité


de l’échantillon, renfermant N cellules dans un volume V ( .
Cependant, avec un nombre limité d’observations (n = 3), la densité cellulaire moyenne est
estimée. Cette estimation est centrée autour de la moyenne arithmétique :

Frédéric Quignon 1
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques

Ce ‘x barre’ est une variable aléatoire (jamais exactement la même série d’observations), qui
présente une certaine distribution de probabilité. Or, l’accumulation des données de même
nature indique que la distribution de cette variable ‘x barre’ s’approche du modèle gaussien
(loi normale), même si la distribution de la population cellulaire initiale ne suit pas ce
modèle.

En fait, les mesures de nombreux phénomènes biologiques ou physiques présentent une


distribution gaussienne. En effet, ces mesures peuvent initialement être correctement
modélisés à l’aide de la loi binomiale ( ) ) ou de la loi de Poisson ( ), qui peuvent
elles-mêmes être approximées par une loi normale (théorème central limite), pour un grand
nombre (n > 30) d’observations.

Fonction de densité de probabilité d’une loi Normale


(Les paramètres µ et définissent la position et l’amplitude de la courbe.)

En se basant sur ce modèle de loi normale, il est alors possible de fournir, pour une série
d’observations données (x1, x2, …, xn)), non seulement une estimation centrale (‘x barre’),
mais aussi une valeur qui traduit l’imprécision de la série d’observation autour de la valeur
moyenne (ou l’étalement de la distribution autour de sa valeur centrale), à savoir l’écart-type
(UK : standard deviation), ou encore la racine carrée de la variance :

Remarque : cet écart-type est dénommé (n) sur certaines calculatrices

Frédéric Quignon 2
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
Plus précisément, pour un petit nombre d’observations (n < 10), l’écart-type de l’échantillon
est plus sûrement calculé selon :

Remarque : dénommé (n-1) sur certaines calculatrices

L’estimation de la densité cellulaire d’un échantillon sera donc centrée autour de , avec une
incertitude qui est fonction de la valeur de .

Remarque : le rapport est appelé variance relative ou coefficient de variation (CV). Il


s’exprime en % et fournit une indication simple et rapide de la qualité de l’estimation.
L’interprétation de cette valeur est cependant fonction du domaine d’application considéré.
Par exemple, au niveau d’un dénombrement bactérien sur gélose, un CV de 5% est considéré
comme très bon, tandis qu’un CV de 5% du temps de rétention d’un composé par analyse
chromatographique est tout juste acceptable.

La moyenne arithmétique est très sensible à la prise en compte de quelques valeurs extrêmes
(UK : outliers) pour son calcul, et n’est pas bien adaptée à la description de distributions
dissymétriques (UK : skewed).

Aussi, il est souvent plus judicieux de considérer la moyenne géométrique des différentes
observations (x1, x2,…, xn) pour estimer la densité en micro-organismes d’un échantillon.

ce qui s’écrit encore :

La moyenne géométrique est particulièrement adaptée lorsqu’il s’agit de moyenner des ratios.
Dans l’exemple un peu forcé où seraient à moyenner les ratios 10 000 et 0.0001, la moyenne
arithmétique donne environ 5 000, tandis que la moyenne géométrique fournit 1, soit une
représentation plus honnête de la valeur ‘moyenne’ des deux ratios obtenus.

La moyenne géométrique est toujours inférieure ou égale à la moyenne arithmétique de la


même série d’observations. (Il y a égalité lorsque tous les xi sont égaux.)

La dernière écriture de la moyenne géométrique fait apparaître la formule de la moyenne


arithmétique appliquée non plus aux xi, mais aux log(xi). Ce qui signifie qu’elle correspond au
cas où ce n’est pas la variable de base qui suit une loi normale, mais le logarithme de cette
variable. Dans ce cas, la variable suit une loi dite log-normale.

Frédéric Quignon 3
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
De la même façon, on peut facilement retenir la formule de l’écart-type géométrique en
appliquant la formule de l’écart-type arithmétique au logarithme de la variable considérée (la
puissance de 10 permettant au final de revenir à la variable initiale) :

Fonction de densité de probabilité d’une loi log-normale


(µ est ici fixé à 1 et différentes valeurs de définissent l’allure de la courbe.)

Intervalles de confiance
L’intervalle de confiance (IC) autour d’une valeur moyenne fournit la plage de valeurs qui
N
renferme la densité cellulaire vraie ( ) ; que l’on obtiendrait si l’on pouvait analyser
V
tout le volume de suspension bactérienne).
L’étendue de cette plage de valeurs est fonction du niveau de certitude souhaité ou du risque
(de se tromper) consenti.

En fait, il y a deux façons de se tromper lors d'un test statistique. Ce dernier est formulé à
l’aide de deux hypothèses : l’hypothèse nulle (H0) et l’hypothèse alternative (H1), afin de
pouvoir réfuter ce qu'on pense faux (H0).
Exemple: si l’on croit que les moyennes de deux populations sont différentes, on testera :
H0: les deux moyennes sont égales, contre
H1 : les deux moyennes sont différentes.

Les risques de se tromper sont :


le risque de première espèce ( ) = risque de rejeter à tort H0 (alors qu’elle est vrai)
(C’est aussi la probabilité de générer des faux-négatifs.)
le risque de deuxième espèce ( ) = risque d’accepter à tort H1 (alors qu’elle est
fausse). (C’est aussi la probabilité de générer des faux-positifs.)

Pour les tests classiques (non bayésiens), ces deux risques jouent un rôle asymétrique et on
choisit le niveau de risque . Il est en effet souvent moins grave de rejeter à tort H0 que

Frédéric Quignon 4
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques

d’accepter à tort H1. (En choisissant le niveau de , on subit le niveau de (= niveau de


performance du test.).

Dans le monde anglo-saxon, on fait plus souvent référence à la ‘p-value’, qui correspond en
fait à la probabilité critique à partir de laquelle H0 est rejetée, ou encore la probabilité de se
tromper en rejetant les résultats observés alors qu’ils sont valides, ‘représentatifs de la
population entière’ ou ‘statistiquement significatifs’. Ici, il n’est pas fait de choix arbitraire
d’un niveau de risque (e.g., à 1% ou 5%), mais le résultat du test statistique est traduit en le
niveau seuil de risque (ou probabilité critique) à considérer pour ne pas rejeter à tort H0. Par
exemple, si la probabilité critique calculée à l’issue d’un test est de 6.4%, cela indique qu’au
seuil arbitraire de 5%, l’hypothèse H0 serait rejetée, mais de peu en fait.

Ainsi, un risque (ou même une p-value) de 0.05 (= 5% = 1/20) indique qu’il y a 5% de
chance de rejeter à tort H0. Accepter ce niveau de risque, c’est accepter de se tromper dans 1
cas sur 20.

Ayant choisi un niveau de risque, le modèle sous-jacent de distribution de la variable à l’étude


permet alors de calculer les bornes de l’intervalle de confiance d’une estimation.

Ici, la variable considérée est , et l’on sait que cette variable aléatoire suit d’autant mieux

une loi normale que le taille n de l’échantillon s’accroît (Théorème Central


Limite).

L’intervalle de confiance (ou d’estimation) a donc la forme :

Cette erreur d’échantillonnage est le produit de 2 termes :


- l’écart-type de l’estimation :
n
- la traduction, en référence à un modèle de distribution (e.g., loi normale, loi de
Student), du niveau de risque choisi.

Si l’on choisit par exemple un risque de 5% (p = 0.05), cela signifie que l’on considère
comme acceptable une valeur de qui ne s’éloigne pas trop de la valeur vraie ( ) dans 95%
des cas.
L’aire sous la courbe de distribution ( = intégrale de la fonction de densité de probabilité
d’une loi continue) d’une variable z qui suit une loi normale centrée réduite ( )
vaut 95% si elle est limitée à gauche par la valeur de z à 2.5% ( ) et à droite par la valeur
de z à 97.5% ( ). (cf. infra ‘The Normal Distribution’).
Autrement dit :

La loi normale étant symétrique, on a : [valeur lue dans table ou


obtenue dans Excel avec : « =loi.normale.standard.inverse(0.975) » ou
« =NORMSINV(0.975) »].

Frédéric Quignon 5
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques

Il y a donc 95% de chance que la valeur de la V.A. tombe entre et

.
Autrement dit :

D’où l’intervalle de confiance, au seuil de 95% (p = 0.05) autour de :

Sur le graphique, on peut lire également que pour un risque moindre, par exemple de 1% (p =
0.01), l’intervalle de confiance est élargi puisqu’il correspond alors à 99% des chances que

tombe entre et .

[Dans Excel, la valeur de la distribution normale standard pour un risque symétrique


(bilatéral) de 2x 0.5% est obtenue avec : « =loi.normale.standard.inverse(0.995) ».]

De même, un risque de 0.1% correspond à l’intervalle de confiance autour de la valeur vraie :

.
Frédéric Quignon 6
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
En diminuant le risque de se tromper, l’estimation devient plus ‘certaine’, mais aussi plus
imprécise (UK : inaccurate).

Enfin, de la même façon que les IC sont calculés pour une variable normale ( ) à l’aide de µ

et de , ces intervalles sont également facilement calculés pour une loi log-normale,
puisque et .

Ainsi, l’intervalle de confiance défini par pour une variable normale est limité,

pour une variable log-normale, par , soit par les bornes et , avec
.

Quantile
Pour une population de valeurs discrètes ou pour une densité de population continue, le k-
ième q-quantile est la valeur pour laquelle la fonction de distribution cumulative (fonction de
répartition) coupe k/q.

Pour la variable X, la valeur x est le k-ième q-quantile si

Pr( X x) k et Pr( X x) k
q q

Les 100-quantiles sont appelés centiles


Les 10-quantiles sont appelés déciles
Les 5-quantiles sont appelés quintiles
Les 4-quantiles sont appelés quartiles
Les 3-quantiles sont appelés terciles
Le 2-quantile est appelé médiane.

Les quantiles (e.g., la médiane ou 2-quantile) sont des valeurs moins sensibles aux
distributions allongées (e.g. exponentielles) et aux valeurs aberrantes que la moyenne ou
l’écart-type par exemple.

Une des applications graphiques des quantiles est la génération des ‘Q-Q plots’
(représentation Quantile-Quantile), où il s’agit de représenter ‘dos-à-dos’ les quantiles de 2
distributions de probabilité à des fins comparatives.
Un Q-Q plot permet par exemple de comparer
- deux séries de données de taille inégale ou
- une série de données et un modèle théorique de distribution.

Frédéric Quignon 7
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
Dans la figure ci-dessous, un alignement des points signifie que la distribution des valeurs
observées est bien en accord avec le modèle théorique (pris comme référence).
Pour des modèles différents du modèle gaussien (loi normale), un autre intérêt est l’estimation
graphique des paramètres de ‘localisation’ (= intersection) et de ‘dispersion’ (ou d’échelle) (=
pente) d’une série de valeurs données, ces paramètres étant par contre aisément calculables (=
moyenne et écart-type) d’après le modèle de loi normale.

Frédéric Quignon 8