Académique Documents
Professionnel Documents
Culture Documents
IUT Thionville-Yutz
S1M1 - Mathématiques
Introduction
Les outils statistiques de base correspondent à ce qu’on appelle la ‘statistique descriptive’.
Ils permettent de synthétiser des données, c’est-à-dire une information fournie par des
observations réalisées sur un nombre généralement limité d’individus ou d’entités
considérées, constituant une fraction, un échantillon de la population totale.
Les outils en question vous sont déjà partiellement connus, il s’agit par exemple de la
moyenne (arithmétique), de la médiane, de la variance, de l’écart-type, du coefficient de
variation… Ces outils correspondent à une analyse à posteriori des données.
C’est par exemple sur la base de l’acceptation d’un modèle de référence (loi normale, loi de
Student) décrivant la répartition supposée de la variable observée, que l’on peut fournir un
intervalle de confiance autour d’une valeur calculée sur un échantillon restreint.
Il s’agit donc déjà de ‘statistique inférentielle’, où l’on infère (prédit) un résultat en associant
un petit nombre de données à un comportement (de la variable retenue) sensé suivre un
modèle donné. Ce faisant, on génère de l’information à priori, sous la forme par exemple
d’une probabilité de réalisation, ou qu’une hypothèse peut être rejetée ou non, pour un niveau
de risque consenti.
Frédéric Quignon 1
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
Ce ‘x barre’ est une variable aléatoire (jamais exactement la même série d’observations), qui
présente une certaine distribution de probabilité. Or, l’accumulation des données de même
nature indique que la distribution de cette variable ‘x barre’ s’approche du modèle gaussien
(loi normale), même si la distribution de la population cellulaire initiale ne suit pas ce
modèle.
En se basant sur ce modèle de loi normale, il est alors possible de fournir, pour une série
d’observations données (x1, x2, …, xn)), non seulement une estimation centrale (‘x barre’),
mais aussi une valeur qui traduit l’imprécision de la série d’observation autour de la valeur
moyenne (ou l’étalement de la distribution autour de sa valeur centrale), à savoir l’écart-type
(UK : standard deviation), ou encore la racine carrée de la variance :
Frédéric Quignon 2
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
Plus précisément, pour un petit nombre d’observations (n < 10), l’écart-type de l’échantillon
est plus sûrement calculé selon :
L’estimation de la densité cellulaire d’un échantillon sera donc centrée autour de , avec une
incertitude qui est fonction de la valeur de .
La moyenne arithmétique est très sensible à la prise en compte de quelques valeurs extrêmes
(UK : outliers) pour son calcul, et n’est pas bien adaptée à la description de distributions
dissymétriques (UK : skewed).
Aussi, il est souvent plus judicieux de considérer la moyenne géométrique des différentes
observations (x1, x2,…, xn) pour estimer la densité en micro-organismes d’un échantillon.
La moyenne géométrique est particulièrement adaptée lorsqu’il s’agit de moyenner des ratios.
Dans l’exemple un peu forcé où seraient à moyenner les ratios 10 000 et 0.0001, la moyenne
arithmétique donne environ 5 000, tandis que la moyenne géométrique fournit 1, soit une
représentation plus honnête de la valeur ‘moyenne’ des deux ratios obtenus.
Frédéric Quignon 3
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
De la même façon, on peut facilement retenir la formule de l’écart-type géométrique en
appliquant la formule de l’écart-type arithmétique au logarithme de la variable considérée (la
puissance de 10 permettant au final de revenir à la variable initiale) :
Intervalles de confiance
L’intervalle de confiance (IC) autour d’une valeur moyenne fournit la plage de valeurs qui
N
renferme la densité cellulaire vraie ( ) ; que l’on obtiendrait si l’on pouvait analyser
V
tout le volume de suspension bactérienne).
L’étendue de cette plage de valeurs est fonction du niveau de certitude souhaité ou du risque
(de se tromper) consenti.
En fait, il y a deux façons de se tromper lors d'un test statistique. Ce dernier est formulé à
l’aide de deux hypothèses : l’hypothèse nulle (H0) et l’hypothèse alternative (H1), afin de
pouvoir réfuter ce qu'on pense faux (H0).
Exemple: si l’on croit que les moyennes de deux populations sont différentes, on testera :
H0: les deux moyennes sont égales, contre
H1 : les deux moyennes sont différentes.
Pour les tests classiques (non bayésiens), ces deux risques jouent un rôle asymétrique et on
choisit le niveau de risque . Il est en effet souvent moins grave de rejeter à tort H0 que
Frédéric Quignon 4
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
Dans le monde anglo-saxon, on fait plus souvent référence à la ‘p-value’, qui correspond en
fait à la probabilité critique à partir de laquelle H0 est rejetée, ou encore la probabilité de se
tromper en rejetant les résultats observés alors qu’ils sont valides, ‘représentatifs de la
population entière’ ou ‘statistiquement significatifs’. Ici, il n’est pas fait de choix arbitraire
d’un niveau de risque (e.g., à 1% ou 5%), mais le résultat du test statistique est traduit en le
niveau seuil de risque (ou probabilité critique) à considérer pour ne pas rejeter à tort H0. Par
exemple, si la probabilité critique calculée à l’issue d’un test est de 6.4%, cela indique qu’au
seuil arbitraire de 5%, l’hypothèse H0 serait rejetée, mais de peu en fait.
Ainsi, un risque (ou même une p-value) de 0.05 (= 5% = 1/20) indique qu’il y a 5% de
chance de rejeter à tort H0. Accepter ce niveau de risque, c’est accepter de se tromper dans 1
cas sur 20.
Ici, la variable considérée est , et l’on sait que cette variable aléatoire suit d’autant mieux
Si l’on choisit par exemple un risque de 5% (p = 0.05), cela signifie que l’on considère
comme acceptable une valeur de qui ne s’éloigne pas trop de la valeur vraie ( ) dans 95%
des cas.
L’aire sous la courbe de distribution ( = intégrale de la fonction de densité de probabilité
d’une loi continue) d’une variable z qui suit une loi normale centrée réduite ( )
vaut 95% si elle est limitée à gauche par la valeur de z à 2.5% ( ) et à droite par la valeur
de z à 97.5% ( ). (cf. infra ‘The Normal Distribution’).
Autrement dit :
Frédéric Quignon 5
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
.
Autrement dit :
Sur le graphique, on peut lire également que pour un risque moindre, par exemple de 1% (p =
0.01), l’intervalle de confiance est élargi puisqu’il correspond alors à 99% des chances que
tombe entre et .
.
Frédéric Quignon 6
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
En diminuant le risque de se tromper, l’estimation devient plus ‘certaine’, mais aussi plus
imprécise (UK : inaccurate).
Enfin, de la même façon que les IC sont calculés pour une variable normale ( ) à l’aide de µ
et de , ces intervalles sont également facilement calculés pour une loi log-normale,
puisque et .
Ainsi, l’intervalle de confiance défini par pour une variable normale est limité,
pour une variable log-normale, par , soit par les bornes et , avec
.
Quantile
Pour une population de valeurs discrètes ou pour une densité de population continue, le k-
ième q-quantile est la valeur pour laquelle la fonction de distribution cumulative (fonction de
répartition) coupe k/q.
Pr( X x) k et Pr( X x) k
q q
Les quantiles (e.g., la médiane ou 2-quantile) sont des valeurs moins sensibles aux
distributions allongées (e.g. exponentielles) et aux valeurs aberrantes que la moyenne ou
l’écart-type par exemple.
Une des applications graphiques des quantiles est la génération des ‘Q-Q plots’
(représentation Quantile-Quantile), où il s’agit de représenter ‘dos-à-dos’ les quantiles de 2
distributions de probabilité à des fins comparatives.
Un Q-Q plot permet par exemple de comparer
- deux séries de données de taille inégale ou
- une série de données et un modèle théorique de distribution.
Frédéric Quignon 7
Unversité de Metz
IUT Thionville-Yutz
S1M1 - Mathématiques
Dans la figure ci-dessous, un alignement des points signifie que la distribution des valeurs
observées est bien en accord avec le modèle théorique (pris comme référence).
Pour des modèles différents du modèle gaussien (loi normale), un autre intérêt est l’estimation
graphique des paramètres de ‘localisation’ (= intersection) et de ‘dispersion’ (ou d’échelle) (=
pente) d’une série de valeurs données, ces paramètres étant par contre aisément calculables (=
moyenne et écart-type) d’après le modèle de loi normale.
Frédéric Quignon 8