Vous êtes sur la page 1sur 9

Test de normalité

CHAOUADI Mustapha

1.0
Table des
matières
Introduction 3

I - Pré-test 4

1. Histogramme d'une distribution ...................................................................................................................... 4

2. Boîte à moustaches (box-plot) ........................................................................................................................ 4

3. Coefficient d'asymétrie et d'aplatissement ..................................................................................................... 5


3.1. Le coefficient d'asymétrie ............................................................................................................................................................ 5
3.2. Le coefficient d'aplatissement ...................................................................................................................................................... 6

II - Test de shapiro wilk 7

1. Description ...................................................................................................................................................... 7

2. Exercice d'application ..................................................................................................................................... 8


2.1. Corrigé de l'exercice ..................................................................................................................................................................... 8
Introduction

Afin de pouvoir comparer les paramètres des distributions tels que : les moyennes (m), les pourcentages (p) et les
variances σ2, on doit d'abord vérifier la normalité des échantillons, c'est pourquoi on a besoin d'appliquer un test de
normalité.

Les tests de normalité servent à s'assurer qu'une condition est remplie pour procéder ensuite à une analyse statistique.

En statistiques, les tests de normalité permettent de vérifier si les données suivent une loi normale ou non. Les plus
connus sont celui du khi², celui de Kolmogorov-Smirnov et celui de shapiro wilk. Il s'agit bien de vérifier
l'adéquation à la loi normale et non pas de déterminer la loi de distribution.

3
Pré-test

Pré-test
I

Avant d'entamer un test statistique, on peut faire un examen préalable des données, qui consiste tout
simplement à construire un graphique ou bien de calculer le coefficient d'asymétrie ou d'aplatissement.

1. Histogramme d'une distribution


Un diagramme en barres permet de visualiser si la distribution de la population suit une loi normale ou non
(figure 1).

Il est possible de visualiser la forme de la distribution des données à analyser en les représentant sous forme
d'histogramme puis de comparer la forme de cet histogramme avec une courbe représentant une loi normale
(les paramètres de cette loi étant calculés à partir des données à analyser). Ceci ne permet pas de conclure à la
normalité des données mais peut donner une idée du type de loi sous-jacente : loi normale ou loi de Student si la
distribution semble symétrique, loi log-normale, loi gamma, loi exponentielle ou loi bêta si la distribution est
asymétrique.

Figure 1. Histogramme d'une distribution

2. Boîte à moustaches (box-plot)


La boîte à moustaches (appelée diagramme en boîte, boîte de Tukey ou box plot) est un moyen rapide de
figurer le profil essentiel d'une série statistique quantitative. Elle a été inventée en 1977 par John Tukey. Une
boîte à moustaches permet de visualiser rapidement la symétrie de la distribution des données réelles et la
présence de valeurs atypiques.

La boîte à moustaches résume seulement quelques caractéristiques de position du caractère étudié (médiane,
quartiles, minimum, maximum ou déciles). Ce diagramme est utilisé principalement pour comparer un même
caractère dans deux populations de tailles différentes.

4
Coefficient d'asymétrie et d'aplatissement

Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. Ce
rectangle suffit pour le diagramme en boîte (figure 2). On ajoute alors des segments aux extrémités menant
jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles (D1/D9), voire aux 5eme et 95eme
centiles. On parle alors de diagramme en boîte à moustaches ou de diagramme à pattes.

Figure 2. Boite à moustache

3. Coefficient d'asymétrie et d'aplatissement


Des statistiques simples permettent éventuellement de vérifier notre première impression : il s'agit de
coefficient d'asymétrie et d'aplatissement, qui doivent être proches de zéro dans le cas d'un échantillon
normalement distribué.

3.1. Le coefficient d'asymétrie


Il permet de nous renseigner sur la façon régulière ou non dont les observations se répartissent de part et d'autre
d'une valeur centrale.

Le coefficient d'asymétrie renseigne sur l'asymétrie par rapport à une valeur centrale choisie. La distribution
d'une variable est symétrique si les observations sont également dispersées de part et d'autre d'une valeur
centrale. Ainsi, dans le cas de distributions symétriques, la moyenne et la médiane sont confondues (figure 3),
sinon elles sont distinctes.

G1 = (Moyenne-Mode)/(Ecart-type )

Figure 3. Coefficient d'asymétrie

5
3.2. Le coefficient d'aplatissement
Le coefficient d'aplatissement, par référence à la courbe de la loi normale, indique si la distribution de la
variable est leptokurtique (pointue), mésokurtique (normale) ou une distribution aplatie (figure 4) si une forte
variation de la variable entraîne une faible variation de la fréquence relative (et inversement).

Figure 4. Coefficient d'aplatissement

6
Test de shapiro wilk

Test de shapiro wilk


II
1. Description
Le test de shapiro wilk est un test de compatibilité à la loi normale, il s'agit d'un test basé sur une comparaison
de la variance empirique avec un estimateur de la variance des Xi sous l'hypothèse de normalité. Le test de
Shapiro-Wilk est basé sur le calcul de la statistique W.

En comparaison des autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50).

La statistique du test s'écrit :

Avec :

- x(i) correspond à la série des données triées ;

- [n/2] est la partie entière du rapport n/2 ;

- aj : sont des constantes générées à partir de la moyenne et de la matrice de variance co-variance des quantiles
d'un échantillon de taille n suivant la loi normale. Ces constantes sont fournies dans des tables spécifiques (table
des coefficients) (Table 1).

Table 1 – Coefficients

La statistique W peut donc être interprétée comme le coefficient de détermination (le carré du coefficient de
corrélation) entre la série des quantiles générées à partir de la loi normale et les quantiles empiriques obtenues à
partir des données. Plus W est élevé, plus la compatibilité avec la loi normale est crédible.

Dans le cas des tests de normalité, on suppose que les échantillons sont normalement distribués, c'est-à-dire on
suppose en H0 que l'échantillon suit une loi normale.

La région critique, rejet de la normalité, s'écrit :

Wobs < Wcritique

Les valeurs critiques pour différents risques α et effectifs n sont lues dans la table de Shapiro-Wilk (Table 2).

7
Exercice d'application

Table 2 – Shapiro-wilk

2. Exercice d'application
Une expérience testant l'influence d'un parasite sur le taux d'alimentation d'un prédateur de crabe. Les données
associées sur le comportement et le taux d'alimentation sont illustrées dans le tableau ci-dessous:

- Tester la normalité chez les mâles et les femelles

2.1. Corrigé de l'exercice


Nb : Dans cet exercice, on va tester la normalité pour les femelles seulement.

Avant de commencer les calculs, on pose les hypothèses de travail :

H0 : La variable dont provient l'échantillon suit une loi normale

H1 : La variable dont provient l'échantillon ne suit pas une loi normale

Les calculs s'ordonnent de la manière suivante :

8
La première étape consiste à trier les données brutes (observations) par ordre croissant, nous obtenons la série x
(i)

A partir de la table des coefficients, on fait la lecture de ces derniers. Dans notre exemple, puisque la taille de
l'échantillon égale à 11, alors on aura 5 coefficients.

Par la suite, on calcule les écarts (x(n−i+1) − x(i)). Par exemple, pour la 1ere ligne, sa sera X (11-1+1) c'est-à-
dire X11 moins X1. Pour la 2eme ligne, sa sera X (11-2+1) moins X2,......., ainsi de suite.

Après on passe à la multiplication des coefficients par les écarts obtenus, et on met la somme obtenue au carré.

On continue les calculs pour obtenir la somme des carrées des écarts à la moyenne.

A la fin on calcul la statistique de test (Wobs) qui est égale dans notre exemple à 0.97.

La statistique calculée va être comparer avec une valeur critique lu sur la table de shapiro-wilk. Il s'agit de
l'intersection entre la ligne 11 (qui correspond à la taille de notre échantillon) et la colonne 0.05 (qui correspond
au risque d'erreur α).

Interprétation des résultats

Puisque le W obs est supérieur à la valeur critique (Wobs > Wtable) alors on accepte l'hypothèse nulle.

Conclusion : échantillon normalement distribué.

Vous aimerez peut-être aussi