Vous êtes sur la page 1sur 15

Universit Dr : Tahar Moulay de Saida Facult des sciences et de la technologie Dpartement de Mathmathiques et Informatique Master : Probabilits et Applications Matire

: Estimation parametrique

Tests de Normalit

parM : Allou Nacra;Bakour Amina


elles

Sous la direction de : D : F.Madani


r

Anne Universitaire :2012-2013

Table des matires


1 Introduction 2 Approches empiriques et graphiques
2.1 2.2 2.3 Histogramme de la distribution . . . . . . . . . . . . . . . . . . . . . Bote moustaches (box-plot) . . . . . . . . . . . . . . . . . . . . . . Coecients d'asymtrie et d'aplatissement . . . . . . . . . . . . . . .

2 3
3 5 5

3 Approche probabiliste
3.1 3.2 3.3 3.4 3.5 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d'adquation du X 2 . . . . . . . . . . . . . . . . . . . . . . . . . Test de Shapiro-wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7
7 8 9 9 12

4 Conclusion sur les tests de normalit

13

1 Introduction
En statistiques, les tests de normalit permettent de vrier si des donnes relles suivent une loi normale ou non. Les tests de normalit sont des cas particuliers des tests d'adquation (ou tests d'ajustement, tests permettant de comparer des distributions), appliqus une loi normale.

Ces tests prennent une place importante en statistiques. En eet, de nombreux tests supposent la normalit des distributions pour tre applicables. En toute rigueur, il est indispensable de vrier la normalit avant d'utiliser les tests. Cependant, de nombreux tests sont susamment robustes pour tre utilisables mme si les distributions s'cartent de la loi normale.

Dans ce support, nous prsenterons dans un premier temps les techniques descriptives, notamment le trs populaire graphique Q-Q plot.Et dans un second temps, nous dnons quleques tests statistiques reconnus et implments dans la plupart des logiciels de statistique.

2 Approches empiriques et graphiques


L'apprhension d'un jeu de donnes passe systmatiquement par les statistiques descriptives. Elles donnent une image globale. Bien souvent, elles permettent de se faire une ide sur les techniques que l'on pourrait utiliser et les dangers ou artefacts dont il faudra se mer.

Bien avant les techniques complexes et les ratios savants, quelques indicateurs usuels et des graphiques judicieusement choisis sont le bienvenu. Ces outils sont disponibles dans tous les outils de traitement exploratoire des donnes.

2.1 Histogramme de la distribution


Il est possible de visualiser la forme de la distribution des donnes analyser en les reprsentant sous forme d'histogramme puis de comparer la forme de cet histogramme avec une courbe reprsentant une loi normale (les paramtres de cette loi tant calculs partir des donnes analyser). Ceci ne permet pas de conclure la normalit des donnes mais peut donner une ide du type de loi sous-jacente : loi normale, loi de Cauchy ou loi de Student si la distribution semble symtrique, loi log-normale, loi gamma, loi de Weibull, loi exponentielle ou loi bta si la distribution est asymtrique.

2.1 Histogramme de la distribution

L'outil graphique le plus simple est l'histogramme de frquence. Il s'agit de couper automatiquement l'intervalle de dnition de la variable en k intervalles de largeur gales, puis de produire une srie de barres dont la hauteur est proportionnelle l'eectif associ l'intervalle.

Certains logiciels procdent automatiquement l'estimation des deux principaux paramtres de la loi normale ( la moyenne, s l'cart-type) et tracent la fonction de densit correspondante pour apprcier le rapprochement entre la distribution empirique (histogramme) et la distribution thorique. La moyenne est estime l'aide de la moyenne empirique :

x=

1 n

xi
i

On utilise l'estimateur non biais de l'cart-type :

s=

1 n1

(xi x)2
i

2.2 Bote moustaches (box-plot)

2.2 Bote moustaches (box-plot)


La bote moustaches, est un outil graphique trs pratique reprsentant une distribution empirique, permet de visualiser rapidement la symtrie de la distribution des donnes relles et la prsence de valeurs atypiques.

2.3 Coecients d'asymtrie et d'aplatissement


La loi normale est caractrise par un coecient d'asymtrie et un coecient d'aplatissement nuls. Il parat naturel de calculer ces indicateurs pour se donner une ide, ne serait-ce que trs approximative, du rapprochement possible de la distribution empirique avec une gaussienne. Pour le coecient d'asymtrie, appel skewness en anglais, nous utilisons :

n G1 = (n 1)(n 2)

i=1

xi x s

Pour le coecient d'aplatissement, appel kurtosis en anglais, nous utilisons :

G2 =

(n + 1)n (n 1)(n 2)(n 3)

i=1

xi x s

(n 1)2 (n 2)(n 3)

avec s est la racine d'un estimateur non biais de la variance.

2.3 Coecients d'asymtrie et d'aplatissement

Si ces indicateurs sont susamment proches de la valeur 0, l'hypothse de compatibilit avec la loi normale ne peut tre rejete. Tout le problme est de quanter ce degr de proximit. Il faudrait connatre la loi de probabilit de ces indicateurs pour mettre en place un test statistique permettant de dterminer si l'cart est signicatif ou non ; ou tout du moins, calculer les cart-type et utiliser les distributions asymptotiques pour raliser le test.

Nous dtaillerons ces procdures plus loin. A ce stade, les coecients d'asymtrie et d'aplatissement sont uniquement calculs titre indicatif. Nous constatons nanmoins, sans trop s'avancer quant aux rsultats des tests, qu'elles s'loignent peu des valeurs de rfrence. L'adquation la loi normale parat plausible.

3 Approche probabiliste
Trs commodes, les approches empiriques n'ont pas la rigueur des techniques statistiques. Dans ce chapitre, nous prsentons les tests de compatibilit la loi normale. Encore une fois, il s'agit bien de vrier l'adquation (la compatibilit) la loi normale et non pas dterminer la loi de distribution. tous les tests prsents dans ce chapitre sont, soit des variantes plus puissantes du test de Kolmogorov-Smirnov, soit bass sur les coecients d'asymtrie et d'aplatissement. Il existe galement un grand nombre de tests de normalit :  Tests bass sur la fonction de rpartition empirique : Test de Kolmogorov-Smirnov et son adaptation le test de Lilliefors, ou le test de Anderson-Darling et le test de Carmer-Von Mises  Tests bass sur les moments, comme le Test de Jarque Bera ou test D'Agostino's K-squared  Test d'adquation du X 2  Ou encore le test de Shapiro-wilk, ou le test de Shapiro-Francia.

3.1 Gnralits
Les tests de normalit sont des tests d'hypothse. En notant F (x) la fonction de rpartition base sur les donnes analyser et F0 (x) la fonction de rpartition thorique, les hypothses nulle et alternative peuvent s'crire :

3.2 Test de Lilliefors

H0 : F (x) = F0 (x) H : F (x) = F (x)


1 0

Les tests sur les moments ont une hypothse moins forte, ils ne testent pas si la fonction de rpartition est normale, mais si les moments (coecients d'asymtrie et d'aplatissement) de la distribution inconnue sont identiques ceux d'une loi normale :

H0 : G1 = 0 et G2 = 3 H1 : G1 = 0 ou G2 = 3
On remarquera que ce n'est pas susant pour caractriser une loi normale (Problme des moments).

3.2 Test de Lilliefors


Le test de Lilliefors est une variante du test de Kolmogorov-Smirnov o les paramtres de la loi ( et s) sont estimes partir des donnes. La statistique du test est calcule de la mme manire. Mais sa loi est tabule diremment, les valeurs critiques sont modies pour un mme risque . Elles ont t obtenues par simulation. Les avis sont partags quant la puissance de ce test. Il semble qu'il soit sensible au dsaccord de la distribution empirique avec la loi thorique aux alentours de la partie centrale de la distribution, l o justement les carts ont peu d'eets sur les tests paramtriques. Il est moins performant en revanche lorsque le dsaccord porte sur les queues de distribution, pourtant prjudiciables. Certains le dconseillent et prfrent le test de Shapiro-Wilk ou les tests bass sur les coecients d'asymtrie et d'aplatissement. La statistique du test d'crit :

D = max

i=1,...,n

Fi

i1 i , Fi n n

o Fi est la frquence thorique de la loi de rpartition normale centre et rduite. La table des valeurs critiques Dcrit pour les petites valeurs de n et difrentes valeurs

3.3 Test d'adquation du X

de doivent tre utilises. Lorsque les eectifs sont levs, typiquement n = 30, il est possible d'approcher la valeur critique l'aide de formules simples :

0.10 0.05 0.01

Valeur critique Dcrit


0 .805 n 0 .886 n 1 .031 n

La rgion critique du test pour la statistique D est dnie par :

D > Dcrit

3.3 Test d'adquation du X

Le but du test d'adquation de X 2 est de dcider si l'chantillon observ x =

(X 1(.), ..., Xn(.)) peut tre considr comme issu d'une loi bien spcie P0 , donc
eectuer le test H0 : P = P0 contre H1 : P = P0 ,ou plus gnralement H0 : P

P , contre H1 : P = P , . Supposons que card(E ) < ; c'est dire que E = x1, ..., xd et que l'on veut tester H0 : P = P0 avec P0 (xj ) = pj , j = 1, ...., d contre H1 : P = P0 . Pour eectuer ce test on introduit la mesure de divergence (ou distance
de Khi-deux) entre la loi thorique P0 et la loi empirique Pn :

D(Pn , P0 ) = d j =1

n Nj ( pj )2 pj n

o Nj = n k=1 1Xh =xj est la frquence absolue empirique.

3.4 Test de Shapiro-wilk


Trs populaire, le test de Shapiro-Wilk est bas sur la statistique W Ce test est valable pour des tailles n d'chantillons relativement faibles (n compris entre 5 et 38). Les n observations exprimentales ont t au pralable ranges par ordre de valeur

3.4 Test de Shapiro-wilk


croissante :

10

y1 y2 ... yn1 yn
Les n observations exprimentales ont t au pralable ranges par ordre de valeur croissante. 1. On calcule la moyenne de cette srie de mesures :

1 y= n
2. On calcule le nombre Tn dni par :
i= n

i=n

yi
i=1

Tn =
i=1

(yi y )2

3. On calcule les dirences suivantes :

d1 = yn y1 d2 = yn1 y2 . . . di = yni+1 yi
Remarquons que si n = 2p (n pair), on aura p dirences et si n = 2p + 1 (n impair) on aura aussi p dirences, l'observation mdiane n'intervenant pas. 4. On calcule alors le nombre W dni par :

W =

j =p j =1

aj dj )2

Tn

o les coecients aj sont donnes par la table suivant :

3.4 Test de Shapiro-wilk

11

5. On choisit un risque (0.05 ou 0.01) et on compare la valeur de W une valeur

Wcrit , dite valeur critique, lue dans la table de Shapiro et Wilk.


6. La rgle du test est alors la suivante :  Si W > Wcrit on accepte, au risque choisi, l'hypothse de normalit de la srie de mesure.  Si W < Wcrit on rejette l'hypothse de normalit de la srie de mesure.

3.5 Applications

12

3.5 Applications
Une application des tests de normalit concerne les rsidus d'un modle de rgression linaire. S'il ne sont pas distribus de faon normale, les rsidus ne peuvent pas tre utiliss dans des tests Z ou dans quelqu'autre test que ce soit, partir du moment o il fait intervenir des hypothses de normalit (par exemple, le test t, le test de Fisher ou le test du X 2 ). Si les rsidus ne sont pas normalement distribus, cela signie que la variable dpendante, ou tout au moins une variable explicative, pourrait avoir une fonction de rpartition errone ; des variables importantes peuvent galement tre manquantes. Une ou plusieurs correction de ces erreurs classiques peuvent engendrer des rsidus qui suivent une distribution normale.

4 Conclusion sur les tests de normalit


Dans ce document nous avons prsent les techniques destines valuer la compatibilit d'une distribution empirique avec la loi normale. Sans msestimer la pertinence des tests statistiques, on pouvait en pressentir les rsultats la lumire des graphiques de distribution (Histogramme de frquences), de la bote moustaches. Nous avions de plus une ide sur la nature des dsaccords. Le test de Lilliefors, pourtant fond sur la statistique de Kolmogorov-Smirnov, est plus conservateur, Cela est surtout conscutif la nature du dsaccord, en queue de distribution, qu'elle dtecte mal. Test d'adquation du X 2 , bass sur les coecients d'asymtrie et d'aplatissement acceptent volontiers l'hypothse de normalit avec une p-value > 0.8. Elles soufrent vraisemblablement de la petite taille. Enn, Le test de Shapiro-Wilk propose une p-value. Sa puissance est reconnue dans la littrature.

Bibliographie
[1] Ricco Rakotomalala, Tests de normalit Techniques empiriques et tests statistiques, Universit Lumire Lyon 2, 1-Oct-2011 [2] Tome 22, Sur les tests de normalit, in Revue de Statistique Applique, n.22, 1974 [3] Mohamed BOUTAHAR, Statistiques, Dpartement de mathmatiques case 901, Facult des Sciences de Luminy, 4 octobre 2005 [4] Saporta, G., Probabilits, Analyse des donnes et Statistique, Technip, 2me dition, 2006

Vous aimerez peut-être aussi