Test Normalite

Ricco Rakotomalala
Tests de normalit
Version 2.0
Techniques empiriques et tests statistiques
Universit Lumire Lyon 2

Page: 1 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
Page: 2
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Avant-propos
Ce support dcrit les techniques statistiques destines examiner la compatibilit d'une distribution empirique avec la loi normale. On parle galement de test d'adquation la loi normale. Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la statistique infrentielle, en particulier la thorie des tests, consulter les ouvrages numrs dans la bibliographie. Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents en ligne sont le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail ; une disponibilit plus ou moins alatoire, au gr des migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier ; les informations sont disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique trs structurante. Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles pour les enseignements. La gratuit n'est pas le moindre de leurs atouts. Concernant ce document, rendons Csar ce qui est Csar, il a t en grande partie inspir du manuel Engineering Statistics Handbook du NIST, disponible en ligne http://www.itl.nist.
gov/div898/handbook/, notamment la section 1.3.5 Quantitative Techniques Distributional Measures (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35.htm).

Enn, selon l'expression consacre, ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.
Page: 3
job: Test_Normalite
macro: svmono.cls
Page: 4
job: Test_Normalite
macro: svmono.cls
Table des matires
Partie I Conformit la loi normale 1 Techniques empiriques et mthodes graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 5 6 7 9 9 13 14 16 18 21 24 26 29 29 31 35 36
1.1 Histogramme de frquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Bote moustache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Coecient d'asymtrie et d'aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Q-Q Plot et Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Test de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Test de Anderson-Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Test de D'Agostino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Conclusion sur les tests de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Tests de symtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Test de symtrie bas sur le coecient d'asymtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Test de symtrie - Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Test de symtrie - Test de Van der Waerden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Conclusion sur les tests de symtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 5
job: Test_Normalite
macro: svmono.cls
6
4
Table des matires

Transformation de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37 37 38 38 39 39 41 42 42 43 44 47 49 51 53
4.1 Fonctions de transformation de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Approche graphique : utiliser la Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 La droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Exploiter la droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Box-Cox Normality Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Tester la normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Approche numrique : la maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Fonction de densit des variables Y et X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Expression de la fonction optimiser / . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Application numrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A B C Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mise en oeuvre des tests de normalit dans TANAGRA . . . . . . . . . . . . . . . . . . . . . . . . . . Code source et packages R pour les tests de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 6
job: Test_Normalite
macro: svmono.cls
Partie I
Conformit la loi normale
Page: 1
job: Test_Normalite
macro: svmono.cls
Page: 2
job: Test_Normalite
macro: svmono.cls
3
Test d'adquation
Un test d'adquation permet de statuer sur la compatibilit d'une distribution observe avec une distribution thorique associe une loi de probabilit. Il s'agit de modlisation. Nous rsumons une information brute, une srie d'observations, l'aide d'une fonction analytique paramtre. L'estimation des valeurs des paramtres est souvent un pralable au test de conformit. Au del de la simplication, ce test permet de valider une apprhension du processus de formation des donnes, il permet de savoir si notre perception du rel est compatible avec ce que nous observons. Prenons l'exemple simple du jeu de d. A priori, nous savons que chacune des faces du d a la mme probabilit d'apparatre, tout naturellement nous pensons une modlisation avec une loi multinomiale. Si, coinc par un margoulin dans une arrire salle d'un infme bouge, vous constatez qu'aprs un bon nombre de jets, certaines valeurs ont tendance sortir plus souvent que d'autres, il faut peut tre se poser la question de la loyaut du jeu : les observations ne sont plus compatibles avec la loi thorique qui devrait gnrer les donnes. Parmi les tests d'adquation, la conformit la loi normale (loi gaussienne, loi de Laplace-Gauss) revt une importance supplmentaire. En eet, l'hypothse de normalit des distributions sous-tend souvent de nombreux tests paramtriques (ex. comparaison de moyennes, rsidus de la rgression, etc.). En toute rigueur, s'assurer au pralable la compatibilit des distributions avec l'hypothse de normalit avant de procder au test statistique proprement dit devrait tre incontournable, surtout pour les petits eectifs. Fort heureusement, ce n'est pas une contrainte forte en pratique. En eet, grce la notion de robustesse, un test peut s'appliquer mme si l'on s'carte lgrement des conditions d'applications initiales. Dans ce point de vue, nous pouvons ds lors nous contenter de techniques simples (ex. statistique descriptives, techniques graphiques) pour vrier si la distribution des donnes est rellement inconciliable avec la distribution normale (ex. asymtrie forte, distribution avec plusieurs modes, etc.). Dans ce support, nous prsenterons dans un premier temps les techniques descriptives, notamment le trs populaire graphique Q-Q plot. Dans un second temps, nous dtaillerons plusieurs tests statistiques reconnus et implments dans la plupart des logiciels de statistique. Et enn, dans un troisime temps, nous tudierons les tests de symtrie des distributions qui, certains gards, peuvent tre considrs comme des cas particuliers des tests de normalit.
Notations
Pour une population donne, nous voulons tudier la conformit de la distribution d'une v.a. continue X avec la loi normale. Nous disposons pour cela de n observations xi . Pour certaines techniques, nous pouvons tre amens trier les donnes. Nous obtenons une srie trie de manire ascendante que nous noterons x(i) : x(1) correspond la plus petite valeur observe c.--d.
x(1) = xmin , x(2) est la 2-me plus petite valeur, etc.
Page: 3
job: Test_Normalite
macro: svmono.cls
4
Donnes
Dans ce support, nous utiliserons un chier recensant le logarithme de l'indice de masse corporelle (IMC, Body Mass Index en anglais) de 30 personnes (Figure 0.1). Nous pouvons considrer qu'il s'agit d'un petit eectif, inappropri pour certains tests (ex. Jarque-Bera), mais adquat pour des vises pdagogiques : le lecteur doit pouvoir facilement reproduire les calculs .
Fig. 0.1.
Donnes initiales
Nous utiliserons principalement le tableur EXCEL dans ce support, mais plusieurs reprises nous ferons appel des logiciels gratuits tels que TANAGRA et R, et des logiciels commerciaux tels que SPSS et STATISTICA.
1. Le chier de donnes est accessible sur le Web, http://eric.univ-lyon2.fr/~ricco/cours/supports_

data_mining.html
1 Techniques empiriques et mthodes graphiques
L'apprhension d'un jeu de donnes passe systmatiquement par les statistiques descriptives. Elles donnent une image globale. Bien souvent, elles permettent de se faire une ide sur les techniques que l'on pourrait utiliser et les dangers ou artefacts dont il faudra se mer. Bien avant les techniques complexes et les ratios savants, quelques indicateurs usuels et des graphiques judicieusement choisis sont le bienvenu. Ces outils sont disponibles dans tous les outils de traitement exploratoire des donnes.
1.1 Histogramme de frquence

L'outil graphique le plus simple est l'histogramme de frquence. Il s'agit de couper automatiquement l'intervalle de dnition de la variable en k intervalles de largeur gales, puis de produire une srie de barres dont la hauteur est proportionnelle l'eectif associ l'intervalle. Dans la plupart des logiciels, le nombre k d'intervalles est dni de manire arbitraire, dans d'autres il est paramtrable. Une rgle simple pour dnir le bon nombre d'intervalles est d'utiliser la rgle k =
log2 (n).
Fig. 1.1.
Statistiques descriptives
Page: 5
job: Test_Normalite
macro: svmono.cls

Dans le rsultat que nous reproduisons (Figure 1.1), la valeur k = 10 est manifestement trop leve,
il y a trop peu d'observations dans chaque intervalle. On peut essayer de descendre k = log2 (30) 5 (Figure 1.2), mais dnitivement il y a trop peu d'observations pour se donner une ide prcise dans cet exemple.
Fig. 1.2.
Histogramme de frquences
Certains logiciels procdent automatiquement l'estimation des deux principaux paramtres de la loi normale ( la moyenne, l'cart-type) et tracent la fonction de densit correspondante pour apprcier le rapprochement entre la distribution empirique (histogramme) et la distribution thorique (Figure 1.2). La moyenne est estime l'aide de la moyenne empirique :
x=
1 xi = 3.4362 n i
(1.1)
On utilise l'estimateur non biais de l'cart-type :
s=
1 (xi x)2 = 0.2290 n1 i
(1.2)
1.2 Bote moustache

La bote moustaches , en anglais box-plot, est un outil graphique trs pratique reprsentant une distribution empirique l'aide de quelques paramtres de localisation : la mdiane (M ), le 1er (Q1 ) et 3me (Q3 ) quartile. Dans notre chier (Figure 1.3), M = 3.4531, Q1 = 3.2229 et Q3 = 3.5381. On constate un certain talement de la distribution vers les grandes valeurs, chose que l'on pouvait dj percevoir dans l'histogramme de frquences (Figure 1.2).
1. http://fr.wikipedia.org/wiki/Bote__moustaches et http://www.sfds.asso.fr/groupes/statvotre/
Boite-a-moustaches.pdf
1.3 Coecient d'asymtrie et d'aplatissement
Fig. 1.3.
Bote moustaches
Remarque 1 (Dtection et inuence des points atypiques). Les extrmits des moustaches sont dlimits
par 1.5 fois l'intervalle inter-quartile (Q3 Q1 ). Cela permet de dceler l'existence d'un point extrme . Il s'agit de l'observation correspondant xmax = 4.084, elle est largement plus leve que les autres valeurs. Ce point est mis en vidence dans la bote moustaches (Figure 1.3). Cette rgle de dtection est plus able que la fameuse rgle des 3-sigma qui consiste isoler les points en-de ou au-del de 3-fois l'cart-type autour de la moyenne. En eet, elle ne repose pas sur une hypothtique symtrie de la distribution, elle utilise galement des paramtres de localisation (les quartiles) qui, la dirence de la moyenne empirique, sont peu inuencs par les points extrmes.
Fig. 1.4.
Donnes sans le point extrme
Dans notre chier, il est patent que la valeur 4.084 est largement plus leve que les autres. Or tous les indicateurs et tests que nous mettrons en oeuvre reposent, au moins en partie, sur la moyenne empirique (x). Il parat plus judicieux de supprimer cette observation. Dsormais, le chier utilis dans les traitements comptera n = 29 observations (Figure 1.4), nous recalculons ds lors les statistiques descriptives (Figure 1.5).
1.3 Coecient d'asymtrie et d'aplatissement

La loi normale est caractrise par un coecient d'asymtrie et un coecient d'aplatissement nuls. Il parat naturel de calculer ces indicateurs pour se donner une ide, ne serait-ce que trs approximative, du rapprochement possible de la distribution empirique avec une gaussienne. Plutt que les indicateurs triviaux drivs de la dnition thorique des coecients, les logiciels calculent les estimateurs non-biaiss.
2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
Fig. 1.5.
Statistiques descriptives sans le point extrme
Pour le coecient d'asymtrie 1 , appel skewness en anglais, nous utilisons ! :
G1 =
n (n 1)(n 2) i
xi x s
)3 = 0.2197
(1.3)
Pour le coecient d'aplatissement 2 , appel kurtosis en anglais, nous utilisons " :
n(n + 1) G2 = (n 1)(n 2)(n 3) i
xi x s
)4
3(n 1)2 = 0.0053 (n 2)(n 3)
(1.4)
Si ces indicateurs sont susamment proches de la valeur 0, l'hypothse de compatibilit avec la loi normale ne peut tre rejete. Tout le problme est de quantier ce degr de proximit. Il faudrait connatre la loi de probabilit de ces indicateurs pour mettre en place un test statistique permettant de dterminer si l'cart est signicatif ou non ; ou tout du moins, calculer les cart-type (cf. les valeurs entre parenthses fournies par le logiciel TANAGRA, gure 1.5) et utiliser les distributions asymptotiques pour raliser le test. Nous dtaillerons ces procdures plus loin. A ce stade, les coecients d'asymtrie et d'aplatissement sont uniquement calculs titre indicatif. Nous constatons nanmoins, sans trop s'avancer quant aux rsultats des tests, qu'elles s'loignent peu des valeurs de rfrence. L'adquation la loi normale parat plausible.
Remarque 2 (Calculs avec le point atypique). Par curiosit, nous reprenons ces mmes indicateurs en
incluant le point extrme (Figure 1.1), nous constatons qu'elles prennent des valeurs sensiblement direntes, G1 = 0.7476 et G2 = 1.1296, conrmant, si besoin est, qu'un individu s'cartant signicativement de la population peut fausser les rsultats.
3. http://en.wikipedia.org/wiki/Skewness 4. http://en.wikipedia.org/wiki/Kurtosis
1.4 Autres indicateurs
1.5 Q-Q Plot et Droite de Henry
D'autres indicateurs peuvent tre mis prot pour apprcier rapidement l'cart la loi normale. Par exemple, la distribution tant symtrique, l'cart entre la mdiane (M ) et la moyenne empirique (x) ne devrait pas tre trs lev. Dans notre jeu de donnes, la mdiane est gale 3.4400 et la moyenne 3.4138 (Figure 1.5). Ce dispositif est toutefois trs grossier : l'importance de l'cart dpend de la dispersion des donnes, il permet uniquement d'apprcier la symtrie de la distribution.
D=
1 |xi x| n i
(1.5)
Autre caractristique d'une gaussienne, le rapport entre l'cart absolu moyen (MAD - mean absolute 2 deviation en anglais, quation 1.5) et l'cart-type est asymptotiquement gal 0.7979. Dans notre chier de donnes, il est de 0.7811 (Figure 1.5). Ici galement, il parat dicile de rejeter d'emble l'adquation la loi normale. Ce dispositif peut tre to et aboutir un test statistique fond sur le ratio cart absolu moyen - cart-type (Avazian et al., page 301). Des tables sont disponibles pour dnir les rgions critiques associs aux dirents niveaux de risque. Mais il faut reconnatre que cette procdure est trs rarement rfrence. Pour ma part, je ne l'ai jamais vue implmente dans un logiciel.

Le Q-Q plot, quantile-quantile plot, est une technique graphique qui permet de comparer les distributions de deux ensembles de donnes # . Les chantillons ne sont pas forcment de mme taille. Il se peut galement, et c'est ce qui nous intresse dans le cas prsent, qu'un des ensembles de donnes soient gnres partir d'une loi de probabilit qui sert de rfrentiel. Concrtement, il s'agit 1. de trier les donnes de manire croissante pour former la srie x(i) ; 2. chaque valeur x(i) , nous associons la fonction de rpartition empirique Fi = 361) ; 3. nous calculons les quantiles successifs z(i) d'ordre Fi en utilisant l'inverse de la loi normale centre et rduite $ ; 4. enn, les donnes initiales n'tant pas centres et rduites, nous d-normalisons les donnes en appliquant la transformation x(i) = z (i) s + x.
i0.375 n+0.25
(Saporta, page
Page: 9
job: Test_Normalite
macro: svmono.cls
10
Fig. 1.6.
Tableau de calcul du q-q plot
Si les donnes sont compatibles avec la loi normale, les points (x(i) , x(i) ) forment une droite, dite
droite de Henry, aligns sur la diagonale principale.

Les calculs sont rsums dans un tableau de calcul que l'on peut construire facilement dans un tableur (Figure 1.6). Nous obtenons un graphique nuage de points, la droite de rfrence est matrialise par la diagonale principale (Figure 1.7). Nous constatons que les points sont relativement aligns. Nous n'observons pas un cartement signicatif, aucun point ne semble non plus se dmarquer des autres.
Fig. 1.7.
Q-Q plot pour notre jeu de donnes de 29 observations
5. http://www.itl.nist.gov/div898/handbook/eda/section3/qqplot.htm 6. =LOI.NORMALE.STANDARD.INVERSE(...) dans le tableur EXCEL


Remarque 3 (Estimation de la fonction de rpartition Fi ). Nous n'utilisons pas l'estimation triviale Fi =
11
i n
dans les calculs. Il s'agit en eet de "lisser" la fonction de rpartition en prenant, non pas la valeur brute, mais la valeur espre en rfrence la loi de rpartition, la loi normale dans notre cas. Voir
http://www.uic.edu/classes/idsc/ids577/nscores.htm ; Blom's Normal Score - http://www.vni. com/products/imsl/jmsl/v30/api/com/imsl/stat/Ranks.html ; quelques scores usuels pour les tests bass sur les rangs (Wilcoxon, Van der Waerden, Savage, Siegel-Tukey, Klotz, etc.) - http://v8doc. i+a sas.com/sashtml/stat/chap47/sect17.htm. Plus gnralement, la formule idoine est Fi = n+1+2a , 3 a = 8 = 0.375 est une possibilit pour la loi normale, mais d'autres variantes existent http://en. wikipedia.org/wiki/Qq_plot.
Remarque 4 (Variantes de la droite de Henry). D'autres modes de reprsentation de la droite de Henry
sont couramment utiliss dans la littrature. Nous pouvons laisser les points z(i) en ordonne du graphique. L'intrt est qu'il est possible de dterminer graphiquement les paramtres de localisation et d'chelle de la distribution empirique (par exemple, la droite coupe l'axe des abcisses une coordonne qui permet d'estimer )(Figure 1.9). Autre reprsentation trs populaire, nous utilisons directement en ordonne les valeurs de Fi en utilisant un repre spcique dit repre gausso-arithmtique. L'astuce est de disposer, non pas rgulirement les valeurs de la frquence cumule en ordonne, mais selon une chelle qui permet d'obtenir une droite si la distribution tait gaussienne % (Figure 1.8).
Fig. 1.8.
Exemple de papier gausso-arithmtique
Remarque 5 (De l'utilisation du papier gausso-arithmtique). Ce type de papier trs spcique, vendu
nagure dans les librairies, tait pratique car il vitait au statisticien d'avoir calculer partir des tables
7. Des exemples de papier gausso-arithmtique : http://nte-serveur.univ-lyon1.fr/nte/immediato/

math2002/Tables/papier_gausso.htm ; http://www.iut.u-bordeaux4.fr/gea/pagesweb/henry.pdf
12
statistiques les valeurs successives de z(i) partir des frquences Fi . Il n'a plus vraiment d'utilit de nos jours, un tableur fournit trs facilement ces valeurs.
Fig. 1.9.
Q-Q plot, valeurs standardises en ordonnes
Page: 12
job: Test_Normalite
macro: svmono.cls
2 Tests statistiques
Trs commodes, les approches empiriques n'ont pas la rigueur des techniques statistiques. Dans ce chapitre, nous prsentons les tests de compatibilit la loi normale. Encore une fois, il s'agit bien de vrier l'adquation (la compatibilit) la loi normale et non pas dterminer la loi de distribution. Mis part le test de Shapiro-Wilk, tous les tests prsents dans ce chapitre sont, soit des variantes plus puissantes du test de Kolmogorov-Smirnov, soit bass sur les coecients d'asymtrie et d'aplatissement. La majorit de ces techniques sont prsents dans les logiciels. Nous reprenons notamment les rsultats de TANAGRA (Figure 2.1). Pour des raisons pdagogiques, nous reproduisons tous les calculs dans un tableur an que le lecteur puisse accder aux dtail des mthodes. A tout test est associ un risque dit de premire espce, il s'agit de la probabilit de rejeter l'hypothse de normalit alors qu'elle est vraie. Plus nous diminuons sa valeur, plus notre propension accepter l'adquation une gaussienne est leve. Dans tous nos exemples, nous adopterons le risque = 5%.
Fig. 2.1.
Tests de normalit avec le logiciel TANAGRA
Toutes les techniques que nous prsentons dans ce chapitre sont, et ne sont que, des techniques numriques. Les rsultats, rejet ou acceptation de la normalit, peuvent masquer des situations trs disparates. De plus, ces tests sont trs inuencs par la taille de l'chantillon. La compatibilit avec la loi normale est bien (trop) souvent la rgle sur des petits eectifs ; en revanche, l'incompatibilit avec la loi normale est quasi-systmatiquement dcide sur de gros eectifs, mme si les carts de distributions sont faibles. De fait, les approches empiriques, notamment graphiques, gardent toute leur importance.
Page: 13
job: Test_Normalite
macro: svmono.cls
14
2.1 Test de Shapiro-Wilk

Description
Trs populaire, le test de Shapiro-Wilk est bas sur la statistique W . En comparaison des autres tests, il est particulirement puissant pour les petits eectifs (n 50). La statistique du test s'crit :
[ n [2] W =
o
( )]2 ai x(ni+1) x(i) i=1 2 i (xi x)
(2.1)
x(i) correspond la srie des donnes tries ; [ n ] est la partie entire du rapport 2
n 2
ai sont des constantes gnres partir de la moyenne et de la matrice de variance co-variance des quantiles d'un chantillon de taille n suivant la loi normale. Ces constantes sont fournies dans des tables spciques La statistique W peut donc tre interprte comme le coecient de dtermination (le carr du coecient de corrlation) entre la srie des quantiles gnres partir de la loi normale et les quantiles empiriques obtenues partir des donnes. Plus W est lev, plus la compatibilit avec la loi normale est crdible. La rgion critique, rejet de la normalit, s'crit :
R.C. : W < Wcrit

Les valeurs seuils Wcrit pour dirents risques et eectifs n sont lues dans la table de Shapiro-Wilk ! .
Calculs
Les calculs s'agencent de la manire suivante (Figure 2.2) : 1. trier les donnes xi , nous obtenons la srie x(i) ; ( ) 2. calculer les carts x(ni+1) x(i) ; 3. lire dans la table pour n = 29, les valeurs des coecients ai ; 4. former le numrateur de W , nW = 1.0231 ; 5. former le dnominateur de W , dW = 1.0847 ; 6. en dduire W =
1.0240 1.0856
= 0.9432 ;
7. pour une risque = 0.05, le seuil critique lue dans la table pour n = 29 est Wcrit = 0.926. Dans notre exemple, W > Wcrit , au risque de 5%, l'hypothse de normalit est compatible avec nos donnes.
1. http://www.educnet.education.fr/rnchimie/math/benichou/tests/normalite/normalite.htm 2. http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/coef.htm ou http://

www.santetropicale.com/SANTEMAG/algerie/stat/stat_10.htm#28 3. http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/tshapiro.htm
2.1 Test de Shapiro-Wilk
15
Fig. 2.2.
Test de Shapiro-Wilk avec un tableur
Implmentations et logiciels
Comme nous pouvons le constater, les calculs sont assez complexes et reposent sur des valeurs tabules avec une certaine prcision. Il importe de vrier les direntes variantes implmentes dans les logiciels.
Petits eectifs
Pour les petits eectifs (n 50), SPSS procde au calcul exact et propose la valeur W = 0.9438. Il n'est pas oprant en revanche ds que n > 50. Ce rsultat est trs proche de ce que nous obtenons avec le tableur. A la dirence que les coecients ai doivent tre vraisemblablement plus prcis dans SPSS.
Eectifs intermdiaires
Pour les eectifs de taille modre, un autre algorithme prend le relais. Le programme de rfrence a t publie dans la revue Applied Statistics Journal " , le code source FORTRAN est accessible en ligne # . Il donne des rsultats prcis jusqu' n 5000. Il produit aussi la probabilit critique (p-value ) du test. Il est implment dans le logiciel DATAPLOT du NIST $ . Nous ne l'avons pas test. En revanche, l'implmentation dans le logiciel R a t value (fonction shapiro.test(...) % ). Nous obtenons la valeur
W = 0.9456, avec une p-value = 0.1408. L'hypothse de normalit ne peut tre rejete.
4. 5. 6. 7.
Algorithm AS R94 (SWILK sub routine) from the Applied Statistics Journal, 1995, Vol. 44, No. 4. http ://lib.stat.cmu.edu/apstat/R94 Voir le prototype de la fonction http://sekhon.berkeley.edu/stats/html/shapiro.test.html
job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/wilkshap.htm
Page: 15
16
Le code source en FORTRAN a t port en DELPHI dans le logiciel TANAGRA, nous obtenons
exactement les mmes rsultats (Figure 2.1). STATISTICA, dixit le chier d'aide, s'appuie sur une extension de l'algorithme de Royston (1982) & . Il y a de fortes chances qu'il s'agit d'une version fort similaire celle du mme auteur en 1995 (DATAPLOT). Nous obtenons galement des valeurs identiques.
2.2 Test de Lilliefors

Description
Le test de Lilliefors ' est une variante du test de Kolmogorov-Smirnov o les paramtres de la loi ( et ) sont estimes partir des donnes. La statistique du test est calcule de la mme manire. Mais sa loi est tabule diremment, les valeurs critiques sont modies pour un mme risque . Elles ont t obtenues par simulation. Les avis sont partags quant la puissance de ce test. Il semble qu'il soit sensible au dsaccord de la distribution empirique avec la loi thorique aux alentours de la partie centrale de la distribution, l o justement les carts ont peu d'eets sur les tests paramtriques. Il est moins performant en revanche lorsque le dsaccord porte sur les queues de distribution, pourtant prjudiciables. Certains le dconseillent et prfrent le test de Shapiro-Wilk ou les tests bass sur les coecients d'asymtrie et d'aplatissement . La statistique du test d'crit :
( D = max
i=1,...,n
i1 i Fi , Fi n n
)
(2.2)
o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise z(i) =
x(i) x . s
La table des valeurs critiques Dcrit pour les petites valeurs de n et direntes valeurs de doivent tre utilises . Lorsque les eectifs sont levs, typiquement n 30, il est possible d'approcher la valeur critique l'aide de formules simples :
Valeur critique Dcrit 0.10 0.05 0.01

0.805 n 0.886 n 1.031 n
8. Patrick Royston (1982) Algorithm AS 181 : The W Test for Normality. Applied Statistics, 31, 176180. 9. Lilliefors, H. (June 1967), "On the Kolmogorov-Smirnov test for normality with mean and variance unknown", Journal of the American Statistical Association, Vol. 62. pp. 399-402. 10. http://en.wikipedia.org/wiki/Lilliefors_test 11. http://courses.wcupa.edu/rbove/eco252/252KStest.doc
2.2 Test de Lilliefors

La rgion critique du test pour la statistique D est dnie par
17
R.C. : D > Dcrit
Remarque 6 (Calcul de la p-value). Abdi et Molin (2007) fournissent des approximations plus prcises .
Surtout, ils proposent une formule, assez complexe il faut le reconnatre, pour obtenir la probabilit critique (p-value ) du test. Cela simplie beaucoup la procdure, il sut de comparer cette p-value avec le risque que l'on s'est choisi. Nanmoins, je ne connais pas l'heure actuelle de logiciel qui ait intgr cette formule.
Calculs
Le test se construit comme le test de Kolmogorov-Smirnov, la dirence que les paramtres de la loi sont estims et que les valeurs critiques modis (Figure 2.3) : 1. les donnes sont tries pour former la srie x(i) ; 2. nous estimons les paramtres, x = 3.4138 et s = 0.1968 ; 3. nous calculons alors les donnes centres et rduites z(i) = thoriques Fi ; 5. que nous opposons aux frquences empiriques pour obtenir la statistique D du test " , en calculant ( ) (i ) tour tour D = maxi=1,...,n Fi i1 = 0.1096, puis D+ = maxi=1,...,n n Fi = 0.1176, et n enn D = max (D , D+ ) = 0.1176 ; 6. nous comparons au seuil critique Dcrit = 0.161 lue dans la table 5%. Dans notre exemple, D < Dcrit , les donnes sont compatibles avec l'hypothse de normalit.
x(i) x s
4. nous utilisons la fonction de rpartition de la normale centre et rduite ! pour obtenir les frquences
Les calculs tant relativement simples, ils ne dirent gure d'un logiciel l'autre. Nous obtenons les mmes rsultats que sous un tableur. Ce n'est gure tonnant. La seule dirence pourrait rsider dans le calcul de la loi de rpartition F (z). Mais il y a un consensus maintenant au niveau de l'implmentation de la loi normale. Les bibliothques utilises sont trs similaires, voire identiques, les rsultats sont forcment les mmes.
12. Herv Abdi et Paul Molin, Lilliefors/Van Soet's test of normality, In : Neil Salkind (Ed.) (2007), Encyclopedia of Measurement and Statistics ; accessible en ligne http://www.utdallas.edu/~herve/
Abdi-Lillie2007-pretty.pdf
13. =LOI.NORMALE.STANDARD(...) sous EXCEL 14. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm

job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
Page: 17
18
Fig. 2.3.
Test de Lilliefors avec un tableur
2.3 Test de Anderson-Darling

Description
Le test de Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, la dirence qu'elle donne plus d'importance aux queues de distribution # . De ce point de vue, elle est plus indique dans la phase d'valuation des donnes prcdant la mise en oeuvre d'un test paramtrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors. Autre particularit, ses valeurs critiques sont tabules diremment selon la loi thorique de rfrence, un coecient multiplicatif correctif dpendant de la taille d'chantillon n peut tre aussi introduit. Concernant l'adquation la loi normale, la statistique du test s'crit :
A = n
1 (2i 1) [ln(Fi ) + ln(1 Fni+1 )] n i=1

n
(2.3)
o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise z(i) =
x(i) x . s
Une correction est recommande pour les petits eectifs $ , cette statistique corrige est galement utilise pour calculer la p-value :
15. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35e.htm 16. "Petits" tant assez vague, certains logiciels tel que STATISTICA ne valident l'utilisation du test d'AndersonDarling uniquement pour 10 n 40 ; la librairie intgre dans R n'autorise pas le calcul lorsque n < 8
( ) 0.75 2.25 Am = A 1 + + 2 n n
2.3 Test de Anderson-Darling
19
(2.4)
Les valeurs critiques Acrit pour dirents niveaux de risques sont rsumes dans le tableau suivant, ils ont t produits par simulation et ne dpendent pas de l'eectif de l'chantillon :
Acrit 0.10 0.631 0.05 0.752 0.01 1.035

L'hypothse de normalit est rejete lorsque la statistique A prend des valeurs trop leves :
R.C. : A > Acrit
Calculs
Fig. 2.4.
Test de Anderson-Darling avec un tableur
La mise en place du test passe par les tapes suivantes (Figure ) : 1. les donnes sont tries pour former la srie x(i) ; 2. nous estimons les paramtres, x = 3.4138 et s = 0.1968 ; 3. nous calculons alors les donnes centres et rduites z(i) =
x(i) x s
Page: 19
job: Test_Normalite
macro: svmono.cls
20
thoriques Fi ;
4. nous utilisons la fonction de rpartition de la normale centre et rduite % pour obtenir les frquences 5. nous calculons la colonne ln(Fi ) ; 6. de la mme manire, nous formons Fni+1 puis en dduisons ln(1 Fni+1 ) ; n 7. nous calculons alors la somme S = i=1 (2i 1) [ln(Fi ) + ln(1 Fni+1 )] = 858.0675 ;
1 8. la statistique A = n n S = 0.5885 ;
9. que nous comparons au seuil critique 0.752 5%. Dans notre exemple, A < Acrit , l'hypothse de normalit est compatible avec nos donnes.
Logiciels
Les calculs tant relativement simples, ils ne varient gure d'un logiciel l'autre. Dans notre exemple, TANAGRA et R fournissent la mme valeur A = 0.5885. La dirence est dans le calcul de la p-value. TANAGRA se contente de spcier une plage de p-value en comparant la statistique aux seuils critiques relatifs aux dirents niveaux de risque. Dans le cas prsent, il indique p-value > 0.10 (Figure 2.1).
Calcul de la p-value
La p-value est calcule partir de la statistique Am par interpolation partir d'une table dcrite dans Stephens, M.A. (1986), Tests based on EDF statistics. In : D'Agostino, R.B. and Stephens, M.A., eds. : Goodness-of-Fit Techniques. Marcel Dekker, New York. Nous donnons ici la rgle de calcul implmente dans le package nortest du logiciel R & : 1. calculer la statistique transforme Am = 0.6053 ; 2. utiliser la rgle suivante pour en dduire la p-value
Am Am < 0.2 0.34 Am < 0.6 0.66 Am 1e
p-value
13.436+101.14Am 223.73(Am )2
2
0.2 Am < 0.34 1 e8.318+42.796Am 59.938(Am ) e0.91774.279Am 1.38(Am )

2 2
e1.29375.709Am +0.0186(Am )
3. nous obtenons ainsi p-value = 0.1159, cohrent avec le rsultat indiqu par TANAGRA.
17. =LOI.NORMALE.STANDARD(...) sous EXCEL 18. http://www.biostat.wustl.edu/archives/html/s-news/2005-04/msg00065.html

2.4 Test de D'Agostino

Description
21
Le test de D'Agostino ' , connu galement sous l'appellation test K2 (K-squared) de D'Agostino-
Pearson, est bas sur les coecients d'asymtrie et d'aplatissement. Lorsque ces deux indicateurs dirent simultanment de la valeur de rfrence 0, on conclut que la distribution empirique n'est pas compatible
avec la loi normale. L'enjeu est de construire une combinaison ecace de ces indicateurs. L'ide est trs simple comprendre, sa puissance est considre comme trs bonne au point que son auteur prconise de le substituer aux tests bass sur la statistique de Kolmogorov-Smirnov. Le test de D'Agostino prsenterait une puissance similaire celle de Shapiro-Wilk mesure que les eectifs augmentent. Il devient particulirement ecace partir de n 20, on le prfre alors aux tests bass sur la statistique de Kolmogorov-Smirnov
.
Par rapport au test de Shapiro-Wilk, il serait de surcrot peu
sensible l'existence des ex-aequo dans l'chantillon. Le reproche usuellement adress au test de D'Agostino est qu'il ne permet pas directement de comprendre la nature de la dviation de la loi normale en cas de rejet de l'hypothse nulle. Il faut complter l'analyse avec l'tude individuelle des coecients, ou en mettant en oeuvre les techniques descriptives dcrites prcdemment. Si l'ide est simple, les formules sont relativement complexes. Il faut procder par tapes. Le l directeur est de centrer et rduire les deux coecients (asymtrie et aplatissement) de manire obtenir des valeurs z1 et z2 distribues asymptotiquement selon une loi normale N (0, 1). La transformation intgre des corrections supplmentaires de manire rendre l'approximation normale plus ecace.
Transformation du coecient d'asymtrie

Une premire transformation est eectue sur le coecient d'asymtrie. Les calculs successifs sont les suivants
.
19. http://en.wikipedia.org/wiki/D'Agostino's_K-squared_test, j'ai nanmoins quelques doutes sur les formules fournies en ligne. 20. Voir Zar J.H. (1996) - Biostatistical Analysis - Prentice Hall International Editions. ; une description est disponible en ligne http://calamar.univ-ag.fr/uag/staps/cours/stat/stat.htm 21. Voir implmentation MATLAB tire de Trujillo-Ortiz, A. and R. Hernandez-Walls. (2003). DagosPtest : D'Agostino-Pearson's K2 test for assessing normality of data using skewness and kurtosis. A MATLAB le.,
http://www.mathworks.com/matlabcentral/files/3954/DagosPtest.m
22
i=1 (xi x) g1 = ( )3/2 n 2 1 (xi x) i=1 n (n + 1)(n + 3) A = g1 6(n 2)
1 n
B= C D E F
3(n2 + 27n 70)(n + 1)(n + 3) (n 2)(n + 5)(n + 7)(n + 9) = 2(B 1) 1 = C 1 = ln(D) A =

2 C1
( ) z1 = E ln F + F 2 + 1
Transformation du coecient d'aplatissement

Nous procdons de manire similaire pour le coecient d'aplatissement.
n(n + 1) g2 = G2 = (n 1)(n 2)(n 3) i G= H J K
xi x s
)4
3(n 1)2 (n 2)(n 3)
24n(n 2)(n 3) (n + 1)2 (n + 3)(n + 5) (n 2)(n 3)g2 = (n + 1)(n 1) G 6(n2 5n + 2) 6(n + 3)(n + 5) = (n + 7)(n + 9) n(n 2)(n 3) [ ] 8 2 4 = 6+ + 1+ 2 J J J 2 1 K = 2 1 + H K4 (1
2 9K )
z2 =
L3
2 9K
z1 et z2 suivent tous deux asymptotiquement une loi normale N (0, 1). La statistique du test est la
combinaison
2 2 K2 = z1 + z2
(2.5)
Elle suit asymptotiquement une loi du 2 2 degrs de liberts. L'incompatibilit de la distribution value avec la loi normale est d'autant plus marque que la statistique K2 prend une valeur leve. Pour un risque , la rgion critique du test s'crit :

R.C. : K2 > 2 (2) 1
Pour = 0.05, le seuil critique est 2 (2) = 5.99. 0.95
23
Calculs
Pour notre ensemble de donnes, les calculs s'articulent comme suit (Figure 2.5) :
Fig. 2.5.
Test de D'Agostino avec un tableur
1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 , d3 et d4 ; 4. calculer successivement les valeurs numres ci-dessus pour aboutir z1 = 0.5349 et z2 = 0.2259 ; 5. nous formons la statistique K2 = 0.53492 + 0.22592 = 0.3372 ; 6. nous pouvons galement calculer la p-value l'aide de la fonction de rpartition p-value = 0.8449. Dans notre exemple, la statistique K2 est largement infrieure 2 (2) = 5.99, la distribution 0.95 observe est compatible avec une distribution thorique normale. du 2 , et obtenir
22. =LOI.KHIDEUX(...) dans EXCEL

24
La procdure se rsume des calculs arithmtiques simples que l'on peut facilement implmenter. En revanche la complexit des formules incite la prudence, des coquilles peuvent facilement s'immiscer. On peut se poser des questions quant la abilit des sources proposes en ligne. Nous avons test les donnes sur TANAGRA et R [package fBasic, fonction dagoTest(...)]. Nous avons obtenu des rsultats concordants. Mme si a n'a pas valeur de preuve, c'est quand mme un signe positif. Nous retrouvons exactement les valeurs calcules dans le tableur.
2.5 Test de Jarque-Bera

Description
Le test de normalit de Jarque-Bera
est galement fond sur les coecients d'asymtrie et d'apla-
tissement. Il value les carts simultans de ces coecients avec les valeurs de rfrence de la loi normale. La formulation est trs simple par rapport au test de D'Agostino, le prix est une puissance moindre. Il ne devient rellement intressant que lorsque les eectifs sont levs. Prenons les coecients d'asymtrie et d'aplatissement de Pearson (1 = normale. On propose les estimateurs
3 3
et 2 =
4 4 ),
la seule
dirence avec ceux de Fisher est que le second coecient n'est pas normalis, c.--d. 2 = 3, pour la loi
x)3 )3 2 2 i (xi x) n 1 (xi x)4 b2 = ( n i )2 1 2 i (xi x) n b1 = ( 1

1 n i (xi
(2.6) (2.7)
"
La loi conjointe de ces estimateurs est normale bivarie, on crit
b1 b2
[( ) ( )] 0 6 0 N , 3 0 24
(2.8)
La matrice de variance covariance prsente ici est une expression simplie valable pour les grandes valeurs de n. Il est possible de produire des expressions plus prcises, aches par les logiciels de statistique. Nous notons galement que la covariance de b1 et b2 est nulle. La forme quadratique associe permet de produire la statistique de Jarque-Bera T qui s'crit :
23. http://en.wikipedia.org/wiki/Jarque-Bera_test 24. http://wis.kuleuven.be/stat/robust/Papers/tailweightCOMPSTAT04.pdf

( T =n
b2 (b2 3)2 1 + 6 24
2.5 Test de Jarque-Bera
25
(2.9)
Elle est distribue asymptotiquement selon une loi du 2 2 degrs de libert, tout comme la statistique de D'Agostino vue prcdemment. La statistique T prend des valeurs d'autant plus leves que l'cart entre la distribution empirique et la loi normale est manifeste. La rgion critique pour un risque du test est dnie par
R.C. : T > 2 (2) 1

Pour un risque = 0.05, le seuil critique est 2 (2) = 5.99. 0.95 En vrit, ce test est toujours moins puissant que le test de D'Agostino c.--d. il a une propension plus leve conclure la compatibilit avec la loi normale. On devrait donc toujours prfrer ce dernier. Dans la pratique, les carts de puissance s'amenuisent mesure que les eectifs augmentent. La simplicit des calculs, trs faciles apprhender et mettre en oeuvre sur des outils simples tels qu'un tableur, militent en faveur du test de Jarque-Bera.
Calculs
Pour notre ensemble de donnes, les calculs s'articulent comme suit (Figure 2.6) :
Fig. 2.6.
Test de Jarque-Bera avec un tableur
1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 , d3 et d4 ;

26
4. calculer successivement les estimateurs b1 = 0.2081 et b2 = 2.7956 ; 5. nous formons la statistique T = 0.20812 + 2.79562 = 0.2599 ; 6. nous pouvons galement calculer la p-value l'aide de la fonction de rpartition p-value = 0.8781. Dans notre exemple, la statistique T est largement infrieure 2 (2) = 5.99, la distribution observe 0.95 est compatible avec une distribution thorique normale. Nous observons que la p-value du test est trs similaire celle fournie par le test de D'Agostino.
#
du 2 , et obtenir
La simplicit des calculs facilite sa diusion. Nous avons test la fonction jarqueBeraTest(...) du package fBasic dans R. Nous avons obtenu exactement des rsultats identiques ceux du tableur.
2.6 Conclusion sur les tests de normalit

Dans ce document nous avons prsent les techniques destines valuer la compatibilit d'une distribution empirique avec la loi normale. Sans msestimer la pertinence des tests statistiques, on pouvait en pressentir les rsultats la lumire des graphiques de distribution (Histogramme de frquences, gure 1.2), de la bote moustaches (Figure 1.3) et de la droite de Henry (Figure 1.7). Nous avions de plus une ide sur la nature des dsaccords : la distribution est unimodale, trs lgrement asymtrique, et la droite de Henry nous indique que les cart sont essentiellement situes dans les queues de distribution. Il est quand mme heureux que les caractristiques des tests tudies ici conrment cette impression. Certes, ils aboutissent tous la mme conclusion, la compatibilit avec la loi normale, mais des degrs dirents que l'on peut apprhender l'aide de la p-value. On constate que le test le moins enclin accepter l'hypothse de normalit est celui de Anderson-Darling, qui est justement sensible aux carts dans les queues de distribution (p-value = 0.1159). Le test de Shapiro-Wilk propose une p-value gale 0.1408. Sa puissance est reconnue dans la littrature, elle conrme cette ide ici. Le test de Lilliefors, pourtant fond sur la statistique de Kolmogorov-Smirnov, est plus conservateur, avec un p-value de 0.3859. Cela est surtout conscutif la nature du dsaccord, en queue de distribution, qu'elle dtecte mal. Enn, les tests de D'Agostino et de Jarque-Bera, bass sur les coecients d'asymtrie et d'aplatissement acceptent volontiers l'hypothse de normalit avec une p-value > 0.8. Elles sourent vraisemblablement de la petite taille de notre chier (n = 29)
$.
25. =LOI.KHIDEUX(...) dans EXCEL 26. Voir l'article de Sneyers (1974) pour une stratgie de choix des tests de normalit.
2.6 Conclusion sur les tests de normalit
27
Finalement, pourquoi tudier l'aide de tests compliqus ce que l'on pouvait apprhender sur des graphiques simples ? Les tests amnent un point de vue objectif, avec une approche rigoureuse. C'est un argument fort lorsque nos rsultats font l'objet d'enjeux importants. De plus, lorsque nous avons traiter un grand nombre de variables, il est intressant de disposer d'outils automatiss pour tester un grand nombre de variables, quitte revenir attentivement sur les variables qui posent problme par la suite. Mais pour cela, il faut comprendre le comportement des outils que l'on utilise. Autre aspect trs important, la dtection et le traitement des points atypiques que nous avons introduits au dbut de ce document n'tait pas du tout anodin dans notre contexte. La vrication de la normalit passe par l'estimation de l'esprance mathmatique, paramtre de la loi normale, l'aide de la moyenne empirique. La prsence de points douteux peuvent fausser totalement les calculs, et par consquent les conclusions du test. La suppression de ces points comme nous l'avons ralis est une solution possible. Adopter des estimations robustes de l'esprance en est une autre.
Page: 27
job: Test_Normalite
macro: svmono.cls
Page: 28
job: Test_Normalite
macro: svmono.cls
3 Tests de symtrie
Dans certains cas, on peut se contenter de tester la symtrie d'une distribution. Le test est bien entendu moins restrictif puisqu'il ne porte que sur un aspect de la forme de la distribution.
Exemple 1. Pour valuer une rgression multiple de la forme Y = f (X; )+, une distribution des rsidus
asymtrique laisse penser que le modle est mal spci. Le graphique des rsidus est un outil important, nous pouvons galement mettre en oeuvre des tests statistiques.
Exemple 2. Dans certaines techniques non-paramtriques, le test de Wilcoxon pour chantillons apparis
par exemple, la symtrie est requise pour que le test agisse correctement.
3.1 Test de symtrie bas sur le coecient d'asymtrie

Description
Un test de symtrie fond sur le coecient d'asymtrie est la premire stratgie qui vient l'esprit. Il s'agit d'utiliser une partie du test de D'Agostino ou de Jarque-Bera. La statistique du test asymptotique que nous proposons utilise la premire composante du test de Jarque-Bera :
1 (xi x)3 b1 = g1 = ( n i )3 1 2 2 i (xi x) n

Pour une meilleure ecacit, nous produisons une estimation de la variance plus prcise
2 1 =
(3.1)
6n(n 1) (n 2)(n + 1)(n + 3)

b1 1
(3.2)
Sous l'hypothse nulle de distribution normale, le rapport La rgion critique du test s'crit :
suit asymptotiquement une loi N (0, 1).
1. http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test
30
3 Tests de symtrie
R.C. : |
o u1 est le quantile d'ordre 1 2
2
b1 | > u1 2 1
lue dans la table de la loi normale centre-rduite.
Il s'agit d'une distribution asymptotique. Mais ce test peut tre utilis pour des eectifs relativement faibles. On le conseille gnralement pour 8 n 5000.
Calculs
Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.1) : 1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 et d3 ;
2 4. calculer successivement b1 = 0.2081, 1 = 0.1880 et 1 = 0.4335 ; b 5. nous formons la statistique | 1 | = 0.4801 ; 1
6. que nous comparons au seuil critique u0.975 = 1.96
Fig. 3.1.
Test de symtrie bas sur le coecient d'asymtrie
Les donnes sont compatibles avec une symtrie gaussienne. Bien entendu, disposant de la loi de rpartition de la statistique du test, nous pouvons calculer la p-value, elle est gale 0.6312.
2. Voir Tassi,
Page: 30
Mthodes Statistiques
, Economica, 1992, pages 323-324.

macro: svmono.cls date/time: 1-Oct-2011/7:43
job: Test_Normalite
3.2 Test de symtrie - Test de Wilcoxon

31
A l'instar de l'estimation de la variance sur un chantillon, plutt que l'estimation triviale du coecient d'asymtrie, qui est biaise, les logiciels produisent une estimation non-biaise ! .
n (n 1)(n 2) i n(n 1) g1 G1 = n2 G1 =
xi x s
)3
L'estimation de l'cart type de la statistique n'est pas modie, nous utilisons toujours 1 . Dans notre exemple, G1 = 0.2197, le rapport STATISTICA, SPSS et TANAGRA. Nous constatons que la conclusion du test n'est pas modie concernant notre exemple.
G1 1
= 0.5068. Ce sont les valeurs fournies par les logiciels

Description
Le test de symtrie ci-dessus introduit une restriction qui peut tre rdhibitoire : l'hypothse nulle correspond une distribution normale. Or, il se peut que l'on veuille couvrir une palette de distributions plus large. L'hypothse que l'on veut tester est la compatibilit avec une loi symtrique, que ce soit une loi normale bien videmment, mais aussi une loi de Laplace (exponentielle bilatrale), une loi de Cauchy, une loi uniforme, etc. Cette hypothse de symtrie peut tre importante dans certaines procdures statistiques. Il nous faut donc dnir une nouvelle statistique dont la distribution ne repose pas sur la loi de X . Nous nous tournons bien videmment vers les tests non paramtriques. Le test de symtrie que nous prsentons dans cette section (Avazian, pages 322 325) " , outre l'abandon de l'hypothse de normalit, est plus gnral que le test prcdent dans le sens o il permet d'examiner la symtrie par rapport un point quelconque . L'hypothse nulle de symtrie par rapport s'crit :
H0 : f (x + ) = f (x )
o f () est la fonction de densit de la variable alatoire tudie.
(3.3)
Le test est fond sur les rangs absolus par rapport la valeur de rfrence . Concrtement, la procdure consiste : calculer la variable zi = |xi | ;
3. http ://en.wikipedia.org/wiki/Skewness 4. Wilcoxon F., Individual comparaisons by

Page: 31 job: Test_Normalite
ranking methods
, Biometrics, 1, 80-83, 1945.

macro: svmono.cls
32
3 Tests de symtrie
former la srie trie z(i) ; pour chaque individu i tel que xi > 0 (notons I + l'ensemble des individus rpondant cette condition), obtenir dans la srie z(i) son rang ri ; La statistique du test est dnie par
S+ =
iI +
ri
(3.4)
Sous l'hypothse nulle, nous pouvons obtenir l'esprance et la variance de S + :
1 n(n + 1) 4 1 V (S + ) = n(n + 1)(2n + 1) 24 E(S + ) =
(3.5) (3.6)
Remarque 7 (Un cas particulier du test de comparaison de populations). Ce test peut se comprendre
comme le test de Wilcoxon de comparaison de populations sur chantillons apparis. L'un des chantillons est form par la valeur constante . La statistique S + a t tabule sous H0 pour les petites valeurs de n. Lorsque les eectifs augmentent + + (n 15 dans la pratique # ), la quantit Us = SE(S ) suit asymptotiquement une loi N (0, 1). La rgion + critique du test s'crit :
V (S )
R.C. : Us =
o u1 est le fractile d'ordre 1 2
2
|S + E(S + )| > u1 2 V (S + )
de la table de la loi normale centre rduite.
Il est possible de calculer la p-value du test partir de la fonction de rpartition de la loi normale.
Remarque 8 (Correction de continuit). Pour une meilleure approximation, nous pouvons introduire la
correction de continuit, la rgion critique s'crit dans le cas :
R.C : Us =
S + E(S + ) 0.5 S + E(S + ) + 0.5 + < u ou Us = > u1 2 2 V (S + ) V (S + )
La rgion critique est rduite, le test est plus conservateur. La correction devient nanmoins ngligeable mesure que les eectifs augmentent.
Page: 32
job: Test_Normalite
macro: svmono.cls
33
Fig. 3.2.
Test de symtrie de Wilcoxon
Calculs
Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.2) : 1. nous prenons comme valeur de rfrence la moyenne empirique = x = 3.4138 ; 2. former la srie zi = |xi x| ; 3. dtecter les observations i pour lesquelles xi > x, nous avons cr une colonne de variable indicatrice
wi pour cela ;
4. calculer le rang ri de chaque observation dans zi ; 5. en dduire alors la statistique S + = i wi ri = 218, somme des rangs des observations pour lesquelles xi > x ; 6. former la statistique centre et rduite Us = 0.0108 ; 7. que l'on compare au fractile u0.975 = 1.96 de la loi normale centre et rduite. Au risque de 5%, l'hypothse de symtrie de la distribution des donnes est accepte. Nous pouvons galement calculer la p-value, elle est gale 0.9914. Les rsultats ne sont gure aects par la correction de continuit (Figure 3.2), la p-value est identique (jusqu' la 4-me dcimale).
Traitement des ex aequo
Lorsque deux ou plusieurs observations prsentent la mme valeur, nous devons dnir une stratgie pour l'aectation des rangs.
5. http ://www.chups.jussieu.fr/polys/biostats/poly/POLY.Chp.12.2.html
34
3 Tests de symtrie Valeur 1.2 2.4 2.4 2.4 3.7 3.7 Rang 1 3 2 4 6 5
Tableau 3.1.
Traitement des ex aequo - Mthode des rangs alatoires
Mthode des rangs alatoires

La mthode des rangs alatoires consiste, pour une valeur repre plusieurs fois dans le chier, aecter alatoirement un rang pris parmi les rangs attribus la valeur. Dans notre exemple (Tableau 3.1) comportant 6 observations, 3 observations prsentent la mme valeur 2.4. Les rangs {2, 3, 4} doivent tre distribus alatoirement ces observations. L'intrt de cette approche est que tout le processus dcrit ci-dessus reste valable, notamment la formule de la variance. Son inconvnient est qu'il est moins puissant que la technique que nous dcrirons plus bas. Autre reproche que l'on pourrait lui faire, l'excution des calculs avec des gnrateurs de nombres alatoires dirents (par exemple lorsque le gnrateur est index sur l'horloge de la machine) peut aboutir des conclusions contradictoires. Ce qui ne manque pas de plonger le non initi dans un abme de perplexit.
Mthode des rangs moyens

La mthode des rangs moyens a le mrite de toujours fournir la mme rponse. Elle est surtout plus puissante. Il s'agit, pour des observations portant la mme valeur, de leur aecter un rang moyen. Dans notre exemple (Tableau 3.2), nous aectons
5+6 2 2+3+4 3
= 3.0 aux individus correspondant la valeur 2.4, et
= 5.5 pour les individus correspondant 3.7. La statistique, sa loi de distribution asymptotique, et
son esprance ne sont pas modis. En revanche, il faut adapter la formule de la variance qui devient $ :
V (S + ) =
n(n + 1)(2n + 1) 1 tj (tj 1)(tj + 1) 24 2 j=1

g
(3.7)
o g est le nombre de valeurs direntes dans le chier, tj est le nombre d'observations correspondant une valeur. Dans notre exemple (Tableau 3.2), g = 3 pour les valeurs {1.2, 2.4, 3.7}, et les tj sont
{1, 3, 2}.
Remarque 9. Si g = n (et donc tj = 1, j ), il n'y a pas d'ex aequo dans le chier de donnes, nous
observons que les variances concident V (S + ) = V (S + ).
Valeur 1.2 2.4 2.4 2.4 3.7 3.7 Rang 1 3.0 3.0 3.0 5.5 5.5
Tableau 3.2.
Traitement des ex aequo - Mthode des rangs moyens
6. Siegel S., Castellan Jr., J.,

Page: 34
Nonparametric Statistics for Behavioral Science
, McGraw-Hill, 1988, page 94.

job: Test_Normalite
macro: svmono.cls
3.3 Test de symtrie - Test de Van der Waerden

Description
3.3 Test de symtrie - Test de Van der Waerden
35
Ce test est une variante plus puissante du test de Wilcoxon, il introduit une lgre modication de la statistique qui s'crit maintenant
V+ =
iI +
1 1 ri + 2 2n+1
)
(3.8)
() est la fonction inverse de la loi normale centre rduite.

L'esprance et la variance de V + s'crivent
( ) n 1 1 k 1 + 2 2 2n+1 k=1 [ ( )]2 n 1 1 k 1 + V (V ) = + 4 2 2n+1 E(V + ) =

k=1
(3.9) (3.10)
Sous H0 , la quantit Uv = VE(V +

+
de la rgion critique est similaire celle du test de Wilcoxon.

Calculs
V (V
suit asymptotiquement une loi normale N (0, 1). La dnition
Fig. 3.3.
Test de symtrie de Van der Waerden
Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.3) :
36
3 Tests de symtrie
1. nous prenons comme valeur de rfrence la moyenne empirique = x = 3.4138 ; 2. former la srie zi = |xi x| ; 3. dtecter les observations i pour lesquelles xi > x, nous avons cr une colonne de variable indicatrice
wi pour cela ;
4. calculer le rang ri de chaque observation dans zi ; ( ) ri 5. produire la valeur ai = 1 + 1 n+1 ; 2 2 6. puis, bi = (ai ) ; 7. en dduire alors la statistique V + = vations pour lesquelles xi > x ; 8. pour calculer l'esprance mathmatique et la variance de V + , nous formons les colonnes ci = ( ) 1 1 k 2 2 + 2 n+1 , di = (ci ) et ei = di ; 1 9. nous calculons E(V + ) = 1 i di = 11.2714 et V (V + ) = 4 i ei = 6.5275 ; 2 10. reste produire Uv =
|11.171611.2714| 6.5275
wi bi = 11.1716, somme des rangs transforms des obser-
= 0.0391 ;
11. que l'on compare au fractile u0.975 = 1.96 de la loi normale centre et rduite. Au risque de 5%, l'hypothse de symtrie de la distribution des donnes est accepte. Nous pouvons galement calculer la p-value, elle est gale 0.9688.
Traitement des ex aequo
Comme prcdemment, en adoptant la mthode des rangs moyens, nous devons adapter la formule de la variance :
V (V + ) =
[ ( )]2 g 1 1 1 rj tj + 4 j=1 2 2n+1
(3.11)
o rj est le rang moyen pour le j -me groupe de valeur.
Remarque 10. Encore une fois, s'il n'y a pas d'ex aequo (c.--d. tj = 1 ,j ), les variances concident
V (V + ) = V (V + ).
3.4 Conclusion sur les tests de symtrie

Lorsque le paramtre n'est pas fourni par la thorie (par ex. la moyenne des rsidus est gale 0 dans la rgression linaire multiple avec constante) ou la connaissance du domaine, il nous faut l'estimer. Dirents paramtres de localisation peuvent tre utilises, la moyenne arithmtique comme nous avons pu le faire dans ce support, mais aussi des paramtres moins sensibles aux donnes atypiques telles que la mdiane. Quoiqu'il en soit, lorsque est estim, les procdures non paramtriques prsentes dans ce chapitre sont approximatifs (Avazian, page 324). Enn, bien que leur utilit soit indniable, les tests de symtrie sont curieusement absents de la plupart des logiciels de statistique.
4 Transformation de Box-Cox
Une grande partie des procdures statistiques reposent sur la normalit des distributions. Et quand bien mme certains d'entre eux seraient assez robustes, on sait gnralement que des distributions trs dissymtriques faussent les calculs, notamment les techniques bases sur des distances entre individus, ou pire des distances par rapport la moyenne. Transformer les variables de manire se rapprocher de la distribution normale, ou tout du moins pour les symtriser, est parfois un pralable ncessaire avant toute analyse statistique. Il est possible de rendre gaussienne toute variable alatoire continue par une transformation monotone continue. Les fonctions les plus rpandues sont certainement y = x et y = ln(x) ([1], page 275). Mais le rsultat laisse parfois dsirer, poussant les utilisateurs empiler au petit bonheur la chance les transformations. Il faut adopter une dmarche raisonne.
4.1 Fonctions de transformation de Box-Cox

Box et Cox proposent des fonctions de transformations plus gnriques, car paramtrables. En les modulant au mieux, nous pouvons nous rapprocher de la distribution normale. Deux types de fonctions sont gnralement dcrites dans la littrature . La premire propose un seul paramtre :
{ y = (x) =
x 1
( = 0) ( = 0)
ln(x)
(4.1)
La seconde, plus gnrale, mais plus dicile apprhender, propose 2 paramtres 1 et 2 :
{ y = (x) =
(x+2 )1 1 1
(1 = 0) (1 = 0)
ln(x + 2 )
(4.2)
La principale dicult est de prciser la bonne valeur des paramtres sur un chantillon de donnes. C'est en cela que la premire formulation est plus accessible (quation 4.1), nous ne manipulons qu'un seul paramtre. Dans ce qui suit, nous montrons comment, en pratique, nous xons de manire ecace la valeur adquate du paramtre .
1. http://en.wikipedia.org/wiki/Box-Cox_transformation
38
4.2 Approche graphique : utiliser la Droite de Henry

4.2.1 La droite de Henry
Le Q-Q plot (quantile-quantile plot) consiste produire un graphique "nuage de points" o : nous plaons en abcisse les quantiles observs, en ordonne les quantiles thoriques de la loi normale (section 1.5, nous laissons directement les quantiles de loi normale centre rduite en ordonne dans ce chapitre). Si les points forment une droite, la distribution empirique est compatible avec la loi normale. Prenons un exemple pour xer les ides. Nous analysons le montant des crdits (X ) accords par une banque un chantillon de n = 50 clients. Nous cherchons savoir si la distribution est normale. Le plus simple est de produire le graphique Q-Q plot (Figure 4.1) en suivant les prescriptions dcrites par ailleurs (section 1.5). Nous observons dans la feuille de calcul :
Fig. 4.1.
Droite de Henry - Donnes non transformes
Dans la colonne A, nous avons les valeurs de X , tries de manire croissante. Ces valeurs correspondent donc aux quantiles.

rpartition empirique selon la formule Fi =
i0.375 n+0.25
39
La colonne B sert uniquement numroter les observations. En C, nous avons la fonction de Nous utilisons l'inverse de la loi normale centre rduite pour produire la srie ui Le graphique Q-Q plot est form par les couples (xi , ui ). On constate dans notre cas que les points ne sont pas aligns sur une droite. L'hypothse de normalit n'est pas crdible. Il nous faut transformer la variable X pour nous rapprocher de la distribution normale.
4.2.2 Exploiter la droite de Henry
Une ide trs simple est de crer une nouvelle colonne Y base sur la transformation de Box-Cox (quation 4.1) dans la feuille de calcul, en rservant une cellule part pour le paramtre . Nous reconstruisons le graphique quantile-quantile sur Y . Nous pouvons alors ttonner en xant direntes valeurs de , nous observons chaque fois la situation de la droite de Henry. Nous arrtons les itrations lorsque nous obtenons un rsultat satisfaisant. Sduisante a priori, cette dmarche est trs vite fastidieuse, elle ne nous permet pas de tester un grand nombre de valeurs de . La situation devient intenable si nous avons un grand nombre de variables traiter. Comment exploiter au mieux les informations fournies par la droite de Henry tout en ayant la possibilit de tester un nombre lev de valeurs ? Pour rpondre cette question, il nous faut proposer un critre numrique qui donne des indications sur le caractre linaire de la srie de points du graphique Q-Q plot. Il en existe un, qui n'est pas fait pour a, mais qui rpond trs bien la spcication : le coecient de corrlation linaire de Pearson ! . En eet, le coecient de corrlation r indique l'intensit de la liaison linaire entre deux variables. Plus les points seront aligns dans le graphique quantile-quantile, plus la valeur de r se rapprochera de +1. Dans le cas idal, les points forment une droite, nous aurons r = +1. Bien videmment, nous dvoyons un peu le coecient de corrlation. La valeur de r n'a pas sens dans notre contexte. Il ne faut pas chercher l'interprter. Nous ne souhaitons pas mesurer l'association entre les quantiles thoriques et les quantiles observs. Il s'agit avant tout d'un critre destin caractriser l'alignement des points. Dans notre exemple ci-dessus (Figure 4.1), nous avons r = 0.9272. Est-ce qu'il est possible de produire une variable Y , en utilisant la formule 4.1, de manire augmenter encore cette valeur ?
4.2.3 Box-Cox Normality Plot
La bonne stratgie pour dtecter facilement la valeur adquate du paramtre dans la transformation est donc de balayer un grand nombre de valeurs de , et de surveiller la valeur de r calcule sur la droite de Henry. On choisira la valeur qui maximise r.
2. LOI.NORMALE.STANDARD.INVERSE(.) de EXCEL 3. http://eric.univ-lyon2.fr/~ricco/cours/cours/Analyse_de_Correlation.pdf

40
Pour obtenir une vue synthtique de la simulation, on construit gnralement un graphique " qui met
en relation (en abcisse) et r (en ordonne), il s'agit du Box-Cox Normality Plot #

Application sur notre exemple (Figure 4.1) Nous avons reconstruit notre feuille EXCEL en
rajoutant la colonne Y paramtre par . Nous insrons dans une des cellules la formule du coecient de corrlation linaire calcul sur les couples de points (yi , ui ). A l'aide de l'outil "Table de simulation" d'EXCEL, nous avons produit les sries de valeurs (, r) pour = 2 +2 avec un pas de 0.1. Nous reproduisons le tableau des valeurs et le graphique Box-Cox Normality Plot (Figure 4.2).
Fig. 4.2. Box-Cox Normality Plot
Dans notre exemple, il semble que la bonne valeur soit = 0.1. Elle maximise la corrlation entre quantile thoriques et quantiles observs dans la droite de Henry avec r = 0.99451. Essayons de reporter cela dans notre feuille de calcul pour visualiser le graphique quantile-quantile de la variable transforme
4. Voir http://www.itl.nist.gov/div898/handbook/eda/section3/boxcoxno.htm 5. N.A. : Malgr mes recherches, je n'ai pas russi trouver l'quivalent francophone. Je ne voulais pas me lancer dans un nologisme sorti de nulle part. Si un lecteur statisticien connat l'appellation approprie en franais, j'accueillerai avec beaucoup de plaisir ses indications.

y= x0.1 1 0.1
41
Voici le dtail de la nouvelle feuille de calcul (Figure 4.3) :
Fig. 4.3.
Droite de Henry - Donnes transformes
Les colonnes A D sont identiques la feuille initiale (Figure 4.1). Dans la colonne E, nous insrons la variable Y , paramtre par en cellule E2. A la lumire des valeurs testes prcdemment, nous xons = 0.1 Nous construisons alors le graphique Q-Q plot l'aide des quantiles observes (yi , en abcisse) et des quantiles thoriques (ui , en ordonne) Par rapport aux donnes initiales, les points sont maintenant mieux aligns, assimilable une droite. La distribution de Y se rapproche de la loi normale.
4.2.4 Tester la normalit
Pour valider notre dmarche, utilisons les tests de normalit mis en avant dans le chapitre 2. Nous souhaitons vrier l'ecacit de la transformation en testant la compatibilit de X , puis de Y , avec la
42
distribution normale. Nous verrons ainsi si l'analyse graphique guide par la Droite de Henry produit des rsultats cohrents avec les procdures statistiques.
Fig. 4.4.
Tests de normalit - Donnes avant et aprs transformation
Nous utilisons le logiciel TANAGRA $ . Au niveau de signication 5%, quel que soit le test utilis, il apparat clairement que X n'est pas gaussienne. Aprs la transformation de Box-Cox (quation 4.1) avec
= 0.1, la variable modie Y est compatible avec la loi normale (Figure 4.4). Manifestement, l'opration
a t ralise avec succs. Malgr tout, il reste un bmol. La stratgie mise en oeuvre repose sur le ttonnement. La plage de valeurs tester doit tre dnie judicieusement. Le risque de passer ct de la valeur optimale n'est pas ngligeable. De plus, l'analyse graphique se prte mal un traitement d'un grand nombre de variables. Pour ces raisons, nous prsentons dans la section suivante une dmarche fonde sur un processus d'optimisation que l'on peut automatiser.
4.3 Approche numrique : la maximisation de la vraisemblance

4.3.1 Fonction de densit des variables Y et X
La variable transforme Y est distribue normalement. Elle est paramtre par si on s'en tient la premire formulation (Equation 4.1). On peut s'appuyer sur le principe du maximum de vraisemblance
6. Voir http://tutoriels-data-mining.blogspot.com/2008/04/tests-dadquation-la-loi-normale.html concernant la mise en oeuvre de ces tests dans le logiciel


vraisemblance :
n i=1
43
pour produire la valeur optimale . Pour un chantillon de taille n, nous souhaitons maximiser la
L=
f (yi )
o f (.) est la fonction de densit de la loi normale. En pratique, pour des raisons de commodits numriques, on procde plutt l'optimisation de la log-vraisemblance
n i=1
LL =
ln f (yi )
Y est elle-mme exprime partir de X , il faudrait revenir la fonction de densit g(x). Il existe un
lien entre les fonctions de densits lorsque une des variable est fonction d'une autre. La formule gnrique est la suivante % :
g(x) = f (y) |
o
y x
y | x
(4.3)
= (x) est la drive partielle premire par rapport X de la fonction (x).
Dans le cas de l'quation 4.1, son logarithme s'exprime de manire trs simple :
ln
y = ln (x) = ( 1) ln x x
(4.4)
4.3.2 Expression de la fonction optimiser /
En prenant en compte toutes ces informations, nous pouvons crire la fonction de log-vraisemblance que nous devons optimiser par rapport . Nous utilisons directement les estimateurs usuels en ce qui concerne les autres paramtres (moyenne et cart-type). La log-vraisemblance s'crit
LL =
avec
n 1 ln(2) n ln(s) 2 [(xi ) m]2 + ( 1) ln xi 2 2s i i
(4.5)
1 (xi ) n i 1 s2 = [(xi ) m]2 n1 i m=

La valeur qui maximise la log-vraisemblance produit la transformation souhaite. Y se rapproche au mieux de la distribution normale.
7. Voir par exemple http://rfv.insa-lyon.fr/~jolion/STAT/node32.html. Attention, notre situation est inverse, nous connaissons la distribution de la variable transforme, nous souhaitons revenir la fonction de densit de la variable initiale
44
Remarque 11 (Simplication de LL). Tout ce qui ne dpend pas de peut tre retire de l'expression 4.5.
On peut ainsi omettre le premier terme de la formule.
Remarque 12 (Intervalle de conance de ). Il est possible de produire un intervalle de variation de

pour un niveau de conance (1 ). Le calcul est fond sur le principe du rapport de vraisemblance. L'ide est de dnir la plage de valeurs de o la variable transforme Y est compatible avec la loi normale & .
4.3.3 Application numrique
Nous allons essayer de tirer prot du SOLVEUR d'EXCEL pour obtenir la valeur optimale du paramtre . Mais auparavant, il nous prparer la feuille de calcul, notamment en produisant la logvraisemblance. La cellule de cette dernire doit bien entendu tre dpendante de la cellule de . Dtaillons la feuille EXCEL (Figure ) : En colonne A, nous avons les donnes originelles x. En colonne B, nous avons les donnes transformes y = (x), paramtr par en B2 En B56 et B57, nous avons respectivement m et s A partir de D5, nous produisons les valeurs individuelles de la log-vraisemblance c.--d.
l(xi ) =
1 [yi m]2 + ( 1) ln xi 2s2
Il ne nous reste plus qu' raliser la somme pour obtenir la log-vraisemblance en D2,
LL =
n l(xi ) ln(2) n ln(s) + 2 i
Pour = 1, nous obtenons LL = 442.235 En lanant l'outil SOLVEUR, D2 en cellule cible et B2 en cellule variable, nous obtenons
= 0.06603
avec
LL = 430.878
Nous ne manquons pas de comparer cette valeur avec celle obtenue par ttonnement, nous avions trouv = 0.1. Mais bien entendu le rsultat tait tributaire de la prcision que nous avions dnie lors du processus de recherche. Avec l'approche par maximisation de la vraisemblance, le rsultat est obtenu directement, elle peut tre automatise. Cette caractristique est particulirement intressante ds lors que nous avons traiter un grand nombre de variables.
8. Voir http://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm. A ce sujet, je me suis rendu compte que l'expression de la log-vraisemblance sur ce site semble errone. C'est assez trange. De manire gnrale, NIST fait rfrence. Quoiqu'il en soit, sur l'exemple propos en ligne (Example of Box-Cox scheme ), en utilisant la feuille de calcul que nous prsenterons dans la section suivante, base sur la formule 4.5, nous retrouvons le bon rsultat = 0.276 avec LL = 46.918. En utilisant leur formulation, le processus d'optimisation ne converge pas.
45
Fig. 4.5.
Transformation de Box-Cox - Maximisation de la vraisemblance
Toujours au titre de la comparaison des rsultats, nous avons calcul la corrlation entre les quantiles thoriques et les quantiles observs de la droite de Henry avec la transformation = 0.06603, nous obtenons r = 0.99462, comparer avec la valeur r = 0.9945 obtenue lors de la recherche par ttonnement. Le gain est relativement faible quand mme. L'avantage comparatif ne se situe pas ce niveau l.
Remarque 13 (Optimisation numrique). Obtenir une expression directe de en fonction des xi pour
l'optimisation de la log-vraisemblance serait l'idal. Mais ce n'est pas possible. Nous sommes obligs de nous tourner vers des procdures d'optimisation numrique. La fonction SOLVEUR en est l'illustration parfaite. Elle est capable de produire une solution en lui fournissant uniquement la fonction objectif et les paramtres manipuler. Pour les connaisseurs, le SOLVEUR est bas, dixit la documentation Microsoft,
Page: 45
job: Test_Normalite
macro: svmono.cls
46
sur l'algorithme GRG (Generalized Reduced Gradient ) ' . Pour ma part, j'ai rarement vu un outil aussi souple et able.
Remarque 14 (Calcul des paramtres 1 et 2 pour la fonction de transformation (x)). Concernant la

fonction (x), nous pouvons adopter les deux dmarches ci-dessus : 1. Ttonner en fournissant des plages de valeurs de 1 et 2 tester. Le graphique Normal Probability
Plot rsumant les direntes congurations sera en 3D, mais a n'est en rien rdhibitoire.
2. Optimiser la fonction de vraisemblance en fonction de 1 et 2 . Le processus est exactement le mme, l'information connatre pour crire convenablement la log-vraisemblance est
ln
y = (1 1) ln(x + 2 ) x
9. Voir http://support.microsoft.com/kb/214115/en-us/
A Gestion des versions
Un support de cours n'est jamais g, nous essayons constamment de les enrichir. Dans cette annexe, nous recensons les direntes versions de ce document.
Version 1.0 Premire version mise en ligne, au mois d'Aot 2007. Il comprend les chapitres 1, 2 et 3. Version 2.0 Le chapitre 4 a t intgr au document en Juin 2008.
Page: 47
job: Test_Normalite
macro: svmono.cls
Page: 48
job: Test_Normalite
macro: svmono.cls
B Mise en oeuvre des tests de normalit dans TANAGRA
TANAGRA est un logiciel open source accessible en ligne. Il implmente plusieurs techniques d'exploration de donnes issues de la statistique, de la statistique exploratoire et de la fouille de donnes (Data Mining). Au-del du logiciel, une srie de didacticiels sont disponibles, accompagnes de jeu de donnes. L'ide est de prsenter brivement les enjeux de la mthode, proposer un jeu de donnes test, et montrer la dmarche suivre avec le logiciel. Les tests d'adquation la loi normale sont implments dans le composant NORMALITY TEST situ dans l'onglet STATISTICS. Plusieurs tests sont disponibles : le test de Shapiro-Wilk, de Lilliefors, d'Anderson-Darling et de D'Agostino (Figure B.1). Listons quelques rfrences utiles concernant le test de normalit : http://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html, URL du site ; http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Normality_Test.pdf, didacticiel dtaillant la mise en oeuvre du test de normalit sur un jeu de donnes ; http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/normality_test_simulation.xls, donnes utilises pour le didacticiel.
Page: 49
job: Test_Normalite
macro: svmono.cls
50
B Mise en oeuvre des tests de normalit dans TANAGRA
Fig. B.1.
Copie d'cran du logiciel TANAGRA
Page: 50
job: Test_Normalite
macro: svmono.cls
C Code source et packages R pour les tests de normalit
Le logiciel R (http://www.r-project.org/) est un interprteur de commandes dot d'un vrai langage de programmation, et possdant une bibliothque trs riche de techniques statistiques. Tout un chacun peut programmer une fonction correspondant telle ou telle nouvelle technique. De plus, le principe des packages est un autre dispositif qui permet d'enrichir considrablement le logiciel. Les utilisateurs peuvent produire des bibliothques externes spcialises que l'on peut intgrer facilement. S'agissant des tests d'adquation la loi normale, nous avons tlcharg et install les packages
nortest et fBasics. Tous les tests dcrits dans ce support ont pu tre valus sur notre jeu de donnes.
Listing C.1.
Code source pour R
#v i d e r l a mmoire de t o u s l e s o b j e t s rm( l i s t = l s ( ) ) #m o d i f i e r l e r p e r t o i r e de t r a v a i l e t c h a r g e r l e s donnes setwd ( " . . . " ) data < read . csv ( f i l e ="data_test_normalite . csv ") #c o p i e r l e s donnes dans un v e c t e u r x < data$X #l e t e s t de Shapiro Wilk shapiro . test (x) # c h a r g e r l e package " n o r t e s t " library ( nortest ) #t e s t de L i l l i e f o r s l i l l i e . test (x) #t e s t d ' Anderson D a r l i n g ad . t e s t ( x ) # c h a r g e r l a l i b r a i r i e " f B a s i c s " library ( fBasics ) #t e s t de D' Agostino dagoTest ( x ) #t e s t de Jarque Bera jarqueberaTest (x)
Page: 51
job: Test_Normalite
macro: svmono.cls
52
C Code source et packages R pour les tests de normalit

Listing C.2.
Sorties de R
> s h a p i r o . t e s t ( x ) #l e t e s t de Shapiro Wilk Shapiro Wilk n o r m a l i t y t e s t data : x W = 0 . 9 4 5 6 , pv a l u e = 0 . 1 4 0 8 > library ( nortest ) > l i l l i e . t e s t ( x ) #t e s t de L i l l i e f o r s L i l l i e f o r s ( KolmogorovSmirnov ) n o r m a l i t y t e s t data : x D = 0 . 1 1 7 6 , pv a l u e = 0 . 3 8 5 9 > ad . t e s t ( x ) #t e s t d ' Anderson D a r l i n g Anderson D a r l i n g n o r m a l i t y t e s t data : x A = 0 . 5 8 8 5 , pv a l u e = 0 . 1 1 5 9 > library ( fBasics ) > dagoTest ( x ) #t e s t de D' Agostino Title : D' Agostino Normality Test Test R e s u l t s : STATISTIC : Chi2 | Omnibus : 0 . 3 3 7 2 Z3 | Skewness : 0 . 5 3 4 9 Z4 | K u r t o s i s : 0 . 2 2 5 9 P VALUE: Omnibus Test : 0 . 8 4 4 9 Skewness Test : 0 . 5 9 2 7 K u r t o s i s Test : 0 . 8 2 1 3 > j a r q u e b e r a T e s t ( x ) #t e s t de Jarque Bera Title : Jarque Bera N o r m a l a l i t y Test Test R e s u l t s : STATISTIC : Xsquared : 0 . 2 5 9 9 P VALUE: Asymptotic p Value : 0 . 8 7 8 1
Page: 52
job: Test_Normalite
macro: svmono.cls
Littrature
1. Avazian, S., Enukov, I., Mechalkine, L., 1986. 2. Borcard, D., 4. PROPHET 5. Saporta, G., 6. Sneyers, R.,
Tests de normalit
Elments de modlisation et traitement primaire des donnes
, Mir,
, http://biol10.biol.umontreal.ca/BIO2042/Test_normal.pdf
of Statistical Methods normality
3. NIST/SEMATECH e-Handbook StatGuide
, http://www.itl.nist.gov/div898/handbook/
results
Examining
test
http://www.basic.northwestern.edu/
statguidefiles/n-dist_exam_res.html
Probabilits, Analyse des donnes et Statistique Sur les tests de normalit
, Technip, 2me dition, 2006.
, in Revue de Statistique Applique, Tome 22, n.22, 1974, http:// archive.numdam.org/ARCHIVE/RSA/RSA_1974__22_2/RSA_1974__22_2_29_0/RSA_1974__22_2_29_0.pdf.

Testing for Normality
7. Thode Jr., H.C.,
, Marcel Dekker, New York, 2002.
Page: 53
job: Test_Normalite
macro: svmono.cls

Test Normalite

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Test Normalite

Transféré par

Droits d'auteur :

Formats disponibles

Ricco Rakotomalala

Techniques empiriques et tests statistiques

Universit Lumire Lyon 2

gov/div898/handbook/, notamment la section 1.3.5 Quantitative Techniques  Distributional Measures (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35.htm).

Table des matires

Partie I Conformit la loi normale 1 Techniques empiriques et mthodes graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Conformit la loi normale

x(1) = xmin , x(2) est la 2-me plus petite valeur, etc.

1. Le chier de donnes est accessible sur le Web, http://eric.univ-lyon2.fr/~ricco/cours/supports_

1 Techniques empiriques et mthodes graphiques

1.1 Histogramme de frquence

1 Techniques empiriques et mthodes graphiques

On utilise l'estimateur non biais de l'cart-type :

1 (xi x)2 = 0.2290 n1 i

1.2 Bote moustache

1.3 Coecient d'asymtrie et d'aplatissement

Donnes sans le point extrme

1.3 Coecient d'asymtrie et d'aplatissement

1 Techniques empiriques et mthodes graphiques

Statistiques descriptives sans le point extrme

Pour le coecient d'asymtrie 1 , appel skewness en anglais, nous utilisons ! :

Pour le coecient d'aplatissement 2 , appel kurtosis en anglais, nous utilisons " :

n(n + 1) G2 = (n 1)(n 2)(n 3) i

3(n 1)2 = 0.0053 (n 2)(n 3)

1.4 Autres indicateurs

1.5 Q-Q Plot et Droite de Henry

1.5 Q-Q Plot et Droite de Henry

1 Techniques empiriques et mthodes graphiques

Tableau de calcul du q-q plot

droite de Henry, aligns sur la diagonale principale.

Q-Q plot pour notre jeu de donnes de 29 observations

5. http://www.itl.nist.gov/div898/handbook/eda/section3/qqplot.htm 6. =LOI.NORMALE.STANDARD.INVERSE(...) dans le tableur EXCEL

1.5 Q-Q Plot et Droite de Henry

Exemple de papier gausso-arithmtique

7. Des exemples de papier gausso-arithmtique : http://nte-serveur.univ-lyon1.fr/nte/immediato/

1 Techniques empiriques et mthodes graphiques

Q-Q plot, valeurs standardises en ordonnes

Tests de normalit avec le logiciel TANAGRA

2.1 Test de Shapiro-Wilk

( )]2 ai x(ni+1) x(i) i=1 2 i (xi x)

R.C. : W < Wcrit

1. http://www.educnet.education.fr/rnchimie/math/benichou/tests/normalite/normalite.htm 2. http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/coef.htm ou http://

2.1 Test de Shapiro-Wilk

Test de Shapiro-Wilk avec un tableur

2.2 Test de Lilliefors

Valeur critique Dcrit 0.10 0.05 0.01

2.2 Test de Lilliefors

R.C. : D > Dcrit

13. =LOI.NORMALE.STANDARD(...) sous EXCEL 14. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm

Test de Lilliefors avec un tableur

2.3 Test de Anderson-Darling

1 (2i 1) [ln(Fi ) + ln(1 Fni+1 )] n i=1

2.3 Test de Anderson-Darling

Acrit 0.10 0.631 0.05 0.752 0.01 1.035

R.C. : A > Acrit

Test de Anderson-Darling avec un tableur

Am Am < 0.2 0.34 Am < 0.6 0.66 Am 1e

0.2 Am < 0.34 1 e8.318+42.796Am 59.938(Am ) e0.91774.279Am 1.38(Am )

17. =LOI.NORMALE.STANDARD(...) sous EXCEL 18. http://www.biostat.wustl.edu/archives/html/s-news/2005-04/msg00065.html

2.4 Test de D'Agostino

2.4 Test de D'Agostino

Par rapport au test de Shapiro-Wilk, il serait de surcrot peu

Transformation du coecient d'asymtrie

gov/div898/handbook/, notamment la section 1.3.5 Quantitative Techniques Distributional Measures (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35.htm).

1. Le chier de donnes est accessible sur le Web, http://eric.univ-lyon2.fr/~ricco/cours/supports_

1.3 Coecient d'asymtrie et d'aplatissement

1.3 Coecient d'asymtrie et d'aplatissement

Pour le coecient d'asymtrie 1 , appel skewness en anglais, nous utilisons ! :

Pour le coecient d'aplatissement 2 , appel kurtosis en anglais, nous utilisons " :

Transformation du coecient d'asymtrie

Transformation du coecient d'aplatissement

est galement fond sur les coecients d'asymtrie et d'apla-

3.1 Test de symtrie bas sur le coecient d'asymtrie

Test de symtrie bas sur le coecient d'asymtrie

suit asymptotiquement une loi normale N (0, 1). La dnition

La seconde, plus gnrale, mais plus dicile apprhender, propose 2 paramtres 1 et 2 :