Académique Documents
Professionnel Documents
Culture Documents
Tests de normalit
Version 2.0
Page: 2
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Avant-propos
Ce support dcrit les techniques statistiques destines examiner la compatibilit d'une distribution empirique avec la loi normale. On parle galement de test d'adquation la loi normale. Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la statistique infrentielle, en particulier la thorie des tests, consulter les ouvrages numrs dans la bibliographie. Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents en ligne sont le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail ; une disponibilit plus ou moins alatoire, au gr des migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier ; les informations sont disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique trs structurante. Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles pour les enseignements. La gratuit n'est pas le moindre de leurs atouts. Concernant ce document, rendons Csar ce qui est Csar, il a t en grande partie inspir du manuel Engineering Statistics Handbook du NIST, disponible en ligne http://www.itl.nist.
Page: 3
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Page: 4
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
5 5 6 7 9 9 13 14 16 18 21 24 26 29 29 31 35 36
1.1 Histogramme de frquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Bote moustache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Coecient d'asymtrie et d'aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Q-Q Plot et Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Test de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Test de Anderson-Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Test de D'Agostino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Conclusion sur les tests de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Tests de symtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Test de symtrie bas sur le coecient d'asymtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Test de symtrie - Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Test de symtrie - Test de Van der Waerden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Conclusion sur les tests de symtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 5
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
6
4
37 37 38 38 39 39 41 42 42 43 44 47 49 51 53
4.1 Fonctions de transformation de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Approche graphique : utiliser la Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 La droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Exploiter la droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Box-Cox Normality Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Tester la normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Approche numrique : la maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Fonction de densit des variables Y et X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Expression de la fonction optimiser / . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Application numrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A B C Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mise en oeuvre des tests de normalit dans TANAGRA . . . . . . . . . . . . . . . . . . . . . . . . . . Code source et packages R pour les tests de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 6
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Partie I
Page: 1
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Page: 2
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
3
Test d'adquation
Un test d'adquation permet de statuer sur la compatibilit d'une distribution observe avec une distribution thorique associe une loi de probabilit. Il s'agit de modlisation. Nous rsumons une information brute, une srie d'observations, l'aide d'une fonction analytique paramtre. L'estimation des valeurs des paramtres est souvent un pralable au test de conformit. Au del de la simplication, ce test permet de valider une apprhension du processus de formation des donnes, il permet de savoir si notre perception du rel est compatible avec ce que nous observons. Prenons l'exemple simple du jeu de d. A priori, nous savons que chacune des faces du d a la mme probabilit d'apparatre, tout naturellement nous pensons une modlisation avec une loi multinomiale. Si, coinc par un margoulin dans une arrire salle d'un infme bouge, vous constatez qu'aprs un bon nombre de jets, certaines valeurs ont tendance sortir plus souvent que d'autres, il faut peut tre se poser la question de la loyaut du jeu : les observations ne sont plus compatibles avec la loi thorique qui devrait gnrer les donnes. Parmi les tests d'adquation, la conformit la loi normale (loi gaussienne, loi de Laplace-Gauss) revt une importance supplmentaire. En eet, l'hypothse de normalit des distributions sous-tend souvent de nombreux tests paramtriques (ex. comparaison de moyennes, rsidus de la rgression, etc.). En toute rigueur, s'assurer au pralable la compatibilit des distributions avec l'hypothse de normalit avant de procder au test statistique proprement dit devrait tre incontournable, surtout pour les petits eectifs. Fort heureusement, ce n'est pas une contrainte forte en pratique. En eet, grce la notion de robustesse, un test peut s'appliquer mme si l'on s'carte lgrement des conditions d'applications initiales. Dans ce point de vue, nous pouvons ds lors nous contenter de techniques simples (ex. statistique descriptives, techniques graphiques) pour vrier si la distribution des donnes est rellement inconciliable avec la distribution normale (ex. asymtrie forte, distribution avec plusieurs modes, etc.). Dans ce support, nous prsenterons dans un premier temps les techniques descriptives, notamment le trs populaire graphique Q-Q plot. Dans un second temps, nous dtaillerons plusieurs tests statistiques reconnus et implments dans la plupart des logiciels de statistique. Et enn, dans un troisime temps, nous tudierons les tests de symtrie des distributions qui, certains gards, peuvent tre considrs comme des cas particuliers des tests de normalit.
Notations
Pour une population donne, nous voulons tudier la conformit de la distribution d'une v.a. continue X avec la loi normale. Nous disposons pour cela de n observations xi . Pour certaines techniques, nous pouvons tre amens trier les donnes. Nous obtenons une srie trie de manire ascendante que nous noterons x(i) : x(1) correspond la plus petite valeur observe c.--d.
Page: 3
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
4
Donnes
Dans ce support, nous utiliserons un chier recensant le logarithme de l'indice de masse corporelle (IMC, Body Mass Index en anglais) de 30 personnes (Figure 0.1). Nous pouvons considrer qu'il s'agit d'un petit eectif, inappropri pour certains tests (ex. Jarque-Bera), mais adquat pour des vises pdagogiques : le lecteur doit pouvoir facilement reproduire les calculs .
Fig. 0.1.
Donnes initiales
Nous utiliserons principalement le tableur EXCEL dans ce support, mais plusieurs reprises nous ferons appel des logiciels gratuits tels que TANAGRA et R, et des logiciels commerciaux tels que SPSS et STATISTICA.
L'apprhension d'un jeu de donnes passe systmatiquement par les statistiques descriptives. Elles donnent une image globale. Bien souvent, elles permettent de se faire une ide sur les techniques que l'on pourrait utiliser et les dangers ou artefacts dont il faudra se mer. Bien avant les techniques complexes et les ratios savants, quelques indicateurs usuels et des graphiques judicieusement choisis sont le bienvenu. Ces outils sont disponibles dans tous les outils de traitement exploratoire des donnes.
log2 (n).
Fig. 1.1.
Statistiques descriptives
Page: 5
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
il y a trop peu d'observations dans chaque intervalle. On peut essayer de descendre k = log2 (30) 5 (Figure 1.2), mais dnitivement il y a trop peu d'observations pour se donner une ide prcise dans cet exemple.
Fig. 1.2.
Histogramme de frquences
Certains logiciels procdent automatiquement l'estimation des deux principaux paramtres de la loi normale ( la moyenne, l'cart-type) et tracent la fonction de densit correspondante pour apprcier le rapprochement entre la distribution empirique (histogramme) et la distribution thorique (Figure 1.2). La moyenne est estime l'aide de la moyenne empirique :
x=
1 xi = 3.4362 n i
(1.1)
s=
(1.2)
1. http://fr.wikipedia.org/wiki/Bote__moustaches et http://www.sfds.asso.fr/groupes/statvotre/
Boite-a-moustaches.pdf
Page: 6 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
Fig. 1.3.
Bote moustaches
Remarque 1 (Dtection et inuence des points atypiques). Les extrmits des moustaches sont dlimits
par 1.5 fois l'intervalle inter-quartile (Q3 Q1 ). Cela permet de dceler l'existence d'un point extrme . Il s'agit de l'observation correspondant xmax = 4.084, elle est largement plus leve que les autres valeurs. Ce point est mis en vidence dans la bote moustaches (Figure 1.3). Cette rgle de dtection est plus able que la fameuse rgle des 3-sigma qui consiste isoler les points en-de ou au-del de 3-fois l'cart-type autour de la moyenne. En eet, elle ne repose pas sur une hypothtique symtrie de la distribution, elle utilise galement des paramtres de localisation (les quartiles) qui, la dirence de la moyenne empirique, sont peu inuencs par les points extrmes.
Fig. 1.4.
Dans notre chier, il est patent que la valeur 4.084 est largement plus leve que les autres. Or tous les indicateurs et tests que nous mettrons en oeuvre reposent, au moins en partie, sur la moyenne empirique (x). Il parat plus judicieux de supprimer cette observation. Dsormais, le chier utilis dans les traitements comptera n = 29 observations (Figure 1.4), nous recalculons ds lors les statistiques descriptives (Figure 1.5).
2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
Page: 7 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
Fig. 1.5.
G1 =
n (n 1)(n 2) i
xi x s
)3 = 0.2197
(1.3)
xi x s
)4
(1.4)
Si ces indicateurs sont susamment proches de la valeur 0, l'hypothse de compatibilit avec la loi normale ne peut tre rejete. Tout le problme est de quantier ce degr de proximit. Il faudrait connatre la loi de probabilit de ces indicateurs pour mettre en place un test statistique permettant de dterminer si l'cart est signicatif ou non ; ou tout du moins, calculer les cart-type (cf. les valeurs entre parenthses fournies par le logiciel TANAGRA, gure 1.5) et utiliser les distributions asymptotiques pour raliser le test. Nous dtaillerons ces procdures plus loin. A ce stade, les coecients d'asymtrie et d'aplatissement sont uniquement calculs titre indicatif. Nous constatons nanmoins, sans trop s'avancer quant aux rsultats des tests, qu'elles s'loignent peu des valeurs de rfrence. L'adquation la loi normale parat plausible.
Remarque 2 (Calculs avec le point atypique). Par curiosit, nous reprenons ces mmes indicateurs en
incluant le point extrme (Figure 1.1), nous constatons qu'elles prennent des valeurs sensiblement direntes, G1 = 0.7476 et G2 = 1.1296, conrmant, si besoin est, qu'un individu s'cartant signicativement de la population peut fausser les rsultats.
3. http://en.wikipedia.org/wiki/Skewness 4. http://en.wikipedia.org/wiki/Kurtosis
Page: 8 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
D'autres indicateurs peuvent tre mis prot pour apprcier rapidement l'cart la loi normale. Par exemple, la distribution tant symtrique, l'cart entre la mdiane (M ) et la moyenne empirique (x) ne devrait pas tre trs lev. Dans notre jeu de donnes, la mdiane est gale 3.4400 et la moyenne 3.4138 (Figure 1.5). Ce dispositif est toutefois trs grossier : l'importance de l'cart dpend de la dispersion des donnes, il permet uniquement d'apprcier la symtrie de la distribution.
D=
1 |xi x| n i
(1.5)
Autre caractristique d'une gaussienne, le rapport entre l'cart absolu moyen (MAD - mean absolute 2 deviation en anglais, quation 1.5) et l'cart-type est asymptotiquement gal 0.7979. Dans notre chier de donnes, il est de 0.7811 (Figure 1.5). Ici galement, il parat dicile de rejeter d'emble l'adquation la loi normale. Ce dispositif peut tre to et aboutir un test statistique fond sur le ratio cart absolu moyen - cart-type (Avazian et al., page 301). Des tables sont disponibles pour dnir les rgions critiques associs aux dirents niveaux de risque. Mais il faut reconnatre que cette procdure est trs rarement rfrence. Pour ma part, je ne l'ai jamais vue implmente dans un logiciel.
(Saporta, page
Page: 9
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
10
Fig. 1.6.
Si les donnes sont compatibles avec la loi normale, les points (x(i) , x(i) ) forment une droite, dite
Fig. 1.7.
11
i n
dans les calculs. Il s'agit en eet de "lisser" la fonction de rpartition en prenant, non pas la valeur brute, mais la valeur espre en rfrence la loi de rpartition, la loi normale dans notre cas. Voir
http://www.uic.edu/classes/idsc/ids577/nscores.htm ; Blom's Normal Score - http://www.vni. com/products/imsl/jmsl/v30/api/com/imsl/stat/Ranks.html ; quelques scores usuels pour les tests bass sur les rangs (Wilcoxon, Van der Waerden, Savage, Siegel-Tukey, Klotz, etc.) - http://v8doc. i+a sas.com/sashtml/stat/chap47/sect17.htm. Plus gnralement, la formule idoine est Fi = n+1+2a , 3 a = 8 = 0.375 est une possibilit pour la loi normale, mais d'autres variantes existent http://en. wikipedia.org/wiki/Qq_plot.
Remarque 4 (Variantes de la droite de Henry). D'autres modes de reprsentation de la droite de Henry
sont couramment utiliss dans la littrature. Nous pouvons laisser les points z(i) en ordonne du graphique. L'intrt est qu'il est possible de dterminer graphiquement les paramtres de localisation et d'chelle de la distribution empirique (par exemple, la droite coupe l'axe des abcisses une coordonne qui permet d'estimer )(Figure 1.9). Autre reprsentation trs populaire, nous utilisons directement en ordonne les valeurs de Fi en utilisant un repre spcique dit repre gausso-arithmtique. L'astuce est de disposer, non pas rgulirement les valeurs de la frquence cumule en ordonne, mais selon une chelle qui permet d'obtenir une droite si la distribution tait gaussienne % (Figure 1.8).
Fig. 1.8.
Remarque 5 (De l'utilisation du papier gausso-arithmtique). Ce type de papier trs spcique, vendu
nagure dans les librairies, tait pratique car il vitait au statisticien d'avoir calculer partir des tables
12
statistiques les valeurs successives de z(i) partir des frquences Fi . Il n'a plus vraiment d'utilit de nos jours, un tableur fournit trs facilement ces valeurs.
Fig. 1.9.
Page: 12
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
2 Tests statistiques
Trs commodes, les approches empiriques n'ont pas la rigueur des techniques statistiques. Dans ce chapitre, nous prsentons les tests de compatibilit la loi normale. Encore une fois, il s'agit bien de vrier l'adquation (la compatibilit) la loi normale et non pas dterminer la loi de distribution. Mis part le test de Shapiro-Wilk, tous les tests prsents dans ce chapitre sont, soit des variantes plus puissantes du test de Kolmogorov-Smirnov, soit bass sur les coecients d'asymtrie et d'aplatissement. La majorit de ces techniques sont prsents dans les logiciels. Nous reprenons notamment les rsultats de TANAGRA (Figure 2.1). Pour des raisons pdagogiques, nous reproduisons tous les calculs dans un tableur an que le lecteur puisse accder aux dtail des mthodes. A tout test est associ un risque dit de premire espce, il s'agit de la probabilit de rejeter l'hypothse de normalit alors qu'elle est vraie. Plus nous diminuons sa valeur, plus notre propension accepter l'adquation une gaussienne est leve. Dans tous nos exemples, nous adopterons le risque = 5%.
Fig. 2.1.
Toutes les techniques que nous prsentons dans ce chapitre sont, et ne sont que, des techniques numriques. Les rsultats, rejet ou acceptation de la normalit, peuvent masquer des situations trs disparates. De plus, ces tests sont trs inuencs par la taille de l'chantillon. La compatibilit avec la loi normale est bien (trop) souvent la rgle sur des petits eectifs ; en revanche, l'incompatibilit avec la loi normale est quasi-systmatiquement dcide sur de gros eectifs, mme si les carts de distributions sont faibles. De fait, les approches empiriques, notamment graphiques, gardent toute leur importance.
Page: 13
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
14
2 Tests statistiques
Trs populaire, le test de Shapiro-Wilk est bas sur la statistique W . En comparaison des autres tests, il est particulirement puissant pour les petits eectifs (n 50). La statistique du test s'crit :
[ n [2] W =
o
(2.1)
x(i) correspond la srie des donnes tries ; [ n ] est la partie entire du rapport 2
n 2
ai sont des constantes gnres partir de la moyenne et de la matrice de variance co-variance des quantiles d'un chantillon de taille n suivant la loi normale. Ces constantes sont fournies dans des tables spciques La statistique W peut donc tre interprte comme le coecient de dtermination (le carr du coecient de corrlation) entre la srie des quantiles gnres partir de la loi normale et les quantiles empiriques obtenues partir des donnes. Plus W est lev, plus la compatibilit avec la loi normale est crdible. La rgion critique, rejet de la normalit, s'crit :
Les calculs s'agencent de la manire suivante (Figure 2.2) : 1. trier les donnes xi , nous obtenons la srie x(i) ; ( ) 2. calculer les carts x(ni+1) x(i) ; 3. lire dans la table pour n = 29, les valeurs des coecients ai ; 4. former le numrateur de W , nW = 1.0231 ; 5. former le dnominateur de W , dW = 1.0847 ; 6. en dduire W =
1.0240 1.0856
= 0.9432 ;
7. pour une risque = 0.05, le seuil critique lue dans la table pour n = 29 est Wcrit = 0.926. Dans notre exemple, W > Wcrit , au risque de 5%, l'hypothse de normalit est compatible avec nos donnes.
15
Fig. 2.2.
Implmentations et logiciels
Comme nous pouvons le constater, les calculs sont assez complexes et reposent sur des valeurs tabules avec une certaine prcision. Il importe de vrier les direntes variantes implmentes dans les logiciels.
Petits eectifs
Pour les petits eectifs (n 50), SPSS procde au calcul exact et propose la valeur W = 0.9438. Il n'est pas oprant en revanche ds que n > 50. Ce rsultat est trs proche de ce que nous obtenons avec le tableur. A la dirence que les coecients ai doivent tre vraisemblablement plus prcis dans SPSS.
Eectifs intermdiaires
Pour les eectifs de taille modre, un autre algorithme prend le relais. Le programme de rfrence a t publie dans la revue Applied Statistics Journal " , le code source FORTRAN est accessible en ligne # . Il donne des rsultats prcis jusqu' n 5000. Il produit aussi la probabilit critique (p-value ) du test. Il est implment dans le logiciel DATAPLOT du NIST $ . Nous ne l'avons pas test. En revanche, l'implmentation dans le logiciel R a t value (fonction shapiro.test(...) % ). Nous obtenons la valeur
W = 0.9456, avec une p-value = 0.1408. L'hypothse de normalit ne peut tre rejete.
4. 5. 6. 7.
Algorithm AS R94 (SWILK sub routine) from the Applied Statistics Journal, 1995, Vol. 44, No. 4. http ://lib.stat.cmu.edu/apstat/R94 Voir le prototype de la fonction http://sekhon.berkeley.edu/stats/html/shapiro.test.html
job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/wilkshap.htm
Page: 15
16
2 Tests statistiques
Le code source en FORTRAN a t port en DELPHI dans le logiciel TANAGRA, nous obtenons
exactement les mmes rsultats (Figure 2.1). STATISTICA, dixit le chier d'aide, s'appuie sur une extension de l'algorithme de Royston (1982) & . Il y a de fortes chances qu'il s'agit d'une version fort similaire celle du mme auteur en 1995 (DATAPLOT). Nous obtenons galement des valeurs identiques.
Le test de Lilliefors ' est une variante du test de Kolmogorov-Smirnov o les paramtres de la loi ( et ) sont estimes partir des donnes. La statistique du test est calcule de la mme manire. Mais sa loi est tabule diremment, les valeurs critiques sont modies pour un mme risque . Elles ont t obtenues par simulation. Les avis sont partags quant la puissance de ce test. Il semble qu'il soit sensible au dsaccord de la distribution empirique avec la loi thorique aux alentours de la partie centrale de la distribution, l o justement les carts ont peu d'eets sur les tests paramtriques. Il est moins performant en revanche lorsque le dsaccord porte sur les queues de distribution, pourtant prjudiciables. Certains le dconseillent et prfrent le test de Shapiro-Wilk ou les tests bass sur les coecients d'asymtrie et d'aplatissement . La statistique du test d'crit :
( D = max
i=1,...,n
i1 i Fi , Fi n n
)
(2.2)
o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise z(i) =
x(i) x . s
La table des valeurs critiques Dcrit pour les petites valeurs de n et direntes valeurs de doivent tre utilises . Lorsque les eectifs sont levs, typiquement n 30, il est possible d'approcher la valeur critique l'aide de formules simples :
8. Patrick Royston (1982) Algorithm AS 181 : The W Test for Normality. Applied Statistics, 31, 176180. 9. Lilliefors, H. (June 1967), "On the Kolmogorov-Smirnov test for normality with mean and variance unknown", Journal of the American Statistical Association, Vol. 62. pp. 399-402. 10. http://en.wikipedia.org/wiki/Lilliefors_test 11. http://courses.wcupa.edu/rbove/eco252/252KStest.doc
Page: 16 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
17
Remarque 6 (Calcul de la p-value). Abdi et Molin (2007) fournissent des approximations plus prcises .
Surtout, ils proposent une formule, assez complexe il faut le reconnatre, pour obtenir la probabilit critique (p-value ) du test. Cela simplie beaucoup la procdure, il sut de comparer cette p-value avec le risque que l'on s'est choisi. Nanmoins, je ne connais pas l'heure actuelle de logiciel qui ait intgr cette formule.
Calculs
Le test se construit comme le test de Kolmogorov-Smirnov, la dirence que les paramtres de la loi sont estims et que les valeurs critiques modis (Figure 2.3) : 1. les donnes sont tries pour former la srie x(i) ; 2. nous estimons les paramtres, x = 3.4138 et s = 0.1968 ; 3. nous calculons alors les donnes centres et rduites z(i) = thoriques Fi ; 5. que nous opposons aux frquences empiriques pour obtenir la statistique D du test " , en calculant ( ) (i ) tour tour D = maxi=1,...,n Fi i1 = 0.1096, puis D+ = maxi=1,...,n n Fi = 0.1176, et n enn D = max (D , D+ ) = 0.1176 ; 6. nous comparons au seuil critique Dcrit = 0.161 lue dans la table 5%. Dans notre exemple, D < Dcrit , les donnes sont compatibles avec l'hypothse de normalit.
x(i) x s
4. nous utilisons la fonction de rpartition de la normale centre et rduite ! pour obtenir les frquences
Implmentations et logiciels
Les calculs tant relativement simples, ils ne dirent gure d'un logiciel l'autre. Nous obtenons les mmes rsultats que sous un tableur. Ce n'est gure tonnant. La seule dirence pourrait rsider dans le calcul de la loi de rpartition F (z). Mais il y a un consensus maintenant au niveau de l'implmentation de la loi normale. Les bibliothques utilises sont trs similaires, voire identiques, les rsultats sont forcment les mmes.
12. Herv Abdi et Paul Molin, Lilliefors/Van Soet's test of normality, In : Neil Salkind (Ed.) (2007), Encyclopedia of Measurement and Statistics ; accessible en ligne http://www.utdallas.edu/~herve/
Abdi-Lillie2007-pretty.pdf
Page: 17
18
2 Tests statistiques
Fig. 2.3.
Le test de Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, la dirence qu'elle donne plus d'importance aux queues de distribution # . De ce point de vue, elle est plus indique dans la phase d'valuation des donnes prcdant la mise en oeuvre d'un test paramtrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors. Autre particularit, ses valeurs critiques sont tabules diremment selon la loi thorique de rfrence, un coecient multiplicatif correctif dpendant de la taille d'chantillon n peut tre aussi introduit. Concernant l'adquation la loi normale, la statistique du test s'crit :
A = n
(2.3)
o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise z(i) =
x(i) x . s
Une correction est recommande pour les petits eectifs $ , cette statistique corrige est galement utilise pour calculer la p-value :
15. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35e.htm 16. "Petits" tant assez vague, certains logiciels tel que STATISTICA ne valident l'utilisation du test d'AndersonDarling uniquement pour 10 n 40 ; la librairie intgre dans R n'autorise pas le calcul lorsque n < 8
Page: 18 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
( ) 0.75 2.25 Am = A 1 + + 2 n n
19
(2.4)
Les valeurs critiques Acrit pour dirents niveaux de risques sont rsumes dans le tableau suivant, ils ont t produits par simulation et ne dpendent pas de l'eectif de l'chantillon :
Calculs
Fig. 2.4.
La mise en place du test passe par les tapes suivantes (Figure ) : 1. les donnes sont tries pour former la srie x(i) ; 2. nous estimons les paramtres, x = 3.4138 et s = 0.1968 ; 3. nous calculons alors les donnes centres et rduites z(i) =
x(i) x s
Page: 19
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
20
2 Tests statistiques
thoriques Fi ;
4. nous utilisons la fonction de rpartition de la normale centre et rduite % pour obtenir les frquences 5. nous calculons la colonne ln(Fi ) ; 6. de la mme manire, nous formons Fni+1 puis en dduisons ln(1 Fni+1 ) ; n 7. nous calculons alors la somme S = i=1 (2i 1) [ln(Fi ) + ln(1 Fni+1 )] = 858.0675 ;
1 8. la statistique A = n n S = 0.5885 ;
9. que nous comparons au seuil critique 0.752 5%. Dans notre exemple, A < Acrit , l'hypothse de normalit est compatible avec nos donnes.
Implmentations et logiciels
Logiciels
Les calculs tant relativement simples, ils ne varient gure d'un logiciel l'autre. Dans notre exemple, TANAGRA et R fournissent la mme valeur A = 0.5885. La dirence est dans le calcul de la p-value. TANAGRA se contente de spcier une plage de p-value en comparant la statistique aux seuils critiques relatifs aux dirents niveaux de risque. Dans le cas prsent, il indique p-value > 0.10 (Figure 2.1).
Calcul de la p-value
La p-value est calcule partir de la statistique Am par interpolation partir d'une table dcrite dans Stephens, M.A. (1986), Tests based on EDF statistics. In : D'Agostino, R.B. and Stephens, M.A., eds. : Goodness-of-Fit Techniques. Marcel Dekker, New York. Nous donnons ici la rgle de calcul implmente dans le package nortest du logiciel R & : 1. calculer la statistique transforme Am = 0.6053 ; 2. utiliser la rgle suivante pour en dduire la p-value
p-value
13.436+101.14Am 223.73(Am )2
2
e1.29375.709Am +0.0186(Am )
3. nous obtenons ainsi p-value = 0.1159, cohrent avec le rsultat indiqu par TANAGRA.
21
Le test de D'Agostino ' , connu galement sous l'appellation test K2 (K-squared) de D'Agostino-
Pearson, est bas sur les coecients d'asymtrie et d'aplatissement. Lorsque ces deux indicateurs dirent simultanment de la valeur de rfrence 0, on conclut que la distribution empirique n'est pas compatible
avec la loi normale. L'enjeu est de construire une combinaison ecace de ces indicateurs. L'ide est trs simple comprendre, sa puissance est considre comme trs bonne au point que son auteur prconise de le substituer aux tests bass sur la statistique de Kolmogorov-Smirnov. Le test de D'Agostino prsenterait une puissance similaire celle de Shapiro-Wilk mesure que les eectifs augmentent. Il devient particulirement ecace partir de n 20, on le prfre alors aux tests bass sur la statistique de Kolmogorov-Smirnov
.
sensible l'existence des ex-aequo dans l'chantillon. Le reproche usuellement adress au test de D'Agostino est qu'il ne permet pas directement de comprendre la nature de la dviation de la loi normale en cas de rejet de l'hypothse nulle. Il faut complter l'analyse avec l'tude individuelle des coecients, ou en mettant en oeuvre les techniques descriptives dcrites prcdemment. Si l'ide est simple, les formules sont relativement complexes. Il faut procder par tapes. Le l directeur est de centrer et rduire les deux coecients (asymtrie et aplatissement) de manire obtenir des valeurs z1 et z2 distribues asymptotiquement selon une loi normale N (0, 1). La transformation intgre des corrections supplmentaires de manire rendre l'approximation normale plus ecace.
19. http://en.wikipedia.org/wiki/D'Agostino's_K-squared_test, j'ai nanmoins quelques doutes sur les formules fournies en ligne. 20. Voir Zar J.H. (1996) - Biostatistical Analysis - Prentice Hall International Editions. ; une description est disponible en ligne http://calamar.univ-ag.fr/uag/staps/cours/stat/stat.htm 21. Voir implmentation MATLAB tire de Trujillo-Ortiz, A. and R. Hernandez-Walls. (2003). DagosPtest : D'Agostino-Pearson's K2 test for assessing normality of data using skewness and kurtosis. A MATLAB le.,
http://www.mathworks.com/matlabcentral/files/3954/DagosPtest.m
Page: 21 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
22
2 Tests statistiques
i=1 (xi x) g1 = ( )3/2 n 2 1 (xi x) i=1 n (n + 1)(n + 3) A = g1 6(n 2)
1 n
B= C D E F
( ) z1 = E ln F + F 2 + 1
xi x s
)4
24n(n 2)(n 3) (n + 1)2 (n + 3)(n + 5) (n 2)(n 3)g2 = (n + 1)(n 1) G 6(n2 5n + 2) 6(n + 3)(n + 5) = (n + 7)(n + 9) n(n 2)(n 3) [ ] 8 2 4 = 6+ + 1+ 2 J J J 2 1 K = 2 1 + H K4 (1
2 9K )
z2 =
L3
2 9K
z1 et z2 suivent tous deux asymptotiquement une loi normale N (0, 1). La statistique du test est la
combinaison
2 2 K2 = z1 + z2
(2.5)
Elle suit asymptotiquement une loi du 2 2 degrs de liberts. L'incompatibilit de la distribution value avec la loi normale est d'autant plus marque que la statistique K2 prend une valeur leve. Pour un risque , la rgion critique du test s'crit :
Page: 22 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
23
Calculs
Pour notre ensemble de donnes, les calculs s'articulent comme suit (Figure 2.5) :
Fig. 2.5.
1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 , d3 et d4 ; 4. calculer successivement les valeurs numres ci-dessus pour aboutir z1 = 0.5349 et z2 = 0.2259 ; 5. nous formons la statistique K2 = 0.53492 + 0.22592 = 0.3372 ; 6. nous pouvons galement calculer la p-value l'aide de la fonction de rpartition p-value = 0.8449. Dans notre exemple, la statistique K2 est largement infrieure 2 (2) = 5.99, la distribution 0.95 observe est compatible avec une distribution thorique normale. du 2 , et obtenir
24
2 Tests statistiques
Implmentations et logiciels
La procdure se rsume des calculs arithmtiques simples que l'on peut facilement implmenter. En revanche la complexit des formules incite la prudence, des coquilles peuvent facilement s'immiscer. On peut se poser des questions quant la abilit des sources proposes en ligne. Nous avons test les donnes sur TANAGRA et R [package fBasic, fonction dagoTest(...)]. Nous avons obtenu des rsultats concordants. Mme si a n'a pas valeur de preuve, c'est quand mme un signe positif. Nous retrouvons exactement les valeurs calcules dans le tableur.
tissement. Il value les carts simultans de ces coecients avec les valeurs de rfrence de la loi normale. La formulation est trs simple par rapport au test de D'Agostino, le prix est une puissance moindre. Il ne devient rellement intressant que lorsque les eectifs sont levs. Prenons les coecients d'asymtrie et d'aplatissement de Pearson (1 = normale. On propose les estimateurs
3 3
et 2 =
4 4 ),
la seule
dirence avec ceux de Fisher est que le second coecient n'est pas normalis, c.--d. 2 = 3, pour la loi
(2.6) (2.7)
"
b1 b2
[( ) ( )] 0 6 0 N , 3 0 24
(2.8)
La matrice de variance covariance prsente ici est une expression simplie valable pour les grandes valeurs de n. Il est possible de produire des expressions plus prcises, aches par les logiciels de statistique. Nous notons galement que la covariance de b1 et b2 est nulle. La forme quadratique associe permet de produire la statistique de Jarque-Bera T qui s'crit :
( T =n
b2 (b2 3)2 1 + 6 24
25
(2.9)
Elle est distribue asymptotiquement selon une loi du 2 2 degrs de libert, tout comme la statistique de D'Agostino vue prcdemment. La statistique T prend des valeurs d'autant plus leves que l'cart entre la distribution empirique et la loi normale est manifeste. La rgion critique pour un risque du test est dnie par
Calculs
Pour notre ensemble de donnes, les calculs s'articulent comme suit (Figure 2.6) :
Fig. 2.6.
26
2 Tests statistiques
4. calculer successivement les estimateurs b1 = 0.2081 et b2 = 2.7956 ; 5. nous formons la statistique T = 0.20812 + 2.79562 = 0.2599 ; 6. nous pouvons galement calculer la p-value l'aide de la fonction de rpartition p-value = 0.8781. Dans notre exemple, la statistique T est largement infrieure 2 (2) = 5.99, la distribution observe 0.95 est compatible avec une distribution thorique normale. Nous observons que la p-value du test est trs similaire celle fournie par le test de D'Agostino.
#
du 2 , et obtenir
Implmentations et logiciels
La simplicit des calculs facilite sa diusion. Nous avons test la fonction jarqueBeraTest(...) du package fBasic dans R. Nous avons obtenu exactement des rsultats identiques ceux du tableur.
25. =LOI.KHIDEUX(...) dans EXCEL 26. Voir l'article de Sneyers (1974) pour une stratgie de choix des tests de normalit.
Page: 26 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
27
Finalement, pourquoi tudier l'aide de tests compliqus ce que l'on pouvait apprhender sur des graphiques simples ? Les tests amnent un point de vue objectif, avec une approche rigoureuse. C'est un argument fort lorsque nos rsultats font l'objet d'enjeux importants. De plus, lorsque nous avons traiter un grand nombre de variables, il est intressant de disposer d'outils automatiss pour tester un grand nombre de variables, quitte revenir attentivement sur les variables qui posent problme par la suite. Mais pour cela, il faut comprendre le comportement des outils que l'on utilise. Autre aspect trs important, la dtection et le traitement des points atypiques que nous avons introduits au dbut de ce document n'tait pas du tout anodin dans notre contexte. La vrication de la normalit passe par l'estimation de l'esprance mathmatique, paramtre de la loi normale, l'aide de la moyenne empirique. La prsence de points douteux peuvent fausser totalement les calculs, et par consquent les conclusions du test. La suppression de ces points comme nous l'avons ralis est une solution possible. Adopter des estimations robustes de l'esprance en est une autre.
Page: 27
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Page: 28
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
3 Tests de symtrie
Dans certains cas, on peut se contenter de tester la symtrie d'une distribution. Le test est bien entendu moins restrictif puisqu'il ne porte que sur un aspect de la forme de la distribution.
Exemple 1. Pour valuer une rgression multiple de la forme Y = f (X; )+, une distribution des rsidus
asymtrique laisse penser que le modle est mal spci. Le graphique des rsidus est un outil important, nous pouvons galement mettre en oeuvre des tests statistiques.
Exemple 2. Dans certaines techniques non-paramtriques, le test de Wilcoxon pour chantillons apparis
par exemple, la symtrie est requise pour que le test agisse correctement.
Un test de symtrie fond sur le coecient d'asymtrie est la premire stratgie qui vient l'esprit. Il s'agit d'utiliser une partie du test de D'Agostino ou de Jarque-Bera. La statistique du test asymptotique que nous proposons utilise la premire composante du test de Jarque-Bera :
(3.1)
(3.2)
Sous l'hypothse nulle de distribution normale, le rapport La rgion critique du test s'crit :
1. http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test
Page: 29 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
30
3 Tests de symtrie
R.C. : |
o u1 est le quantile d'ordre 1 2
2
b1 | > u1 2 1
Il s'agit d'une distribution asymptotique. Mais ce test peut tre utilis pour des eectifs relativement faibles. On le conseille gnralement pour 8 n 5000.
Calculs
Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.1) : 1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 et d3 ;
2 4. calculer successivement b1 = 0.2081, 1 = 0.1880 et 1 = 0.4335 ; b 5. nous formons la statistique | 1 | = 0.4801 ; 1
Fig. 3.1.
Les donnes sont compatibles avec une symtrie gaussienne. Bien entendu, disposant de la loi de rpartition de la statistique du test, nous pouvons calculer la p-value, elle est gale 0.6312.
2. Voir Tassi,
Page: 30
Mthodes Statistiques
job: Test_Normalite
31
A l'instar de l'estimation de la variance sur un chantillon, plutt que l'estimation triviale du coecient d'asymtrie, qui est biaise, les logiciels produisent une estimation non-biaise ! .
n (n 1)(n 2) i n(n 1) g1 G1 = n2 G1 =
xi x s
)3
L'estimation de l'cart type de la statistique n'est pas modie, nous utilisons toujours 1 . Dans notre exemple, G1 = 0.2197, le rapport STATISTICA, SPSS et TANAGRA. Nous constatons que la conclusion du test n'est pas modie concernant notre exemple.
G1 1
Le test de symtrie ci-dessus introduit une restriction qui peut tre rdhibitoire : l'hypothse nulle correspond une distribution normale. Or, il se peut que l'on veuille couvrir une palette de distributions plus large. L'hypothse que l'on veut tester est la compatibilit avec une loi symtrique, que ce soit une loi normale bien videmment, mais aussi une loi de Laplace (exponentielle bilatrale), une loi de Cauchy, une loi uniforme, etc. Cette hypothse de symtrie peut tre importante dans certaines procdures statistiques. Il nous faut donc dnir une nouvelle statistique dont la distribution ne repose pas sur la loi de X . Nous nous tournons bien videmment vers les tests non paramtriques. Le test de symtrie que nous prsentons dans cette section (Avazian, pages 322 325) " , outre l'abandon de l'hypothse de normalit, est plus gnral que le test prcdent dans le sens o il permet d'examiner la symtrie par rapport un point quelconque . L'hypothse nulle de symtrie par rapport s'crit :
H0 : f (x + ) = f (x )
o f () est la fonction de densit de la variable alatoire tudie.
(3.3)
Le test est fond sur les rangs absolus par rapport la valeur de rfrence . Concrtement, la procdure consiste : calculer la variable zi = |xi | ;
ranking methods
macro: svmono.cls
32
3 Tests de symtrie
former la srie trie z(i) ; pour chaque individu i tel que xi > 0 (notons I + l'ensemble des individus rpondant cette condition), obtenir dans la srie z(i) son rang ri ; La statistique du test est dnie par
S+ =
iI +
ri
(3.4)
(3.5) (3.6)
Remarque 7 (Un cas particulier du test de comparaison de populations). Ce test peut se comprendre
comme le test de Wilcoxon de comparaison de populations sur chantillons apparis. L'un des chantillons est form par la valeur constante . La statistique S + a t tabule sous H0 pour les petites valeurs de n. Lorsque les eectifs augmentent + + (n 15 dans la pratique # ), la quantit Us = SE(S ) suit asymptotiquement une loi N (0, 1). La rgion + critique du test s'crit :
V (S )
R.C. : Us =
o u1 est le fractile d'ordre 1 2
2
|S + E(S + )| > u1 2 V (S + )
Il est possible de calculer la p-value du test partir de la fonction de rpartition de la loi normale.
Remarque 8 (Correction de continuit). Pour une meilleure approximation, nous pouvons introduire la
correction de continuit, la rgion critique s'crit dans le cas :
R.C : Us =
La rgion critique est rduite, le test est plus conservateur. La correction devient nanmoins ngligeable mesure que les eectifs augmentent.
Page: 32
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
33
Fig. 3.2.
Calculs
Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.2) : 1. nous prenons comme valeur de rfrence la moyenne empirique = x = 3.4138 ; 2. former la srie zi = |xi x| ; 3. dtecter les observations i pour lesquelles xi > x, nous avons cr une colonne de variable indicatrice
wi pour cela ;
4. calculer le rang ri de chaque observation dans zi ; 5. en dduire alors la statistique S + = i wi ri = 218, somme des rangs des observations pour lesquelles xi > x ; 6. former la statistique centre et rduite Us = 0.0108 ; 7. que l'on compare au fractile u0.975 = 1.96 de la loi normale centre et rduite. Au risque de 5%, l'hypothse de symtrie de la distribution des donnes est accepte. Nous pouvons galement calculer la p-value, elle est gale 0.9914. Les rsultats ne sont gure aects par la correction de continuit (Figure 3.2), la p-value est identique (jusqu' la 4-me dcimale).
Traitement des ex aequo
Lorsque deux ou plusieurs observations prsentent la mme valeur, nous devons dnir une stratgie pour l'aectation des rangs.
5. http ://www.chups.jussieu.fr/polys/biostats/poly/POLY.Chp.12.2.html
Page: 33 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
34
3 Tests de symtrie Valeur 1.2 2.4 2.4 2.4 3.7 3.7 Rang 1 3 2 4 6 5
Tableau 3.1.
= 5.5 pour les individus correspondant 3.7. La statistique, sa loi de distribution asymptotique, et
son esprance ne sont pas modis. En revanche, il faut adapter la formule de la variance qui devient $ :
V (S + ) =
(3.7)
o g est le nombre de valeurs direntes dans le chier, tj est le nombre d'observations correspondant une valeur. Dans notre exemple (Tableau 3.2), g = 3 pour les valeurs {1.2, 2.4, 3.7}, et les tj sont
{1, 3, 2}.
Remarque 9. Si g = n (et donc tj = 1, j ), il n'y a pas d'ex aequo dans le chier de donnes, nous
observons que les variances concident V (S + ) = V (S + ).
Valeur 1.2 2.4 2.4 2.4 3.7 3.7 Rang 1 3.0 3.0 3.0 5.5 5.5
Tableau 3.2.
job: Test_Normalite
macro: svmono.cls
35
Ce test est une variante plus puissante du test de Wilcoxon, il introduit une lgre modication de la statistique qui s'crit maintenant
V+ =
iI +
1 1 ri + 2 2n+1
)
(3.8)
(3.9) (3.10)
V (V
Fig. 3.3.
Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.3) :
Page: 35 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
36
3 Tests de symtrie
1. nous prenons comme valeur de rfrence la moyenne empirique = x = 3.4138 ; 2. former la srie zi = |xi x| ; 3. dtecter les observations i pour lesquelles xi > x, nous avons cr une colonne de variable indicatrice
wi pour cela ;
4. calculer le rang ri de chaque observation dans zi ; ( ) ri 5. produire la valeur ai = 1 + 1 n+1 ; 2 2 6. puis, bi = (ai ) ; 7. en dduire alors la statistique V + = vations pour lesquelles xi > x ; 8. pour calculer l'esprance mathmatique et la variance de V + , nous formons les colonnes ci = ( ) 1 1 k 2 2 + 2 n+1 , di = (ci ) et ei = di ; 1 9. nous calculons E(V + ) = 1 i di = 11.2714 et V (V + ) = 4 i ei = 6.5275 ; 2 10. reste produire Uv =
|11.171611.2714| 6.5275
= 0.0391 ;
11. que l'on compare au fractile u0.975 = 1.96 de la loi normale centre et rduite. Au risque de 5%, l'hypothse de symtrie de la distribution des donnes est accepte. Nous pouvons galement calculer la p-value, elle est gale 0.9688.
Traitement des ex aequo
Comme prcdemment, en adoptant la mthode des rangs moyens, nous devons adapter la formule de la variance :
V (V + ) =
(3.11)
Remarque 10. Encore une fois, s'il n'y a pas d'ex aequo (c.--d. tj = 1 ,j ), les variances concident
V (V + ) = V (V + ).
4 Transformation de Box-Cox
Une grande partie des procdures statistiques reposent sur la normalit des distributions. Et quand bien mme certains d'entre eux seraient assez robustes, on sait gnralement que des distributions trs dissymtriques faussent les calculs, notamment les techniques bases sur des distances entre individus, ou pire des distances par rapport la moyenne. Transformer les variables de manire se rapprocher de la distribution normale, ou tout du moins pour les symtriser, est parfois un pralable ncessaire avant toute analyse statistique. Il est possible de rendre gaussienne toute variable alatoire continue par une transformation monotone continue. Les fonctions les plus rpandues sont certainement y = x et y = ln(x) ([1], page 275). Mais le rsultat laisse parfois dsirer, poussant les utilisateurs empiler au petit bonheur la chance les transformations. Il faut adopter une dmarche raisonne.
{ y = (x) =
x 1
( = 0) ( = 0)
ln(x)
(4.1)
{ y = (x) =
(x+2 )1 1 1
(1 = 0) (1 = 0)
ln(x + 2 )
(4.2)
La principale dicult est de prciser la bonne valeur des paramtres sur un chantillon de donnes. C'est en cela que la premire formulation est plus accessible (quation 4.1), nous ne manipulons qu'un seul paramtre. Dans ce qui suit, nous montrons comment, en pratique, nous xons de manire ecace la valeur adquate du paramtre .
1. http://en.wikipedia.org/wiki/Box-Cox_transformation
Page: 37 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
38
4 Transformation de Box-Cox
Le Q-Q plot (quantile-quantile plot) consiste produire un graphique "nuage de points" o : nous plaons en abcisse les quantiles observs, en ordonne les quantiles thoriques de la loi normale (section 1.5, nous laissons directement les quantiles de loi normale centre rduite en ordonne dans ce chapitre). Si les points forment une droite, la distribution empirique est compatible avec la loi normale. Prenons un exemple pour xer les ides. Nous analysons le montant des crdits (X ) accords par une banque un chantillon de n = 50 clients. Nous cherchons savoir si la distribution est normale. Le plus simple est de produire le graphique Q-Q plot (Figure 4.1) en suivant les prescriptions dcrites par ailleurs (section 1.5). Nous observons dans la feuille de calcul :
Fig. 4.1.
Dans la colonne A, nous avons les valeurs de X , tries de manire croissante. Ces valeurs correspondent donc aux quantiles.
Page: 38 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
39
La colonne B sert uniquement numroter les observations. En C, nous avons la fonction de Nous utilisons l'inverse de la loi normale centre rduite pour produire la srie ui Le graphique Q-Q plot est form par les couples (xi , ui ). On constate dans notre cas que les points ne sont pas aligns sur une droite. L'hypothse de normalit n'est pas crdible. Il nous faut transformer la variable X pour nous rapprocher de la distribution normale.
Une ide trs simple est de crer une nouvelle colonne Y base sur la transformation de Box-Cox (quation 4.1) dans la feuille de calcul, en rservant une cellule part pour le paramtre . Nous reconstruisons le graphique quantile-quantile sur Y . Nous pouvons alors ttonner en xant direntes valeurs de , nous observons chaque fois la situation de la droite de Henry. Nous arrtons les itrations lorsque nous obtenons un rsultat satisfaisant. Sduisante a priori, cette dmarche est trs vite fastidieuse, elle ne nous permet pas de tester un grand nombre de valeurs de . La situation devient intenable si nous avons un grand nombre de variables traiter. Comment exploiter au mieux les informations fournies par la droite de Henry tout en ayant la possibilit de tester un nombre lev de valeurs ? Pour rpondre cette question, il nous faut proposer un critre numrique qui donne des indications sur le caractre linaire de la srie de points du graphique Q-Q plot. Il en existe un, qui n'est pas fait pour a, mais qui rpond trs bien la spcication : le coecient de corrlation linaire de Pearson ! . En eet, le coecient de corrlation r indique l'intensit de la liaison linaire entre deux variables. Plus les points seront aligns dans le graphique quantile-quantile, plus la valeur de r se rapprochera de +1. Dans le cas idal, les points forment une droite, nous aurons r = +1. Bien videmment, nous dvoyons un peu le coecient de corrlation. La valeur de r n'a pas sens dans notre contexte. Il ne faut pas chercher l'interprter. Nous ne souhaitons pas mesurer l'association entre les quantiles thoriques et les quantiles observs. Il s'agit avant tout d'un critre destin caractriser l'alignement des points. Dans notre exemple ci-dessus (Figure 4.1), nous avons r = 0.9272. Est-ce qu'il est possible de produire une variable Y , en utilisant la formule 4.1, de manire augmenter encore cette valeur ?
La bonne stratgie pour dtecter facilement la valeur adquate du paramtre dans la transformation est donc de balayer un grand nombre de valeurs de , et de surveiller la valeur de r calcule sur la droite de Henry. On choisira la valeur qui maximise r.
40
4 Transformation de Box-Cox
Pour obtenir une vue synthtique de la simulation, on construit gnralement un graphique " qui met
rajoutant la colonne Y paramtre par . Nous insrons dans une des cellules la formule du coecient de corrlation linaire calcul sur les couples de points (yi , ui ). A l'aide de l'outil "Table de simulation" d'EXCEL, nous avons produit les sries de valeurs (, r) pour = 2 +2 avec un pas de 0.1. Nous reproduisons le tableau des valeurs et le graphique Box-Cox Normality Plot (Figure 4.2).
Dans notre exemple, il semble que la bonne valeur soit = 0.1. Elle maximise la corrlation entre quantile thoriques et quantiles observs dans la droite de Henry avec r = 0.99451. Essayons de reporter cela dans notre feuille de calcul pour visualiser le graphique quantile-quantile de la variable transforme
4. Voir http://www.itl.nist.gov/div898/handbook/eda/section3/boxcoxno.htm 5. N.A. : Malgr mes recherches, je n'ai pas russi trouver l'quivalent francophone. Je ne voulais pas me lancer dans un nologisme sorti de nulle part. Si un lecteur statisticien connat l'appellation approprie en franais, j'accueillerai avec beaucoup de plaisir ses indications.
Page: 40 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
41
Fig. 4.3.
Les colonnes A D sont identiques la feuille initiale (Figure 4.1). Dans la colonne E, nous insrons la variable Y , paramtre par en cellule E2. A la lumire des valeurs testes prcdemment, nous xons = 0.1 Nous construisons alors le graphique Q-Q plot l'aide des quantiles observes (yi , en abcisse) et des quantiles thoriques (ui , en ordonne) Par rapport aux donnes initiales, les points sont maintenant mieux aligns, assimilable une droite. La distribution de Y se rapproche de la loi normale.
4.2.4 Tester la normalit
Pour valider notre dmarche, utilisons les tests de normalit mis en avant dans le chapitre 2. Nous souhaitons vrier l'ecacit de la transformation en testant la compatibilit de X , puis de Y , avec la
Page: 41 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
42
4 Transformation de Box-Cox
distribution normale. Nous verrons ainsi si l'analyse graphique guide par la Droite de Henry produit des rsultats cohrents avec les procdures statistiques.
Fig. 4.4.
Nous utilisons le logiciel TANAGRA $ . Au niveau de signication 5%, quel que soit le test utilis, il apparat clairement que X n'est pas gaussienne. Aprs la transformation de Box-Cox (quation 4.1) avec
= 0.1, la variable modie Y est compatible avec la loi normale (Figure 4.4). Manifestement, l'opration
a t ralise avec succs. Malgr tout, il reste un bmol. La stratgie mise en oeuvre repose sur le ttonnement. La plage de valeurs tester doit tre dnie judicieusement. Le risque de passer ct de la valeur optimale n'est pas ngligeable. De plus, l'analyse graphique se prte mal un traitement d'un grand nombre de variables. Pour ces raisons, nous prsentons dans la section suivante une dmarche fonde sur un processus d'optimisation que l'on peut automatiser.
La variable transforme Y est distribue normalement. Elle est paramtre par si on s'en tient la premire formulation (Equation 4.1). On peut s'appuyer sur le principe du maximum de vraisemblance
43
pour produire la valeur optimale . Pour un chantillon de taille n, nous souhaitons maximiser la
L=
f (yi )
o f (.) est la fonction de densit de la loi normale. En pratique, pour des raisons de commodits numriques, on procde plutt l'optimisation de la log-vraisemblance
n i=1
LL =
ln f (yi )
Y est elle-mme exprime partir de X , il faudrait revenir la fonction de densit g(x). Il existe un
lien entre les fonctions de densits lorsque une des variable est fonction d'une autre. La formule gnrique est la suivante % :
g(x) = f (y) |
o
y x
y | x
(4.3)
Dans le cas de l'quation 4.1, son logarithme s'exprime de manire trs simple :
ln
y = ln (x) = ( 1) ln x x
(4.4)
En prenant en compte toutes ces informations, nous pouvons crire la fonction de log-vraisemblance que nous devons optimiser par rapport . Nous utilisons directement les estimateurs usuels en ce qui concerne les autres paramtres (moyenne et cart-type). La log-vraisemblance s'crit
LL =
avec
(4.5)
7. Voir par exemple http://rfv.insa-lyon.fr/~jolion/STAT/node32.html. Attention, notre situation est inverse, nous connaissons la distribution de la variable transforme, nous souhaitons revenir la fonction de densit de la variable initiale
Page: 43 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
44
4 Transformation de Box-Cox
Remarque 11 (Simplication de LL). Tout ce qui ne dpend pas de peut tre retire de l'expression 4.5.
On peut ainsi omettre le premier terme de la formule.
Nous allons essayer de tirer prot du SOLVEUR d'EXCEL pour obtenir la valeur optimale du paramtre . Mais auparavant, il nous prparer la feuille de calcul, notamment en produisant la logvraisemblance. La cellule de cette dernire doit bien entendu tre dpendante de la cellule de . Dtaillons la feuille EXCEL (Figure ) : En colonne A, nous avons les donnes originelles x. En colonne B, nous avons les donnes transformes y = (x), paramtr par en B2 En B56 et B57, nous avons respectivement m et s A partir de D5, nous produisons les valeurs individuelles de la log-vraisemblance c.--d.
l(xi ) =
Il ne nous reste plus qu' raliser la somme pour obtenir la log-vraisemblance en D2,
LL =
Pour = 1, nous obtenons LL = 442.235 En lanant l'outil SOLVEUR, D2 en cellule cible et B2 en cellule variable, nous obtenons
= 0.06603
avec
LL = 430.878
Nous ne manquons pas de comparer cette valeur avec celle obtenue par ttonnement, nous avions trouv = 0.1. Mais bien entendu le rsultat tait tributaire de la prcision que nous avions dnie lors du processus de recherche. Avec l'approche par maximisation de la vraisemblance, le rsultat est obtenu directement, elle peut tre automatise. Cette caractristique est particulirement intressante ds lors que nous avons traiter un grand nombre de variables.
8. Voir http://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm. A ce sujet, je me suis rendu compte que l'expression de la log-vraisemblance sur ce site semble errone. C'est assez trange. De manire gnrale, NIST fait rfrence. Quoiqu'il en soit, sur l'exemple propos en ligne (Example of Box-Cox scheme ), en utilisant la feuille de calcul que nous prsenterons dans la section suivante, base sur la formule 4.5, nous retrouvons le bon rsultat = 0.276 avec LL = 46.918. En utilisant leur formulation, le processus d'optimisation ne converge pas.
Page: 44 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
45
Fig. 4.5.
Toujours au titre de la comparaison des rsultats, nous avons calcul la corrlation entre les quantiles thoriques et les quantiles observs de la droite de Henry avec la transformation = 0.06603, nous obtenons r = 0.99462, comparer avec la valeur r = 0.9945 obtenue lors de la recherche par ttonnement. Le gain est relativement faible quand mme. L'avantage comparatif ne se situe pas ce niveau l.
Remarque 13 (Optimisation numrique). Obtenir une expression directe de en fonction des xi pour
l'optimisation de la log-vraisemblance serait l'idal. Mais ce n'est pas possible. Nous sommes obligs de nous tourner vers des procdures d'optimisation numrique. La fonction SOLVEUR en est l'illustration parfaite. Elle est capable de produire une solution en lui fournissant uniquement la fonction objectif et les paramtres manipuler. Pour les connaisseurs, le SOLVEUR est bas, dixit la documentation Microsoft,
Page: 45
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
46
4 Transformation de Box-Cox
sur l'algorithme GRG (Generalized Reduced Gradient ) ' . Pour ma part, j'ai rarement vu un outil aussi souple et able.
Plot rsumant les direntes congurations sera en 3D, mais a n'est en rien rdhibitoire.
2. Optimiser la fonction de vraisemblance en fonction de 1 et 2 . Le processus est exactement le mme, l'information connatre pour crire convenablement la log-vraisemblance est
ln
y = (1 1) ln(x + 2 ) x
9. Voir http://support.microsoft.com/kb/214115/en-us/
Page: 46 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43
Un support de cours n'est jamais g, nous essayons constamment de les enrichir. Dans cette annexe, nous recensons les direntes versions de ce document.
Version 1.0 Premire version mise en ligne, au mois d'Aot 2007. Il comprend les chapitres 1, 2 et 3. Version 2.0 Le chapitre 4 a t intgr au document en Juin 2008.
Page: 47
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Page: 48
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
TANAGRA est un logiciel open source accessible en ligne. Il implmente plusieurs techniques d'exploration de donnes issues de la statistique, de la statistique exploratoire et de la fouille de donnes (Data Mining). Au-del du logiciel, une srie de didacticiels sont disponibles, accompagnes de jeu de donnes. L'ide est de prsenter brivement les enjeux de la mthode, proposer un jeu de donnes test, et montrer la dmarche suivre avec le logiciel. Les tests d'adquation la loi normale sont implments dans le composant NORMALITY TEST situ dans l'onglet STATISTICS. Plusieurs tests sont disponibles : le test de Shapiro-Wilk, de Lilliefors, d'Anderson-Darling et de D'Agostino (Figure B.1). Listons quelques rfrences utiles concernant le test de normalit : http://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html, URL du site ; http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Normality_Test.pdf, didacticiel dtaillant la mise en oeuvre du test de normalit sur un jeu de donnes ; http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/normality_test_simulation.xls, donnes utilises pour le didacticiel.
Page: 49
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
50
Fig. B.1.
Page: 50
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Le logiciel R (http://www.r-project.org/) est un interprteur de commandes dot d'un vrai langage de programmation, et possdant une bibliothque trs riche de techniques statistiques. Tout un chacun peut programmer une fonction correspondant telle ou telle nouvelle technique. De plus, le principe des packages est un autre dispositif qui permet d'enrichir considrablement le logiciel. Les utilisateurs peuvent produire des bibliothques externes spcialises que l'on peut intgrer facilement. S'agissant des tests d'adquation la loi normale, nous avons tlcharg et install les packages
nortest et fBasics. Tous les tests dcrits dans ce support ont pu tre valus sur notre jeu de donnes.
Listing C.1.
#v i d e r l a mmoire de t o u s l e s o b j e t s rm( l i s t = l s ( ) ) #m o d i f i e r l e r p e r t o i r e de t r a v a i l e t c h a r g e r l e s donnes setwd ( " . . . " ) data < read . csv ( f i l e ="data_test_normalite . csv ") #c o p i e r l e s donnes dans un v e c t e u r x < data$X #l e t e s t de Shapiro Wilk shapiro . test (x) # c h a r g e r l e package " n o r t e s t " library ( nortest ) #t e s t de L i l l i e f o r s l i l l i e . test (x) #t e s t d ' Anderson D a r l i n g ad . t e s t ( x ) # c h a r g e r l a l i b r a i r i e " f B a s i c s " library ( fBasics ) #t e s t de D' Agostino dagoTest ( x ) #t e s t de Jarque Bera jarqueberaTest (x)
Page: 51
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
52
Sorties de R
> s h a p i r o . t e s t ( x ) #l e t e s t de Shapiro Wilk Shapiro Wilk n o r m a l i t y t e s t data : x W = 0 . 9 4 5 6 , pv a l u e = 0 . 1 4 0 8 > library ( nortest ) > l i l l i e . t e s t ( x ) #t e s t de L i l l i e f o r s L i l l i e f o r s ( KolmogorovSmirnov ) n o r m a l i t y t e s t data : x D = 0 . 1 1 7 6 , pv a l u e = 0 . 3 8 5 9 > ad . t e s t ( x ) #t e s t d ' Anderson D a r l i n g Anderson D a r l i n g n o r m a l i t y t e s t data : x A = 0 . 5 8 8 5 , pv a l u e = 0 . 1 1 5 9 > library ( fBasics ) > dagoTest ( x ) #t e s t de D' Agostino Title : D' Agostino Normality Test Test R e s u l t s : STATISTIC : Chi2 | Omnibus : 0 . 3 3 7 2 Z3 | Skewness : 0 . 5 3 4 9 Z4 | K u r t o s i s : 0 . 2 2 5 9 P VALUE: Omnibus Test : 0 . 8 4 4 9 Skewness Test : 0 . 5 9 2 7 K u r t o s i s Test : 0 . 8 2 1 3 > j a r q u e b e r a T e s t ( x ) #t e s t de Jarque Bera Title : Jarque Bera N o r m a l a l i t y Test Test R e s u l t s : STATISTIC : Xsquared : 0 . 2 5 9 9 P VALUE: Asymptotic p Value : 0 . 8 7 8 1
Page: 52
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43
Littrature
1. Avazian, S., Enukov, I., Mechalkine, L., 1986. 2. Borcard, D., 4. PROPHET 5. Saporta, G., 6. Sneyers, R.,
Tests de normalit
, Mir,
, http://biol10.biol.umontreal.ca/BIO2042/Test_normal.pdf
of Statistical Methods normality
, http://www.itl.nist.gov/div898/handbook/
results
Examining
test
http://www.basic.northwestern.edu/
statguidefiles/n-dist_exam_res.html
Probabilits, Analyse des donnes et Statistique Sur les tests de normalit
Page: 53
job: Test_Normalite
macro: svmono.cls
date/time: 1-Oct-2011/7:43