Vous êtes sur la page 1sur 9

Test du caractre alatoire dune distribution, test de la normalit dune population

Consigne Comment justifier la normalit dune population puis le caractre alatoire et simple d'une distribution ? Rsolution 1. Test d'hypothse sur le caractre alatoire dun chantillon L'chantillonnage ou le sondage est l'ensemble des oprations qui ont pour objet de prlever dans une population les individus qui doivent constituer un chantillon. Un chantillon est dit alatoire lorsque tous les individus de la population ont une mme probabilit de faire partie de l'chantillon. Il est simple lorsque les individus qui doivent former l'chantillon sont tous prlevs indpendamment l'un de l'autre. Diffrents procds permettent d'assurer le caractre alatoire des chantillons, le plus courant est l'emploi de tables de nombres alatoires, que l'on trouve dans les manuels de statistiques (Dagnlie1969, table B, p358-359). Par exemple, si on veut mesurer la pollution d'un tang dont on possde le plan, on tablit un quadrillage en utilisant du papier millimtr et on dtermine, l'aide d'une table de nombres alatoires, les coordonnes du nombre voulu de points de prlvements d'eau. Ces tables sont constitues de listes de nombres telles que tous les chiffres soient prsents dans l'ensemble un mme nombre de fois. Pour assurer le caractre alatoire du prlvement d'un chantillon, on associe chaque individu de la population un ou plusieurs groupes de chiffres. On lit ensuite les nombres de la table, partir d'un point arbitraire, et on inclut dans l'chantillon les individus dont le numro apparat. (Ramousse et al 1996). Mode dutilisation dune table de nombres au hasard Selon les auteurs Pasquier A. ; Dagnelie P. et Baillargeon G., les mthodes diffrent. Toutefois la rgle gnrale est la suivante : On choisit, au hasard, un point dentre dans la table, puis on choisit un sens de parcours de la table pour prlever les chiffres et on respecte ce sens de parcours. Le sens de parcours peut tre : Soit partir du point dentre, lire les nombres de la gauche vers la droite et du haut vers le bas. Soit partir du point dentre, lire les nombres vers le haut et de droite gauche. Soit partir du point dentre, lire les nombres en diagonale, vers le bas et de gauche droite.

Test du caractre alatoire dune distribution, test de la normalit dune population

Exemple dutilisation: Nous prendrons un extrait des tables de Kendall et Babington Smith. TABLE DE KENDALL ET BABINGTON SMITH

1) On veut prlever, de faon alatoire, 8 individus dans une population de 850 individus. Il s'agit donc ici de 8 tirages successifs au hasard sans remise. La premire opration consiste numroter les 850 individus de 1 850. Ensuite, on prend une table de nombres au hasard et on dcide de la faon de lutiliser. Premire mthode Par exemple : Nous partons de la ligne 10 et de la colonne 6 (point d'entre dans la table). Nous allons de la gauche vers la droite sur la table. Nous prenons les chiffres par "paquets" de 3. Dans la table, on lit les nombres suivants : 393, 560, 298, 189, 107, 797, 885, 133, 037, 129, 318, 983, 401... On ne retient dans cette liste que les 8 premiers nombres infrieurs ou gaux 850. Les 8 individus constituant lchantillon sont donc les individus respectivement numrots : 393, 560, 298, 189, 107, 797, 133 et 037. En effet, le nombre 885 nest pas retenu, car il ne correspond aucun individu. Deuxime mthode Par exemple : Nous partons de la ligne 1 et de la colonne 31.Nous parcourons la table de haut en bas et de la gauche vers la droite. Nous prlevons les nombres par "paquets" de 5 (la table sy prte). Nous ne conservons dans chaque "paquet" que les trois premiers chiffres. Dans la table, on lit :

Test du caractre alatoire dune distribution, test de la normalit dune population

Dans ce cas, les individus prlevs sont les individus respectivement numrots : 789, 575, 676, 98, 422, 652, 344, 371 (855 et 949 tant suprieurs 850 ne sont pas retenus).

Remarques : Si le numro 789, par exemple, tait sorti une deuxime fois, comme il s'agissait d'un tirage "sans remise", nous n'aurions pas tenu compte du deuxime 789. Si on avait du prlever 10 individus, les individus prlevs seraient les individus respectivement numros : 789, 575, 676, 98, 422, 652, 344, 371, 470, 603. Le nombre 470 provient de 47008 et 603 de 60307.

2. Test de l'hypothse de normalit Les paragraphes suivants montrent des mthodes permettant de vrifier la normalit d'un chantillon. 2.1.Test de Shapiro-Wilk Trs populaire, le test de Shapiro-Wilk est bas sur la statistique W. En comparaison des autres tests, il est particulirement puissant pour les petits effectifs (n 50). La statistique du test s'crit :

O _ x(i) correspond la srie des donnes tries ; _ [n/2] est la partie entire du rapport n/2 ; _ ai sont des constantes gnres partir de la moyenne et de la matrice de variance covariance des quantiles d'un chantillon de taille n suivant la loi normale. Ces constantes sont fournies dans des tables spcifiques. La statistique W peut donc tre interprte comme le coefficient de dtermination (le carr du coefficient de corrlation) entre la srie des quantiles gnres partir de la loi normale et les quantiles empiriques obtenues partir des donnes. Plus W est lev, plus la compatibilit avec la loi normale est crdible. La rgion critique, rejet de la normalit, s'crit :

R.C. : W < Wcrit


Les valeurs seuils Wcrit pour diffrents risques et effectifs n sont lues dans la table de Shapiro-Wilk.
3

Test du caractre alatoire dune distribution, test de la normalit dune population

2.1.1. Le test de Ryan-Joiner Les coefficients ci (donns sous forme de tables fournies entre autres par Shapiro et Wilk 1965) sont comparables aux quantiles normaux ui ou ui' relatifs aux diagrammes de probabilits. La statistique du test de Ryan-Joiner est donc le coefficient de corrlation linaire entre les donnes et les scores normaux. Cest le rapport entre la covariance des deux variables et le produit de leurs carts-types respectifs, soit :

La formule de calcul de la statistique, th, de Ryan-Joiner dpend de la taille n de lchantillon considr et est donne ici pour un niveau de confiance de 0,95 :

th = 1,0063 (0,1288/ ) (0,6118/ ) (1,3505/ ) n n n2 si n < 50 th = 0,9995 (0,0178/ ) (1,7726/ ) (3,5582/ ) n n n1,5 si n > 50.
Lhypothse de normalit est rejete lorsque obs est infrieur th. (Kaka R., al ; 2006)
.

2.2. Le test de Kolmogorov-Smirnov Dans le cas gnral, le test de Kolmogorov-Smirnov vise dterminer si les fonctions de rpartition de deux populations sont identiques. Il est utilis lorsqu'on est en prsence de deux chantillons provenant de deux populations pouvant tre diffrentes. Le test de KolmogorovSmirnov a l'avantage de prendre en considration les fonctions de rpartitions dans leur ensemble. Exigences :

les deux chantillons sont des chantillons alatoires tirs de leur population respective.

il y a indpendance mutuelle entre les deux chantillons. les variables alatoires doivent tre continues, sinon le test est moins prcis. Si ces variables sont qualitatives, il vaut mieux utiliser le test de chi-carr.

Pour toute srie dobservations X1,...,Xn de mme fonction de distribution, une fonction de distribution empirique f(x) peut tre dfinie.
4

Test du caractre alatoire dune distribution, test de la normalit dune population

Sous lhypothse nulle, f(x) suit une distribution normale. Supposons que les observations soient classes par ordre croissant tel que : X(1), ... ,X(n). La fonction de distribution empirique fn(x) est dfinie de la manire suivante :

Notons que fn(x) est une fonction par intervalles qui prend un pas de hauteur 1/n chaque observation. Cette fonction estime la valeur de la distribution f(x). A chaque valeur x, fn(x) est la proportion des observations infrieures ou gales x, alors que f(x) est la probabilit pour quune observation soit infrieure ou gale x. La statistique EDF (Empirical Distribution Function) mesure la dissimilarit entre fn(x) et f(x). De faon gnrale, les tests EDF utilisent la fonction de rpartition U = F(x). Si f(X) est la fonction de distribution de X, la variable alatoire U est uniformment distribue entre 0 et 1. Soient n observations X(1), ..., X(n), les valeurs U(i) = f(X(i)) sont calcules. La statistique D du test de Kolmogorov-Smirnov est dfinie de la faon suivante :

La statistique de Kolmogorov-Smirnov est base sur la plus grande diffrence verticale entre F(x) et Fn(x). Elle est calcule en considrant le maximum de D+ et D- , o D+ est la plus grande distance verticale entre la fonction de distribution empirique et la fonction exacte de distribution lorsque EDF est suprieure la fonction de distribution, et D- est la distance verticale la plus grande lorsque EDF est plus petite que la fonction de distribution.

(Kaka R., al ; 2006) 2.3. Le test de Lilliefors Le test de Lilliefors compare la fonction de rpartition d'une variable alatoire quelconque celle d'une loi normale de moyenne et d'cart-type non spcifie.

Test du caractre alatoire dune distribution, test de la normalit dune population

Un des avantages des tests de Kolmogorov-Smirnov et Lilliefors est leur possible utilisation quel que soit l'effectif de l'chantillon. Cependant ces tests sont de plus en plus considrs comme des mthodes pauvres et donc non recommands. La statistique du test d'crit :

o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise.

La table des valeurs critiques Dcrit pour les petites valeurs de n et diffrentes valeurs de doivent tre utilises 11. Lorsque les effectifs sont levs, typiquement n 30, il est possible d'approcher la valeur critique l'aide de formules simples.

La rgion critique du test pour la statistique D est dfinie par R.C. : D > Dcrit 2.4. Test de Anderson-Darling Le test dAnderson-Darling est une autre variante du test de Kolmogorov-Smirnov, la diffrence qu'elle donne plus d'importance aux queues de distribution. De ce point de vue, elle est plus indique dans la phase d'valuation des donnes prcdant la mise en uvre d'un test paramtrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors. Autre particularit, ses valeurs critiques sont tabules diffremment selon la loi thorique de rfrence, un coefficient multiplicatif correctif dpendant de la taille d'chantillon n peut tre aussi introduit. Concernant l'adquation la loi normale, la statistique du test s'crit :

Test du caractre alatoire dune distribution, test de la normalit dune population

Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise.

Une correction est recommande pour les petits effectifs, cette statistique corrige est galement utilise pour calculer la p-value :

Les valeurs critiques Acrit pour diffrents niveaux de risques sont rsumes dans le tableau suivant, ils ont t produits par simulation et ne dpendent pas de l'effectif de l'chantillon :

L'hypothse de normalit est rejete lorsque la statistique A prend des valeurs trop leves : R.C. : A > Acrit

2.5.La droite de Henry C'est une procdure pratique et rapide, permettant de vrifier la prsomption de normalit pour une population dont on observe un chantillon. Cette procdure graphique ne constitue pas, proprement parler, un test statistique. Nanmoins, le trac d'un graphique de Henry peut suffire dans de nombreux cas o l'on doit s'assurer de la normalit d'une distribution d'chantillonnage. Le principe de la mthode repose sur la liaison linaire entre une variable normale x (moyenne m, cart-type ) et la variable rduite u (on rappelle que u=

Le test t 1 chantillon suppose que les donnes sont chantillonnes partir d'une population distribue normalement. Le graphe ci-dessous prsente la rpartition des individus dun chantillon en fonction des heures et pourcentage.

Test du caractre alatoire dune distribution, test de la normalit dune population

Graphe 1: Diagramme de normalit Linterprtation du graphe prcdent peut se faire comme suit : Si les donnes proviennent d'une loi normale, les points doivent suivre plus ou moins la droite d'ajustement. Si les donnes ne proviennent pas d'une loi normale, les points ne suivent pas la droite. D'aprs le test de normalit, vous pouvez supposer que les donnes proviennent d'une

population normalement distribue.

Conclusion Dans ce document nous avons prsent les techniques destines valuer la compatibilit d'une distribution empirique avec la loi normale. Souvent, ils aboutissent tous la mme conclusion, la compatibilit avec la loi normale, mais des degrs diffrents que l'on peut apprhender l'aide de la p-value. On constate que le test le moins enclin accepter l'hypothse de normalit est celui de Anderson-Darling, qui est justement sensible aux carts dans les queues de distribution (p-value = 0.1159). Le test de Shapiro-Wilk propose une p-value gale 0.1408. Sa puissance est reconnue dans la littrature, elle confirme cette ide ici. Le test de Lilliefors, pourtant fond sur la statistique de Kolmogorov-Smirnov, est plus conservateur, avec un p-value de 0.3859. Cela est surtout conscutif la nature du dsaccord, en queue de distribution, qu'elle dtecte mal.

Test du caractre alatoire dune distribution, test de la normalit dune population

Rfrences bibliographiques

BAILLARGEON G., 1984 : Mthodes statistiques Volume 1 dition SMG 1984. DAGNELIE P., 1969 : Thorie et mthodes statistiques Tome 1 Presses agronomiques de GEMBLOUX. GLELE KAKAI R., Sodjinou E., Fonton H. N. ; 2006 : Conditions dapplication des mthodes statistiques paramtriques: applications sur ordinateur. Page 39-42 PASQUIER A., 1969 : Elments de calcul des probabilits et de thories des sondages Dunod conomie. Ramousse R., Le Berre M. & Le Guelte L ; 1996 : Introduction aux statistiques