Vous êtes sur la page 1sur 4

Quelle est la bonne formule de lcart-type ?

Emmanuel Grenier Reims Management School emmanuel.grenier@reims-ms.fr Relu par Jacques Goupy et Henry P. Aubert Il suffit de consulter les normes ou un bon manuel de statistique pour avoir la rponse. Alors pourquoi cette notule ? Cest que la rponse diffre dun auteur lautre. Examinons ces formules si familires quon ny prte plus gure attention. 1. Ecart-type s et cart-type 1.1. Lcart-type s des valeurs prises par une variable On considre un ensemble de valeurs prises par une grandeur numrique. Lcart-type est une mesure de la dispersion des valeurs autour de leur moyenne arithmtique. Prenons par exemple les tailles suivantes releves sur 7 personnes : 152 158 164 168 168 169 176 Calculons la moyenne arithmtique des tailles, x =
x=

1 xi , avec ici n = 7 : n i

1 [152 + 158 + 164 + 2 168 + 169 + 176] = 165,0 7

Par dfinition, lcart-type est la moyenne quadratique des carts la moyenne x . On le note habituellement s (de langlais standard deviation) : 1 ( xi x ) 2 n i Soit, pour lexemple, {1}

1 (152 165) 2 + (158 165) 2 + (164 165) 2 + 2 (168 165) 2 + (169 165) 2 + (176 165) 2 7 = 7,3

Le carr de lcart-type, s 2 , est appel la variance. La variance est par consquent la moyenne arithmtique des carrs des carts la moyenne x . 1.2. Lcart-type des valeurs possibles dune variable alatoire On peut galement calculer lcart-type sur les valeurs possibles dune variable alatoire numrique. Prenons par exemple le rsultat dun lancer de d. Les valeurs possibles sont les entiers de 1 6, chacune ayant une probabilit de ralisation gale 1/6. La moyenne des valeurs possibles est =
1 1 1 1 + 2 + L + 6 = 3,5 6 6 6

Revue MODULAD, 2007

- 102-

Numro 37

Lcart-type est =

1 1 1 (1 3,5) 2 + (2 3,5) 2 + L + (6 3,5) 2 = 1,71 6 6 6

1.3. Cas o = s : lcart-type dune population Si on choisit un individu de manire alatoire dans une population et que lon relve une valeur numrique sur cet individu, les valeurs possibles sont les valeurs prsentes dans la population (et les probabilits associes sont les frquences dans la population). De ce fait, la moyenne et lcart-type des valeurs possibles sont gales la moyenne x et lcart-type s des valeurs prises par les individus de la population. 2. Estimation de par lcart-type s dun chantillon : le problme du biais destimation On dispose dun chantillon constitu par des ralisations dune variable alatoire. Lcart-type s des valeurs de lchantillon donne une estimation de lcart-type des valeurs possibles de la variable. Lcart-type de lchantillon peut prendre diverses valeurs s, qui tantt sous-estiment, tantt surestiment . On pourrait penser que ces valeurs sont centres sur . Ce nest pas le cas : il existe un cart entre la moyenne des valeurs possibles s de lcart-type de lchantillon et la valeur estimer. Ce phnomne de biais apparat galement lorsquon estime la variance 2 de la variable par la variance s 2 de lchantillon. Le biais est plus simple exprimer dans le cas de la variance parce quil ne dpend que de la taille de lchantillon, n, et de 2 . En effet, on montre (voir par exemple la rfrence [3]) que la moyenne des valeurs possibles s 2 de la variance de lchantillon est gale n 1 2 n Ceci se vrifie par simulation (voir [2]) : Reprenons lexemple du lancer de d. La variance des valeurs possibles est gale au carr de lcart-type : 2 = 1,712 = 2,92 . Produisons un chantillon, de petite taille pour que le biais soit apprciable, par exemple de taille n = 5. On peut lancer 5 ds mais, pour la suite, il vaut mieux simuler lexprience sur ordinateur (avec Excel, il suffit de recopier dans 5 cellules la formule =ALEA.ENTRE.BORNES(1;6)). Admettons quon ait obtenu les valeurs suivantes : 3 4 5 2 5 La variance de lchantillon est le carr de lcart-type s calcul par la formule {1} (avec Excel la fonction VAR.P, carr de la fonction ECARTYPEP) : s 2 = 1,36 Ici la variance de lchantillon sous-estime la variance 2 = 2,92 . Produisons un deuxime chantillon : 2 1 5 5 1

s 2 = 3,36 ; on surestime 2 .
Rptons cette opration un trs grand nombre de fois (avec Excel, il suffit de recopier les cellules donnant les valeurs dun chantillon et de sa variance) et calculons la moyenne des variances des chantillons. Nous observons alors un dcalage par rapport 2 : la moyenne
Revue MODULAD, 2007 - 103Numro 37

des variances des chantillons est proche de 2 (n 1) n , pour lexemple proche de


2,92 4 / 5 = 2,19 et non de 2 = 2,92 .

La moyenne des valeurs possibles de la variance tant gale 2 au facteur (n 1) n prs, on limine le biais en multipliant la variance de lchantillon par linverse de ce facteur, cest-dire par n (n 1) . On obtient ainsi la variance en n-1 , somme des carrs des carts la moyenne divise, non par n comme dans le cas de la variance s 2 , mais par n 1 :
2 sn 1 =

1 ( xi x ) 2 n 1

{2}

Remplaons la variance s 2 de nos chantillons par la variance en n-1 (fonction VAR la place de la fonction VAR.P). Nous observons que la moyenne est maintenant proche de 2 = 2,92. Notons que le biais nest pas nul quand on estime par lcart-type en n-1. Il est cependant plus faible en gnral quavec lcart-type s. 3. La racine carre du carr moyen, ou cart-type corrig 3.1. Dfinition On appelle carr moyen la variance de lchantillon (ou une composante de cette variance comme, par exemple, la variance rsiduelle de lanalyse de la variance), corrige de manire obtenir une estimation non biaise de la variance dune variable alatoire. La variance en n-1, 2 sn 1 , dfinie au paragraphe prcdent (formule {2}) est le carr moyen associ la variance de lchantillon s 2 dans le cas o on estime la variance de la variable alatoire qui a produit lchantillon (ou variance de la population). 3.2. Avantage et inconvnient de lusage du carr moyen Formules plus agrables Prenons par exemple lintervalle de confiance de la moyenne. La demie amplitude de lintervalle est gale 1,96 n (pour un niveau confiance de 95%). Dans le cas o est inconnu, la demie amplitude est gale t s n 1 , o s est lcarttype de lchantillon et o t est le fractile dordre 0,975 de la loi de Student n 1 degrs de libert. Remplaons dans la formule lcart-type s par lcart-type en n-1, s n 1 . La demie amplitude scrit t s n1

On retrouve lexpression utilise dans le cas o est connu : le fractile 1,96 de la loi de Gauss est remplac par le fractile t de la loi de Student et lcart-type est remplac par la racine carre du carr moyen, s n 1 .

Revue MODULAD, 2007

- 104-

Numro 37

mais risque de confusion Non biais ne veut pas dire prcis Revenons aux chantillons simuls au 2. Sur chacun des chantillons, calculons lerreur destimation, cest--dire la diffrence entre la variance de lchantillon et 2 . Par exemple, pour le premier chantillon, lerreur destimation est gale s 2 2 = 1,36 2,92 = -1,56. Calculons la moyenne des erreurs, les erreurs tant prises en valeurs absolues ou mises au 2 carr. Remplaons maintenant sur chaque chantillon la variance s 2 par le carr moyen s n 1 . Lerreur (absolue ou quadratique) moyenne est plus importante lorsquon utilise le carr moyen. Le carr moyen apparat galement moins prcis lorsquon compte la proportion des chantillons o lerreur dpasse une limite fixe. De quoi parle-t-on ? Un carr moyen est souvent appel variance et sa racine carre cart-type . Par exemple, les normes AFNOR [1] appellent variance et cart-type dchantillon la variance et lcart-type en n-1. 4. Conclusion Lcart-type devrait toujours tre dfini comme la moyenne quadratique des carts la moyenne {1}, aussi bien sur un chantillon que sur une variable alatoire ou une population. On ne peut appeler cart-type la racine carre dun carr moyen sans que ceci nintroduise des confusions, mme si lobjectif est de simplifier lexpression de calculs. 5. Rfrences [1] AFNOR - Statistiques Vocabulaire et symboles Partie 1 : Probabilit et termes statistiques gnraux. ISO TC 69/SC 1 N26, aot 2002. [2] Morineau A., Chatelin Y.-M. (coordinateurs) - Lanalyse statistique des donnes. Apprendre, comprendre et raliser avec Excel. Ellipses, 2005. 407 pages. [3] Saporta G. - Probabilits, analyse des donnes et statistique. 2e dition. Editions Technip, 2006. 656 pages.

Revue MODULAD, 2007

- 105-

Numro 37