Vous êtes sur la page 1sur 4

STATISTIQUE

I. Diagrammes en bote
La moyenne et la mdiane sont des mesures de tendance centrale dune srie statistique. Ltendue mesure sa dispersion. Pour tudier la rpartition des valeurs dune srie, on dfinit les quartiles et un nouvel outil graphique : le diagramme en bote. 1) Les quartiles On dispose dune srie statistique (xi) deffectif n dont les donnes sont ranges dans lordre croissant. x1 x2 xn titre dexemple, considrons les notes obtenues, ranges dans lordre croissant, par la classe au premier contrle de mathmatique : Rang Note Rang Note Rang Note 1 6 14 9,5 27 13 2 6,5 15 10 28 13 3 7 16 10 29 13,5 4 7,5 17 11 30 14 5 7,5 18 11 31 14,5 6 8 7 8 9 10 8,25 8,75 8,75 8,75 11 9 12 9 13 9 26 13

Pratiquement, le troisime quartile Q3 est la valeur de la srie xi dont lindice est le plus petit entier suprieur 3n. 4 Reprenons lexemple prcdent : comme 35 0,75 = 26,25, le troisime quartile est la 27e valeur de la srie, soit 13. 2) Le diagramme en bote Les deux quartiles, Q1, Q3 et la mdiane dune srie statistique, associs aux valeurs extrmes de la srie (minimum et maximum), permettent dapprhender certaines caractristiques de la rpartition des donnes. On les reprsente laide dun diagramme bote (box plot in english, ou encore bote moustaches aussi en franais).

Min

Me

Max

19 20 21 22 23 24 25 11,5 11,5 12,5 12,5 12,5 12,8 12,8 32 15 33 34 35 15,3 17,8 19,8

Q1

Q3

La mdiane de cette srie de notes est la 18e note, soit 11 : au moins 50 % des notes sont au dessus de 11, et au moins 50 % au dessous. La moyenne est de 11,15. Premier quartile Le premier quartile, not Q1, est la plus petite valeur xi suprieure au gale au moins 25% des donnes. Cest donc, contrairement la mdiane, une valeur de la srie. Pratiquement, le premier quartile Q1 est la valeur de la srie xi dont lindice est le plus petit entier suprieur n. 4 Reprenons lexemple prcdent : comme 35 0,25 = 8,75, le premier quartile est la 9e valeur de la srie, soit 8,75. Deuxime quartile : cest la mdiane, ici 11. Troisime quartile Le troisime quartile, not Q3, est la plus petite valeur xi suprieure au gale au moins 75% des donnes. Cest une valeur de la srie.

3) Intervalle interquartile, cart interquartile Lintervalle interquartile est lintervalle [Q1 ; Q3]. Lcart interquartile est lintervalle Q3 Q1. Dans notre exemple de rfrence, lintervalle interquartile est lintervalle [8,75 ; 13] : remarquons quil contient environ 50 % des valeurs de la srie. Lcart interquartile est donc de 13 8,75 = 4,25. Plus il est grand, plus la srie prend des valeurs tendue : cest une mesure de ce que lon appelle en statistique la dispersion de la dispersion de la srie. La description de la srie par le couple mdiane-cart interquartile est robuste aux variations des valeurs extrmes : si on remplace la note minimale 6 par 0, et la maximale par 20 (ou plus ), ni la mdiane, ni lcart interquartile ne seront modifis. 4) Dciles De la mme faon, on peut dfinir les neufs dciles de la srie qui partagent la srie en dix parties, par tranche de 10 %. On utilise les dciles sur des sries statistiques deffectif suffisamment grands. Le premier dcile D1 est la plus petite valeur xi suprieure ou gale au moins 10 % des donnes.

Le neuvime dcile D9 est la plus petite valeur de la srie suprieure ou gale au moins 90 % des donnes. Exemple dutilisation par exemple sur la rpartition des salaires en France en 2005 pour les hommes et pour lels femmes ?
Dciles de revenu salarial sur l'ensemble du champ salarial
en 2005 en euros courants

Exemple Rpartition de 10 notes obtenues par un lve en franais : Note Effectif 6 1 9 1 10 2 11 1 12 2 13 1 16 2

La moyenne est : On peut alors complter le tableau suivant : Valeurs xi Effectif ni xi - x ( xi - x )2 ni ( xi - x )2

Hommes Femmes Dcile 1me dcile (D1) 2 094 1 320 2me dcile (D2) 6 277 3 885 3me dcile (D3) 11 491 7 415 4me dcile (D4) 14 314 10 885 Mdiane (D5) 16 430 13 382 6me dcile (D6) 18 725 15 526 7me dcile (D7) 21 686 18 039 8me dcile (D8) 26 252 21 356 9me dcile (D9) 35 230 26 785 D9/D1 16,8 20,3 D9/D5 2,1 2,0 D5/D1 7,8 10,1 Champ : tous salaris Source : Insee, DADS et fichiers de paie des agents de l'Etat, exploitation au 1/23

II. Variance et cart-type


1) Variance et cart-type La dispersion dune srie statistique peut tre mesure par les fluctuations des valeurs de la srie autour de la moyenne, cest--dire par les diffrences xi - x . Plus prcisment, la variance dune srie statistique est la moyenne des carrs des carts la moyenne de la srie statistique. Autrement dit : 1 p 2 ni ( xi - x ) n i =1 Cest donc la moyenne de la srie des ( xi - x ) .
2

La variance est donc V(X) Lcart type est : s La variance, et lcart-type, dcrivent les fluctuations des valeurs de la srie autour de la moyenne x : en dautres termes, plus les valeurs de la srie sont loignes de la moyenne, plus les xi - x seront importants, et plus la variance, et donc lcart-type, seront grands. 2) Une autre formule La variance est galement donne par la formule : 1 p ni xi 2 - x 2 . n i =1

Lcart-type est la racine carre de la variance : s = V . Remarquons que lcart-type sexprime, comme la moyenne, dans la mme unit que lunit de la srie statistique tudie (par exemple des cm si on tudie des tailles). Un tableur, ou les listes de la calculatrice, sont tout fait adapts ce calcul. Le tableur ou la calculatrice dispose aussi de fonctions statistiques, qui permettent le calcul direct de la moyenne et de la variance dune srie.

La mise en uvre du calcul est alors un peu plus simple car la moyenne nintervient quune seul fois dans le deuxime terme de ce calcul. Remarque : on rsume donc une srie statistique par un paramtre de position, et un paramtre de dispersion comme : la moyenne et lcart-type, la mdiane et lcart interquartile. Le couple moyenne et cart-type est plus sensible aux valeurs extrmes de la srie que le couple mdiane et intervalle interquartile.

III. Sries chronologiques


1) Quest-ce quune srie chronologique ? Lorsquon relve les valeurs dune variable certains intervalles de temps (heures, jours, mois, etc.), on obtient une srie chronologique.

2)Lissage dune srie chronologique par moyennes mobiles On appelle moyenne mobile centre dordre 3, la date i, la moyenne arithmtique des valeurs xi -1 , xi et xi +1 . Un tel calcul nest possible, ni pour la premire valeur de la srie, ni pour la dernire. On peut aussi dfinir des moyennes mobiles centres dordre 5, 7, etc. Lisser une srie chronologique par les moyennes mobiles dordre 3 revient remplacer les valeurs xi par la moyenne mobile qui correspond.

Reprsenter une srie statistique par un histogramme On utilise lhistogramme pour reprsenter un caractre quantitatif continu (pour un caractre discret, on utilise le diagramme en btons). Les donnes sont donc regroupes en classe souvent de la forme [a ; b[. Ce que lon appelle lamplitude de la classe est alors la longueur de lintervalle [a ; b[, soit b a. Dans un histogramme, laire dun rectangle (cest--dire ce que lon peroit visuellement) est proportionnelle leffectif de la classe reprsente. Deux cas sont alors envisager : si les classes choisies ont mme amplitude (cest le plus frquent), comme la largeur des rectangles est la mme pour toutes les classes, il suffit que la hauteur des rectangles soit proportionnelle leffectif de la classe pour que laire le soit aussi. Ci-dessous lexemple de lhistogramme de la taille des lves dune classe de 6e.

125

130

135

140

145

150

155

160

165

si les classes nont pas mme amplitude, il faut veiller ce que laire dun rectangle soit proportionnelle leffectif correspondant. Le plus simple est de calculer pour chaque classe sa densit deffectif, qui est le quotient effectif de la classe . amplitude de la classe La hauteur des rectangles est alors proportionnelle cette densit. ni ni n ( = khi veut bien dire que = i = k ). bi - ai (bi - ai ) hi Ai