Vous êtes sur la page 1sur 30

Nous avons déjà vu que lorsque nous obtenons des données, nous devons à la fois

les organiser et les représenter. Cela nous permet de les visualiser à l’aide de
tableaux ou de graphiques afin de pouvoir mieux les comprendre. Dans un second
temps, nous souhaitons résumer toutes les observations à l’aide d’un
indicateur de tendance centrale. Nous y perdons certes en information, mais
nous y gagnons en simplicité et en compréhension.

Une caractéristique centrale renseigne sur la position du « centre » de la courbe.


Elle peut être concrétisée par :

- le mode,
- la médiane,
- les moyennes.

Les caractéristiques de dispersion ont pour but de permettre d’apprécier la


dispersion (l’étalement) des valeurs observées d’une variable autour de ses
valeurs centrales.

Bien entendu, une faible dispersion des valeurs de la variable autour d’une valeur
centrale donne à cette dernière une signification plus grande que si la dispersion
est élevée.

Nous étudierons les mesures de dispersion suivantes :

- l’intervalle interquartile,
- l’écart type.

1
A. Les indicateurs de tendance centrale

1. Le mode et la médiane

Le mode est la valeur (ou la modalité) de la variable qui présente l’effectif le


plus élevé (ou la fréquence la plus élevée). Le mode permet de connaître la valeur
la plus probable de la variable.

Dans le cas de séries à caractère discret (discontinu)1, la détermination du mode


est immédiate.

Ex : Les notes obtenues par 101 étudiants à l’épreuve de statistique sont


indiquées dans le tableau ci-dessous. Le tableau comme le graphique montrent
une note modale de 11.

Notes Effectifs

7 4
8 7
9 14
10 18
11 26
12 14
13 10
14 6
15 2

Total 101

Série discontinue

30
25
20
Effectif

15
10
5
0
7 8 9 10 11 12 13 14 15
Notes

1
Les variables quantitatives discrètes ne peuvent prendre que certaines valeurs bien précises.
Ainsi la variable X « nombre de vélos défectueux dans une station de 20 vélib » est discrète car
elle n’a que 21 valeurs possibles, de 0 à 20. Les variables continues peuvent prendre une infinité
de valeurs à l’intérieur d’un intervalle. Par exemple le poids ou la taille.

2
Dans le cas d’une variable continue, nous parlons de classe modale : c’est la
classe dont l’effectif est maximal. Par simplification, on pourra considérer que le
mode de la série est égal au centre de la classe modale.

Puisque la valeur du mode dépend de l’amplitude des classes, il faut vérifier


l’égalité des intervalles de classes.

Ex : On étudie la surface (en hectares) de 86 exploitations agricoles.

xi Fréquences fi

100 à 110 8
110 à 120 22
120 à 125 18
125 à 130 20
130 à 140 12
140 à 160 6

Total 86

Á première vue, il semble que la classe modale soit comprise entre 110 et 120. En
fait, et après correction des amplitudes, c’est la classe de 120 à 130 qui
représente la classe modale avec un effectif de 38. Nous le vérifions d’ailleurs
sur l’histogramme. La valeur 125, centre de classe, peut être appelée mode.

Série continue
Nombre d'exploitations

40

30

20

10

0
100 [100,110[ [110,120[ [120,130[ [130,140[ [140,150[ [150,160[
Surface

L’intérêt du mode est évident, puisqu'il donne la valeur de la variable étudiée qui
revient le plus souvent en observation. Mais cette dernière propriété n'a de
signification que si l'effectif correspondant à la valeur modale est

3
nettement supérieur aux effectifs des autres valeurs. Prenons par exemple le
tableau suivant :

Poids (kg) 8 7 6 5
Effectif 2 3 3 4

Le mode correspond au poids de 5 kg (l’effectif est de 4) alors que les autres


poids sont bien présents même si leur effectif est légèrement moins élevé.
Choisir comme valeur centrale le mode et aboutir, comme ici, au poids le plus
léger, n’est pas une solution optimale. Enfin, s’il on veut vraiment tenir compte
de l’ensemble des données, il faudra de préférence calculer des moyennes.

La médiane est la valeur de la variable qui coupe la population étudiée en deux


groupes contenant le même nombre d’individus, les éléments de la population
étant rangés par ordre croissant ou décroissant. Comme pour le mode, on la
calcule différemment suivant que la variable est continue ou discrète.

Par exemple, soit un échantillon de 9 personnes dont le poids (variable continue


ici traitée comme une variable discrète) est :

classés par ordre croissant

Lorsque l’effectif N est impair, la médiane Me est la valeur située à la position


N 1
. La médiane est bien la valeur pour laquelle il y a autant d’individus à
2
gauche qu’à droite dans l’échantillon.

Si le nombre N d'individus est pair, on prend la moyenne entre les deux valeurs
centrales. Si on reprend notre exemple avec N = 10, l’emplacement de la médiane
N 1
correspond à = 5.5. La 5.5e valeur s’obtient en calculant la moyenne des 5e
2
et 6e valeurs. Ce qui donne :

4
C’est 59 kg qui est désigné comme médiane, une valeur qui ne figure pas dans la
série. Souvent, dans les séries discontinues, la répétition de la valeur médiane
peut empêcher celle-ci de départager en deux l’effectif total. En fait, dans
de telles séries, il n’y a pas de valeur médiane.

Lorsque la variable est continue, la répartition des observations est en classes.


On cherche donc la classe médiane et on détermine Me par interpolation linéaire.
Soit par exemple le tableau suivant :

Modalités 0-150 150-250 250-300 300-350 350-550


xi du
caractère
Effectif yi 30 25 10 15 21
Effectifs
cumulés 30 55 65 80 101
croissants

Le 51e individu (population de 101 individus) se trouvant dans la seconde classe, la


médiane doit être comprise entre 150 et 250. Ceci étant, on voit qu’il est
« plutôt plus proche » de la borne supérieure de cet intervalle, soit 250. Si on
fait l’hypothèse d’uniformité2, alors on peut calculer plus précisément la médiane.
En effet, la deuxième classe comportant 25 individus, le 21e (le 51e si on tient
compte des 30 de la classe précédente) se trouvera au 21/25 de cette classe,
soit comme la longueur de cette dernière est égale à 100, au 21/25e de 100. On
prend alors pour médiane :

21
Me  150   100  234
25

Pour conclure, un avantage de la médiane est qu’elle n’est pas influencée par des
valeurs extrêmes anormalement fortes ou faibles. Ainsi, dans la série :

1, 2, 3, 4, 5, 6, 7

la médiane vaut 4. Si on remplace le 7 par 20, la médiane reste inchangée.

2
Chacun de ces 25 colis occupe dans l’intervalle 150 à 250 un (sous-) intervalle de mesure de
(250 – 150)/25 = 4. Le 21e colis a donc un poids de : 150 + 21 × 4.

5
La médiane est une valeur centrale très significative. Savoir par exemple que la
moitié de la population a un salaire inférieur à … ou que la moitié de la population
est âgée de plus de… sont des éléments importants d’analyse. Autre avantage, la
médiane correspond à une « vraie » valeur du caractère, alors que la moyenne
ne donne qu’une valeur « théorique », n’ayant pas forcément un sens concret
direct. Toutefois, pour des statistiques plus avancées, la moyenne est préférée à
la médiane.

2. Les moyennes arithmétiques

Une moyenne est un paramètre de tendance centrale. Mais à la différence de la


médiane ou du mode, c’est un nombre dont la détermination utilise l'ensemble
des valeurs de la variable. La moyenne est souvent une grandeur abstraite qui
n'existe pas réellement. Nous étudierons ici la moyenne arithmétique.

La moyenne arithmétique est égale au quotient de la somme de toutes les valeurs


observées du caractère par l’effectif total. La plus connue est la moyenne
arithmétique simple, notée x ou m, qui consiste à faire la somme des valeurs
puis à diviser cette somme par le nombre de valeurs.

Ex : Un étudiant a obtenu aux examens les notes suivantes : 10 (maths), 14


(économie), 12 (statistique), 8 (langues). Ces notes ont toutes le même
coefficient, égal à 1. Sa moyenne est donc :

10  14  12  8
x= = 11
4

Si x désigne la moyenne arithmétique des valeurs xi de la variable :

ip

x1  x2  ...  xi  ...  xp x i
x= = i 1
(1)
N N

Sachant que N = ∑ni représente le nombre d’observations ou l’effectif total.

Supposons à présent que des coefficients différents soient affectés à chaque


note. Par exemple, coefficient 1 pour les maths, coefficient 2 pour l’économie,
coefficient 1 pour les statistiques et coefficient 3 pour les langues. Pour calculer
la moyenne, nous pourrions évidemment utiliser la formule précédente :

6
10  14  14  12  8  8  8
x= = 10.57
7

Toutefois, une telle formule est peu pratique en présence d’un grand nombre de
valeurs, d’où la moyenne arithmétique pondérée :

1  10  2  14  1  12  3  8
x= = 10.57
1213

Si certaines valeurs du caractère sont observées plusieurs fois, elles doivent


être comptées autant de fois qu’elles ont été observées. Cela revient à pondérer
chaque valeur xi du caractère par l’effectif ni qui lui correspond. On pourra alors
écrire la moyenne arithmétique pondérée de la façon suivante :

i p ip

n1 x1  n2 x2  ...  nixi  ...  np xp n x i i n x i i


x = = i1
i p
= i1
(2)
n1  n2  ...  ni  ...  np N
n
i1
i

Cette formule signifie qu’il y a p observations distinctes : x1, x2,…, xi,…, xp


sachant que x1 a été observé n1 fois,…, xp a été observé np fois. Chaque valeur
distincte du caractère est affectée d’un « poids » égal à son effectif. Ou, dit
autrement, chaque valeur xi de la variable intervient dans le calcul de la moyenne
autant de fois qu’elle a été observée.

On peut aussi exprimer la moyenne arithmétique en utilisant des fréquences. En


effet :

1 2 1 3
x= × 10 + × 14 + × 12 + × 8 = 10.57
7 7 7 7

ni
En posant = fi à partir de la formule (2), on obtient alors la formule suivante3 :
N

ip
x = f1x1 + f2x2 + … + fixi + … + fpxp =  fx
i 1
i i (3)

n x  n x  ...  n x  ...  npxp n n np n n


i i
3
x = 1 1 2 2 = 1 x1 + … + i xi + … + xp , or 1 = f1 ; 2 = f2 ;
n  n  ...  n  ...  np N N N N N
1 2 i
…, d’où la formule (3).

7
i 4
En reprenant notre exemple précédent : x =  f x = 10.57
i 1
i i

La moyenne se calcule selon la même formule dans le cas discret et dans le cas
continu, mais dans le cas d’observations regroupées en classes (rappelons que
dans le cas de séries à caractère continu, ce dernier est connu par « classe »), on
considère que tous les individus d’une classe ont exactement la même valeur
du caractère, cette valeur étant le milieu de la classe. En retenant les
centres de classe, on commet une erreur tantôt par excès, tantôt par défaut,
mais ces erreurs ayant tendance à se compenser, le résultat final est une bonne
approximation de la moyenne.

Ex : Considérons l’étude des salaires horaires de 250 salariés dans une


entreprise.

Salaires Centres de Effectifs xi ni Fréquences fi xi fi


horaires classes xi ni

[8, 8.4[ 8.2 10 82 0.04 0.328


[8.4, 8.8[ 8.6 30 258 0.12 1.032
[8.8, 9[ 8.9 60 534 0.24 2.136
[9, 9.2[ 9.1 72 655.2 0.288 2.6208
[9.2, 9.6[ 9.4 40 376 0.16 1.504
[9.6, 10.2[ 9.9 24 237.6 0.096 0.9504
[10.2, 10.9[ 10.55 14 147 0.056 0.5908

250 2 290.5 1.000 9.162

x =
 xni i

2290.5
= 9.162€
n i 250

x =  x f = 9.162€
i i

La moyenne arithmétique possède plusieurs propriétés fondamentales, en


particulier, celle suivant laquelle la somme des écarts à la moyenne est égale à 0.

(x  x)  0
i

En effet, si on note x1, x2, …, xn les n valeurs prises par le caractère xi, alors :

x x i

8
Soit ∑xi = n x  x1 + x2 + … + xn = x + x + … + x

n fois n fois

Alors [(x1 – x ) + (x2 – x ) +…+ (xn – x )] = 0

La moyenne est le nombre par lequel il faut remplacer chaque valeur particulière
si l’on veut conserver la somme de ces valeurs.

Ex : Les notes des étudiants à un examen sont 10, 14, 12 et 8.

xi xi - x
10 -1
14 +3
12 +1
8 -3

x = 10 + 14 + 12 + 8 / 4 = 44 / 4 = 11

(x  x)  -1 + 3 + 1 – 3 = 0
i

Le grand avantage de la moyenne arithmétique est son caractère très pratique


puisque elle est donnée par une formule simple. Par ailleurs elle tient compte de
tous les termes de la série. Cette dernière propriété peut toutefois présenter
certains inconvénients puisque la moyenne est influencée par des valeurs
aberrantes de la variable (valeurs exagérément faibles ou élevées). Autre
inconvénient de la moyenne arithmétique, elle ne donne qu’une valeur
« théorique », n’ayant pas forcément un sens concret direct, alors que la
médiane, par exemple, correspond à une « vraie » valeur du caractère. Par
exemple en France, actuellement, le nombre d'enfants par femme en âge de
procréer est de 1.95, chiffre qui ne correspond pas à un fait concret. Enfin, la
moyenne arithmétique ne permet pas toujours de traduire exactement le
phénomène étudié. Il est alors nécessaire de faire appel aux autres types de
moyenne comme la moyenne géométrique ou la moyenne harmonique.

9
B. Les indicateurs de dispersion

1. L’intervalle interquartile

L’intervalle interquartile est une mesure de dispersion qui correspond à la


différence du troisième et du premier quartile :

IQ = Q3 – Q1

Le plus souvent, il accompagne la médiane lorsque celle-ci est choisie comme


indicateur de tendance centrale. Il est donc particulièrement utile lorsque les
distributions sont asymétriques (courbes soit étirées vers la droite ou vers la
gauche).

Les quartiles sont des mesures de position qui partagent l’effectif total (ou la
série), organisé en ordre croissant, en quatre parties égales. C’est ainsi que 25%
des valeurs prises par la variable sont inférieures (ou égales) au premier quartile
Q1, 50% des valeurs prises par la variable sont inférieures au second quartile Q2
(qui n’est autre que la médiane), 75% des valeurs prises par la variable sont
inférieures au troisième quartile Q3.

Compte tenu de sa définition, l’intervalle interquartile englobe 50% des


effectifs de la population, ceux qui sont centrés autour de la médiane, et laisse
25% de chaque côté. Bien sûr, plus l’écart interquartile est réduit, plus la
concentration autour de la valeur centrale (ici la médiane) est forte4.

Ex : Examinons la série suivante composée de 15 valeurs rangées en ordre


croissant :

4 5 7 11 12 13 16 17 20 21 22 27 28 50 55

4
Prenons les notes d’une épreuve de statistiques allant de 0 à 20. Si l’on trouve un IQ de 2, avec
des notes entre 9 et 11 par exemple (étendue de 20 – 0 = 20), 50% des notes sont entre 9 et 11,
d’où une forte concentration des notes entre 9 et 11. Si nous avions un IQ de 10, par exemple Q 1
= 5 et Q3 = 15, soit 50% des notes entre 5 et 15, on aurait alors une faible concentration.

10
On a (n + 1)(0.25) = 4 ce qui signifie que le premier quartile est au 4 e rang.
Autrement dit Q1 = 11. Même démarche pour Q3, on a (n + 1)(0.75) = (15 +
1)(0.75) = 12, ce qui signifie que le troisième quartile est au 12e rang. Autrement
dit Q3 = 27. Nous pouvons maintenant calculer l’intervalle interquartile :

IQ = Q3 – Q1 = 27 – 11 = 16

L’écart entre la 12e observation et la 4e observation est donc égal à 16.

Que se passe-t-il lorsque Q1 et Q3 se trouvent entre deux valeurs ? La


procédure est la même que celle que nous avons utilisé pour la médiane.

Ex : Examinons la série suivante composée de 10 valeurs rangées en ordre


croissant :

13 16 17 20 21 22 27 28 50 55

On a (n + 1)(0.25) = 2.75 ce qui signifie que le premier quartile est au 2.75e rang.
On prend alors la 2e valeur (donc 16) et on ajoute les 0.75e de la différence
entre la 2e et la 3e valeur, à savoir 1. Autrement dit Q1 = 16 + (1)(0.75) = 16.75.
Quant à Q3, son emplacement est (n + 1)(0.75) = 8.25. Pour obtenir la 8.25e
valeur, on prend alors la 8e valeur (donc 28) et on ajoute les 0.25e de la
différence entre la 8e et la 9e valeur, à savoir 22. Cela donne Q3 = 28 +
(22)(0.25) = 33.5. Nous pouvons maintenant calculer l’intervalle interquartile :

IQ = Q3 – Q1 = 33.5 – 16.75 = 16.75

Pour la comparaison de séries statistiques mesurées en unités différentes, il


convient de comparer les différents écarts interquartiles relatifs, selon la
formule :

Q3  Q1
 100
Q2

L’intervalle interquartile est très utile pour exprimer la dispersion de


certains types de données, notamment lorsque ces dernières sont
hétérogènes. Cela dit, il est vrai que la moitié des données sont éliminées dans le
calcul de la mesure (les 25% de la population dont la valeur est inférieure à Q 1 et
les 25% de la population dont la valeur est supérieure à Q3) et nous souhaiterions
que plus de données (voire toutes) participent à la mesure de la dispersion.

11
On définit alors les neuf déciles qui permettent de partager la population en 10.
Le premier décile, D1, est la valeur de la variable telle que 10% des valeurs prises
par la variable, donc 10% de l’effectif total étudié lui soient inférieures, et 90%
supérieures. Et ainsi de suite. Le cinquième décile se confond évidemment avec la
valeur médiane. L’intervalle interdécile, D9-D1, comprend entre ses extrémités
80% des effectifs observés, soit plus que l’intervalle interquartile. L’intervalle
inter-décile D9-D1 est une mesure de dispersion des revenus très courante. Dans
une série de salaires, on peut prendre le salaire correspondant aux 10% les moins
payés (D1) et celui relatif aux 10% les mieux payés (D9).

Ex : Reprenons l’exemple des 250 ouvriers d’une entreprise classés d’après leur
salaire horaire.

Salaires Effectifs Fréquences Effectifs Fréquences


horaires ni fi cumulés cumulées
croissants croissantes

[8, 8.4[ 10 0.040 10 0.040


[8.4, 8.8[ 30 0.120 40 0.160
[8.8, 9[ 60 0.240 100 0.400
[9, 9.2[ 72 0.288 172 0.688
[9.2, 9.6[ 40 0.160 212 0.848
[9.6, 10.2[ 24 0.096 236 0.944
[10.2, 10.9[ 14 0.056 250 1.000

Un quart de l’effectif total possède une valeur inférieure à Q1. Q1 est donc le
salaire correspondant à la 62.5e observation (250 × 25%), les observations étant
rangées par ordre de valeurs croissantes. Il se situe dans l’intervalle [8.8, 9[.

22.5
Q1  8.8  (9  8.8)  = 8.875€
60

Q3 est la valeur du caractère tel que trois quart de l’effectif ont une valeur
inférieure à Q3. Q3 est donc le salaire correspondant à la 187.5e observation
(250 × 75%), les observations étant rangées par ordre de valeurs croissantes. Il
se situe dans l’intervalle [9.2, 9.6[.

15.5
Q3  9.2  (9.6  9.2)  = 9.355€
40

L’intervalle interquartile Q3 – Q1 est donc 9.355 – 8.875 = 0.48€. En gros, l’écart


entre le 62e salarié et le 187e salarié est donc égal à 0.48€. Dans la distribution
considérée, cet intervalle de 0.48€ englobe 50% des effectifs étudiés.

12
D’où le polygone cumulatif croissant suivant :

Effectifs cumulés croissants

300

250
Effectifs cumulés

200
187,5

150

100
62,5 Q1 Q3
Me
50

0
8 8,4 8,8 8,88 9 9,07 9,2 9,36 9,6 10,2 10,9
Salaires horaires

Un dixième de la population a un caractère inférieur à D1. D1 est donc le salaire


du 25e salarié (250 × 10%), les observations étant rangées par ordre de valeurs
croissantes. Il se situe dans l’intervalle [8.4, 8.8[.

15
D1  8.4  (8.8  8.4)  = 8.6€
30

D9 est le salaire du 225e salarié (250 × 90%), les observations étant rangées par
ordre de valeurs croissantes. Il se situe dans l’intervalle [9.6, 10.2[.

13
D9  9.6  (10.2  9.6)  = 9.925€
24

L’intervalle inter-décile : D9-D1 = 9.925 – 8.6 = 1.325€

Cet intervalle comprend entre ses extrémités 80% des effectifs observés, ceux
dont les valeurs de x (ici le salaire horaire) sont les moins différentes de la
médiane. On exclut alors de la distribution les 10% des valeurs les plus faibles et
les 10% des valeurs les plus fortes. Le rapport D9/D1 vaut 1.15, ce qui signifie que
les 10% des salariés les mieux rémunérés perçoivent un salaire supérieur à 1.15
fois le salaire maximal des 10% des salariés les moins bien rémunérés. La
population étudiée est donc plutôt regroupée.

13
2. La variance et l’écart-type

Nous abordons à présent la mesure de dispersion la plus utilisée en statistique. Il


s’agit de la variance et de sa racine. On définit la variance comme la moyenne
arithmétique des carrés des écarts des valeurs xi de la variable à leur moyenne
notée x . Pour N observations x1,…, xN :

 x  x
2
i
σ 2

N

Le problème de la variance est que ses unités sont les unités de x au carré. Par
exemple, si x représente la taille en cm, la variance sera exprimée en cm2, si x
est exprimée en euros ou en pourcentages (des taux de rentabilités par
exemple), la variance sera calculée en élevant au carré des euros ou des
pourcentages. Des euros ou des pourcentages au carré n'ont pas de signification
concrète. C'est pourquoi nous ne faisons pas suivre la valeur de la variance d’une
unité. Et c’est pourquoi on calcule un écart-type. L’écart-type, mesuré par σ, est
la racine carrée de la variance. Il est donc exprimé dans la même unité que la
variable étudiée.

Pour N observations, l’écart-type se calcule de la façon suivante :

 x  x
2
i
σ
N

Intuitivement, l’écart-type calcule la dispersion moyenne des valeurs par rapport


à la moyenne x . L’écart-type sera d’autant plus grand que la série sera
dispersée, donc que les données sont éloignées de la moyenne x . Il ne sera nul
que si toutes les observations sont égales.

Ex : Soit les 6 valeurs suivantes, la moyenne étant 9 (54/6) :

xi xi - x (xi - x )2
3 -6 36
5 -4 16
8 -1 1
11 2 4
12 3 9
15 6 36
54 Total 102

14
6

 x  x
2
i
102
σ2  i 1
= = 17 ⇒ σ = 17 = 4.12 (dispersion plutôt élevée)
N 6

En supposant que ces valeurs soient des notes obtenues lors d’un contrôle de
statistique, un écart-type faible signifie que les étudiants ont dans l’ensemble
une note proche de la moyenne, donc que leurs notes se ressemblent. À la limite,
un écart-type nul signifie que tous les étudiants ont la même note.

Il est possible d’avoir une expression plus commode de la formule de la variance,


appelée formule développée de la variance :

x 2


2
σ2  i
 x
N

La variance est définie comme la différence entre la moyenne des carrés et le


carré de la moyenne. L’écart-type sera ensuite calculé par la racine du résultat
obtenu.

Ex : Calculons l’écart type de la série observée : 4, 7, 11, 12. La moyenne vaut :

4  7  11  12
x= = 8.5
4

Soit le tableau suivant :

xi 4 7 11 12 Total
(xi)2 16 49 121 144 330

330
V (X) = - (8.5)2 = 10.25  σ (X) = 10.25 = 3.2
4

Le calcul de l’écart-type pour les séries pondérées n’est pas fondamentalement


différent des calculs précédents : les écarts à la moyenne doivent être comptés
autant de fois qu’ils apparaissent dans la série.

 x  x  n
2

ou σ 2   xi  x  fi
i i 2
σ 2

n i

 x  x n
2
i i
σ
n i

15
Pour la formule développée :

x n i
2
i
2
σ2  i
x
n i

σ2 = ∑(xi2fi) – x

Enfin si la série est à caractère continu, comme pour le calcul de la moyenne, on


prend pour valeur du caractère de chaque classe le centre de chaque classe, et
on lui affecte comme pondération l’effectif de la classe.

Ex : Nous reprenons une fois de plus l’étude des salaires horaires de 250 salariés
d’une entreprise.

On connaît la moyenne, calculée au chapitre précédent, x = 9.162€

Salaires Centres de Effectifs xi2 xi2 ni


horaires classes xi ni

[8, 8.4[ 8.2 10 67.24 672.4


[8.4, 8.8[ 8.6 30 73.96 2 218.8
[8.8, 9[ 8.9 60 79.21 4 752.6
[9, 9.2[ 9.1 72 82.81 5 962.32
[9.2, 9.6[ 9.4 40 88.36 3 534.4
[9.6, 10.2[ 9.9 24 98.01 2 352.24
[10.2, 10.9[ 10.55 14 111.3025 1 558.235

250 21 050.995

x n i
2
i
2 21 050.995
Variance = i
x   (9.162)2 = 0.261736
n i
250

σ= 0.2618 = 0.51€

L’écart-type est intéressant en ce sens qu’il tient compte de toutes les données
de la série. Par contre, il est très sensible aux valeurs extrêmes. Par exemple la
suite 1 14 15 16 30 a pour moyenne 15.20 et un écart type de 9.20. La suite
suivante 13 14 15 16 17 a presque la même moyenne (15) mais a un écart-type
beaucoup plus bas (1.41). Nous remarquons donc que le 1 et le 30 dans la première
suite ont un impact important, certains diraient disproportionné, sur l’écart-type.
Avant de faire appel à l’écart-type, mieux vaut s’assurer que la distribution des
valeurs est symétrique ou proche de la symétrie.

16
3. Le coefficient de variation

S’il est possible de comparer à l’aide de l’écart type la variabilité de deux


séries ayant sensiblement la même moyenne, il en va tout autrement lorsque les
séries ont des moyennes très différentes. C’est pourquoi on utilise le coefficient
de dispersion relative.

On appelle dispersion relative le rapport entre une valeur de dispersion de la


série et une valeur centrale de cette même série. Valeur de dispersion et valeur
centrale étant mesurées dans la même unité de mesure, celle du caractère, leur
rapport est un nombre sans dimension, c.-à-d. sans unité. De telles mesures,
comme le coefficient de variation, sont pratiques pour comparer deux
distributions.

σ
Coefficient de variation =  100%
x

Par exemple, la distribution des salaires annuels d’un groupe de pompiers peut
avoir un écart type de 400€, tandis que l’écart type de la distribution des
salaires d’un groupe de plombiers peut être de 800€. Peut-on en conclure que la
distribution ayant un écart type de 800€ a une variabilité deux fois plus grande
que celle ayant un écart type de 400€ ? Si la moyenne des salaires annuels des
pompiers est de 10 000€, alors le coefficient de variation est de 4%. Si la
moyenne des salaires des plombiers est 22 000€ alors le coefficient de variation
est de 3.64%. D’où la conclusion que la distribution des salaires annuels des
plombiers a une dispersion relative inférieure.

Le second intérêt du coefficient de variation est de permettre la comparaison


de deux écarts-types associés à des unités différentes. Peut-on dire que la
dispersion des salaires est plus importante en France (salaires et donc écart-
type des salaires mesurés en euros) ou aux États-Unis (salaires mesurés en
dollars) ? Si l’on compare le poids des éléphants et des souris, peut-on dire que la
distribution ayant un écart type de 5 tonnes est plus dispersée que celle ayant
un écart type de 100 g ? D’où l’intérêt du coefficient de variation.

En finance, la méthode de calcul de la volatilité, c.-à-d. de l’ampleur des


variations des cours d’un actif financier repose en partie sur le concept d’écart-
type. Évidemment, l’écart-type des cours est largement dépendant du niveau des
cours puisque l’écart-type est souvent fonction de l’ordre de grandeur de la
moyenne. Aussi le CV se révèle-t-il plus pertinent.

17
4. Principales propriétés de la variance et de l’écart-type

Propriétés de la variance

Var (x + k) = Var (x)


Var (ax + b) = a2 var (x)

Propriétés de l’écart-type

σ (αX + β) =  σ (x)
σ (αX - β) =  σ (x)

18
C. Applications

▪ Déterminez le mode et la médiane de la série suivante :

5, 6, 6, 7, 7, 7, 8, 9, 10, 13, 17

Qu’en concluez-vous ?

Le mode, qui est la valeur la plus fréquente, est 7.

La médiane est la valeur du caractère qui partage en deux groupes égaux


l’effectif total. Ici, il y a 11 valeurs. La médiane est donc la 6e car il y en a 5 qui
lui sont inférieures et 5 qui lui sont supérieures. On devrait ici dire que la
médiane étant la 6e valeur vaut 7. Néanmoins, il y a 3 valeurs inférieures à 7 et 5
qui lui sont supérieures. La répétition de la valeur pouvant être la médiane
empêche son existence. Cette série ne comporte pas réellement de valeur
médiane. Ce cas est fréquent dans les séries discontinues.

▪ La statistique suivante a été relevée concernant le règlement des clients :

Délai de règlement 5 jours 6 jours 7 jours 8 jours Total


Nombre de clients 26 38 44 15 123

Déterminer le mode et la médiane de la série.

La durée de règlement la plus fréquente est Mo = 7 jours.

Dans la statistique précédente, le cumul croissant du nombre de clients donne :

Délai de règlement 5 jours 6 jours 7 jours 8 jours


Cumul nombre de clients 26 64 108 123

Le rang de la médiane est 62 (123 + 1 / 2), ce qui correspond à une médiane égale
à 6 jours.

▪ Après un examen de statistique passé par 50 étudiants, on obtient le tableau


des notes suivant :

19
Calculer la moyenne en utilisant les effectifs et les fréquences.

Calculons la moyenne en utilisant les effectifs :

i 9

n x i i
550
x = i 1
= = 11
N 50

Calculons la moyenne en utilisant les fréquences :

i 9
x =  f x = 11
i 1
i i

20
▪ Soit le tableau suivant qui donne la répartition des 250 salariés d’une
entreprise d’après leur salaire horaire. a) Déterminer la médiane de façon
analytique. b) Déterminez la médiane de façon graphique.

Salaires Effectifs Fréquences Effectifs Fréquences


horaires ni fi cumulés cumulées
croissants croissantes

[8, 8.4[ 10 0.040 10 0.040


[8.4, 8.8[ 30 0.120 40 0.160
[8.8, 9[ 60 0.240 100 0.400
[9, 9.2[ 72 0.288 172 0.688
[9.2, 9.6[ 40 0.160 212 0.848
[9.6, 10.2[ 24 0.096 236 0.944
[10.2, 10.9[ 14 0.056 250 1.000

a) Détermination analytique

Par la colonne des effectifs cumulés croissants, on voit que :


- 100 ouvriers ont un salaire inférieur à 9€ ;
- 172 ouvriers ont un salaire inférieur à 9.2€.

Or, nous cherchons le salaire du 125e ouvrier (effectif total/2), c.-à-d. celui tel
qu’il y ait 50% des ouvriers avec un salaire inférieur et 50% des ouvriers avec un
salaire supérieur. Le nombre 125 étant compris entre 100 et 172, le salaire
médian, celui du 125e ouvrier, est compris entre 9€ et 9.2€.

Pour connaître la valeur du salaire médian, nous allons procéder à une


interpolation linéaire à l’intérieur de la classe [9, 9.2[. Formulons l’hypothèse que
les salaires des 172 – 100 = 72 personnes qui gagnent au moins 9€ et moins de
9.2€ se répartissent uniformément sur l’intervalle 9 à 9.2. Chacune de ces 72
personnes occupe dans l’intervalle 9 à 9.2 un (sous-) intervalle de mesure :

9.2  9 0.2
 € ≈ 0.00278€
72 72

Le 125e salarié, compté depuis le début du tableau, occupe dans cet intervalle, le
rang 125 – 100 = 25 ; il est le 25e à l’intérieur de la classe 9-9.2 (qui compte 72
employés), puisque il y a 100 ouvriers qui gagnent moins de 9€. Le salarié en
question reçoit donc un salaire horaire égal à :

21
 0.2 
9  25 = 9 + 0.07 = 9.07€
 72 

Nous retiendrons 9.07€ comme salaire médian des 250 salariés. Autrement dit,
50% des salaires sont inférieurs à 9.07€ et 50% des salaires sont supérieurs à
9.07€. En réalité, l’effectif total étant pair, la médiane est le salaire situé entre
le salaire du 125e et le salaire du 126e salarié. Ainsi, si le 126e salarié est le 26e
de la classe 9-9.2, son salaire serait alors de :

 0.2 
9  26 = 9.073€
 72 

9.07  9.073
Le salaire médian serait alors = 9.0715€
2

Vu le peu de différence, on se contente d’un unique calcul la plupart des cas.

b) Détermination graphique

Cherchons à présent la valeur médiane en utilisant le polygone cumulatif. La


médiane aura pour ordonnée une fréquence relative de 50% soit F (Me) = 0.5.
L’effectif 125 serait remplacé par 50% si on utilisait en ordonnées l’axe des
fréquences cumulées. Pour 50% de la population, la valeur du caractère est
supérieure à Me et pour 50% de la population, la valeur du caractère est
inférieure à Me.

Polygone cumulatif croissant

300
Effectifs cumulés

250 236 250


200 212
172
150
125
100 100
50 40
0 0 10
8 8,4 8,8 9 9,07 9,2 9,6 10,2 10,9
Salaires horaires

22
▪ Soit la répartition du salaire horaire de 20 ouvriers d’une entreprise :

Salaire (€/h) Effectif

De 20 à moins de 30 4
De 30 à moins de 40 7
De 40 à moins de 50 5
Plus de 50 4

Sachant que le salaire moyen est de 40.5€, déterminer la borne supérieure de la


classe « plus de 50 ».

Le centre de classe est connu pour toutes les classes sauf la dernière. Pour
celle-ci, appelons x le centre de classe.

Salaire Centre de classe Effectif ni ni.xi


xi

[20,30[ 25 4 100
[30,40[ 35 7 245
[40,50[ 45 5 225
Plus de 50 x 4 4x
20 570 + 4x

570  4x
x  40.5
20

570 + 4x = 810  x = 60

Finalement, y étant la borne supérieure de la dernière classe, x étant le centre


50  y
d’une classe [50, y[, on a  60 , la borne supérieure vaut donc 70€.
2

● On a prélevé un échantillon de 5 nouveau-nés qu’on a mesurés. La série


statistique des longueurs (cm) obtenues est :

53, 47, 51, 49, 50

Calculer la variance et l’écart-type. Que constatez-vous ?

Avant de calculer la variance, il faut d’abord trouver la moyenne de cette série :

23
5

x x1  x2  x3  x4  x5 53  47  51  49  50
i
x= i 1
= =
N N 5
= 50 cm

La longueur moyenne de ces nouveau-nés est de 50 cm. La variance est :

 x  x
2

x1  50  x2  50  x3  50  x4  50  x5  50
i 2 2 2 2 2
σ 
2 i1
=
N 5
53  50   47  50   51  50   49  50   50  50 
2 2 2 2 2
=
5
= 4 cm2

La variance est donc de 4 cm2.

On constate que la variance ne s’exprime pas dans les mêmes unités que la
variable. Ainsi lorsque des données sont exprimées en centimètres, alors la
variance est exprimée en cm2. Afin d’exprimer la dispersion dans les mêmes
unités que la variable, on définit l’écart type.

σ (X) = 4 cm2 = 2 cm

● Calculez la variance des données obtenues à partir d’un échantillon de 126


étudiants.

Rappelons que pour calculer la variance, il faut au préalable calculer la moyenne.

Calculons la moyenne :
24
i6

n x i i
n1 x1  n2x2  n3x3  n4 x4  n5 x5  n6x6
x = i 1
=
N n1  n2  n3  n4  n5  n6
0  70  1  31  2  15  3  6  4  3  5  1
=
126
= 0.76 échec

Calculons la variance :

 x  x  n
2
i i
σ  2 i1
N

x1  0.76 2  n1  x 2  0.76 2  n2  x 3  0.76 2  n3  x 4  0.76 2  n4  x 5  0.76 2  n5  x 6  0.76 2  n6



126

2 2 2 2 2 2

0  0.76   70  1  0.76   31  2  0.76   15  3  0.76   6  4  0.76   3  5  0.76   1
126

≈ 1.15 échec2

● Prix d’un poisson rouge en Francs à Paris

6.5 F 19.5 F 33 F

Prix d’un poisson rouge en euros à Paris

1€ 3€ 5€

a) Comparer la dispersion des deux séries. Qu’en concluez-vous ?


b) Quel est l’intérêt du coefficient de variation ?

a) Comparaison

Première série :

6.5  19.5  33
x1   19.7 F
3

25
(6.5  19.7)2  (19.5  19.7)2  (33  19.7)2
σ1   10.8 F
3

Seconde série :

x2  3€

σ2  1.63 €

On constate, malgré les différences de variances que les deux distributions ont
le même coefficient de variation, c.-à-d. 0.54. La valeur de l’écart type
correspond donc à 54% de la valeur de la moyenne.

b) Intérêt du coefficient de variation

Le CV étant un nombre pur (n’a pas d’unité comme le mètre, le kg ou des euros), il
pourra servir à comparer la variabilité de deux séries qui ont des moyennes très
différentes ou qui ne sont pas mesurées dans les mêmes unités. Plus il est faible,
plus la série est homogène, plus il est élevé, plus la série est hétérogène. Pour
être considérée comme homogène, une série statistique doit présenter un CV
inférieur à 15%.

● Imaginons une entreprise nouvellement cotée et dont les cours mensuels ont
été les suivants depuis sa première cotation en Bourse :

26
Calculer la moyenne, la variance et l'écart type passés de la rentabilité de ce
titre.

Ici nous disposons de tous les cours depuis le début de la cotation.

Si N est le nombre d'observations (nombre de mois, semestres, trimestres,


années...) alors :

1 n
Moyenne de x = x = x
N i=1 i

Moyenne observée (passée) de la population = 6.8965/12 = 0.575. La rentabilité


moyenne passée est donc de 0.575%. Á noter qu’il y a 13 cours de sorte qu’on
calcule 12 rentabilités.

1 n 

2
Variance = moyenne des carrés – carré de la moyenne =   xi2  - x
 N i=1 

Variance observée de la population = (69.86/12) – (0.575)2 = 5.491

Écart-type observé = 5.491 = 2.34%

● La répartition des salaires mensuels d’une entreprise de 18 personnes est


fournie par le tableau ci-dessous :

27
Salaires annuels (en milliers Effectifs ni
d’euros)

[1000, 1500[ 6
[1500, 2000[ 8
[2000, 2500[ 3
[2500, 3000[ 1
18

a) Déterminez l’intervalle interquartile par le calcul.


b) Déterminez l’intervalle interquartile graphiquement.

a) Intervalle interquartile par le calcul

Salaires annuels (en Effectifs ni ECC Fréquences FCC


milliers d’euros)

[1000, 1500[ 6 6 0.33 0.33


[1500, 2000[ 8 14 0.44 0.77
[2000, 2500[ 3 17 0.17 0.94
[2500, 3000[ 1 18 0.06 1

Un quart de l’effectif total possède un caractère inférieur à Q 1. Q1 est donc le


salaire correspondant à la 4.5e observation (18×25%), les observations étant
rangées par ordre de valeurs croissantes. Il se situe dans l’intervalle [1000,
1500[.

4.5
Q1  1000  (1500  1000) = 1000 + 375 = 1 375€
6

Q3 est la valeur du caractère tel que trois quart de l’effectif ont un caractère
inférieur à Q3. Q3 est donc le salaire correspondant au 13.5e rang (18×75%), les
observations étant rangées par ordre de valeurs croissantes. Il se situe dans
l’intervalle [1500, 2000[.

7.5
Q3  1500  (2000  1500)  = 1 968.75€
8

L’intervalle interquartile Q3 – Q1 est donc 1 968.75 – 1 375 = 593.75€. En gros,


l’écart entre le 4e salarié et le 13e salarié est donc égal à 594€. Dans la

28
distribution considérée, cet intervalle de 594€ englobe 50% des effectifs
étudiés.

b) Intervalle interquartile par le graphique

● On considère deux candidats X et Y à un concours comportant 5 disciplines A,


B, C, D et E. Leurs résultats (notes sur 20) sont fournis par le tableau ci-
dessous :

A B C D E
X 5 14 7 12 12
Y 15 12 16 4 8

Portez un jugement au regard de leur moyenne et de l’homogénéité de leurs


résultats.

Pour le candidat X :
Total
Notes xi 5 14 7 12 12 50
xi- x -5 4 -3 2 2
(xi- x )2 25 16 9 4 4 58

50 58
Moyenne = = 10 ; Variance = = 11.6 ⇒ σ = 11.6 = 3.40
5 5

3.4
CV = = 34%
10

29
Pour le candidat Y :
Total
Notes xi 15 12 16 4 8 55
xi- x 4 1 5 -7 -3
(xi- x )2 16 1 25 49 9 100

55 100
Moyenne = = 11 ; Variance = = 20 ⇒ σ = 20 = 4.47
5 5

4.47
CV = = 40%
11

Le candidat Y a certes une moyenne supérieure à celle de X mais il a une


distribution de ses résultats nettement plus dispersée, aussi bien de façon
absolue que de façon relative. Son « profil » est moins homogène en dépit du fait
que sa moyenne soit plus élevée.

30

Vous aimerez peut-être aussi