Académique Documents
Professionnel Documents
Culture Documents
les organiser et les représenter. Cela nous permet de les visualiser à l’aide de
tableaux ou de graphiques afin de pouvoir mieux les comprendre. Dans un second
temps, nous souhaitons résumer toutes les observations à l’aide d’un
indicateur de tendance centrale. Nous y perdons certes en information, mais
nous y gagnons en simplicité et en compréhension.
- le mode,
- la médiane,
- les moyennes.
Bien entendu, une faible dispersion des valeurs de la variable autour d’une valeur
centrale donne à cette dernière une signification plus grande que si la dispersion
est élevée.
- l’intervalle interquartile,
- l’écart type.
1
A. Les indicateurs de tendance centrale
1. Le mode et la médiane
Notes Effectifs
7 4
8 7
9 14
10 18
11 26
12 14
13 10
14 6
15 2
Total 101
Série discontinue
30
25
20
Effectif
15
10
5
0
7 8 9 10 11 12 13 14 15
Notes
1
Les variables quantitatives discrètes ne peuvent prendre que certaines valeurs bien précises.
Ainsi la variable X « nombre de vélos défectueux dans une station de 20 vélib » est discrète car
elle n’a que 21 valeurs possibles, de 0 à 20. Les variables continues peuvent prendre une infinité
de valeurs à l’intérieur d’un intervalle. Par exemple le poids ou la taille.
2
Dans le cas d’une variable continue, nous parlons de classe modale : c’est la
classe dont l’effectif est maximal. Par simplification, on pourra considérer que le
mode de la série est égal au centre de la classe modale.
xi Fréquences fi
100 à 110 8
110 à 120 22
120 à 125 18
125 à 130 20
130 à 140 12
140 à 160 6
Total 86
Á première vue, il semble que la classe modale soit comprise entre 110 et 120. En
fait, et après correction des amplitudes, c’est la classe de 120 à 130 qui
représente la classe modale avec un effectif de 38. Nous le vérifions d’ailleurs
sur l’histogramme. La valeur 125, centre de classe, peut être appelée mode.
Série continue
Nombre d'exploitations
40
30
20
10
0
100 [100,110[ [110,120[ [120,130[ [130,140[ [140,150[ [150,160[
Surface
L’intérêt du mode est évident, puisqu'il donne la valeur de la variable étudiée qui
revient le plus souvent en observation. Mais cette dernière propriété n'a de
signification que si l'effectif correspondant à la valeur modale est
3
nettement supérieur aux effectifs des autres valeurs. Prenons par exemple le
tableau suivant :
Poids (kg) 8 7 6 5
Effectif 2 3 3 4
Si le nombre N d'individus est pair, on prend la moyenne entre les deux valeurs
centrales. Si on reprend notre exemple avec N = 10, l’emplacement de la médiane
N 1
correspond à = 5.5. La 5.5e valeur s’obtient en calculant la moyenne des 5e
2
et 6e valeurs. Ce qui donne :
4
C’est 59 kg qui est désigné comme médiane, une valeur qui ne figure pas dans la
série. Souvent, dans les séries discontinues, la répétition de la valeur médiane
peut empêcher celle-ci de départager en deux l’effectif total. En fait, dans
de telles séries, il n’y a pas de valeur médiane.
21
Me 150 100 234
25
Pour conclure, un avantage de la médiane est qu’elle n’est pas influencée par des
valeurs extrêmes anormalement fortes ou faibles. Ainsi, dans la série :
1, 2, 3, 4, 5, 6, 7
2
Chacun de ces 25 colis occupe dans l’intervalle 150 à 250 un (sous-) intervalle de mesure de
(250 – 150)/25 = 4. Le 21e colis a donc un poids de : 150 + 21 × 4.
5
La médiane est une valeur centrale très significative. Savoir par exemple que la
moitié de la population a un salaire inférieur à … ou que la moitié de la population
est âgée de plus de… sont des éléments importants d’analyse. Autre avantage, la
médiane correspond à une « vraie » valeur du caractère, alors que la moyenne
ne donne qu’une valeur « théorique », n’ayant pas forcément un sens concret
direct. Toutefois, pour des statistiques plus avancées, la moyenne est préférée à
la médiane.
10 14 12 8
x= = 11
4
ip
x1 x2 ... xi ... xp x i
x= = i 1
(1)
N N
6
10 14 14 12 8 8 8
x= = 10.57
7
Toutefois, une telle formule est peu pratique en présence d’un grand nombre de
valeurs, d’où la moyenne arithmétique pondérée :
1 10 2 14 1 12 3 8
x= = 10.57
1213
i p ip
1 2 1 3
x= × 10 + × 14 + × 12 + × 8 = 10.57
7 7 7 7
ni
En posant = fi à partir de la formule (2), on obtient alors la formule suivante3 :
N
ip
x = f1x1 + f2x2 + … + fixi + … + fpxp = fx
i 1
i i (3)
7
i 4
En reprenant notre exemple précédent : x = f x = 10.57
i 1
i i
La moyenne se calcule selon la même formule dans le cas discret et dans le cas
continu, mais dans le cas d’observations regroupées en classes (rappelons que
dans le cas de séries à caractère continu, ce dernier est connu par « classe »), on
considère que tous les individus d’une classe ont exactement la même valeur
du caractère, cette valeur étant le milieu de la classe. En retenant les
centres de classe, on commet une erreur tantôt par excès, tantôt par défaut,
mais ces erreurs ayant tendance à se compenser, le résultat final est une bonne
approximation de la moyenne.
x =
xni i
2290.5
= 9.162€
n i 250
x = x f = 9.162€
i i
(x x) 0
i
En effet, si on note x1, x2, …, xn les n valeurs prises par le caractère xi, alors :
x x i
8
Soit ∑xi = n x x1 + x2 + … + xn = x + x + … + x
n fois n fois
La moyenne est le nombre par lequel il faut remplacer chaque valeur particulière
si l’on veut conserver la somme de ces valeurs.
xi xi - x
10 -1
14 +3
12 +1
8 -3
x = 10 + 14 + 12 + 8 / 4 = 44 / 4 = 11
(x x) -1 + 3 + 1 – 3 = 0
i
9
B. Les indicateurs de dispersion
1. L’intervalle interquartile
IQ = Q3 – Q1
Les quartiles sont des mesures de position qui partagent l’effectif total (ou la
série), organisé en ordre croissant, en quatre parties égales. C’est ainsi que 25%
des valeurs prises par la variable sont inférieures (ou égales) au premier quartile
Q1, 50% des valeurs prises par la variable sont inférieures au second quartile Q2
(qui n’est autre que la médiane), 75% des valeurs prises par la variable sont
inférieures au troisième quartile Q3.
4 5 7 11 12 13 16 17 20 21 22 27 28 50 55
4
Prenons les notes d’une épreuve de statistiques allant de 0 à 20. Si l’on trouve un IQ de 2, avec
des notes entre 9 et 11 par exemple (étendue de 20 – 0 = 20), 50% des notes sont entre 9 et 11,
d’où une forte concentration des notes entre 9 et 11. Si nous avions un IQ de 10, par exemple Q 1
= 5 et Q3 = 15, soit 50% des notes entre 5 et 15, on aurait alors une faible concentration.
10
On a (n + 1)(0.25) = 4 ce qui signifie que le premier quartile est au 4 e rang.
Autrement dit Q1 = 11. Même démarche pour Q3, on a (n + 1)(0.75) = (15 +
1)(0.75) = 12, ce qui signifie que le troisième quartile est au 12e rang. Autrement
dit Q3 = 27. Nous pouvons maintenant calculer l’intervalle interquartile :
IQ = Q3 – Q1 = 27 – 11 = 16
13 16 17 20 21 22 27 28 50 55
On a (n + 1)(0.25) = 2.75 ce qui signifie que le premier quartile est au 2.75e rang.
On prend alors la 2e valeur (donc 16) et on ajoute les 0.75e de la différence
entre la 2e et la 3e valeur, à savoir 1. Autrement dit Q1 = 16 + (1)(0.75) = 16.75.
Quant à Q3, son emplacement est (n + 1)(0.75) = 8.25. Pour obtenir la 8.25e
valeur, on prend alors la 8e valeur (donc 28) et on ajoute les 0.25e de la
différence entre la 8e et la 9e valeur, à savoir 22. Cela donne Q3 = 28 +
(22)(0.25) = 33.5. Nous pouvons maintenant calculer l’intervalle interquartile :
Q3 Q1
100
Q2
11
On définit alors les neuf déciles qui permettent de partager la population en 10.
Le premier décile, D1, est la valeur de la variable telle que 10% des valeurs prises
par la variable, donc 10% de l’effectif total étudié lui soient inférieures, et 90%
supérieures. Et ainsi de suite. Le cinquième décile se confond évidemment avec la
valeur médiane. L’intervalle interdécile, D9-D1, comprend entre ses extrémités
80% des effectifs observés, soit plus que l’intervalle interquartile. L’intervalle
inter-décile D9-D1 est une mesure de dispersion des revenus très courante. Dans
une série de salaires, on peut prendre le salaire correspondant aux 10% les moins
payés (D1) et celui relatif aux 10% les mieux payés (D9).
Ex : Reprenons l’exemple des 250 ouvriers d’une entreprise classés d’après leur
salaire horaire.
Un quart de l’effectif total possède une valeur inférieure à Q1. Q1 est donc le
salaire correspondant à la 62.5e observation (250 × 25%), les observations étant
rangées par ordre de valeurs croissantes. Il se situe dans l’intervalle [8.8, 9[.
22.5
Q1 8.8 (9 8.8) = 8.875€
60
Q3 est la valeur du caractère tel que trois quart de l’effectif ont une valeur
inférieure à Q3. Q3 est donc le salaire correspondant à la 187.5e observation
(250 × 75%), les observations étant rangées par ordre de valeurs croissantes. Il
se situe dans l’intervalle [9.2, 9.6[.
15.5
Q3 9.2 (9.6 9.2) = 9.355€
40
12
D’où le polygone cumulatif croissant suivant :
300
250
Effectifs cumulés
200
187,5
150
100
62,5 Q1 Q3
Me
50
0
8 8,4 8,8 8,88 9 9,07 9,2 9,36 9,6 10,2 10,9
Salaires horaires
15
D1 8.4 (8.8 8.4) = 8.6€
30
D9 est le salaire du 225e salarié (250 × 90%), les observations étant rangées par
ordre de valeurs croissantes. Il se situe dans l’intervalle [9.6, 10.2[.
13
D9 9.6 (10.2 9.6) = 9.925€
24
Cet intervalle comprend entre ses extrémités 80% des effectifs observés, ceux
dont les valeurs de x (ici le salaire horaire) sont les moins différentes de la
médiane. On exclut alors de la distribution les 10% des valeurs les plus faibles et
les 10% des valeurs les plus fortes. Le rapport D9/D1 vaut 1.15, ce qui signifie que
les 10% des salariés les mieux rémunérés perçoivent un salaire supérieur à 1.15
fois le salaire maximal des 10% des salariés les moins bien rémunérés. La
population étudiée est donc plutôt regroupée.
13
2. La variance et l’écart-type
x x
2
i
σ 2
N
Le problème de la variance est que ses unités sont les unités de x au carré. Par
exemple, si x représente la taille en cm, la variance sera exprimée en cm2, si x
est exprimée en euros ou en pourcentages (des taux de rentabilités par
exemple), la variance sera calculée en élevant au carré des euros ou des
pourcentages. Des euros ou des pourcentages au carré n'ont pas de signification
concrète. C'est pourquoi nous ne faisons pas suivre la valeur de la variance d’une
unité. Et c’est pourquoi on calcule un écart-type. L’écart-type, mesuré par σ, est
la racine carrée de la variance. Il est donc exprimé dans la même unité que la
variable étudiée.
x x
2
i
σ
N
xi xi - x (xi - x )2
3 -6 36
5 -4 16
8 -1 1
11 2 4
12 3 9
15 6 36
54 Total 102
14
6
x x
2
i
102
σ2 i 1
= = 17 ⇒ σ = 17 = 4.12 (dispersion plutôt élevée)
N 6
En supposant que ces valeurs soient des notes obtenues lors d’un contrôle de
statistique, un écart-type faible signifie que les étudiants ont dans l’ensemble
une note proche de la moyenne, donc que leurs notes se ressemblent. À la limite,
un écart-type nul signifie que tous les étudiants ont la même note.
x 2
2
σ2 i
x
N
4 7 11 12
x= = 8.5
4
xi 4 7 11 12 Total
(xi)2 16 49 121 144 330
330
V (X) = - (8.5)2 = 10.25 σ (X) = 10.25 = 3.2
4
x x n
2
ou σ 2 xi x fi
i i 2
σ 2
n i
x x n
2
i i
σ
n i
15
Pour la formule développée :
x n i
2
i
2
σ2 i
x
n i
σ2 = ∑(xi2fi) – x
Ex : Nous reprenons une fois de plus l’étude des salaires horaires de 250 salariés
d’une entreprise.
250 21 050.995
x n i
2
i
2 21 050.995
Variance = i
x (9.162)2 = 0.261736
n i
250
σ= 0.2618 = 0.51€
L’écart-type est intéressant en ce sens qu’il tient compte de toutes les données
de la série. Par contre, il est très sensible aux valeurs extrêmes. Par exemple la
suite 1 14 15 16 30 a pour moyenne 15.20 et un écart type de 9.20. La suite
suivante 13 14 15 16 17 a presque la même moyenne (15) mais a un écart-type
beaucoup plus bas (1.41). Nous remarquons donc que le 1 et le 30 dans la première
suite ont un impact important, certains diraient disproportionné, sur l’écart-type.
Avant de faire appel à l’écart-type, mieux vaut s’assurer que la distribution des
valeurs est symétrique ou proche de la symétrie.
16
3. Le coefficient de variation
σ
Coefficient de variation = 100%
x
Par exemple, la distribution des salaires annuels d’un groupe de pompiers peut
avoir un écart type de 400€, tandis que l’écart type de la distribution des
salaires d’un groupe de plombiers peut être de 800€. Peut-on en conclure que la
distribution ayant un écart type de 800€ a une variabilité deux fois plus grande
que celle ayant un écart type de 400€ ? Si la moyenne des salaires annuels des
pompiers est de 10 000€, alors le coefficient de variation est de 4%. Si la
moyenne des salaires des plombiers est 22 000€ alors le coefficient de variation
est de 3.64%. D’où la conclusion que la distribution des salaires annuels des
plombiers a une dispersion relative inférieure.
17
4. Principales propriétés de la variance et de l’écart-type
Propriétés de la variance
Propriétés de l’écart-type
σ (αX + β) = σ (x)
σ (αX - β) = σ (x)
18
C. Applications
5, 6, 6, 7, 7, 7, 8, 9, 10, 13, 17
Qu’en concluez-vous ?
Le rang de la médiane est 62 (123 + 1 / 2), ce qui correspond à une médiane égale
à 6 jours.
19
Calculer la moyenne en utilisant les effectifs et les fréquences.
i 9
n x i i
550
x = i 1
= = 11
N 50
i 9
x = f x = 11
i 1
i i
20
▪ Soit le tableau suivant qui donne la répartition des 250 salariés d’une
entreprise d’après leur salaire horaire. a) Déterminer la médiane de façon
analytique. b) Déterminez la médiane de façon graphique.
a) Détermination analytique
Or, nous cherchons le salaire du 125e ouvrier (effectif total/2), c.-à-d. celui tel
qu’il y ait 50% des ouvriers avec un salaire inférieur et 50% des ouvriers avec un
salaire supérieur. Le nombre 125 étant compris entre 100 et 172, le salaire
médian, celui du 125e ouvrier, est compris entre 9€ et 9.2€.
9.2 9 0.2
€ ≈ 0.00278€
72 72
Le 125e salarié, compté depuis le début du tableau, occupe dans cet intervalle, le
rang 125 – 100 = 25 ; il est le 25e à l’intérieur de la classe 9-9.2 (qui compte 72
employés), puisque il y a 100 ouvriers qui gagnent moins de 9€. Le salarié en
question reçoit donc un salaire horaire égal à :
21
0.2
9 25 = 9 + 0.07 = 9.07€
72
Nous retiendrons 9.07€ comme salaire médian des 250 salariés. Autrement dit,
50% des salaires sont inférieurs à 9.07€ et 50% des salaires sont supérieurs à
9.07€. En réalité, l’effectif total étant pair, la médiane est le salaire situé entre
le salaire du 125e et le salaire du 126e salarié. Ainsi, si le 126e salarié est le 26e
de la classe 9-9.2, son salaire serait alors de :
0.2
9 26 = 9.073€
72
9.07 9.073
Le salaire médian serait alors = 9.0715€
2
b) Détermination graphique
300
Effectifs cumulés
22
▪ Soit la répartition du salaire horaire de 20 ouvriers d’une entreprise :
De 20 à moins de 30 4
De 30 à moins de 40 7
De 40 à moins de 50 5
Plus de 50 4
Le centre de classe est connu pour toutes les classes sauf la dernière. Pour
celle-ci, appelons x le centre de classe.
[20,30[ 25 4 100
[30,40[ 35 7 245
[40,50[ 45 5 225
Plus de 50 x 4 4x
20 570 + 4x
570 4x
x 40.5
20
570 + 4x = 810 x = 60
23
5
x x1 x2 x3 x4 x5 53 47 51 49 50
i
x= i 1
= =
N N 5
= 50 cm
x x
2
x1 50 x2 50 x3 50 x4 50 x5 50
i 2 2 2 2 2
σ
2 i1
=
N 5
53 50 47 50 51 50 49 50 50 50
2 2 2 2 2
=
5
= 4 cm2
On constate que la variance ne s’exprime pas dans les mêmes unités que la
variable. Ainsi lorsque des données sont exprimées en centimètres, alors la
variance est exprimée en cm2. Afin d’exprimer la dispersion dans les mêmes
unités que la variable, on définit l’écart type.
σ (X) = 4 cm2 = 2 cm
Calculons la moyenne :
24
i6
n x i i
n1 x1 n2x2 n3x3 n4 x4 n5 x5 n6x6
x = i 1
=
N n1 n2 n3 n4 n5 n6
0 70 1 31 2 15 3 6 4 3 5 1
=
126
= 0.76 échec
Calculons la variance :
x x n
2
i i
σ 2 i1
N
2 2 2 2 2 2
0 0.76 70 1 0.76 31 2 0.76 15 3 0.76 6 4 0.76 3 5 0.76 1
126
≈ 1.15 échec2
6.5 F 19.5 F 33 F
1€ 3€ 5€
a) Comparaison
Première série :
6.5 19.5 33
x1 19.7 F
3
25
(6.5 19.7)2 (19.5 19.7)2 (33 19.7)2
σ1 10.8 F
3
Seconde série :
x2 3€
σ2 1.63 €
On constate, malgré les différences de variances que les deux distributions ont
le même coefficient de variation, c.-à-d. 0.54. La valeur de l’écart type
correspond donc à 54% de la valeur de la moyenne.
Le CV étant un nombre pur (n’a pas d’unité comme le mètre, le kg ou des euros), il
pourra servir à comparer la variabilité de deux séries qui ont des moyennes très
différentes ou qui ne sont pas mesurées dans les mêmes unités. Plus il est faible,
plus la série est homogène, plus il est élevé, plus la série est hétérogène. Pour
être considérée comme homogène, une série statistique doit présenter un CV
inférieur à 15%.
● Imaginons une entreprise nouvellement cotée et dont les cours mensuels ont
été les suivants depuis sa première cotation en Bourse :
26
Calculer la moyenne, la variance et l'écart type passés de la rentabilité de ce
titre.
1 n
Moyenne de x = x = x
N i=1 i
1 n
2
Variance = moyenne des carrés – carré de la moyenne = xi2 - x
N i=1
27
Salaires annuels (en milliers Effectifs ni
d’euros)
[1000, 1500[ 6
[1500, 2000[ 8
[2000, 2500[ 3
[2500, 3000[ 1
18
4.5
Q1 1000 (1500 1000) = 1000 + 375 = 1 375€
6
Q3 est la valeur du caractère tel que trois quart de l’effectif ont un caractère
inférieur à Q3. Q3 est donc le salaire correspondant au 13.5e rang (18×75%), les
observations étant rangées par ordre de valeurs croissantes. Il se situe dans
l’intervalle [1500, 2000[.
7.5
Q3 1500 (2000 1500) = 1 968.75€
8
28
distribution considérée, cet intervalle de 594€ englobe 50% des effectifs
étudiés.
A B C D E
X 5 14 7 12 12
Y 15 12 16 4 8
Pour le candidat X :
Total
Notes xi 5 14 7 12 12 50
xi- x -5 4 -3 2 2
(xi- x )2 25 16 9 4 4 58
50 58
Moyenne = = 10 ; Variance = = 11.6 ⇒ σ = 11.6 = 3.40
5 5
3.4
CV = = 34%
10
29
Pour le candidat Y :
Total
Notes xi 15 12 16 4 8 55
xi- x 4 1 5 -7 -3
(xi- x )2 16 1 25 49 9 100
55 100
Moyenne = = 11 ; Variance = = 20 ⇒ σ = 20 = 4.47
5 5
4.47
CV = = 40%
11
30