Vous êtes sur la page 1sur 9

Visitez "eboik.com" pour + de cours...

Chapitre III : Caractéristiques de dispersion

Chapitre III : Caractéristiques de dispersion

I. Introduction
Les caractéristiques de tendance centrale vues précédemment ne nous permettent pas de faire la
différence entre deux séries statistiques.
En effet, deux séries peuvent avoir la même moyenne arithmétique et la même médiane sans
qu’elles soient identiques.
On introduit, alors, autres caractéristiques dites de dispersion qui estiment dans quelle mesure
les observations s’écartent les unes des autres ou de leur valeur centrale.
Les caractéristiques de dispersion sont :

 les Quantiles,
 la Variance,
 l’Écart-type,
 le coefficient de variation,
 et les moments.
II. Étendue d’une série statistique
L’Étendue ou l’Intervalle de Variation est la différence entre la valeur la plus faible et la
valeur la plus élevée d’une série statistique.
Exemple 1 :
On considère les salaires des employés de deux entreprises A et B :
Pour A : 700, 720, 750, 800, 900, 1000, 1150
Pour B : 20, 100, 200, 800, 1300, 1600, 2000.

On a X A  X B  860 et Mé A  Mé B  800 ,

Même si les moyennes arithmétiques et les médianes de ces deux séries statistiques sont
identiques, on ne peut conclure qu’elles sont identiques car l’information sur le
groupement/l’écart (la dispersion) des éléments des séries n’est pas encore disponible.
Calculons maintenant l’étendue pour ces deux entreprises :
 Pour A, l’étendue est de 𝟒𝟓𝟎 = 1150 − 700
 Pour B, l’étendue est de 𝟏𝟗𝟖𝟎 = 2000 − 20
La dispersion des salaires est donc plus forte chez l’entreprise B que l’entreprise A.
Exemple 2 :
On considère deux populations :
𝑃 = {6 ; 8 ; 10 ; 12 ; 14}, 𝑃 = {2 ; 6 ; 10 ; 14 ; 18}
on a : 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 10 et 𝑀é(𝑋 ) = 𝑀é(𝑋 ) = 10.

FSJES -Tétouan 42 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

Mais les modalités des individus qui les composent ne sont pas réparties de la même manière
autour de la valeur centrale 10. On dit que les séries 1 et 2 n’ont pas la même dispersion ; la
Série 2 est plus dispersée que la Série 1. Donc il est nécessaire pour comparer deux populations
de considérer à la fois leurs valeurs centrales et leurs dispersions.
Exemple 3 :
Sur 1000 employés d’une entreprise, l’étendue de l’âge est de 11 ans (49 ans – 38 ans), il suffit
qu’un jeune employé (sur 1000) de 18 ans soit embouché pour que l’étendue passe à 31 ans (49
ans – 18 ans)!
On voit donc que l’étendue est une manière très simpliste de mesurer la dispersion.
III. Quantiles d’une série statistique
Les quantiles sont les valeurs de la variable statistique qui partagent la distribution en "𝑛"
parties composées du même effectif " N ".
n
Exemple :
La médiane est un quantile qui partage la distribution en « 2 » parties composées du même
effectif « N ».
2
Remarque :
Les quantiles en eux-mêmes sont des caractéristiques de position (non centrale), tandis que
l’intervalle mesurant l’écart entre deux quantiles et une caractéristique de dispersion.
Pour la détermination des quantiles, on suppose que les valeurs de la série statistique sont
classées dans un ordre croissant ou décroissant.
1) Les quartiles
a) Notion de quartile
Les quartiles sont les trois valeurs que l’on note 𝑄 , 𝑄 de 𝑄 de la variable statistique qui
partagent la distribution en "4" parties composées du même effectif " N ".
4
𝑁 𝑁 𝑁 𝑁
4 4 4 4
25% 50% 75% 100%
𝑁 2𝑁 𝑁 3𝑁 4𝑁
= =𝑁
4 4 2 4 4

Remarque :
N
Il y a i observations à gauche (inférieurs à) de 𝑄 , 𝑖 = 1 ; 2 ; 3
4 𝑵 𝑵 𝟑𝑵
𝟒 𝟐 𝟒

𝑸𝟏 𝑸𝟐 𝑸𝟑

b) L’intervalle interquartile
L’intervalle interquartile est la différence entre 𝑄 et 𝑄 c.à.d. 𝑄 − 𝑄 ; il contient 50% des
valeurs de la variable présentés par la moitié centrale des effectifs observés.
Cet intervalle élimine l’influence des valeurs extrêmes.

FSJES -Tétouan 43 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

c) La dérivation quartile ou le semi-interquartile


Q 3  Q1
La dérivation quartile ou le semi-interquartile est égale à
2
d) L’écart interquartile relatif
Pour comparer la dispersion entre deux séries statistiques ayant des unités différentes ou dont
l’ordre de grandeur n’est pas le même, on utilise l’écart interquartile relatif donnée par :
Q 3  Q1
Q2

2) Les déciles
Les déciles sont les 9 valeurs 𝐷 , 𝐷 , …, 𝐷 et 𝐷 de la variable statistique qui partagent la
N N
distribution en "10" parties composées du même effectif « » et qui ont, donc, i
10 10
observations inférieures à chaque 𝐷 , avec 𝑖 = 1 ; 2 ; … ; 9.
𝑵 𝑫𝟓 = 𝑴é = 𝑸𝟐
𝟏𝟎
𝟏𝟎% 𝑫𝟏 𝑫𝟐 𝑫𝟗
𝟓𝟎%

3) Les percentiles :
Les percentiles sont les 99 valeurs 𝑃 ; 𝑃 ; … ; 𝑃 et 𝑃 de la variable statistique qui partagent
N
la distribution en "100" parties composées du même effectif « N » ayant, donc, i
100 100
observations inférieures à chaque 𝑃 𝑃𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 ∈ {1 ; 2 ; … ; 99}.
50%
2%
1% 1%
𝑵 𝑷𝟏 𝑵 𝑷𝟐 𝑷𝟗𝟗
𝟏𝟎𝟎
𝑷𝟓𝟎 = 𝑴é = 𝑸𝟐
𝟏𝟎𝟎

Remarque :
N
Le calcul des quantiles est pareil à celui de la médiane, en changeant la fréquence (nombre
2
N
d’observations inférieures à la médiane) par i (nombre d’observations inférieures au
n
i
quantile d’ordre cherché).
n
Exemple 1 : (cas de la variable discrète "pondérée")
Calculer les percentiles 55 et 75 de la série statistique suivante :

𝑥 𝑛 𝑛 𝑐𝑐
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75

FSJES -Tétouan 44 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

20 25 100
𝑁 = 100
N 100
1) On a :  55   55  55
100 100
Alors, on va chercher ce 55 entre les 𝑛 𝑐𝑐
Puis, on trouve 55 n’existe pas exactement parmi les 𝑛 𝑐𝑐 mais 60 est la 1ère valeur qui
dépasse la valeur 55 ;
Alors, on a : 𝑃 = 10
N 100
2) On a :  75   75  75
100 100
Ainsi qu’on trouve la valeur 75 parmi les 𝑛 𝑐𝑐
11  20
Donc P75   15,5
2
Exemple 2 : (cas de la variable continue)
Calculons les déciles troisième et septième de la distribution statistique suivante :

[𝒆𝒊 𝟏 , 𝒆𝒊 [ 𝑛 𝑛 𝑐𝑐

[0, 10[ 4 4

[10, 30[ 8 12 *

[30, 35[ 13 25

[35, 80[ 5 30**

[80,100[ 3 33

[100, 150[ 7 40

𝑁 = 40

Cherchons la valeur 𝑫𝟑 :
N 40
On a :  3   3  12
10 10
cette valeur apparaît parmi les 𝑛 𝑐𝑐 dans le tableau*, alors on prend 𝐷 = 𝑒
C’est-à-dire 𝐷 = 30.

Cherchons la valeur 𝑫𝟕 :
N 40
On a :  7   7  28
10 10

FSJES -Tétouan 45 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

Cette valeur, 28, ne se trouve pas parmi les 𝑛 𝑐𝑐 dans le tableau et 30 est la 1ère valeur qui la
N
7  n i 1cc
dépasse, pour calculer 𝐷 on applique alors la formule : D 7  e i 1  10 ai
ni

Remarque : Qui vient de la formule générale de ième quantile d’ordre 𝑛:


N
i  n i 1cc
D 7  e i 1  n ai
ni

On a : [e i 1 ;e i [ donc : 𝑛 = 5 ; 𝑛 𝑐𝑐 = 30 ; 𝑛 𝑐𝑐 = 25 ; 𝑎 = 𝑒 − 𝑒 = 45 et 𝑒 = 35

N 40
7  n i 1cc 7   25
10 28  25
Alors D 7  e i 1  ai  35  10  45  35   45  62
ni 5 5

IV. Boîte de Tuckey ou diagramme de Box & Wiskers


Considérons le diagramme en boîte ci-dessous, qui est la version la plus simple de la boîte de
Tuckey, appliquée à la variable statistique 𝑋.

Une droite graduée

Fig7: Boîte de Tuckey ou diagramme de Box & Wiskers

On distingue sur ce schéma la « boîte de Tuckey » qui est le rectangle limité par le premier
quartile 𝑄 et le troisième 𝑄 en traçant aussi le 2ème quartile 𝑄 tous sur une droite graduée
(voir par exemple Fig7).
Exemple 1 : (cas de variable discrète "pondérée")
Calculons les quartiles 𝑄 , 𝑄 et 𝑄 de la série statistique suivante :

𝒙𝒊 𝒏𝒊 𝒏𝒊 𝒄𝒄
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75
20 25 100
𝑁 = 100

FSJES -Tétouan 46 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

N 100
1) On a : 1   25
4 4
On cherche cette valeur 25 parmi les 𝑛 𝑐𝑐.
Cette valeur 25 n’existe pas parmi les 𝑛 𝑐𝑐
La 1ère valeur qui dépasse 25 c’est 40
Ainsi, 𝑄 = 8
N 100
2) On a : 2   50
4 2
On cherche 50 parmi les 𝑛 𝑐𝑐,
Elle n’existe pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui dépasse 50 c’est 60
Alors 𝑄 = 𝑀é = 40.
N 300
3) On a : 3   75
4 4
On cherche 75 parmi les 𝑛 𝑐𝑐,
La valeur 75 existe parmi les 𝑛 𝑐𝑐 donc 𝑥 = 11 et 𝑥 = 20
Alors 𝑄 = = = 15,5.

Exemple 2 : (cas de variable continue)


Calculons 𝑄 , 𝑄 et 𝑄 de la distribution statistique suivante :

[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊 𝒏𝒊 𝒄𝒄
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[35, 80[ 5 30**
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40

Calculons 𝑸𝟏
N 40
On a : 1   10
4 4
La valeur 10 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 12. D’où, on prend
N
 1  n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q1  e i 1  4 ai
ni
40
1  4
Donc Q1  10  4  20  25
8
Calculons 𝑸𝟐
N 40
On a :  2   2  20
4 4

FSJES -Tétouan 47 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

La valeur 20 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 25. D’où, on prend
N
 2  n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q 2  e i 1  4 ai
ni
40
 2  12
Donc Q 2  30  4  5 ; 33, 077
13
Calculons 𝑸𝟑
N 40
On a :  3   3  30
4 4
La valeur 30 existe parmi les 𝑛 𝑐𝑐 D’où, on prend [𝑒 ; 𝑒 [ = [35; 80[, puis on applique la
formule : Q 3  e i
Donc Q 3  80
Boîte de Tuckey ou diagramme de Box & Wiskers

L’intervalle interquartile = 𝑄 − 𝑄 = 80 − 25 = 55
Q  Q1 55
La dérivation quartile ou le semi-interquartile est : 3   27,5
2 2
Q  Q1 55
L’écart interquartile relatif est : 3   1, 66
Q2 33, 08
V. Variance et écart type d’une série statistique
1) Notion de variance
La variance d’une variable statistique 𝑋 que l’on note 𝑉𝑎𝑟(𝑋) (ou 𝑉(𝑋)) est la moyenne
arithmétique des carrés des écarts des valeurs de la variable à leur moyenne arithmétique :
k k
1
V ( X ) V ar ( X ) 
N
 n (x
i 1
i i  x )2   f i (x i  x )2
i 1

Simplification de calcul de variance :


k
 k 
V (X ) V ar (X )   f i (x i  x ) 2    x i2f i   2x 2  x 2
i 1  i 1 
 k   1 k 
   x i2 f i   x 2    n i  x i2   x 2  x 2  x 2
 i 1   N i 1 

2) Changement d’origine de calcul de variance


On pose x 'i  x i  x i o donc x i  x i  x io
alors x  x ' x i o

FSJES -Tétouan 48 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

Ledit changement d’origine affecte la variance de la forme suivante :


k k k
V ( X )   (x i  x ) 2 f i   ((x i  x i o )  (x   x io ))2 f i   (x i  x io ) 2 f i V ( X  )
i 1 i 1 i 1
Donc le changement d’origine n’affecte pas la valeur de la variance.

3) Écart-type d’une série statistique


L’écart-type d’une variable statistique 𝑋 que l’on note (𝑋) est la racine carrée de la variance
1 k k
de 𝑋 :  (X )  V (X )  V ar (X )   i i
N i 1
n ( x  x ) 2
 
i 1
f i (x i  x ) 2

𝜎(𝑋) est donc la moyenne quadratique des écarts à la moyenne arithmétique.


Exemple :
Calculer la variance par la formule non-simplifiée et par la formule simplifiée, pour la série
suivante :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊
[0, 10[ 1
[10, 20[ 2
[20, 30[ 3
[30, 40[ 4
𝑁 = 10
D’abord, on doit préparer le tableau des valeurs permettant le calcul des paramètres demandés :

[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊 𝒄𝒊 𝒄𝟐𝒊 𝒏𝒊 𝒄𝒊 𝒄𝒊 − 𝒙 (𝒄𝒊 − 𝒙)𝟐 𝒏𝒊 (𝒄𝒊 − 𝒙)𝟐 𝒏𝒊 𝒄𝟐𝒊


[0, 10[ 1 5 25 5 -20 400 400 25
[10, 20[ 2 15 225 30 -10 100 200 450
[20, 30[ 3 25 625 75 0 0 0 1875
[30, 40[ 4 35 1225 140 10 100 400 4900
𝑵 = 𝟏𝟎 250 1000 7250

Donc :
k
1 1
 La moyenne de cette série statistique est : x 
i 1 10 N
n c
 250  25 i i 

1 k 1
Formule non-simplifiée de la variance : V ar  X    n i c i  x    1000  100
2

N i 1 10
 1 k  1 
 Formule simplifiée de la variance : V ar (X )    n i c i2   x 2    7250   252  100
 N i 1   10 
 D’où, l’écart-type est :  X  V ar ( X )  100  10
VI. Coefficient de variation
Le coefficient de variation est égal au rapport de l’écart-type à la moyenne et il est présenté
sous forme de nombre abstrait sans dimension et indépendant des unités de mesure :
 (X )
CV 
x

FSJES -Tétouan 49 Pr. Hamid EL AMRANI


Visitez "eboik.com" pour + de cours...
Chapitre III : Caractéristiques de dispersion

Le coefficient de variation permet de donner une idée sur l’amplitude de variation en


comparant l’écart-type et la moyenne.
 (X )
Ce rapport est généralement exprimé en pourcentage : CV  100 .
x
Plus le coefficient de variation est petit, plus la série est homogène. D’une manière générale,
la population étudiée est considérée homogène lorsque le CV  30% .
Pour l’exemple précédent :
 (X ) 10
Le coefficient de variation : CV    0, 4  40% .
x 25
Soit donc un coefficient de variation de 40% supérieur à 30%
Et par la suite, la série étudiée est non-homogène !

FSJES -Tétouan 50 Pr. Hamid EL AMRANI

Vous aimerez peut-être aussi