Vous êtes sur la page 1sur 9

Statistiques Descriptives

Chapitre 4 : La dispersion dans les Distributions à un caractère

Bien que les mesures de tendance centrale donnent des perspectives différentes du centre d’un
ensemble de données : une description de données n’est pas complète si on ne connait pas
également la variabilité de la distribution.
On a mesuré des tendances centrales mais on a besoin également de connaître la dispersion de
la série pour avoir une meilleure idée sur la distribution.
Pourquoi cela ?

Exemple illustratif :

Les salaires moyens dans le privé et le public sont équivalents. Mais, dans le privé il y a une
proportion non négligeable qui gagne bien plus que la moyenne et une autre proportion qui
gagne bien moins que la moyenne. Dans le public, en revanche, les salaires sont concentrés
autour de la moyenne.

f
Public

Privé

Morale : on ne peut pas avoir une idée de la distribution avec seulement la moyenne. Une
mesure supplémentaire sur la dispersion autour de cette moyenne doit aussi être donnée.

Tout comme il existe plusieurs valeurs centrales (mode, moyenne, médiane), il existe aussi
plusieurs mesures de dispersion

4.1- Etendue d’une série

Définition : C’est la différence entre la plus grande et la plus petite valeur de la série. C’est
une mesure permettant d’avoir une idée de grandeur sur l’étendue de la dispersion.
Limite : En présence de valeurs aberrantes elle ne rend compte que de manière très
imparfaite de l’étendue.

Exemple : Dans une série de salaires dans une entreprise, il existe un individu ayant travaillé
en intérim pendant deux jours et donc obtenu un salaire très petit en fin de mois au regard des
autres salaires. Il est alors considéré comme le salaire le plus petit (ou minimum) de la série !

Si on calcule l’étendue de la série (salaire max- salaire min) on arrive à une très forte
dispersion ‘apparente’ par cette mesure alors qu’il aurait fallut exclure cet individu du reste de
la série pour calculer une étendue plus représentative de la série.

Page 1
Statistiques Descriptives
4.2- Les intervalles interquantiles

Définition : Les intervalles inter-quantiles (Q3-Q1 ; D9-D1) présentent une mesure


alternative qui a l’intérêt de ne pas tenir compte des valeurs max ou min pouvant être
aberrantes.

Voir tracé en moustache vu précédemment en cours.

Exemple :
Dans une série de salaire on peut prendre le salaire correspondant aux 10% les moins payés
(D1) et celui relatif aux 10% les mieux payés (D9) . Une mesure de dispersion serait
l’intervalle inter-décile : D9-D1

On aurait pu considérer l’intervalle interquartile (Q3-Q1) comme mesure alternative de


dispersion également.

Limite : Avant de calculer des intervalles inter-quantiles, on mesure les quantiles eux
mêmes. Mais, on sait que ces mesures ne sont pas très précises quand on les calcule par voie
graphique ou par le théorème de Thales.
Donc, calculer des intervalles comme fonctions de deux valeurs imprécises peut nous exposer
à d’autant plus d’imprécision.
On connait cependant les limites de ces mesures et, notamment lorsque la variable est une
variable discrète.

Dispersion : distance moyenne à x :


1 1 1
N i
∑ ni d i= ∑ n i ( xi −x)= ∑ ni x i−x ∑ ni=x −x=0
N i N i i

( x i−x ) : + ou - : se composent


1
∑ n ( x −x ): ‖x i−x‖ écart absolu moyen
N i i i
( x i−x ) ²  : variante et écart type

4.3- Ecart absolu moyen

Définition : l’écart absolu moyen est la moyenne arithmétique des écarts par rapport à la
tendance centrale, exprimée en valeur absolue.
1
E x=
n
∑ ni‖x i− x‖
Eclaircissement :

Pour une observation i, Ecart par rapport à la tendance centrale : (


x i−x ), avec x
la moyenne (elle peut être aussi la médiane)

Pourquoi écart absolu 


‖x −x‖
i  ? C’est une mesure de distance en mathématique (valeur
observée –valeur moyenne en absolue). Ce qui compte c’est l’écart et non pas le signe de cet
écart.

Page 2
Statistiques Descriptives
Exemple : Imaginons qu’une moyenne est de –1. L’écart d’une observation -3, par rapport à
la moyenne est : |-3-(-1)|=|-2|=2. Un écart c’est, par essence, une valeur absolue.

Aussi, si on fait la moyenne des écarts ( i


x −x
) sans prendre les valeurs absolues alors cette
moyenne sera de 0. Car il va y avoir des valeurs négatives (inférieurs à la moyenne) et des
valeurs positives (supérieurs à la moyenne) qui vont s’équilibrer.

( )
1 1 1 nx
∑ ni ( xi −x)= (∑ n i x i −n x )= ∑ ni x i−n ∑ in i =0
n n n ⏟
Démonstration : 0

D’où l’utilité de faire une moyenne de valeurs absolues des différences à la moyenne
(écarts)
4.4- Variance et écart-type

Définitions :
La variance V ( x ) et l’écart-type σ =√ V (x) sont les mesures de la dispersion les plus
couramment
1/ La variance est la moyenne des écarts (par rapport à la moyenne) au carrés
1
V ( x )= ∑ n ( x −x )2
n i i i

2/ Comme le calcul de la variance se fait à partir des carrés des écarts, les unités de mesure ne
sont pas les mêmes que celles des observations originales. La racine carrée de la variance
nous donne les unités utilisées dans l’échelle originale.
L’écart-type est la Racine carrée de la variance ou encore, la moyenne quadratique des écarts
(à la moyenne)

( )
1/2
1
2
σ == V ( x )1/2= √ V ( x ) ∑ n ( x −x )2
n i i i

Interprétation : Il s’agit d’une estimation de l’écart, en moyenne, à la tendance centrale (à la


moyenne). En d’autre terme, l’écart type estime la dispersion autour de la moyenne.

Exemple : Moyenne des salaires dans une entreprise est de 3000 euros, et l’écart type est de
500 euros, alors on dira qu’en moyenne les salariés gagnent entre 2500 et 3500 euros (ou
encore 3000±500 euros).

Propriétés de l’écart type :


 L’écart type s’exprime avec la même unité que la moyenne (ce n’est pas le cas de la
variance V(x) exprimées en unités ‘au carré’).
 La variance et donc l’écart type permettent de combiner toutes les valeurs à l'intérieur d'un
ensemble de données afin d'obtenir la mesure de dispersion, contrairement à l'étendue et
aux quartiles.
 L’écart type est utile quand on compare la dispersion de deux ensembles données qui ont
approximativement la même moyenne. Un petit écart type renseigne sur une dispersion
étroite autour de la moyenne.
 L’écart type n’est jamais négatif et est nul si toutes les valeurs d’un ensemble de données
sont les mêmes.

Page 3
Statistiques Descriptives
 L'écart-type est sensible aux valeurs aberrantes. Une seule valeur aberrante peut accroître
l'écart-type et, par le fait même, déformer le portrait de la dispersion. Il peut être donc un
bon indicateur aussi de valeur aberrantes.
 Il est également plus maniable que l’écart absolu moyen.

Autre propriété : Quand on analyse des données normalement distribuées (loi normale
s’applique), on peut utiliser l'écart-type parallèlement à la moyenne pour calculer des
intervalles de données.

Si μ = moyenne=médiane, σ = écart-type et x = une valeur incluse dans l'ensemble de


données, alors
 environ 68 % des données se situent à l'intérieur de l'intervalle : μ−σ < x< μ +σ
 μ−2 σ <x <μ+2 σ
environ 95 % des données se situent à l'intérieur de l'intervalle :
 environ 99.7 % des données se situent à l'intérieur de l'intervalle : μ−3 σ <x<μ+3 σ

Page 4
Statistiques Descriptives

4.5/ Calcul de l’écart type dans un tableau statistique

Exemple : Distribution des Salaires observés en continu


c c 2
Salaires Effectif Centre n xc i i ( xi −x ) ni ( x i − x )
(
ni ) x c
de classe ( i )
[1000-2000[ 20 1500 30000 -1800 64 800 000

[2000-4000[ 50 3000 150 000 -300 4 500 000

[4000-6000[ 30 5000 150 000 + 1700 50 700 000

∑ ni xi ∑ n i ( xic−x )2
Statistiques x =3300 V(x)= 1 500 000

1/2
Ecart Type = σ =( 150 0000 ) =1224 . 74
Le calcul est assez fastidieux. Ainsi, on propose une autre façon de calculer l’écart type.

4.6- Les propriétés algébriques de la variance :

4.6.1- La formule développée de la variance

Proposition : La variance est égale à la moyenne des carrés moins le carré de la moyenne.

1 1
V ( x )= ∑ ni ( x i−x )2= ∑ ni x 2 ⏟
−x 2
n i ⏟n i i
carré de la Moyenne
Moyenne des carrés
Démonstration :
Par définition on a :

Page 5
Statistiques Descriptives

1
V ( x )= ∑
n i
ni ( x i−x )2

1
V ( x )= ∑
n i
2 2
ni ( x −2 x i x + x )
i

1
V ( x )= ( ∑ ni x 2−2 x ∑ ni x i + x 2 ∑ ni )
n i i
i i
1 1
V ( x )= ∑ ni x −2 x x + x = ∑ ni x −x
2 2 2 2

n i i n i i
(c.q.f.d)

Désormais, au lieu de calculer des écarts et de les élever au carré pour avoir la variance, il est
plus facile d’appliquer la formule développée de la variance.

4.6.2- Le Coefficient de Variation

Définition : Le coefficient de variation est une mesure de la dispersion relative (écart type par
rapport à la moyenne) d’une série.

Parfois, nous avons besoin de comparer des dispersions de différentes séries. Or, des
dispersions autour de la moyenne ne sont comparables que pour des niveaux de moyennes
comparables. Aussi, ces dispersions doivent être exprimées dans la même unité.

Exemple : Demande d’importation sur une période de 30 ans

France (euros) Allemagne (Euros) Canada (Dollars can.) Etats Unis (conversion en
euros)
Moyenne= 5 Moyenne=5 Moyenne=6 Moyenne=100
Ecart type=2.5 Ecart type=1 Ecart Type=3 Ecart-type=10
CV=2.5/5=0.5 CV=1/5 CV=0.5 CV=1/10

 Entre séries France et Allemagne : Même moyenne, même monnaie : la dispersion est
plus grande pour France
 Entre séries France et Canada : A première vue, on ne peut comparer un Ecart type
exprimé en euros avec Ecart-type exprimé en Dollars canadien.
 Entre séries France et U.S : Ecart type des US (monnaie déjà convertit en euros) est
plus grand. Mais, la demande moyenne d’importation est beaucoup plus grande aussi
pour les Etats Unis.

Pour comparer ces écarts types, il faut les exprimer par rapport à la moyenne : on aura ainsi
un écart type exprimé par unité de moyenne.
Ainsi, il faut comparer des écarts types unitaires :

σ
CV=
D’où le coefficient de variation : x

Page 6
Statistiques Descriptives
D’après le coefficient de variation, on voit que la dispersion relative des Etats Unis est la plus
faible.
4.6.3- La formule de décomposition de la variance

Théorème de Koning : La moyenne des carrés des écarts des x i à une valeur quelconque a
est égale à la variance de x augmntée du carré de l’expression ( x−a) :

1
N
∑i ni ( x i−a )2=V ( x )+(x−a) ²
1
N∑
2
V ( x )= ni ( x i−a ) −(x−a)²
i
En économie, une population peut être hétérogène et, est souvent composée de sous
populations.
Considérons une population P composée de deux-sous populations P1et P2, soit n=n1 +n2 .

1
x= ∑ n i x i
N i
1 ❑
¿ ∑ ( ni 1 +ni 2 ) x i
N i
❑ ❑
1 1
¿ ∑ ni 1 xi + ∑ n i2 x i
N i N i
1 n1 1 n2
❑ ❑
¿ ∑ n x + ∑n x
N n1 i i 1 i N n2 i i 2 i
1
¿ (n1 x 1+ n2 x 2 )
N

1
V ( x )= ∑ n (x −a) ²
N i i i

 Différences de niveaux entre les groupes : INTER


o x1 ≠ x2
o Variance des moyennes :
 Différences de niveaux au sein de chaque groupe : INTRA
o V 1et V 2 ≠0
1
o Moyenne des variances : (n1 V 1 +n2 V 2)
N
 La moyenne de la population totale est la moyenne pondérée des sous-populations.
 La variance de la population totale est égale à la moyenne des variances des différentes
sous-populations augmentée de la variance des moyennes des différentes sous-
populations.
La variance de la population totale = moyenne des variances des différentes sous-populations
+ variance des moyennes des différentes sous-populations :
1
 Soit V ( x 1 ) la variance de la population P1 :V ( x 1 )= n ∑ ni 1 ( xi −x1 )²
1 i
 L’application du théorème de Koning avec a=x conduit à :
n
1
V ( x 1 )= ∑ ni 1 ( x i−x )²−(x1 −x)²
n1 i=1

Page 7
Statistiques Descriptives

1
N
∑ ni ( x i−a )2=V +( x−a )2
i

1
V= ∑ n ( x −a)²− ( x −a )2
N i i i

1
V 1= ∑ ni 1( x i− x)²−( x1−x )
2
n1 i

1
V 2= ∑ ni 2 ( xi −x)²− ( x2 −x )
2

n2 i

1
V ( x )= ∑ ni ( x i−x )
2
N i

1
¿ ∑ ( ni 1 +ni 2 )( x i−x )2
N i
1 n1 ❑ 1 n2 ❑
¿ ∑ n ( x −x ) + N n ∑ ni 2 (xi −x)²
N n1 i i 1 i
2

2 i
1 1
¿ n1 ( V 1 + ( x 1−x ) )+ n 2 ( V 2+ ( x2 −x ) )
2 2
N N
1 1
¿ ( n1 V 1+ n2 V 2) + ¿
N N

Moyenne des variances Variance des moyennes


INTRA INTER

 La variance intra population


o Elle représente la dispersion interne aux sous-populations. C’est la variance que
l’on obtiendrait si toutes les sous-populations avaient la même moyenne
(=moyenne globale) ; ce serait alors la variance globale.
o Si x 1=x 2=x
 La variance inter population
o Elle représente la dispersion entre les sous-populations. C’est la variance que l’on
obtiendrait si toutes les sous-populations étaient homogènes (toutes observations
identique au sein d’une sous-population) ; ce serait alors la variance globale.
o Si V 1=V 2 =0
Exemple :
E1 E2
CSP Salaires ( f × 100) Effectif Salaires ( f × 100) Effectifs
s
Ouvriers 45 60 35 5
Employé 65 95 55 15
s
Cadres 90 5 75 30
TOTAL 160 50

Etablissement E1 E2
Effectif 210 160 50
x 59,88 58,28 65

Page 8
Statistiques Descriptives
V 145,9 124,5 180

1
x= (n x + n x )
N 1 1 2 2
1
x= ( 160 ×58,28+50 × 65 )
210
1
V 1= ( 60 × 452 +95 × 652+ 5× 902 )=58,282
160
1 1
V= (160 × 124,5+ 50× 180 ) + ( 160 × ( 58,28−59,88 )2+ 50× ( 65−59,88 )2 )
210 210
¿ 137,7+8,2
¿ 145,9
INTRA : 94,4%
INTER : 5,6%

Interprétation : La dispersion des salaires dans ce secteur s’explique en majorité par une
dispersion des salaires internes aux établissements (94,4%) et pour une faible part (5,6%) par
une dispersion des salaires entre les établissements. Il y a peu de différence structurelle dans
les grilles de salaires entre les deux entreprises.

4.6.4- Les Moments Centrés d’ordre ‘r’

Tout comme la moyenne arithmétique est une valeur particulière de la moyenne d’ordre r,
l’écart-type est une valeur particulière d’une statistique de « moment centré ».
1
Définition : Le moment centré d’ordre ‘r’ s’écrit : μr = ∑ n i ( x i−x )
r
n i
 Lorsque r =1, μ1 =0 .
 Lorsque r =2 , μ2=V (x)
Cette statistique est très utilise pour distinguer les formes des séries sans avoir à les dessiner
pour autant.

Page 9

Vous aimerez peut-être aussi