Vous êtes sur la page 1sur 16

Chapitre 4 : La dispersion dans les Distributions à un caractère

On a mesuré des tendances centrales mais on a besoin également de connaître quelle


est la dispersion de la série pour avoir une meilleure idée sur la distribution

Exemple :

Les salaires moyens dans le privé et le public sont équivalents. Mais, dans le privé il y
a une proportion non négligeable qui gagne bien plus que la moyenne et une autre
proportion qui gagne bien moins que la moyenne. Dans le public, en revanche, les
salaires sont concentrés autour de la moyenne.
f
Public

Privé

m
Tout comme il existe plusieurs valeurs centrales (mode, moyenne, médiane), il existe
aussi plusieurs mesures de dispersion

4.1/ Etendue d’une série

Définition : C’est la différence entre la plus grande et la plus petite valeur de la série

Mesure permettant d’avoir une idée de grandeur sur l’étendue de la dispersion.

Mais elle a un défaut : En présence de valeurs aberrantes elle ne rend compte que de
manière très imparfaite de l’étendue.

Exemple : Dans une série d’individus suivant leurs rémunérations, il existe un individu
ayant travaillé en interim pendant deux jours et donc obtenu un salaire très petit en fin
de mois au regard des autres salaires. Il est alors considéré comme le salaire le plus
petit (ou minimum) de la série !
Si on calcule l’étendue de la série (salaire max- salaire min) on arrive à une très forte
dispersion ‘apparente’ par cette mesure alors qu’il aurait fallut exclure cet individu du
reste de la série pour calculer une étendue plus représentative de la série.
4.2- Les intervalles interquantiles

Les intervalles inter-quantiles (Q3-Q1 ; D9-D1) présentent une mesure alternative qui
a l’intérêt de ne pas tenir compte des valeurs max ou min pouvant être aberrantes.

Voir tracé en moustache vu précédemment en cours.

Exemple :
Dans une série d’invidus selon le salaire, on peut prendre le salaire correspondant aux
10% les moins payés (D1) et celui relatif aux 10% les mieux payés (D9) . Une mesure
de dispersion serait l’intervalle inter-décile : D9-D1

On aurait pu considérer l’intervalle interquartile (Q3-Q1) comme mesure alternative de


dispersion également.

Critique de cette mesure : Avant de calculer des intervalles inter-quantiles, on mesure


les quantiles eux mêmes. Mais, on sait que ces mesures ne sont pas très précises quand
on les calcule par voie graphique ou par le théorème de Thales.
Donc, calculer des intervalles comme fonction de deux valeurs imprécises peut nous
exposer à d’autant plus d’imprécision.

Exemple : Série de salaires. On connaît les vrais D1 et D9. Mais imaginons qu’on
s’amuse à les estimer qd même (par D1* et D9* respectivement) à l’aide de Thalès

D1 D9 D1-D9 D1* D9* D1*-D9* Biais


Expérience 1000 6000 5000 900 6200 5300 300
n.1
Expérience 1000 6000 5000 900 5900 5000 0
n.2

1/ Si l’estimation de D1 et de D9 est minorée de la même façon alors leur différence se


rapproche de la différence entre les vrais valeurs (D1*-D9*= D1-D9) : Dans ce cas, la
dispersion est bien estimée.
2/ Mais si l’estimation de D1 est minorée et celle de D9 majorée alors leur différence
s’éloigne de la différence entre les vrais valeurs (D1*-D9* différent de D1-D9) : Dans
ce cas, la mesure de dispersion est mal estimée.
4.3/ Ecart absolu moyen

Définition : l’écart absolu moyen est la moyenne arithmétique des écarts par rapport à
la tendance centrale, exprimés en valeur absolue.

1
Ex = ∑ni xi −x
n

Eclaircissement :

Pour une observation i, Ecart par rapport à la tendance centrale : ( x − x ),


i

avec x la moyenne
Pourquoi écart absolu x −x ? c’est une mesure de distance en mathématique (valeur
i

observée –valeur moyenne en absolue). Ce qui compte c’est l’écart et non pas le
signe de cet écart.
Exemple : Imaginons qu’une moyenne est de –1. L’écart d’une observation xi=-3, par
rapport à la moyenne est : |-3-(-1)|=|-2|=2. Un écart c’est, par essence, une valeur
absolue.
Aussi, si on fait la moyenne des écarts ( x − x ) sans prendre les valeurs absolues alors
i

cette moyenne sera de 0. Car il va y avoir des valeurs négatives (inférieures à la


moyenne) et des valeurs positives (supérieures à la moyenne) qui vont s’équilibrer.

∑ni xi
Démonstration : 1n∑ni(xi −x)=1n(∑ni xi −n.x)=∑ni xi −n. n =0
D’où l’utilité de faire une moyenne de valeurs absolues des différences à la moyenne
(écarts)
4.4/ Variance et écart-type
Définitions :

1/ La variance est la moyenne des ‘écarts’ au carrés


1
V ( x) = ∑ ni ( xi − x )
2

n i

2/ L’écart-type est la Racine carrée de la variance ou encore, la moyenne quadratique


des écarts (à la moyenne)
1/ 2
σ =  ∑ ni ( xi − x) 2 
1
= V ( x )1 / 2 = 2 V ( x )
n i 

Interprétation : Il s’agit d’une estimation de l’écart, en moyenne, à la tendance centrale


(à la moyenne). En d’autre terme, l’écart type estime la dispersion ‘moyenne’ autour
de la moyenne.

Exemple : Moyenne des salaires dans une entreprise est de 3000 euros, et l’écart type
est de 500 euros, alors on dira qu’en moyenne les salariés gagnent entre 2500 et 3500
euros (ou encore 3000± 500 euros).
Propriétés de l’écart type :
• L’écart type s’exprime avec la même unité que la moyenne (ce n’est pas le cas de la
variance V(x) exprimées en unités ‘au carré’)
• Contrairement à l'étendue et aux quartiles, la variance et donc l’écart type permettent
de combiner toutes les valeurs à l'intérieur d'un ensemble de données afin d'obtenir
la mesure de dispersion.
• L'écart-type est sensible aux valeurs aberrantes. Une seule valeur aberrante peut
accroître l'écart-type et, par le fait même, déformer le portrait de la dispersion. Il
peut donc être un bon indicateur de valeur aberrantes aussi.
• Il est également plus maniable que l’écart absolu moyen
• L'écart-type est aussi utile quand on compare la dispersion de deux ensembles de
données séparés qui ont approximativement la même moyenne. Un petit écart type
renseigne sur une dispersion étroite autour de la moyenne.
• L'écart-type n'est jamais négatif.
• L'écart-type est zéro si toutes les valeurs d'un ensemble de données sont les mêmes
(parce que chaque valeur est égale à la moyenne).
Autre propriété : Quand on analyse des données normalement distribuées (loi
normale s’applique), on peut utiliser l'écart-type parallèlement à la moyenne pour
calculer des intervalles de données.

Si µ = moyenne=médiane, σ = écart-type et x = une valeur incluse dans l'ensemble de


données, alors
• environ 68 % des données se situent à l'intérieur de l'intervalle :
µ -σ < x < µ + σ .
• environ 95 % des données se situent à l'intérieur de l'intervalle :
µ – 2σ < x < µ + 2σ .
• environ 99.7 % des données se situent à l'intérieur de l'intervalle :
µ - 3σ < x < µ + 3σ .
4.5/ Calcul de l’écart type dans un tableau statistique

Exemple : Distribution des Salaires observés en continu


Salaires Effectif Centre de nx i
c
i( x − x)
c
i ni ( xic − x ) 2

classe ( x ) c
i

(n )i

[1000-2000[ 20 1500 30000 -1800 64 800 000


[2000-4000[ 50 3000 150 000 -300 4 500 000
[4000-6000[ 30 5000 150 000 + 1700 50 700 000
∑ni xi ∑ni ( xi −x )
c 2

Statistiques x =3300 V(x)= 1 500 000

Ecart Type = σ = ( 150 0000 ) =1224.74


1/ 2
4.6/ La formule développée de la variance

Proposition : La variance est égale à la moyenne des carrés moins le carré de la


moyenne.

V(x)=1 ∑ni(xi −x)2=1 ∑ni x2−x2


ni ni i

Démonstration :
Par définition on a :
1
V ( x) = ∑ ni ( xi − x)
2

n i
1 2
V ( x) = ∑ ni ( x i − 2 xi x + x )
2

n i
1 2
V ( x) = (∑ ni x 2i − 2 x ∑ ni xi + x ∑ ni )
n i i i
2 2
V(x)=1 ∑ni x2−2xx+x =1 ∑ni x2−x (c.q.f.d)
n i i
n i i

Ainsi, au lieu de calculer des écarts et de les élever au carré pour avoir la variance, on
peut alternativement appliquer la formule développée de la variance.
4.7/ Le Coefficient de Variation

Définition : Le coefficient de variation est une mesure de la dispersion relative (écart


type par rapport à la moyenne) d’une série.

Parfois, nous avons besoin de comparer des dispersions de différentes séries. Or, des
dispersions autour de la moyenne ne sont comparables que pour des niveaux de
moyenne comparables. Aussi, ces dispersions doivent être exprimées dans la même
unité.
Exemple : Demande d’importation sur une période de 30 ans

France (milliards Allemagne Canada Etats Unis (milliards


d’euros) (milliards (milliards conv.euros)
Euros) Dollars can.)
Moyenne= 5 Moyenne=5 Moyenne=6 Moyenne=100
Ecart type=2.5 Ecart type=1 Ecart Type=3 Ecart-type=10
CV=2.5/5=0.5 CV=1/5 CV=0.5 CV=1/10
Entre séries France et Allemagne : Même moyenne, même monnaie : la dispersion est
plus grande pour la France
Entre séries France et Canada : A première vue, on ne peut comparer un Ecart type
exprimé en euros avec Ecart-type exprimé en Dollars canadien.
Entre séries France et U.S : Ecart type des US (monnaie déjà convertit en euros) est
plus grand. Mais, la demande moyenne d’importation est beaucoup plus grande aussi
pour les Etats Unis.

Pour comparer ces écarts types il faut les exprimer par rapport à la moyenne : on aura
ainsi un écart type par unité de moyenne.
Ainsi, il faut comparer des écarts types unitaires:

D’où le coefficient de variation :


σ
CV =
x

D’après CV on voit que la dispersion relative des importations des Etats Unis est la
plus faible.
Les Moments Centrés d’ordre ‘r’

Tout comme la moyenne arithmétique est une valeur particulière de la moyenne


d’ordre r, l’écart-type est une valeur particulière d’une statistique de ‘moment centré’.

Définition : Le moment centré d’ordre ‘r’ s’écrit :

µr =1.∑ni (xi −x)r


n

Lorsque r=1, µ1 =0
Lorsque r=2, µ2 =V(x)

On verra que cette statistique est très utile pour distinguer les formes de séries sans
avoir à les tracer pour autant.