Vous êtes sur la page 1sur 45

Calculs en SES

1. Calcul de proportions et de répartition


Il s’agit de calculer la part d’une grandeur dans un ensemble donné.

La formule utilisée est :

Le résultat est toujours exprimé en pourcentage.

Lecture : En (date), le (sous-ensemble) représentait (Proportion) de (ensemble donné)

Exemple : Soit le nombre d’habitants par sexe dans une ville A en 1970 et 2012

Hommes Femmes
1970 2500 2700
2012 3200 2900

- Calcul de la part des hommes dans la population totale de la ville A, en 1970 :

Lecture : En 1970, les hommes représentaient 48% de la population de la ville A.

2. Calcul d’écarts et de variations

a) Ecart absolu :

Il s’agit d’opérer une simple soustraction entre deux grandeurs de l’espace (Pays, région,
département…) ou du temps (année, mois, semaine …).
L’écart absolu est exprimé dans la même unité que les valeurs soustraites.
Exemple : la population française est passée de 60 millions d’habitants à 65 millions entre
2000 et 2005. Ainsi, l’écart absolu entre 2000 et 2005 est de 5 millions d’habitants.

La formule générale utilisée est :

Cependant, cette formule ne vaut que lorsqu’on s’intéresse à deux grandeurs temporelles.

Pour des grandeurs liés à l’espace, on soustrait les deux valeurs considérées, en faisant
attention qu’elles soient exprimées dans la même unité.
Lecture : En (date), le (variable considérée) était inférieur / supérieur de (Ecart absolu)
à celui de (grandeur de l’espace / temps)

Exemple :

Hommes Femmes
1970 2500 2700
2012 3200 2900

- Calcul de l’écart absolu entre 1970 et 2012 pour les hommes (mesure
temporelle)

EA : 3200 – 2500 = 700 habitants.

Lecture : En 2012, le nombre d’hommes dans une ville A était supérieur de 700 habitants à
celui de 1970.

- Calcul de l’écart absolu en 1970 entre les hommes et les femmes (mesure dans
l’espace)

EA : 2500 – 2700 = - 200 habitants

Lecture : En 1970, le nombre d’hommes dans une ville A était inférieur de 200 habitants au
nombre de femmes.

Remarque : il est possible de calculer des écarts absolus lorsque les données sont exprimées
en %. Dans ce cas, la différence de données exprimées en % donnera un résultat exprimé en
points de %. Ceci vaut aussi lorsqu’on additionne des %. Cependant, la lecture du résultat
reste inchangée.

b) Ecart relatif
L’intérêt que représente l’écart relatif est très important et, à juste titre, bien meilleur que celui
de l’écart absolu. En effet, ce dernier nous permet de savoir simplement quel est l’écart entre
deux grandeurs, exprimé dans la même unité que ces dernières. Autrement dit, nous ne
pouvons admettre, avec cet outil, si l’écart constaté est important ou pas ce qui est un obstacle
statistique lorsque nous comparons deux grandeurs. Il serait judicieux, pour pouvoir faire de
véritables comparaisons, de savoir si l’écart est faible ou élevé, ce que l’écart absolu est
incapable de nous dire. Cependant, l’écart relatif va nous aider à lever cet obstacle. En effet,
contrairement à l’écart absolu, il tient compte d’un élément de base et compare l’écart avec
celui-ci afin de nous informer si, par rapport à la base, l’écart est important ou non. Prenons
un exemple pour illustrer le problème soulevé :

Vous vous souvenez que dans le paragraphe précédent, nous avions dit que « En 2012, le nombre
d’hommes dans une ville A était supérieur de 700 habitants à celui de 1970 ». Qui peut dire si cela est élevé
ou pas ? Nous n’en savons rien à moins de connaître les données originelles. Un écart de 700
n’est pas de la même importance selon que sa base est de 200 ou de 1 million. Dans le premier
cas, l’écart est très important alors que dans le second, il est infinitésimal.
Appelé aussi « Taux de variation » ou « Taux de croissance » (pour des grandeurs
temporelles), il est exprimé en % et se calcule comme suit :

Avec VA : Valeur d’arrivée et VD : valeur de départ (valeur de la base)

Remarque : encore une fois, cette formule est bien appliquée lorsqu’il s’agit de comparer
deux grandeurs temporelles. Cependant, dans le cas de grandeurs dans l’espace, on peut
considérer que VA : valeur de la première grandeur et VD : valeur de la seconde grandeur
mais peu importe le choix que vous faîtes pour VA et VD. La seule différence surgira lors de
l’interprétation du résultat selon que la base est la première ou la seconde grandeur.

Un écart relatif en % peut être positif ou négatif. Mathématiquement, cela se comprend


facilement : si la valeur d’arrivée est inférieure à la valeur de départ, vous conviendrez que
l’écart absolu sera négatif. Sachant que la valeur de départ (dénominateur) est toujours
positive, le quotient total sera alors négatif. Dans ce cas-là, on parlera de diminution de la
grandeur étudiée. Lorsque l’écart est positif, c’est-à-dire que VA > VD, on parlera
d’augmentation de la grandeur étudiée.

Lecture : En (date), le (variable considérée) était inférieur / supérieur de (Ecart relatif) à


celui de (grandeur de l’espace / temps)
Entre (période étudiée), le (variable considérée) a augmenté/diminué de (ER).

Remarque : Lorsque les grandeurs sont déjà exprimées en % (étude portant sur le taux de
croissance du PIB par exemple), la formule peut s’appliquer sans problème : l’écart relatif
sera également exprimé en %. La seule particularité se fera au moment de l’interprétation.

Si par exemple, en étudiant le « taux de croissance du PIB », vous avez constaté une
augmentation de 13% entre 2000 et 2005 (nous supposerons que leur taux de croissance respectif
est positif), cela ne veut absolument pas dire que le PIB a augmenté de 13% sur la même période.
L’objet étudié étant le « taux de croissance », c’est donc ce dernier qui a augmenté de 13%.
Autrement dit, en termes de variable PIB, cela signifie que ce dernier a certes augmenté (puisque
le taux de croissance est positif), mais le véritable sens du résultat est qu’il a augmenté de plus en
plus vite (puisque le taux de croissance a augmenté). Donc, ce n’est pas tant que le PIB a
augmenté qui nous intéresse mais c’est avant tout de savoir qu’il a augmenté de plus en plus.

Donc, lorsque votre grandeur porte sur un taux de croissance ou un taux d’évolution, à
supposer qu’il est positif (ici, celui du PIB), si l’écart relatif est positif, on parlera
d’accélération de la variable étudiée (ici, le PIB) et de décélération dans le cas contraire.
Mais, il faut toujours interpréter le résultat obtenu en fonction de la grandeur étudiée.

Dans d’autres cas où la grandeur est exprimée en %, par exemple s’il s’agit de parts (part
moyenne du budget nourriture dans le total du revenu des ménages), le problème exposé ci-
dessus ne se pose pas. Si le résultat est positif, on parlera d’augmentation ou bien de
diminution s’il est négatif.
Illustration de l’écart relatif et interprétation:

Hommes Femmes
1970 2500 2700
2012 3200 2900

- Calcul du taux de variation du nombre d’hommes entre 1970 et 2012 :

ER :

Lecture : en 2012, le nombre d’hommes dans une ville A était supérieur de 28% au nombre
d’hommes de 1970.

- Calcul de l’écart relatif en 2012 entre les hommes et les femmes

ER :

Lecture : en 2012, le nombre de femmes dans une ville A était inférieur de 9,38% à celui des
hommes.

J’aimerais attirer votre attention sur le dernier résultat trouvé. Vous aurez remarqué que la
base choisie est celle des hommes. Sachez que nous aurions pu le faire en prenant pour base
les femmes. Mais, le résultat trouvé aurait été différent. Dans ce cas, nous aurions trouvé un
écart relatif de 10,34% en 2012. Même si la base n’a aucune importance, par contre,
l’interprétation du résultat, elle, est fondamentale. Dans le cas ci-dessus, le nombre de femmes
était inférieur de 9,38% à celui des hommes. Dans le second cas, il faudra dire que le nombre
d’hommes était supérieur de 10,34% à celui des femmes. Vous voyez qu’avec les mêmes
données, nous n’obtenons pas le même résultat, ni la même interprétation. C’est par exemple
de cette manière que les inégalités entre hommes et femmes paraissent si choquantes dans
certains cas.
Pièges à éviter concernant l’interprétation d’un écart relatif en % :

 Un taux de variation qui passe de x% à y% (x et y >0), avec y<x, ne signifie pas que la
variable a diminué mais qu’elle a augmenté moins vite que précédemment. On parle de
décélération. Si y>x, cela signifie que la variable a augmenté plus vite que précédemment.
On parlera alors d’accélération.
 Un taux de croissance égal à 0% signifie que la variable a cessé de croître : elle n’a ni
augmenté, ni diminué, sa valeur est restée la même.
 Un taux de variation qui passe de –x% à –y%, avec y<x signifie que le rythme de
croissance de la variable continue de diminuer mais plus faiblement qu’auparavant.
Exemple : entre 1970 et 1980, le taux de croissance du nombre de femmes était de -20% et entre 1980 et 1990,
il était de -17%. Ceci signifie que le nombre de femmes a continuellement diminué mais moins vite entre 1980 et
1990. Il ne faut pas dire que le nombre de femmes a augmenté de 3% entre 1970 et 1990.
Inversement, un taux de variation qui passe de –x% à –y%, avec y>x signifie que le
rythme de croissance de la variable continue de diminuer mais plus vite que précédemment.
 Les écarts relatifs ne sont pas symétriques : une variation entre T1 et T2 de x%
n’implique pas une variation symétrique de –x% entre T2 et T1.
Exemple : En 2001, les exportations françaises sont supérieures de 3% à celles de 2000. Ceci ne signifie pas,
qu’en 2000, elles soient inférieures de 3% à celles de 2001.
Nous avions rencontré le même problème avec deux grandeurs non temporelles (hommes et
femmes) – cf ci-dessus.

c) Coefficient multiplicateur :

Il s’agit du rapport entre deux données que l’on veut comparer. Le CM n’a pas d’unités.

Deux cas se présentent à nous :


 Si VA > VD (donc la grandeur a augmenté), le quotient sera supérieur à 1. Donc,
toute augmentation de la grandeur étudiée correspond aux cas où CM > 1.
 Si VA < VD (donc la grandeur a diminué), le quotient sera inférieur à 1. Donc, toute
diminution de la grandeur étudiée correspond aux cas où CM < 1.
 Si VA = VD (la grandeur reste constante), le quotient sera égal à 1. Donc, toute
stagnation de la grandeur étudiée correspond aux cas où CM = 1.

Remarque : encore une fois, cette formule s’applique essentiellement à une comparaison de
données temporelles. Cependant, de même avec l’écart relatif en %, on peut considérer VA =
valeur de la première grandeur et VD = valeur de la seconde grandeur. Le seul problème se
posera lors de l’interprétation du résultat comme avec l’écart relatif.

Lecture : En (date), le (variable considérée) représentait (CM) fois celui de (grandeur de


l’espace / temps).
Entre (départ) et (arrivée), la variable a été multipliée par (CM)

Remarque : Lorsque les grandeurs sont déjà exprimées en % (étude portant sur le taux de
croissance du PIB par exemple), la formule peut s’appliquer sans problème. Encore une fois,
il faut faire attention aux cas où l’on s’intéresse à des taux de variation.
Si par exemple, en étudiant le « taux de croissance du PIB », vous avez constaté qu’en 2005, il est
de 5% et qu’en 2010, il passe à 15% (c’est beau de rêver !), le coefficient multiplicateur sera alors
égal à 3. Cela ne signifie pas que le PIB a triplé mais que son taux de variation a triplé. L’objet
étudié étant le « taux de croissance », c’est donc ce dernier qui a été multiplié par 3. Autrement
dit, en termes de variable PIB, cela signifie que ce dernier a certes augmenté (puisque les taux de
croissance sont positifs), mais le véritable sens du résultat est qu’il a augmenté de plus en plus vite
(puisque le taux de croissance a triplé). Donc, ce n’est pas tant que le PIB a augmenté qui nous
intéresse mais c’est avant tout de savoir qu’il a augmenté de plus en plus.

Donc, lorsque votre grandeur porte sur un taux de croissance ou un taux d’évolution, à
supposer qu’il est positif (ici, celui du PIB), si le coefficient multiplicateur est supérieur à 1,
on parlera d’accélération de la variable étudiée (ici, le PIB) et de décélération dans le cas
contraire. Mais, il faut toujours interpréter le résultat obtenu en fonction de la grandeur
étudiée.

Dans d’autres cas où la grandeur est exprimée en %, par exemple s’il s’agit de parts (part
moyenne du budget nourriture dans le total du revenu des ménages), le problème exposé ci-
dessus ne se pose pas. Si le CM est supérieur à 1, on parlera d’augmentation ou bien de
diminution s’il est inférieur à 1.

Exemple :

Hommes Femmes
1970 2500 2700
2012 3200 2900

- Calcul du CM du nombre d’habitants entre 1970 et 2012 :

Lecture : En 2012, le nombre d’habitants dans une ville A représentait 1,17 fois celui de 1970.

- Calcul du CM en 1970 entre le nombre d’hommes et de femmes :

Lecture : en 1970, le nombre d’homme dans une ville A représentait 0,93 fois le nombre de
femmes.

Relation entre CM et Ecart relatif en % :


Remarque : le CM est très utile lorsqu’il faut calculer la variation globale (en %) d’une
variable tout en disposant seulement de variations intermédiaires (en %). Autrement dit, nous
connaissons les taux de variation successifs de la variable (PIB par exemple) et nous
aimerions connaître le taux de variation globale de celle-ci. Dans ce cas, il suffit de
transformer les variations en CM, de les multiplier entre eux pour obtenir un CM global, puis
de déterminer la variation globale à partir de ce dernier.

Exemple : Voici l’évolution du PIB en France entre 2007 et 2011 :

Il s’agit de calculer le taux de variation globale entre 2007 et 2011 :

Année 2007 2008 2009 2010 2011


Taux de variation 7,10% 5,40% -1,30% 2,30% 4,40%

L’erreur à éviter est d’additionner les taux de variation de chaque année. Vous obtiendrez un
résultat sans signification réelle. L’autre erreur serait de ne prendre que les taux de variation
de 2007 et 2011 et de calculer un écart relatif. Dans ce cas, nous n’aurions que l’écart relatif
du taux de variation entre 2007 et 2011 et non celui de la variable étudiée.
La méthode à employer est de transformer les taux de variation en coefficient
multiplicateur.

Année 2007 2008 2009 2010 2011


Coefficient multiplicateur 1,071 1,054 0,987 1,023 1,044

Ensuite, on multiplie les CM entre eux :

Enfin, on transforme ce CM en taux de variation globale :

Lecture : en 2011, le PIB en France était de 19% inférieur à celui de 2007.

Remarque :
 Si on avait additionné les taux de variation entre eux, on aurait obtenu un écart relatif
de 17,9%. Même s’il n’y a pas une grande différence, le résultat n’a pas tout à fait le
même sens.
 De même, si nous n’avions pris que les taux de variation de 2007 (7,1%) et de 2011
(4,4%), nous aurions obtenu un écart relatif de -38%. Cela signifie simplement
qu’entre 2007 et 2011, le taux de variation du PIB a diminué de 38%. Mais nous ne
savons rien sur la variation du PIB lui-même.
Choix de l’indicateur statistique pour la lecture :

Au moment de la lecture d’une donnée, vous avez le choix entre trois outils : Ecart absolu, écart
relatif ou coefficient multiplicateur. Ainsi, le choix de l’indicateur ne doit pas être minimisé.
Même s’ils peuvent tous être utilisés, certains sont parfois préférables aux autres. On peut
davantage se représenter l’importance de la variation selon le choix de l’indicateur.

 La lecture de l’écart absolu est très rare, sauf sur demande spécifique. Généralement,
lorsqu’il nous est libre de choisir, on privilégiera l’écart relatif ou le CM.
 Lorsque l’écart relatif en % est inférieur à 100%, ce qui correspond à un CM inférieur
à 2, il faut privilégier la lecture de l’écart relatif exprimé en %. Vous donnerez ainsi
plus de sens au résultat.
 Lorsque l’écart relatif en % est supérieur à 100%, ce qui correspond à un CM > 2, il
faut privilégier la lecture du CM.

Exemple : Le taux de variation du PIB en France est de 150% entre 2000 et 2010.
Vous voyez bien que la lecture de ce nombre n’a pas de sens : entre 2000 et 2010, le PIB en France a augmenté
de 150%.
Par contre, la lecture du CM est beaucoup plus logique et a plus d’impact : en 2010, le PIB en France
représentait 2,5 fois celui de 2000.

d) Indice

Il s’agit du dernier indicateur exprimant un écart relatif. Il est calculé à partir du coefficient
multiplicateur ou de l’écart relatif en %. Comme le premier, il n’a pas d’unités.
L’indice, en tant quel tel, n’a pas un grand intérêt scientifique. La seule chose pour laquelle il
est utile est lorsque nous voulons étudier l’évolution d’une variable en référence à une base.
Dans ce cas, on peut facilement repérer la tendance haussière ou baissière d’une grandeur par
rapport à cette base.
Cependant, il est nécessaire de distinguer le cas de grandeurs temporelles et le cas de
grandeurs dans l’espace.

Cas de grandeurs dans l’espace :

Avec Vx : valeur de la première grandeur et Vy : valeur de la seconde grandeur.

Lecture : Habituellement, on ne lit pas directement l’indice. Fondamentalement, sa


lecture directe n’aurait aucun sens. On le transforme soit en écart relatif exprimé en %,
soit en CM. Le choix de l’indicateur suit les mêmes règles qu’auparavant.

Le calcul reste simple lorsque nous avons seulement deux grandeurs dans l’espace à comparer
(par exemple le PIB en France et celui en Allemagne). Lorsque le nombre de grandeurs
augmente, vous comprenez qu’il serait long et sans intérêt de calculer un indice pour toutes
les grandeurs deux à deux (par exemple, 5 grandeurs de l’espace impliqueraient 10 calculs).
Il est alors possible de choisir une grandeur de référence et de comparer toutes les autres à
celle-ci. On dira que la grandeur de référence est une « grandeur base 100 » c’est-à-dire que
l’indice de cette dernière est égale à 100 et que tous les autres indices calculés sont déterminés
à partir de cette grandeur de référence. La formule de l’indice devient alors :

Attention : la formule de l’indice ci-dessus ne signifie pas qu’il faut diviser chaque grandeur
par 100 mais bien par la valeur de la grandeur de référence.

Lecture : la lecture de tous les indices s’effectuera par rapport à la grandeur de


référence.
Exemple : après étude du PIB en 2010, si la base 100 correspond à la France et qu’en Allemagne,
l’indice calculé est de 150, la lecture de ce dernier ne peut se faire qu’en rapport avec celui de la
France puisqu’il a été calculé par rapport à ce dernier. Ainsi, après avoir transformé l’indice en
écart relatif en %, on dira simplement qu’en Allemagne, le PIB était supérieur de 50% par rapport
à celui de la France, en 2010.

Lorsqu’aucun des deux indices à comparer n’est l’indice de base, il est impossible
d’interpréter la valeur et de comparer les deux grandeurs à partir de leurs indices. Il faudra
alors recourir à un calcul d’écart relatif ou de CM ordinaire. N’oubliez pas que l’indice n’est
intéressant qu’en référence à une base 100.
Exemple : si en Allemagne, l’indice est de 150 et qu’en Espagne, il est de 120, il est interdit de
dire qu’en Allemagne, le PIB est supérieur de 30% à celui de l’Espagne car les deux indices ont
été calculés en référence au PIB de la France. On ne peut donc interpréter ces indices que par
rapport à ce dernier pays.

Exemple de calcul d’indices : Voici la valeur du PIB en 2005 dans 5 pays :

Pays Allemagne France Pologne Espagne Grèce


PIB (en milliards d'euros) 2240 1800 700 1200 900

Nous pouvons, bien entendu, calculer des indices entre deux pays. Calculons l’indice en 2005
entre l’Allemagne et la France :

Lecture : en 2005, le PIB en Allemagne était supérieur de 24,44% à celui de la France.

Choisissons maintenant une « grandeur base 100 » : par exemple la France. Ainsi, on va
calculer les indices de tous les pays en référence à la France. On dit que l’indice de la France
est égal à 100. Toutes les lectures se feront en relation au pays choisi comme référence.

Pays Allemagne France Pologne Espagne Grèce


Indice (base 100=France) 124,44 100 38,89 66,67 50

Lecture : en 2005, le PIB de la Pologne était inférieur de 61,11% à celui de la France


En 2005, le PIB de la Grèce était inférieur de 50% à celui de la France
Cas de grandeurs temporelles :

La méthode à entreprendre est exactement la même qu’avec des grandeurs dans l’espace.
Cependant, il est vrai que l’indice est davantage utilisé dans ce cas-ci.

Lorsqu’il y a plusieurs grandeurs (plusieurs années par exemple), on choisira encore une
« grandeur de référence », dont la valeur de l’indice sera égale à 100. La lecture des indices
s’effectuera toujours en relation avec cette grandeur, comme dans le cas précédent.
La formule reste la même :

Exemple : voici l’évolution du PIB en France entre 2000 et 2005

Année 2000 2001 2002 2003 2004 2005


PIB (en milliards d'euros) 700 900 1200 1400 1600 1400

Calculons les indices « base 100 = 2002 » :

Année 2000 2001 2002 2003 2004 2005


Indice (base 100=2002) 58,33 75 100 116,67 133,33 116,67

Lecture : en 2000, le PIB en France était inférieur de 41,67% à celui de 2002


En 2004, le PIB en France était supérieur de 33,33% à celui de 2002

Si maintenant, nous voulions connaître l’évolution entre 2004 et 2005, nous ne pourrions
utiliser les indices calculés et dire qu’en 2005, le PIB en France était inférieur de 116,67 –
133,33 soit 16,67% par rapport à 2004.
Pour comparer les deux années, il nous faudra reprendre les valeurs du PIB, soient 1600 en
2004 et 1400 en 2005 et calculer un écart relatif en % qui nous donnera 12,5%.
3. Le Taux de croissance annuel moyen

Appelé souvent TCAM, il s’agit d’un taux qui permet de connaître l’évolution annuelle et
moyenne de la variable étudiée. Autrement dit, il répond à la question : de combien a varié, en
moyenne, chaque année, la variable en question ?
Vous voyez qu’il y a deux choses importantes ici : le terme annuelle et le terme moyenne. Le
premier signifie simplement qu’en utilisant le TCAM, nous connaîtrons uniquement
l’évolution de la variable d’année en année et nous ne pourrons pas la connaître avec d’autres
critères temporels.
De plus, le second critère implique que la variation calculée ne correspond qu’à une valeur
moyenne. Cela veut dire, qu’en réalité, la variable n’évolue pas au même rythme (ce qui est
logique !) mais qu’en moyenne, elle le fera. Dit autrement, pour passer de la valeur d’une
année à celle d’une autre année, il faudra que celle-ci varie à un même taux, celui calculé avec
le TCAM.
Exemple : si le PIB augmente, en 2010, de 5% puis, en 2011, de 2% puis, en 2012, diminue de 3%,
au lieu d’en rester là, nous pourrons calculer une variation moyenne qui, en restant la même, nous
permettra de passer de la valeur du PIB en 2010 à celle de 2013.
Vous voyez donc que cet indicateur statistique a une double utilité : il nous permet à la fois de
connaître, sur de très longues périodes, l’évolution annuelle d’une variable et en même temps,
de connaître son évolution moyenne, ce qui évite de tenir compte de toutes les fluctuations
plus ou moins importantes de la variable. Grâce au TCAM, on peut en quelque sorte lisser
l’évolution de cette dernière chaque année.

La formule couramment utilisée est :

Ici, le TCAM est obtenu grâce au coefficient multiplicateur global, calculé pour une période
donnée. Lorsqu’on dispose d’un autre type d’écart relatif, il faut d’abord le transformer en
CM puis calculer le TCAM correspondant.

Lecture : Entre (période étudiée), le (variable étudiée) a augmenté/diminué en moyenne,


chaque année, de (TCAM).

Attention : on peut vous donner des écarts relatifs sur plusieurs années consécutives et vous
demander de déterminer le TCAM sur toute la période étudiée. Dans ce cas, il vous faut d’abord
calculer le CM global, en multipliant les CM successifs, puis déterminer le TCAM qui y est
rattaché.

Exemple :
a) Voici l’évolution du PIB en France entre 2000 et 2005

Année 2000 2001 2002 2003 2004 2005


PIB (en milliards d'euros) 1200 1300 1400 1500 1600 1550

- Calcul du TCAM du PIB en France entre 2000 et 2005 :


Lecture : entre 2000 et 2005, le PIB en France a augmenté, en moyenne, chaque année, de
4,36%.

b) Reprenons l’exemple de la section précédente avec les CM successifs. Nous


avions obtenu comme CM :

Année 2007 2008 2009 2010 2011


Coefficient multiplicateur 1,071 1,054 0,987 1,023 1,044
Le CM global était égal à 1,19.

Lecture : entre 2007 et 2011, le PIB en France a augmenté en moyenne, chaque année, de
3.54%.

4. Mesurer en valeur et en volume

Lorsque l’on compare deux valeurs d’une même variable à deux dates différentes ou entre
deux espaces différents, on utilise, comme on l’a vu précédemment, un écart relatif, qu’il soit
exprimé en % ou qu’il s’agisse du CM ou encore de l’indice.
Cependant, la comparaison dans le temps peut devenir problématique. En effet, toute
évolution d’une variable quelconque dans le temps fait apparaître un effet-quantité (évolution
des quantités étudiées) ainsi qu’un effet-prix (évolution des prix). Or, pour obtenir l’évolution
réelle de la variable étudiée, il faudrait que les prix soient les mêmes aux deux dates en
question, c’est-à-dire que l’effet-prix soit supprimé pour uniquement connaître l’évolution des
quantités. Cela nous donnerait, en quelque sorte, la véritable évolution de cette variable. Pour
cela, il faut DEFLATER la variable en valeur, c’est-à-dire évaluer toutes les quantités au
même prix.
« Déflater » une variable revient donc à exprimer cette variable en volume, c’est-à-dire ne
tenir compte que de l’effet-quantité et annuler l’effet-prix.
Lorsqu’on « déflate », on passe donc d’une variable « en valeur » à une variable exprimée
« en volume ».

ATTENTION : exprimer une variable « en valeur » revient à exprimer la variable « en prix


courants ». Exprimer une variable « en volume » revient à l’exprimer « en prix constants ».

La formule, pour passer d’une expression à l’autre, est :


Remarque : L’indice des prix est toujours calculé à partir d’une année de base, comme pour
tout indice. Cela signifie que toute variable exprimée en volume l’est toujours par rapport à
une année de référence. Autrement dit, on déflate, on supprime l’effet-prix par rapport à
l’année de base choisie. Toutes les variables en volume seront donc exprimées au même prix
que cette dernière. Par conséquent, le choix de l’année de référence est fondamental pour
pouvoir faire des comparaisons intéressantes.

Lecture : en (date), le (variable étudiée), en valeur/volume, était de (montant)

Exemple : Voici l’évolution du PIB en France et l’indice des prix entre 1999 et 2005

Année 1999 2001 2003 2005


PIB (en milliards d'euros) 1366,5 1497,2 1594,8 1710
Indice des prix (base 100=1995) 98,6 102 106,4 110,2

- Calcul du PIB en volume ou en milliards d’euros constants en 1999 :

En appliquant cette formule pour toutes les années, on obtient :

Année 1999 2001 2003 2005


PIB (en milliards d'euros) 1366,5 1497,2 1594,8 1710
Indice des prix (base 100=1995) 98,6 102 106,4 110,2
PIB en volume 1385,9 1467,8 1498,87 1551,72

Lecture : en 1999, le PIB, en valeur, était de 1366.5 milliards d’euros, ou, en 1999, le PIB était
de 1366.5 milliards d’euros courants.
En 1999, le PIB, en volume, était de 1385.9 milliards d’euros, ou, en 1999, le PIB
était de 1385.9 milliards d’euros constants.

Remarque : lorsqu’il n’y a aucune indication pour préciser s’il s’agit d’une variable en
valeur ou en volume, on considère qu’elle est toujours exprimée « en valeur ».

Il est possible, bien entendu, de mesurer l’évolution de la variable entre des dates
différentes, selon qu’elle soit exprimée en valeur ou en volume. Cependant, le résultat sera
différent selon l’expression utilisée.

Lecture : Entre (période étudiée), le (variable considérée), en valeur/volume a


augmenté/diminué de (ER).
Entre (période étudiée), la valeur / le volume de (variable considérée) a
augmenté/diminué de (ER)

Exemple : Reprenons l’exemple précédent avec l’évolution du PIB entre 1999 et 2005

Année 1999 2001 2003 2005


PIB (en milliards d'euros) 1366,5 1497,2 1594,8 1710
Indice des prix (base 100=1995) 98,6 102 106,4 110,2
PIB en volume 1385,9 1467,8 1498,87 1551,72
- Calcul de l’évolution du PIB en valeur entre 1999 et 2005 :

- Calcul de l’évolution du PIB en volume entre 1999 et 2005 :

Remarque : en général, l’évolution en volume sera plus faible que celle en valeur puisque les
grandeurs en € constants ont une caractéristique en moins que celles en € courants (effet-prix).
En annulant cet effet, on annule aussi une partie de l’évolution. Cette remarque est toujours
vraie dans les situations d’inflation, situation largement répandue dans la majorité des
économies mondiales. Par contre, toutes les grandeurs en situation de déflation connaîtront
une variation plus forte en volume qu’en valeur puisque la baisse des prix va faire gonfler
l’importance de l’effet-quantité.
Le calcul statistique
L’étude d’un phénomène économique ou social peut parfois nécessiter l’élaboration d’études
statistiques afin de rendre compte efficacement de ce phénomène. Il est parfois utile d’étudier
l’existence d’inégalités économiques ou sociales, ou bien l’existence d’écarts quantitatifs à
l’intérieur d’un pays ou encore entre différents pays etc…

1) Les caractères statistiques


Toute étude d’une quelconque « population statistique » (ensemble des individus étudiés,
correspondant, en réalité, au total des effectifs) doit se référer à un caractère particulier. En
effet, l’analyse des notes obtenues à un devoir dans une classe de seconde, ne renvoi pas au
même caractère que l’analyse des sports pratiqués par les français. Dans le premier cas, nous
dirons que nous avons affaire à un « caractère quantitatif » (nous pouvons attribuer des
valeurs numériques au caractère, les notes), mais, dans le second cas, nous ne pouvons donner
de valeurs au caractère (ici, les différents sports pratiqués par les français). On parle alors de
« caractère qualitatif ». Les valeurs numériques du caractère sont remplacées par les
différentes qualités que portent ce caractère (ici, le nom des sports pratiqués)

Ces deux caractères ne font pas l’objet des mêmes calculs et des mêmes éléments à analyser.
Cependant, en statistiques, nous utilisons plus souvent le caractère quantitatif, d’autant plus
qu’il recouvre une richesse bien plus grande que le caractère qualitatif, dont l’analyse est
fortement limitée.

C’est pourquoi, nous commencerons par étudier tout ce qui est associé au « caractère
quantitatif ». Ce dernier fait lui-même l’objet d’une subdivision en deux sous-ensembles :

- « Caractère quantitatif discret » : Les valeurs prises par le caractère étudié sont
dénombrables et isolées.

Exemple : Etudions le nombre d’enfants parmi les familles françaises. Bien entendu, les valeurs
du caractère (ici, le nombre d’enfants) seront des nombres isolés (0, 1, 2, 3, ….). Nous ne
pouvons imaginer une famille avoir 3,4 enfants ……..

- « Caractère quantitatif continu » : Les valeurs prises par le caractère sont


regroupées dans un ensemble d’intervalles de nombres, du type [a ; b [

Exemple : Etudions la taille des feuilles d’un arbre. Il est bien entendu qu’il y a de grandes
chances pour que chaque feuille a une taille différente de sa voisine, même avec quelques
millimètres de différence. Si nous choisissons d’étudier ce caractère par une analyse discrète, on
peut en conclure que chaque dimension (supposons en centimètres) de chaque feuille sera
rattachée à un effectif de 1 (1 feuille pour une dimension). Imaginez alors le nombre de valeurs
prises par le caractère……. De plus, quel intérêt a-t-on à avoir une infinité de valeurs isolées
avec, pour chacune, un effectif de 1 ? Aucune……
Vous comprendrez, alors, qu’il est plus judicieux de regrouper les tailles des feuilles en
intervalles pour faciliter l’étude statistique. Par exemple, le premier intervalle sera composé de
toutes les feuilles ayant une dimension comprise entre 0 et 5 cm, le second entre 5 et 10 cm
etc…..
2) Vocabulaire pour bien commencer

 Population (notée N): Ensemble des éléments observés, ce qui


correspond au total des effectifs étudiés. Il répond à la question qui est
étudié ?
Exemple : Ensemble des élèves d’une classe de seconde.
 Individu : Un élément isolé de la population
Exemple : Un élève
 Classe : nom associé à l’intervalle du caractère continu.
Exemple : Si le caractère continu correspond aux notes obtenues à un devoir, on peut faire des
regroupements de classe : ceux qui ont eu entre 0 et 5 : [0 ; 5[, ceux qui ont eu entre 5 et 10 :[5;10[
etc….
 Centre de classe (notée ci) : Milieu de l’intervalle. Il est calculé en
ajoutant les deux bornes de la classe puis en divisant par 2.
Exemple : si la classe est [0 ; 5[, le centre de la classe sera de : (0+5)/2 = 2,5.
 Effectifs (noté ni): Nombre de fois que l’on retrouve la valeur du
caractère.
Exemple : Si le caractère étudié est les « notes obtenues à un devoir », les effectifs correspondront
aux nombres d’élèves associés à chaque note du devoir (caractère discret) ou à chaque intervalle
de note (caractère continu)
 Effectifs cumulés (noté Ni): Ils peuvent être croissants ou décroissants.
Dans le premier cas, il s’agit d’opérer la somme un à un des effectifs en
partant de celui du premier caractère. Dans le second, il s’agit d’opérer la
différence des effectifs un à un en partant de celui du dernier caractère.
 Amplitude (noté ai) : Différence entre la borne supérieure de la classe et
la borne inférieure.
Exemple : Si une classe correspond à l’intervalle [0 ; 5[, l’amplitude sera égale à : 5-0 = 5
 Fréquences simples (noté fi) : Part de chaque effectif dans l’effectif
total. Le calcul est le suivant : fi = . La somme des fréquences est égale
à 100%. Cet outil a bien plus de sens que celui des effectifs. On peut
affirmer qu’il remplace les effectifs avec un intérêt supplémentaire.
Regardons l’exemple ci-dessous et essayons d’en tirer une conclusion.
Exemple : Si 5 élèves ont eu une note de 10/20 (sur un total de 30 élèves), la fréquence associée à
cette note sera : 5/30 = 0.17 ou 17%. Ceci signifie que 17% des élèves ont eu une note de 10/20.
Lorsqu’on dit que 5 élèves ont eu une note de 10, c’est un peu comme si on disait que 25
français ont les yeux bleus ou encore que 100 personnes aient été arrêtées par la police
française en 2010. Quel est le problème de ces simples effectifs ? La base sur laquelle ils sont
calculés. Dire que 25 français ont les yeux bleus nous demande de relever une question
importante : Mais sur combien de français ? Car 25 sur 1000 français ne signifie pas la même
chose que 25 sur 1.000.000 de français. Pour répondre à ce problème d’importance de
l’effectif par rapport à l’effectif total, on utilise la fréquence qui nous donne alors une
dimension relative de l’effectif.
 Fréquences cumulées (noté Fi) : Ils peuvent être croissants ou
décroissants. Dans le premier cas, il s’agit d’opérer la somme une à une
des fréquences en partant de celle du premier caractère. Dans le second, il
s’agit d’opérer la différence des fréquences une à une en partant de celle
du dernier caractère.
 Mode : Il s’agit de la valeur du caractère (ou l’intervalle) ayant l’effectif
le plus grand ou la fréquence la plus grande (Alius et idem). Il se peut
qu’il y ait plusieurs modes si l’effectif ou la fréquence la plus élevée se
retrouvent pour plusieurs valeurs du caractère. Pour un caractère continu,
on parlera de « classe(s) modale(s) »
 Etendue : Il s’agit de la différence entre la plus grande valeur du
caractère et la plus petite.
Exemple : Si la note minimale est 1/20 et la note maximale est 19/20, l’étendue est égale à :
19-1= 18

3) Les représentations graphiques élémentaires

Il existe, en statistiques descriptives, une multitude de représentations graphiques, dont la


complexité peut varier. Chaque type de caractère possède ses propres représentations
graphiques qui lui sont exclusivement réservées.
Ces représentations sont un moyen facile pour observer les caractéristiques importantes du
caractère étudié. En quelques clins d’œil, nous pouvons en déduire un ensemble de propriétés
sur ce dernier et faire un constat d’ensemble. Cependant, les graphiques ne nous fournissent
qu’une information limitée et non authentique. Nous ne pourrons pas réaliser des études
statistiques complètes avec les seuls graphiques. Il nous faudra toujours opérer des calculs
complémentaires. Ainsi, l’utilisation des représentations graphiques en statistiques nous
permettent de ne faire qu’une étude partielle d’un caractère.

a) Caractère qualitatif : étant donné la pauvreté de ce caractère, les représentations


graphiques se limitent au nombre de trois. Cependant, elles présentent de grands
intérêts, bien supérieurs à la représentation sous forme de tableaux.

Diagramme en bâtons : pour chaque qualité du caractère, nous lui attribuons un bâton
dont la hauteur est proportionnelle à l’effectif.
En ordonnée : effectifs (ou
fréquences)

En abscisse : qualités du caractère


Remarque : l’utilisation des fréquences en ordonnée ne pose aucun problème et n’altère en
rien l’interprétation du caractère.

Tuyaux d’orge : c’est en quelque sorte l’histogramme du caractère qualitatif. Pour chaque
qualité du caractère, nous lui attribuons un rectangle dont la longueur est proportionnelle à
l’effectif (ou fréquence). Il s’agit en fait d’un diagramme en bâtons, dont les bâtons sont
remplacés par des rectangles.
Exemple : une étude statistique porte sur la nature des recettes budgétaires de l’Etat français en
2009. Voici le tuyau d’orge que nous pouvons associer au caractère.

Diagramme circulaire : appelé vulgairement fromage, il s’agit du seul graphique dont la


représentation, de forme circulaire, se fait à l’aide de pourcentages ou, plus exactement, de
parts. Chaque modalité reçoit en fait une part du fromage, part qui est proportionnelle à
l’effectif (ou à la fréquence). Le poids de l’effectif détermine donc la plus ou moins grande
part dont bénéficiera la modalité en question.
La construction semble difficile mais est en réalité très simple. De manière littérale, nous
savons que la totalité du cercle (ou du diagramme) représente la population totale (ou effectif
total) dont l’angle vaut 360°. Il suffit alors, à l’aide d’un produit en croix, de calculer l’angle
associé à l’effectif de chaque modalité. Une fois les angles connus, il suffit, avec un
rapporteur, de représenter chaque angle et de tracer un rayon correspondant à celui-ci. On
réitère l’action autant de fois que nécessaire.

Prenons un exemple simple afin de faciliter la compréhension de ce qui vient d’être dit.
Supposons une étude statistique portant sur la marque de voitures préféré de 100 français en
2010. Voici, dans un tableau, les résultats de l’enquête :

Marque de Peugeot Renault Nissan BMW Mercedes Opel Total


voiture
Effectifs 10 5 13 20 40 12 100

Etant donné que nous savons que le total des 100 français représente la totalité du cercle, soit
un angle de 360°, comment va-t-on déterminer l’angle associé à la marque Peugeot sachant
que son effectif vaut 10 ?
Posons le produit en croix suivant :

Il suffit alors de poser l’opération :


Ainsi, l’angle associé à la marque Peugeot sera égal à 36°.

En répétant ce produit en croix pour chaque modalité, nous obtenons les résultats suivants :

Marque de Peugeot Renault Nissan BMW Mercedes Opel Total


voiture
Effectifs 10 5 13 20 40 12 100
Angle (en
degré)
36 18 46.8 72 144 43.2 360

Nous pouvons facilement vérifier que la somme des angles de chaque modalité est bien égale
à 360°, ce qui sera évidemment toujours vraie.

Une fois les angles connus, nous pouvons tracer un cercle.

Un problème, mineur, apparaît immédiatement : comment représenter les angles de chaque


modalité ? En effet, l’utilisation d’un rapporteur, seul outil apte à nous aider, requiert
l’existence d’une droite (ou d’un segment) comme base pour tracer un angle. Or, sur ce
cercle, il n’en existe aucune.
Il suffit alors, nous-mêmes, et de façon totalement arbitraire, de tracer un rayon du cercle qui
nous servira de base pour utiliser le rapporteur.

On peut alors poser le rapporteur sur cette base et tracer le premier angle associée à la
modalité « Peugeot », soit 36°. Cela nous donnera la première part du fromage, celle, en
l’occurrence, qui préfère la marque Peugeot.

Part de la population préférant la


marque Peugeot

On renouvelle l’opération pour les autres modalités en partant toujours du dernier rayon tracé.
On obtient alors les parts respectives de chaque modalité du caractère.
Voici la forme finale que nous devons obtenir :
Remarque : nous pouvons opter pour le diagramme semi-circulaire. Il a la forme d’un demi-
fromage. Au lieu de prendre pour total 360°, il faut prendre un total de 180°. Les calculs
relatifs aux angles de chaque modalité se font sur le même principe que ceux du diagramme
circulaire, autrement dit, à l’aide d’un produit en croix.

b) Caractère quantitatif discret

Diagramme en bâtons : Il s’agit de tracer des bâtons pour chacune des valeurs du caractère, la
hauteur du bâton représentant l’importance de l’effectif ou de la fréquence. Autrement dit, il
suffit de tracer des segments parallèles à l’axe des ordonnées dont la longueur est
proportionnelle à l’effectif ou à la fréquence.

En ordonnée, on place les effectifs (ou fréquences)

L’épaisseur du bâton n’a aucune


importance (sauf exagération)

En abscisse, on place les


valeurs du caractère

Remarque : en ordonnée, il est possible d’utiliser les fréquences. Etant donné que ces
dernières ne sont que l’expression relative des effectifs, l’interprétation du graphique ne s’en
trouvera pas modifiée.

En reliant les sommets de chaque bâton, nous obtenons le polygone des effectifs ou des
fréquences.

Diagramme en escalier (ou fonction de répartition) : On associe à chaque valeur du caractère


sa fréquence cumulée qui lui est associée (fréquences cumulées croissantes). Etant donné le
caractère discret de la variable, il n’y a pas de continuité entre chaque fréquence cumulée.
Chaque classe de valeurs a une fréquence cumulée bien définie, différente de la précédente et
de la suivante. C’est pour cela que nous traçons des segments horizontaux entre les valeurs du
caractère car une même fréquence cumulée est supposée valable pour tous les nombres entre
deux valeurs du caractère. Mais, il faut toujours exclure la valeur suivante car pour celle-ci,
une autre fréquence cumulée lui est associée. Cette exclusion est symbolisée par
En ordonnée : Effectifs cumulés croissants

En abscisse :
valeurs du
caractère discret

Remarque : pour la dernière valeur du caractère, il faut considérer que son effectif cumulé est
vrai pour toutes les valeurs après celle-là. C’est pour cela que nous traçons un segment
horizontal qui se poursuit bien après la dernière valeur du caractère. Nous aurions pu le
poursuivre jusqu’à l’infini.

Afin de mieux comprendre les raisons du principe de non-continuité entre les valeurs du
caractère, prenons un exemple dont la représentation graphique se trouve ci-dessus.

Exemple : Prenons une étude portant sur le nombre d’enfants de 200 familles de Lille. Voici les
résultats de l’enquête :

Nombre
0 1 2 3 et + Total
d’enfants
Nombre de
25 50 100 25 200
familles
Fréquences
0,125 0,25 0,5 0,125 1
simples
Fréquences
0,125 0,375 0,875 1
cumulées

Vous remarquerez que chaque fréquence cumulée ne vaut que pour une valeur du caractère et
que lorsqu’on passe à la valeur suivante, la fréquence cumulée change. Donc, tout se passe comme
si une fréquence cumulée était valable pour tous les nombres compris entre deux valeurs du
caractère. Par exemple, la fréquence cumulée égale à 0,375 est valable pour tous les nombres
compris entre 1 et 2. C’est pour cette raison qu’on tracera un segment horizontal d’ordonnée
0,375 qui commencera à l’abscisse x=1 jusqu’à l’abscisse x=2 (exclu). Une fois passé exactement
à 2, la fréquence cumulée devient égale à 0,875. Donc, pour la valeur du caractère qui vaut 2, il
faut partir de la fréquence cumulée égale à 0,875 jusque 3 (exclu) car en passant exactement à 3, la
fréquence cumulée saute et devient égale à 1.

Diagramme en boîte (ou à moustaches) : Il s’agit du seul graphique, pour un caractère discret,
qui permet de représenter, non pas les effectifs (ou fréquences) mais des caractères de
position comme la médiane, le premier quartile etc…. Ces derniers seront explicités en détail
lors de la section suivante.
Le principe est simple : une fois connu les paramètres nécessaires, on trace un rectangle allant
du premier quartile au troisième quartile, coupé perpendiculairement par la médiane. Deux
segments viennent ensuite rejoindre les extrémités du caractère au rectangle. Il est possible de
s’aider d’une échelle graduée pour positionner précisément les valeurs dont on a besoin.
Voici une représentation graphique d’un diagramme en boîte :

Xi

Min Q1 Médiane Q3 Max

: valeur minimale du caractère


: valeur du premier quartile
: valeur du troisième quartile
: valeur maximale du caractère

Ce graphique est amusant mais présente peu d’intérêt. Tout ce que nous pouvons faire avec
celui-ci est d’observer et d’étudier l’écart interquartile. Il s’agit d’une mesure de la dispersion
du caractère autour de la médiane que nous verrons lors de la section f.
Il est aussi pratique, pour un même caractère, lorsque nous voulons comparer des populations
différentes. C’est un moyen simple d’observer les différences caractéristiques entre ces
populations. Nous pouvons par exemple indiquer quelle population possède la valeur de la
médiane la plus élevée, l’écart interquartile le plus important etc….
c) Caractère quantitatif continu
Histogramme : il s’agit de la représentation standard d’un caractère continu. Etant donné que
ce dernier se caractérise par des classes de valeurs, donc par des intervalles, il est donc
intéressant de représenter les effectifs (ou fréquences) sous forme de barres colées les unes
aux autres dont la largeur représente l’amplitude de chaque classe de valeurs.

ATTENTION : Pour le tracer comme ci-dessus, c’est-à-dire avec les ni (ou fi) en ordonnée et
les xi (valeurs du caractère) en abscisse, il est impératif que les amplitudes de classe soient les
mêmes. Autrement dit, la hauteur des rectangles doit être proportionnelle aux effectifs (ou
fréquences) de chaque classe de valeurs. On peut donc, sans problèmes, effectuer des
comparaisons et indiquer quelle classe du caractère a l’effectif (ou fréquence) le plus grand ou
le plus petit. En regardant le graphique ci-dessus, nous constatons sans difficulté que les
amplitudes sont les mêmes, égales à 2, puisque les largeurs des rectangles sont identiques (la
largeur indiquant l’amplitude). On peut donc dire par exemple que c’est la classe [4 ; 6[qui a
le plus grand effectif et la classe [8 ; 10[qui a le plus petit. Dit autrement, nous pouvons
affirmer sans commettre d’erreurs qu’il y a une majorité d’individus dont le caractère vaut
entre 4 et 6.

Si les amplitudes sont différentes, on ne peut étudier l’histogramme efficacement si nous ne


recourons pas au préalable à un changement important de variable. En effet, si les hauteurs ne
sont plus proportionnelles aux effectifs (aux fréquences), toute comparaison et toute étude
deviennent biaisées. On ne peut plus affirmer avec certitude qu’une majorité d’individus est
comprise entre telle et telle valeur du caractère. Dit autrement, ce n’est plus parce qu’une
classe détient l’effectif le plus grand qu’elle concentre la plus grande part relative des
individus.
Pour remédier à ce problème, les hauteurs ne doivent plus être proportionnelles aux effectifs
(ou fréquences) mais aux densités, c’est-à-dire au rapport entre les effectifs et les amplitudes.
On peut parler d’effectif relatif, au sens où il est relatif aux amplitudes.
Cette fois-ci, l’axe des ordonnées est exprimé relativement c’est-à-dire qu’il est exprimé sur
une même base pour toutes les classes de valeurs. Dit autrement, on introduit un critère de
proportionnalité ou de relativité qui est l’amplitude des classes. Tout se passe comme si nous
essayons de connaître, pour chaque classe de valeurs, le nombre d’effectifs pour une
amplitude qui est égale à 1. En effet, diviser les effectifs par les amplitudes revient à exprimer
les premiers pour une seule amplitude. Cela signifie simplement que les effectifs de chaque
classe sont ramenés à une même amplitude qui vaut 1. Comme toutes les classes ont une base
identique, les comparaisons deviennent alors possibles et l’observation n’est donc plus
biaisée.

Mais, pour faciliter la compréhension de ce point, prenons un exemple qui éclaircira, je


l’espère, le raisonnement précédent.

Exemple : Supposons une étude statistique qui s’intéresse au revenu mensuel, en euros, de 200
ménages français. Nous supposerons que cet échantillon est représentatif de la population
française. Voici le résultat de l’étude :

Revenu [0 ; 200[ [200 ; 500[ [500 ; 600[ [600 ; 1000[ [1000 ; 2000[ TOTAL
mensuel
Effectifs 35 50 25 30 60 200

Faisons un constat immédiat : n’importe qui affirmerait, sans véritables erreurs, que la majorité
des ménages français ont un revenu compris entre 1000€ et 2000€. De même, nous pouvons
affirmer que la plus faible part des ménages a un revenu compris entre 500€ et 600€.
De plus, nous voyons facilement que les amplitudes de classe sont toutes différentes.
Représentons l’histogramme associé à cette étude sans tenir compte de la différence des
amplitudes.

0 200 500 600 1000 2000

L’observation de l’histogramme confirme nos affirmations précédentes : la hauteur du rectangle


est la plus élevée pour la classe [1000 ; 2000[et la moins élevée pour la classe [500 ; 600[. A priori,
nous aurions donc raison d’affirmer que la majorité de la population étudiée est incluse dans le
dernier intervalle de valeurs.
Mais, regardons de plus près et essayons d’être logique. Avons-nous vraiment le droit de
comparer une classe qui n’a qu’une amplitude de 100 à une classe qui a une amplitude de 1000 ?
Vous voyez tout de suite que la comparaison est aberrante. Bien entendu que la seconde classe
aura un plus grand effectif puisqu’elle regroupe théoriquement 10 fois plus de valeurs que la
première. Vous comprenez donc que la conclusion faite précédemment est biaisée et sans fondement
réel. Pour pouvoir comparer deux éléments, il faut qu’elles aient la même base sinon vous
comparez l’incomparable. Cette base commune, on l’a appelé la densité. Nous allons exprimer les
effectifs de chaque classe pour une amplitude égale à 1. Dans ce cas, comme la base est identique,
nous pourrons savoir, pour une amplitude de 1, quelle classe a le plus grand effectif.

Calculons les densités. Le calcul étant simple, vous pourrez, pour vous entraîner, retrouver vous-
mêmes les résultats ci-dessous :

Revenu
[0 ; 200[ [200 ; 500[ [500 ; 600[ [600 ; 1000[ [1000 ; 2000[ TOTAL
mensuel
Effectifs 35 50 25 30 60 200
Densité 0,175 0,17 0,25 0,075 0,06

Une observation rapide permet de conclure que c’est la classe [500 ; 600[qui a la plus grande
densité et la classe [1000 ; 2000[qui a la plus petite. Nous avons donc une conclusion qui est
exactement l’inverse de celle faite avec les effectifs. Cette fois-ci, c’est la classe qui a la plus petite
amplitude qui a la densité la plus grande.

Remarque : ceci ne signifie pas que c’est toujours vrai !

Quelle lecture pouvons-nous faire de ces densités ? Cela signifie que pour le classe [500 ; 600[, à
chaque unité d’amplitude correspond un effectif de 0,25. Ou encore, pour la classe [1000 ; 2000[, à
chaque unité d’amplitude correspond un effectif de 0,06.
On peut donc conclure que relativement aux amplitudes, c’est la classe [500 ; 600[qui a l’effectif le
plus grand et non la classe [1000 ; 2000[qui a, en fait, l’effectif le plus petit relativement aux
amplitudes.

Représentons l’histogramme avec les densités.


L’observation de l’histogramme confirme que la densité (l’effectif relatif aux amplitudes) est la plus
élevée pour la classe [500 ; 600[.

Je tiens à attirer votre attention sur une erreur à ne pas commettre. A aucun moment, je n’ai
affirmé que, pour un revenu mensuel compris entre 500€ et 600€, l’effectif était le plus grand.
Tous les statisticiens du monde entier vous diront que c’est pour un revenu mensuel compris
entre 1000€ et 2000€ que l’effectif est le plus élevé. Par contre, vous pouvez affirmer que c’est
bien la classe [500 ; 600[qui possède l’effectif relatif le plus grand (relatif aux amplitudes).

Remarque : pour ceux qui voudraient un exemple similaire où nous devons introduire un
critère relatif pour pouvoir faire des comparaisons intéressantes, prenez le cas de deux
entreprises A et B, dont la première a réalisé un chiffre d’affaire de 1.000€ et la second de
500€. On peut dire que la première firme a un chiffre d’affaire supérieur à la seconde. Mais, si
nous introduisons un critère relatif, la quantité produite, et qu’on sait que la première a
fabriqué 100 unités et la seconde 20 unités, la conclusion change. Dans ce cas, relativement
aux quantités, c’est la seconde firme qui a réalisé le plus de chiffre d’affaire (25€ par unité)
alors que la première n’a réalisé qu’un chiffre d’affaire de 10€ par unité.

Fonction de répartition (ou courbe cumulative) : Il s’agit de la représentation des fréquences


cumulées croissantes (ou des effectifs cumulés croissants) d’un caractère continu.
Elle permet de trouver la proportion de la population (ou le nombre d’individus) dont le
caractère est inférieur à telle ou telle valeur. Autrement dit, en choisissant une valeur du
caractère, on peut connaître la part des individus qui sont en-dessous de cette valeur. Il s’agit
d’appliquer la définition des fréquences cumulées (ou des effectifs cumulés) pour pouvoir
interpréter le graphique.

Cette fois-ci, étant donné que les valeurs du caractère sont comprises dans des classes, il y a
nécessairement continuité entre toutes les valeurs. La courbe est donc continue c’est-à-dire
qu’elle doit être tracée sans « lever le crayon ». La fonction de répartition ressemble alors
simplement à une fonction croissante, dont le rattachement entre les valeurs du caractère se
fait par des segments de droite.

Fréquences cumulées croissantes

Maximum de la courbe

Valeurs du caractère
Remarques :
 Sur l’axe des ordonnés, vous auriez pu mettre les effectifs cumulés croissants, cela
n’aurait absolument rien changé.
 La courbe ne peut pas dépasser l’ordonnée de 1 (ou 100%). En effet, nous savons
que pour la dernière valeur du caractère, la fréquence cumulée croissante est égale à
100% puisqu’il y a bien 100% de la population dont le caractère est inférieur à la
dernière valeur.
 La représentation par des segments de droite mérite d’être expliquée. Lorsque nous
disposons du tableau de l’étude statistique, tout ce que nous connaissons, c’est
l’importance de l’effectif pour une classe de valeurs et non pour chaque valeur pris
individuellement. Nous savons qu’un ensemble de valeurs regroupe un certain
nombre d’individus. Cependant, nous ne savons rien de la distribution à l’intérieur
de chaque classe de valeurs. Autrement dit, nous ne savons pas comment se distribue
les effectifs pour chaque intervalle. Dans ce cas, les statisticiens ont supposé que
cette distribution serait linéaire c’est-à-dire que pour chaque valeur d’un intervalle,
on lui affecte la même proportion qu’une autre valeur du même intervalle. On dit
encore que la répartition des fréquences est uniforme.
Reprenons la courbe cumulative précédente pour illustrer ce qui vient d’être dit.

Nous observons, pour ne prendre qu’un exemple, qu’entre 20 et 50, la courbe est parfaitement
linéaire. Pour la valeur du caractère égale à 20, la fréquence cumulée vaut 25% et pour celle égale
à 50, elle vaut 60%. Il y a donc 35% d’individus dont la valeur du caractère est comprise entre 20
et 50. La linéarité de la courbe implique que pour chaque valeur du caractère compris entre 20 et
50, la fréquence qui lui est associée est identique à toutes les autres valeurs. Par exemple, pour
chaque unité de la classe [20 ; 50[, étant donné qu’il y a 30 unités, la fréquence sera égale à
0,35/30, soit 1,17%. Chaque valeur d’une classe reçoit la même part de la population cumulée à
l’intérieur de cette classe. Peut-être qu’en réalité, la répartition à l’intérieur de la classe est
hétérogène mais comme nous n’en savons rien, nous supposons qu’elle est uniforme ou linéaire.

Nous pouvons encore faire d’autres observations intéressantes avec la fonction de répartition
continue :
- L’écart vertical entre chaque segment de droite représente la fréquence simple
associée à chaque classe de valeurs. Pour la calculer, il suffit de soustraire les
fréquences cumulées de deux extrémités de chaque intervalle, ces dernières
correspondant aux extrémités des segments de droite. En effet, un segment de
droite représente une classe de valeurs donc les extrémités de celui-ci
représentent les bornes de la classe.
En reprenant notre exemple précédent, nous avions affirmé que la fréquence cumulée associée à
20 valait 25% et que celle associée à 50 valait 60%. Cela signifie qu’il y a 25% de la population
dont le caractère est inférieur à 20 et que 60% de la population a une valeur inférieur à 50. Nous
pouvons donc dire qu’entre 20 et 50, la proportion de la population totale vaut 0,6 – 0,25, soit
0,35. Ce résultat correspond en réalité à la fréquence simple associée à la classe [20 ; 50[. Pour mieux
comprendre, représentons la situation sur une droite graduée :

60%

20 50

25%

Comment connaître la fréquence simple associée à l’intervalle 20 – 50 ? Il suffit de prendre les


60% et de retirer le morceau correspondant aux 25%. Il ne restera alors que la partie comprise
entre 20 et 50.

En appliquant cette règle à chaque intervalle de valeurs, nous pouvons regrouper dans un tableau
toutes les fréquences cumulées et ainsi déterminer les fréquences simples de chaque classe du
caractère :

Xi Fi Classe fi
0 0 [0;10[ 0,15
10 0,15 [10;20[ 0,1
20 0,25 [20;50[ 0,35
50 0,6 [50;60[ 0,15
60 0,75 [60;90[ 0,05
90 0,8 [90;100[ 0,2
100 1 1

Chaque fréquence simple a été calculée par l’écart entre deux fréquences cumulées ce qui signifie
par simple soustraction.

Attention : cela ne peut se faire que pour chaque segment de droite. En effet, ces segments
permettent de délimiter les classes de valeurs. Il ne nous est pas permis de créer des
intervalles de manière arbitraire. Le passage d’un segment à un autre est le seul moyen de
reconnaître les intervalles de valeur du caractère étudié dont les bornes se confondent avec les
extrémités des segments.
Graphiquement, nous pouvons reconnaître les fréquences simples de chaque classe de valeurs
par l’écart vertical entre chaque segment de droite.

Vous remarquez que le découpage des fréquences cumulées en fréquences simples s’est fait par
segment de droite. Nous n’avons pas choisi nous-mêmes la délimitation des intervalles de valeur car
des derniers nous ont été donnés par le passage d’un segment de droite à un autre.
4) Les critères de position

Exemple :

 Soit l’évolution de l’emploi, en France, entre 1975 et 2005

Année 1975 1980 1985 1990 1995 2000 2005


Emplois (en milliers) 21157 21223 21465 22375 22210 23261 24921

- Calcul de la moyenne des emplois entre 1975 et 2005 :

Lecture : Entre 1975 et 2005, le nombre moyen d’emplois était de 22373000.

 Soit la répartition des salariés d’une entreprise A selon la rémunération


mensuelle

Rémunération(en €) 1000 1300 1500 1800 2000 2500 3000 Total


Nombre de salariés 24 52 51 33 13 3 1 177

- Calcul du salaire moyen :

Lecture : au sein de l’entreprise A, le salaire mensuel moyen est de 1483 euros.

5) La médiane
Définition : Il s’agit de la valeur des xi qui sépare l’effectif global (N) en deux parties égales.
e) En cas de variable discrète, il faut ordonner, dans l’ordre croissant, les valeurs
xi, et choisir celle dont l’effectif cumulé croissant correspond à la moitié de
l’effectif total.

Lecture : 50% de (nom de l’effectif) ont un (variable xi) inférieur/supérieur ou égal à


(médiane).

Exemple : Reprenons l’exemple précédent sur la répartition des salariés d’une entreprise A
selon le salaire mensuel.

Rémunération(en €) 1000 1300 1500 1800 2000 2500 3000 Total


Nombre de salariés 24 52 51 33 13 3 1 177

On voit clairement ici que les valeurs xi (rémunération mensuelle) sont déjà ordonnées.

- Calcul de la moitié de l’effectif total :

- Calcul des effectifs cumulés croissants :

Rémunération(en €) 1000 1300 1500 1800 2000 2500 3000 Total


Nombre de salariés (ni) 24 52 51 33 13 3 1 177
ni cumulés 24 76 127 160 173 176 177

- Détermination de la médiane : 88.5 correspond à la valeur xi = 1500€. Lecture :


50% des salariés de l’entreprise A ont une rémunération mensuelle inférieure à
1500€.

Dans le cas d’une variable continue, cette méthode de calcul est insuffisante et imprécise. En
effet, dans notre exemple précédent, si le salaire mensuel était borné inférieurement et
supérieurement, on ne pourrait pas dire, avec précision, que 50% des salariés ont une
rémunération inférieure à 1500€, étant donné qu’à 1500€, l’effectif cumulé est de 127 et non
de 88.5.

Il faut, dans ce cas, recourir à une interpolation linéaire : il s’agit de calculer la médiane de
manière précise, en l’encadrant par les valeurs entre lesquelles elle est comprise.

Rémunération(en €) [0;1000[ [1000;1300[ [1300;1500[ [1500;1800[ [1800;2000[ [2000;2500[ [2500;3000[ Total


Nombre de salariés (ni) 24 52 51 33 13 3 1 177
ni cumulés 24 76 127 160 173 176 177
Exemple : Reprenons l’exemple de la répartition des salariés d’une entreprise A selon la
rémunération mensuelle, mais, cette fois-ci, bornons les valeurs de la série xi.
Par conséquent, dans ce cas, on ne peut plus dire que, pour un effectif cumulé de 88.5, le
salaire mensuel est de 1500€ puisque, maintenant, la rémunération mensuelle est comprise
entre 1300€ et 1500€ et n’est plus fixée comme dans le cas d’une variable
discrète. Autrement dit, on ne connaît pas la répartition du nombre de salariés pour un
salaire compris entre 1300 et 1500 euros. Tout ce qu’on sait est qu’il y a 127 salariés qui ont
un salaire mensuel inférieur à 1500€.

Pour déterminer la médiane, il faut alors recourir à une interpolation linéaire : nous savons
qu’elle se situe entre 1300 et 1500, mais nous voudrions connaître sa valeur précise. On va
alors construire un tableau afin de borner la médiane Xmé :

xi Fréquences cumulées
1300
Xmé 0,5
1500

Nous savons, en effet, que la fréquence cumulée de la médiane est de 50%. Il ne nous reste
plus qu’à borner la médiane selon les fréquences cumulées. Pour cela, il faut les calculer :

Rémunération(en €) [0;1000[ [1000;1300[ [1300;1500[ [1500;1800[ [1800;2000[ [2000;2500[ [2500;3000[ Total


Nombre de salariés (ni) 24 52 51 33 13 3 1 177
ni cumulés 24 76 127 160 173 176 177
fréquences simples 0,13559322 0,29378531 0,28813559 0,18644068 0,07344633 0,01694915 0,00564972 1
Fréquences cumulées 0,13559322 0,42937853 0,71751412 0,9039548 0,97740113 0,99435028 1

On voit que 0.5 est compris, ici, entre 0.429 et 0.718. On peut donc finir de compléter le
tableau ci-dessus :
xi Fréquences cumulées
1300 0,429378531
Xmé 0,5
Pour déterminer Xmé, il ne reste plus qu’à poser
1500 0,717514124
l’égalité suivante :

Lecture : 50% des salariés de l’entreprise A ont une rémunération mensuelle inférieure ou
égale à 1350€.
6) Les quantiles

Définition : ce sont les valeurs maximales xi de la variable qui partagent la série en « n » parts
égales.

Il en existe plusieurs de noms différents :

Nombre de parts égales Nom du quantile Nombre


100 Centile 99
10 Décile 9
5 Quintile 4
4 Quartile 3
2 Médiane 1

L’étude exhaustive de tous les quantiles serait inutile et trop longue. Nous allons alors nous
concentrer sur les 2 plus importants : décile et quartile.

Les déciles : ce sont les valeurs maximales xi qui partagent la série en 10 parts égales c’est-à-
dire en 10 parts de même effectif. On les note « Di ».
Généralement, on calcule le premier décile D1 et le dernier décile D9, surtout lorsqu’on désire
étudier les inégalités économiques. Le calcul des déciles n’apporte aucune utilité en tant que
tel. C’est pour cela qu’habituellement, on compare D1 et D9 afin d’apporter une information
supplémentaire aux simples calculs de déciles.

La méthode de détermination est exactement la même que pour la médiane : une


détermination « directe » si la variable est discrète, ou bien une interpolation linéaire si la
variable est continue.

Lecture : Elle dépend évidemment du décile auquel on s’intéresse.

 D1 : 10% de (nom de l’effectif) ont un (variable xi) inférieur ou égal à (D1).


 D2 : 20% de (nom de l’effectif) ont un (variable xi) inférieur ou égal à (D2).
 …….
 …….
 D9 : 90% de (nom de l’effectif) ont un (variable xi) inférieur ou égal à (D9).

Remarque : Dire que 10% des effectifs ont une valeur inférieure à D1 revient à dire que 90%
des effectifs ont une valeur supérieure à D1. De même, dire que 90% des effectifs ont une
valeur inférieure à D9 revient à dire que 10% des effectifs ont une valeur supérieure à D9.

Exemple : Soit la répartition des ménages français selon le revenu disponible mensuel, en
2000.

Revenu disponible [0;1000[ [1000;1500[ [1500;2000[ [2000;2500[ [2500;3000[ [3000;5000[ Total


Nombre de ménages (en milliers) 120 200 250 170 60 30 830

Calcul du premier décile D1 : il faut recourir à une interpolation linéaire.


Revenu disponible [0;1000[ [1000;1500[ [1500;2000[ [2000;2500[ [2500;3000[ [3000;5000[ Total
Nombre de ménages (en milliers) 120 200 250 170 60 30 830
Fréquences simples 0,14457831 0,24096386 0,30120482 0,20481928 0,07228916 0,03614458 1
Fréquences cumulées 0,14457831 0,38554217 0,68674699 0,89156627 0,96385542 1
On peut construire un tableau en encadrant le premier décile D1 :

Xi Fi
0 0
D1 0,1
1000 0,145

En posant une égalité, on peut facilement déterminer la valeur de D1 :

Lecture : En 2000, 10% des ménages français avait un revenu disponible inférieur à 690€ ; ou
en 2000, 90% des ménages français avait un revenu disponible supérieur à 690€.

- Calcul du dernier décile D9 : par la même méthode, on finit par trouver :

Lecture : En 2000, 90% des ménages français avait un revenu disponible inférieur à 2556€ ;
ou en 2000, 10% des ménages français avait un revenu disponible supérieur à 2556€.

Le simple calcul de D1 et D9 n’a pas grande utilité. Cependant, la comparaison des deux
valeurs apporte des informations intéressantes.
En effet, on peut calculer deux éléments dans ce sens :

 Intervalle inter-décile = D9 – D1 = 1866.

Lecture : En 2000, les 10% des ménages français les plus aisés avaient un revenu disponible
supérieur de 1866€ à celui des 10% des ménages les plus pauvres.

 Rapport inter-décile : D9/D1 = 2556/690 = 3.7

Lecture : En 2000, les 10% des ménages français les plus aisés avaient un revenu disponible
3,7 fois supérieur à celui des 10% des ménages les plus pauvres.

Remarque : On utilise plus souvent le rapport inter-décile dans la comparaison des déciles,
étant donné son caractère relatif et non absolu comme le premier. Ce rapport est d’ailleurs
très utile dans l’étude des inégalités économiques et sociales.

Les quartiles : ce sont les valeurs maximales xi qui partagent la série en 4 parts égales c’est-
à-dire en 4 parts de même effectif. On les note « Qi ».
Généralement, on calcule le premier quartile Q1 et le troisième quartile Q3.
La méthode de détermination est exactement la même que pour la médiane ou les déciles :
une détermination « directe » si la variable est discrète, ou bien une interpolation linéaire si la
variable est continue.

Lecture : Elle dépend évidemment du quartile auquel on s’intéresse.

 Q1 : 25% de (nom de l’effectif) ont un (variable xi) inférieur ou égal à (Q1).


 Q2 : 50% de (nom de l’effectif) ont un (variable xi) inférieur ou égal à (Q2).
Vous remarquerez que le second quartile n’est rien d’autre que la médiane.
 Q3 : 75% de (nom de l’effectif) ont un (variable xi) inférieur ou égal à (Q3)

Remarque : Dire que 25% des effectifs ont une valeur inférieure à Q1 revient à dire que 75%
des effectifs ont une valeur supérieure à Q1. De même, dire que 75% des effectifs ont une
valeur inférieure à Q3 revient à dire que 25% des effectifs ont une valeur supérieure à Q3.

Exemple : Soit la répartition des ménages français selon le revenu disponible mensuel, en
2000.

Revenu disponible [0;1000[ [1000;1500[ [1500;2000[ [2000;2500[ [2500;3000[ [3000;5000[ Total


Nombre de ménages (en milliers) 120 200 250 170 60 30 830

- Calcul du premier quartile Q1 : il faut recourir à une interpolation linéaire


(caractère continu)

Revenu disponible [0;1000[ [1000;1500[ [1500;2000[ [2000;2500[ [2500;3000[ [3000;5000[ Total


Nombre de ménages (en milliers) 120 200 250 170 60 30 830
Fréquences simples 0,14457831 0,24096386 0,30120482 0,20481928 0,07228916 0,03614458 1
Fréquences cumulées 0,14457831 0,38554217 0,68674699 0,89156627 0,96385542 1

On peut construire un tableau en encadrant le premier quartile Q1 :

Xi Fi
1000 0.145
Q1 0.25
1500 0.386

En posant une égalité, on peut facilement déterminer la valeur de Q1 :

Lecture : En 2000, 25% des ménages français avait un revenu disponible inférieur à 1218€ ;
ou en 2000, 75% des ménages français avait un revenu disponible supérieur à 1218€.
- Calcul du troisième quartile Q3 : par la même méthode, on finit par trouver :

Lecture : En 2000, 75% des ménages français avait un revenu disponible inférieur à 2154€ ;
ou en 2000, 25% des ménages français avait un revenu disponible supérieur à 2154€.

Comme pour les déciles, nous pouvons mettre en rapport le premier et le troisième
quartile :

 Intervalle interquartile : il s’agit de l’intervalle [Q1 ; Q3]


Dans notre exemple, l’intervalle est donné par : [1218 ; 2154]

7) La variance et l’écart-type : l’étude de la dispersion

Nous arrivons à ce qui constitue certainement le plus difficile de l’analyse statistique, du


moins pour la plupart des étudiants. En effet, le calcul ainsi que l’interprétation de la variance
n’est pas chose aisée à première vue. Cependant, nous allons voir qu’en réalité, il faut juste un
peu de méthode et une bonne explication.

Commençons par des définitions « conventionnelles » :

- « Variance » : La variance mesure la dispersion de la variable autour de la


moyenne théorique.
- « Ecart-type » : Il s’agit de la racine carrée de la variance.

Voici ce que nous disent la plupart des manuels de statistiques, au moins les manuels de
« professionnels ».

Pour comprendre, plus facilement, la variance et l’écart-type, prenons un exemple concret :

Supposons deux élèves de première année de licence en économie-gestion, ayant passé


leurs examens du premier semestre. Appelons le premier élève X et le second Y. Au vu des
résultats, les deux élèves s’aperçoivent que leur moyenne est de 10/20. Les élèves pourraient, à
priori, se dire qu’ils ont obtenu, « grosso modo » les mêmes notes aux examens. Mais, il se peut
qu’il n’en soit pas ainsi.

Après avoir regardé leurs relevés de notes respectifs, les deux élèves confrontent leurs notes.
Pour simplifier, on supposera qu’ils ont passé seulement 4 examens : E1, E2, E3 et E4. Chaque
examen représente le même coefficient.

Voici le tableau récapitulant les notes des deux élèves aux 4 examens :

E1 E2 E3 E4
X 2 3 17 18
Y 8 9 12 11
En regardant ce tableau, les élèves peuvent être surpris des notes obtenues par l’autre : comment
quelqu’un ayant eu des 2 et 3/20 peut-il avoir la même moyenne que moi, c’est-à-dire 10/20 ?
Regardons de plus près ce tableau : nous sommes d’abord tous d’accord pour dire que ces deux
élèves ont eu la même moyenne, c’est-à-dire 10/20. En effet, si nous calculons la moyenne de X
et de Y, nous obtenons :

Nous commençons à y voir un peu plus clair. En effet, comparez les notes et vous verrez un
phénomène apparaître très simplement : il s’agit d’un « effet de compensation ». Bien sur, X a
eu de plus faibles notes à E1 et E2 que Y, mais n’oublions que c’est l’inverse pour E3 et E4.
Nous voyons alors que les faibles notes aux deux premiers examens de X (2 et 3/20) ont été
largement compensées par les notes élevées aux deux derniers examens (17 et 18/20). Les faibles
notes sont compensées par les notes élevées, ce qui, au final, ramène la moyenne au milieu, c’est-
à-dire à 10/20.
Pour Y, le phénomène est pareil : les notes proches de 10 mais inférieurs à 10 (8 et 9/20) ont été
compensées par les notes proches de 10 mais supérieurs à 10 (11 et 12/20), ce qui ramène la
moyenne également à 10/20.

La compensation fait donc que deux élèves, aux notes très différentes, peuvent obtenir la même
moyenne.

Mais, quel rapport avec notre sujet traité ici ?

A ce stade, nous avons compris que la même moyenne peut être obtenue avec des notes très
différentes entre les élèves. Si nous regardons ce phénomène par un simple graphique, voici ce
que l’on peut dire :

Représentation des notes de X :

2 3 10 17 18

Représentation des notes de Y :

8 9 10 11 12

Je pense que tout le monde, à ce stade, peut faire un constat très simple : nous voyons, en effet,
que l’écart entre la moyenne et les notes obtenues est bien plus grand pour X que pour Y, malgré
la même moyenne chez les deux. Lorsqu’on parle d’écart entre la moyenne et les notes obtenues,
on se réfère directement à ce qu’on appelle la « dispersion de la variable ». La dispersion
mesure l’écart moyen entre la moyenne et les valeurs de la variable. Ainsi, dans notre exemple,
puisque l’écart est plus grand chez X, on dira que la dispersion de la variable est plus élevée chez
ce dernier. On s’aperçoit que les notes obtenues par Y voyagent autour de la moyenne (sont
proches si vous préférez), ce qui constitue une dispersion plus faible. Vous voyez donc qu’une
même moyenne peut faire l’objet de dispersions très différentes.
La variance et l’écart-type ne font que mesurer cette dispersion de la variable autour de la
moyenne, c’est-à-dire l’écart entre la première et les valeurs de la variable. Plus une variable est
dispersée et plus sa variance (écart-type) sera élevée.

Méthodes de calcul :

Maintenant que nous comprenons mieux ce qu’est la variance et l’écart-type, nous pouvons
peut-être passer aux méthodes de calcul de ces deux éléments :

Variance = ou

Ecart-type =

Une question apparaît directement : pourquoi calculer la racine carrée de la variance ?

Reprenons l’exemple précédent : calculons la variance des deux élèves X et Y

Variance de X ou V(X) =

Variance de Y ou V(Y) =

Ouffff ! Les résultats coïncident avec les explications : X a bien une variance (dispersion) plus
élevée que Y. Mais, que signifient 56.5 et 2.5 ?

Simplement que l’écart moyen AU CARRE entre la moyenne et les notes obtenues est de
56.5 pour X et de 2.5 pour Y. Ce qui signifie que la variance mesure l’écart entre la moyenne
et les notes mais cet écart est exprimé au carré c’est-à-dire en unités carrées. Mais quel intérêt
fondamental a-t-on à lire des notes au carré ? Ceci n’a pas grand intérêt et grande
signification…..

C’est pour cette raison que l’on calcule l’écart-type, afin que l’écart soit exprimé dans la
même unité que la variable étudiée, à savoir les notes (tout court…..). L’interprétation et la
lecture des résultats a directement plus de sens, non ??? Je vais vous en convaincre :

Ecart-type de X =
Ecart-type de Y =

Voilà un résultat qui a du sens : l’écart moyen entre la moyenne et les notes obtenues est de
7.52 (/20) pour X et de 1.58 (/20) pour Y
Graphiquement, voici ce qui ceci signifie
Représentation des notes de X :

≈ 7.52 ≈ 7.52

2 3 10 17 18
Représentation des notes de Y :

≈1.58 ≈ 1.58

8 9 10 11 12

En conclusion, pour interpréter la dispersion de la variable, on privilégiera toujours l’écart-


type, dont les unités sont les mêmes que cette dernière.

8) L’indice de Gini et la Courbe de Lorenz : l’étude de la concentration


L’étude de la concentration renvoi directement à l’étude des inégalités. Lorsqu’on parle d’une
variable très concentrée, on ne fait que dire que la répartition de la variable est très
inégalitaire. Ainsi, plus une variable est concentrée, plus il y a d’inégalités. Mais inégalités de
quoi ?

Prenons un exemple pour voir de quoi parle-t-on : supposons que l’on étudie le revenu
mensuel de 1400 ménages français en 2010. On supposera que cet échantillon est représentatif de
tous les ménages français. Voici la répartition du revenu :

Revenu [400 ; 900[ [900 ; 1300[ [1300 ; 1600[ [1600 ; 2000[ [2000 ; 2500[ Total
Effectifs 200 300 550 260 90 1400

Au premier abord, nous ne pouvons absolument pas dire, ici, que la répartition du revenu est
inégalitaire. Ce n’est pas qu’elle ne l’est pas, mais c’est juste, qu’avec ces éléments, nous ne
pouvons rien en conclure. En effet, ce n’est pas parce que 550 ménages gagnent entre 1300 et
1600€ et 200 ménages entre 400 et 900€, que nous pouvons conclure que la répartition totale du
revenu de la France est inégalitaire.

La seule façon de le savoir est d’étudier la part du revenu total que reçoit chaque fraction de la
population française, c’est-à-dire la part de la « masse salariale » dont bénéficie chaque fraction
des ménages français. Ainsi, si une très petite fraction des ménages reçoit la quasi-totalité du
revenu de la France, alors nous pourrons dire que la répartition est inégalitaire. Ce qu’il faut donc
calculer, c’est la part de la masse salariale de chaque fraction des ménages français.

Mais avant de calculer la part de la masse salariale, encore faut-il déterminer cette
dernière…..
Masse salariale = Effectifs * Centre de classe

Revenu [400 ; 900[ [900 ; 1300[ [1300 ; 1600[ [1600 ; 2000[ [2000 ; 2500[ Total
Effectifs 200 300 550 260 90 1400
Centre 650 1100 1450 1800 2250
classe
Masse 130000 330000 797500 468000 202500 1928000
salariale

Nous pouvons alors en déduire la part de la masse salariale pour chaque fraction de revenus.
On les appelle habituellement les « gi ». Il s’agit du même calcul que les fréquences simples
mais, cette fois, en utilisant la masse salariale et non plus les effectifs seuls.

Revenu [400 ; 900[ [900 ; 1300[ [1300 ; 1600[ [1600 ; 2000[ [2000 ; 2500[ Total
Effectifs 200 300 550 260 90 1400
Centre 650 1100 1450 1800 2250
classe
Masse 130000 330000 797500 468000 202500 1928000
salariale
gi 0.067 0.171 0.414 0.243 0.105 1

Déterminons maintenant la part cumulée de la masse salariale : nous verrons après pourquoi
elle est fondamentale pour comprendre la concentration. On l’appelle « Gi ». Il s’agit du
même calcul que les fréquences cumulées mais, au lieu d’utiliser les fi, on utilise les gi.

Il suffit d’additionner les parts les unes après les autres :

Revenu [400 ; 900[ [900 ; 1300[ [1300 ; 1600[ [1600 ; 2000[ [2000 ; 2500[ Total
gi 0.067 0.171 0.414 0.243 0.105 1
Gi 0.067 0.238 0.652 0.895 1
Fi 0.143 0.357 0.75 0.936 1

Nous en venons au plus intéressant : la comparaison des fréquences cumulées et de la part


cumulée de la masse salariale. Voici comment interpréter les valeurs :

- 14.3 % des ménages français reçoivent 6.7% de la masse salariale totale.


- 35.7% des ménages français reçoivent 23.8% de la masse salariale totale.
- …
- …
- …
- 93.6% des ménages français reçoivent 89.5% de la masse salariale totale.

Voilà le meilleur moyen de juger des inégalités : si nous étions en situation de parfaite
égalité (évidemment, égalité des conditions), chaque fraction des ménages français devraient
recevoir la même part de la masse salariale totale. Autrement dit, 10% des ménages devraient
recevoir 10% de la masse salariale totale, 20% devraient recevoir 20% de la masse salariale
totale. De même, une situation de parfaite inégalité signifie que 1 ménage français reçoit la
totalité de la masse salariale.
C’est exactement ce que nous donne la comparaison des Fi et des Gi. Elle nous donne la part
de la masse salariale totale de chaque fraction des ménages français.

Pour ainsi juger efficacement du niveau des inégalités, un célèbre économiste, Lorenz (ou
Lorentz) a décidé de regrouper, sous le même graphique, les Fi et les Gi. Voici son analyse :

Gi

Fi

La droite bleue représente ce que Lorenz a appelé « droite d’équi-répartition » : chaque


fraction de la population étudiée reçoit strictement la même part de masse salariale. Ainsi,
nous sommes en situation de parfaite égalité.
Lorenz en a donc conclut, que plus la courbe résultant de la variable s’éloigne de cette droite,
plus la distribution est inégalitaire, et donc plus une faible fraction de la population reçoit
davantage de masse salariale. Par conséquent, plus la courbe s’éloigne de la droite bleue, plus
la distribution est concentrée et plus les inégalités s’avèrent élevées.
La droite rouge représente alors une situation de « parfaite inégalité » : 1 seul individu
reçoit la totalité de la masse salariale. On dit que la distribution est parfaitement concentrée.
Vous l’avez compris : toute courbe entre ces deux extrémités représente une distribution plus
ou moins inégalitaire, soit d’égalité forte mais non parfaite, soit d’inégalité forte mais
imparfaite ou encore une situation intermédiaire (courbe verte)
Reprenons notre exemple et traçons la courbe de Lorenz :

Que peut-on en conclure ? Nous voyons que la droite bleue, notre courbe de concentration, est
relativement proche de la droite d’équi-répartition. Ainsi, nous pouvons en conclure que la
distribution est faiblement concentrée, donc faiblement inégalitaire. Chaque fraction des ménages
français reçoit approximativement la même part de masse salariale.

Indice de Gini :

Gini est un économiste et statisticien qui a tenté de compléter la courbe de Lorenz, la


jugeant insuffisante sur un point : le calcul mathématique de la concentration. En effet, la
courbe de Lorenz n’est qu’une approximation du degré d’inégalités. Mais nous ne pouvons
déterminer précisément ce degré. C’est ce que Gini a tenté de faire. Il pensait que le meilleur
moyen de juger précisément du niveau d’inégalités était de calculer, mathématiquement, la
concentration de la variable. Il a donc établi un indice mathématique, à partir de la courbe de
Lorenz, qui permet de juger efficacement du niveau des inégalités.

La méthode est très simple : le degré d’inégalités correspond à la surface comprise entre la
droite d’équi-répartition et la courbe de Lorenz (surface entre la droite bleue et la courbe
verte).
Cette surface est comprise entre 0 et 1. Un indice proche de 0 signifie une situation de forte
égalité alors qu’un indice proche de 1 correspond à une situation fortement inégalitaire.
Ainsi, l’indice de Gini est beaucoup plus précis que la simple observation de la courbe de
Lorenz.
Gi

Fi

Reprenons notre exemple et calculons-le :

Revenu [400 ; [900 ; 1300[ [1300 ; 1600[ [1600 ; 2000[ [2000 ; 2500[ Total
900[
gi 0.067 0.171 0.414 0.243 0.105 1
Gi 0.067 0.238 0.652 0.895 1
Fi 0.143 0.357 0.75 0.936 1
Fi – Fi-1 0.143 0.214 0.393 0.186 0.064
Gi-1 + Gi 0.067 0.305 0.89 1.547 1.895
(Fi – Fi-1) * 0.0096 0.065 0.35 0.29 0.12 0.8346
(Gi + Gi-1)

Le résultat de l’indice de Gini est bien conforme à nos prévisions sur la courbe de Lorenz. Nous
avions indiqué que la concentration était relativement faible, la courbe étant proche de celle
d’équi-répartition. Etant donné le résultat de l’indice de Gini, 0.1654 est proche de 0 et donc
d’une situation fortement égalitaire.

Remarque : A partir du calcul de la masse salariale, nous pouvons en déduire « la médiale ».


Il s’agit de la même chose que la « médiane », mais en utilisant la masse salariale au lieu des
effectifs seuls. En effet, la médiale correspond à la valeur de la population étudiée qui sépare
la masse salariale en deux parts égales. Autrement dit, cela signifie que 50% de la masse
salariale totale correspond à un revenu mensuel égal à la médiale.
Le calcul s’avère le même que celui de n’importe quel quantile : il s’agit de procéder à une
interpolation linéaire.

A partir de notre exemple précédent, nous pouvons en déduire :

Xi Gi
1300 0.238
Mél 0.5
1600 0.652

Par une interpolation linéaire, nous pouvons poser :

Interprétation : 50% de la masse salariale totale correspond à un revenu mensuel de 1490 €.

Vous aimerez peut-être aussi