Vous êtes sur la page 1sur 18

Objectifs :

- Maîtriser le calcul des indicateurs de tendance centrale, de dispersion, de forme

et de concentration.

- Savoir décrire une distribution statistique à l’aide d’indicateurs appropriés.


Chapitre3 : DESCRIPTION D’UNE DISTRIBUTION STATISTIQUE

Pour pouvoir résumer, synthétiser et interpréter une distribution statistique, on a souvent


recours à plusieurs types de paramètres ou indicateurs. On dispose de quatre principales
familles d’indicateurs à savoir : les indicateurs de tendance centrale, les indicateurs de
dispersions, les indicateurs de forme et les indicateurs de concentration.

I- Les paramètres de position ou de tendance centrale


Les paramètres de position sont les indicateurs statistiques les plus utilisés pour résumer une
distribution statistique. Les paramètres de tendance centrale sont : le mode, la médiane et la
moyenne.
1- Le Mode
On appelle mode (noté Mo) d’une série statistique, la valeur observée de la variable statistique
ayant le plus grand effectif ou la fréquence la plus élevée.
Si une série possède un seul mode on dit que la distribution est unimodale, cependant
lorsqu’elle en possède deux ou plusieurs on dit qu’elle est respectivement bimodale ou
multimodale.
a- Cas d’une variable discrète
Pour déterminer le mode relatif a une distribution d’une variable discrète il suffit de relever la
modalité qui correspond au plus grand effectif ou à la plus grande fréquence.

Exemple : On considère la répartition d’une population de 80 ménages selon le nombre


d’appareils électroménagers existant au sein de leur maison.

Nombre d’appareils Nombre de Fréquence


électroménagers ménages
( xi ) ( ni ) ( fi )

1 8 0.10
2 12 0.15
3 16 0.20
4 32 0.40
5 12 0.15
Totaux 80 1

Ainsi, le mode de cette série est 4 cela signifie que la majorité des ménages possèdent quatre
appareils électroménagers.

Remarque: Le mode peut être aussi déterminé graphiquement à partir du diagramme en


bâtons et ce en lisant l’abscisse du bâton le plus élevé.

b- Cas d’une variable continue


Dans le cas d’une variable continue, on parle plutôt de classe modale. Cette dernière
correspond à l’effectif (ou la fréquence) le plus élevé. Graphiquement et au niveau d’un
histogramme, la classe modale correspond à la base du rectangle ayant la hauteur la plus
élevée.

Exemple : On considère la répartition des salaires des 160 employés d’une entreprise.
Nombre
Salaires d’employés Fréquence
( en dinars) ( ni ) ( fi )
[300 , 450 [ 40 0.25
[450 , 600 [ 56 0.35
[600 , 750 [ 48 0.30
[750 , 900 [ 16 0.10
Totaux 160 1

La classe modale est donc [450 , 600[. Ainsi, on peut dire que la majorité des employés
perçoivent un salaire compris entre 450 et 600 dinars.
On peut avoir une valeur isolée du mode à l’intérieur de la classe modale et ce en utilisant la
formule suivante :

M o  bi 1  ai  m1 
 m1  m2 
Avec :
bi-1 : borne inférieure de la classe modale.
bi : borne supérieure de la classe modale.
ai : amplitude de la classe modale.
m1 = ni – ni-1 ou m1 = fi – fi-1
m2 = ni – ni+1 ou m2 = fi – fi+1
ni : effectif de la classe modale.
ni-1 : effectif de la classe se situant avant la classe modale.
ni+1 : effectif de la classe se situant après la classe modale.
fi : fréquence de la classe modale.
fi-1 : fréquence de la classe se situant avant la classe modale.
fi+1 : fréquence de la classe se situant après la classe modale.

En appliquant la formule sur l’exemple précédant on aura :


Mo  450150 16   550dinars
 168 

Graphiquement, on peut déterminer au niveau de l’histogramme, la valeur du mode en


procédant comme l’indique ce schéma :

Répartition des salaires

60
m2
50 m1
40

30

20

10

0
300 450 Mo 600 750 900
Remarque : Si les amplitudes des classes sont inégales, la recherche du mode doit alors se
faire, sur la distribution corrigée des effectifs ou des fréquences.

2- La Médiane
La médiane notée Me est la valeur de la variable qui partage la population en deux groupes
égaux c’est à dire de même effectif. On peut dire alors que 50% des individus ont une valeur
inférieure à la médiane et 50% des individus ont une valeur supérieur à la médiane, ceci peut
se résumer par : F (Me) = 0.5
La détermination de la médiane dépend du type du caractère : discret ou continue.
a- Cas d’une variable discrète
Dans ce cas la détermination de la médiane dépend de la parité de l’effectif (N) :
N 1
- Si n est impair alors la médiane correspond à la valeur de rang .
2
- Si n est pair alors on parle d’intervalle médian défini par :
[ la valeur de rang (N / 2) , la valeur de rang (N / 2)+1 ]

Exemple : On va appliquer la recherche de la médiane sur l’exemple relatif à la répartition


d’une population de 80 ménages selon le nombre d’appareils électroménagers existant au sein
de leur maison.

Nombre d’appareils Nombre de


électroménagers ménages
( xi ) ( ni )
1 8
2 12
3 16
4 32
5 12
Totaux 80

L’effectif total est pair donc on aura un intervalle médian défini par :
[ la valeur de rang 40 , la valeur de rang 41 ] c’est à dire [4 , 4] donc dans ce cas on pourra
dire que la médiane est égale à 4. Cela signifie que 50% des ménages ont moins que 4
appareils électroménagers et 50% des ménages ont plus que 4 appareils électroménagers.

Remarque : La médiane peut être aussi déterminée graphiquement et ce en lisant sur le


diagramme en escaliers, l’abscisse correspondant à la fréquence cumulée croissante 0.5.

b- Cas d’une variable continue


Dans le cas d’une variable continue, il n’y a aucune différence de calcul pour la médiane
selon que les classes sont d’amplitudes constantes ou variables.
Le calcul de la médiane dans ce cas passe par deux étapes :
- La détermination de la classe médiane [ bi-1 , bi [ , c’est à dire celle contenant la valeur
de la médiane à laquelle correspond une fréquence cumulée croissante égale à 0.5
- Eventuellement calculer la valeur précise de la médiane à l’aide d’une interpolation
linéaire en procédant comme suit :
bi-1 ………. Fi-1
Mé  bi1 0.5 Fi1
Mé ………. 0.5 d’ou :   Mé  bi1  0.5 Fi1
bi  bi1 Fi Fi1 ai Fi Fi1
bi …………Fi

 0.5  Fi1 
On aura ainsi : Mé  bi1  ai   
 Fi Fi1 

Fi désigne la fréquence cumulée croissante de la classe médiane.


Fi-1 désigne la fréquence cumulée croissante de la classe qui précède la classe médiane.
ai désigne l’amplitude de la classe médiane.
bi-1 désigne la borne inférieure de la classe médiane.

Exemple : On va appliquer la recherche de la médiane sur l’exemple relatif à la répartition


des salaires dans une entreprise employant 160 personnes.

Nombre Fréquence
Salaires d’employés Fréquence cumulée
( en dinars) ( ni ) ( fi ) croissante
( Fi )
[300 , 450 [ 40 0.25 0.25
[450 , 600 [ 56 0.35 0.60
[600 , 750 [ 48 0.30 0.90
[750 , 900 [ 16 0.10 1
Totaux 160 1 -

- Classe médiane : [450 , 600 [.


- Détermination de la valeur de la médiane :
450 ……….0.25
Mé ………. 0.5
600 ………0.60

 0.5  0.25 
Donc on aura : Mé  450  150    557.143dinars
 0.60  0.25 
Ainsi 50% des salaires distribués sont inférieurs à 557.143 dinars et 50% des salaires
distribués sont supérieurs à 557.143 dinars.

Remarque : La médiane peut être aussi déterminée graphiquement et ce en lisant sur la


courbe cumulative croissante, l’abscisse correspondant à la fréquence cumulée croissante 0.5.

3- La Moyenne arithmétique
__
La moyenne arithmétique, dite simplement moyenne notée X est la caractéristique de
tendance centrale la plus utilisée pour décrire une distribution.
N
__  xi
Moyenne arithmétique simple : X i 1
N
p

__  ni x i p
Moyenne arithmétique pondérée : X  i1   f i xi
N i1

Remarque : Dans le cas d’une variable continue, où les données sont groupées en classes, on
applique la même formule en remplaçant les xi par les centres des classes ci.

Exemple1 : On va calculer la moyenne arithmétique relative à la répartition d’une population


de 80 ménages selon le nombre d’appareils électroménagers existant au sein de leur maison.

Nombre d’appareils Nombre de ni xi


électroménagers ménages
( xi ) ( ni )
1 8 8
2 12 24
3 16 48
4 32 128
5 12 60
Totaux 80 268

__
Ainsi on aura : X  268  3.35
80
Donc en moyenne dans un foyer on 3.35 appareils électroménagers.

Exemple 2 : On va calculer la moyenne arithmétique relative à la répartition des salaires des


160 employés d’une entreprise.

Salaires ni ci ni ci
(en dinars)
[150 , 200 [ 10 175 1750
[200 , 300 [ 40 250 10000
[300 , 450 [ 50 375 18750
[450 , 700 [ 80 575 46000
[700 , 1200 [ 20 950 19000
Totaux 200 - 95500

__
Ainsi on aura : X  95500  477.5
200
Donc le salaire moyen dans cette entreprise est de 477.5 dinars.

a- Moyenne de plusieurs sous-populations


Soit une population P de taille N composée de deux sous populations : P1 et P2
respectivement de taille N1 et N2 et de moyennes respectives X1 et X2. . La moyenne relative
à la population P composée des deux sous populations P1 et P2, sera donnée par :

N1 X1 N2 X2 N1 X1 N2 X2
X 
N1  N2 N

Cette formule peut être généralisée pour le cas d’une population composée de k sous
populations.
k

N N ........... N k Xk  N i Xi
X  1 X1 2 X2  i 1

N1 N2 ................... Nk N

4- Autres moyennes
La moyenne arithmétique est le critère le plus utilisé pour décrire une valeur moyenne d’une
distribution statistique. Cependant pour certaines variables on doit recourir à d’autres types de
moyennes.

a-Moyenne quadratique
La moyenne quadratique peut être définie à partir du moment d’ordre r noté mr.
k
mr 
r
fi xi
i 1

Pour r = 1 on retrouve l’expression de la moyenne arithmétique qui est donc le moment


d’ordre 1.

Pour r = 2 on définit la moyenne quadratique qui est donc le moment d’ordre 2.

Moyenne quadratique simple :


N
xi
2

Q i 1
N

Moyenne quadratique pondérée :

k
ni xi
2

Q i 1
N

Il est à noter que le carrée de la moyenne quadratique est égal à la moyenne arithmétique des
carrées.

b-Moyenne harmonique
La moyenne harmonique d’une série strictement positive est égale à l’inverse de la moyenne
arithmétique des inverses des valeurs observées. Cette moyenne harmonique est notée H.

Moyenne harmonique simple :

N
H  N
1
x
i 1 i

Moyenne harmonique pondérée :

H N  1
k k

i1
ni
x i

i1
fi
x i

On utilise cette moyenne, à chaque fois que l’inverse de l’observation peut être interprété.
C’est le cas du nombre de kilomètres parcourus par heure(vitesse) ou bien du rendement d’un
placement par unité monétaire.

Exemple : Un automobiliste a fait le trajet aller entre Tunis et Sousse a une vitesse constante
de 80 km/h, au retour il a fait ce même trajet à une vitesse de 120 km/h. Quelle est alors la
vitesse moyenne sur l’ensemble du trajet aller et retour.
Il s’agit dans ce cas d’une moyenne harmonique.

H 2  96 k m/ h
1  1
80 120

c-Moyenne géométrique
La moyenne géométrique d’une série statistique positive est définie par la racine nième du
produit des valeurs observées. On la note généralement par G.

Moyenne géométrique simple :


N
G  N x1 x 2 x3 ......x n  N xi
i 1

Moyenne géométrique pondérée :


k
G  N xi
ni

i1

Cette moyenne géométrique est utilisée a chaque fois que le produit des observations ou leur
puissance se prête à une interprétation. C’est le cas du taux de croissance ou bien du taux
d’intérêt.
Exemple : Un épargnant a placé un somme d’argent durant les deux premières années à un
taux d’intérêt annuel de 8%, et à un taux de 10% durant les trois années suivantes.
Calculer le taux de placement annuel moyen sur cette période de cinq ans.
G  5 (1.08 ) (1.10 )  1.092 ; Ainsi le taux de placement annuel moyen est de : 9.2%
2 3

Remarque : Pour une série statistique pour laquelle les quatre moyennes définies ci-dessus
existent, on a alors la relation suivante :

H G X Q

II- Les paramètres de dispersion


Très souvent les indicateurs de position ou de tendance centrale (Mode, Médiane et moyenne)
sont insuffisants à eux seuls de décrire une distribution statistique ou de comparer deux ou
plusieurs séries statistiques. C’est pour cela qu’on a recours à certains paramètres mesurant
les décalages des observations par rapport aux valeurs centrales, on parle alors d’indicateurs
de dispersion.
1- L’étendue
On appelle étendue (notée E) d’une série statistique, la différence entre la plus élevé et la plus
faible des valeurs de la distribution.

E = Max (xi) – Min (xi)

L’étendue est très simple à calculer mais elle présente l’inconvénient d’être très sensible
uniquement aux valeurs extrêmes de la distribution.

2- L’écart absolu moyen


L’écart absolu moyen doit être calculé par rapport à un paramètre de position ou de tendance
centrale. Ainsi on distingue :
- L’écart absolu moyen par rapport à la médiane :

k k
e Me  1 ni xi  M e  fi xi  M e
N i1 i 1

- L’écart absolu moyen par rapport à la moyenne arithmétique :

k k
e X  1 ni xi  X  fi xi  X
N i1 i 1

Les écarts absolus moyens sont rarement utilisés car leurs expressions algébriques ne sont pas
commodes au niveau des calculs, car elles font intervenir des valeurs absolues.

3- Les écarts interquantiles


Les quantiles sont des valeurs de la variable qui partagent la population en parties égales.
Ainsi si on veut partager la population en quatre, dix ou cent parties égales, il faudra alors
déterminer respectivement, les quartiles, les déciles et les centiles.
a- Les quartiles
Ils sont au nombre de trois, notés Q1, Q2 et Q3. Ces quartiles divisent la population en quatre
parties égales et sont déterminés à l’aide de la fonction de répartition en utilisant les
propriétés suivantes :
- F (Q1) = 25%
- F (Q2) = F (Me) = 50%
- F (Q3) = 75%
Ainsi l’intervalle interquartile qui contient 50% des observations est [Q 1 , Q3].
L’écart interquartile noté eQ sera défini par : eQ = Q3 – Q1

Exemple : le tableau suivant résume la répartition des salaires dans une entreprise employant
200 personnes. Calculer les trois quartiles ainsi que l’intervalle et l’écart interquartile.

Fréquences
Salaires ni fi cumulées
(en dinars) croissantes
[150 , 200 [ 10 0.05 0.05
[200 , 300 [ 40 0.20 0.25
[300 , 450 [ 50 0.25 0.50
[450 , 700 [ 80 0.40 0.90
[700 , 1200 [ 20 0.10 1
Totaux 200 1 -

F (300) = 0.25 donc Q1 = 300


F (450) = 0.50 donc Q2 = Me = 450
F (Q3) = 0.75 afin de déterminer la valeur de Q3 on doit procéder par interpolation linéaire.

450 ………….. 0.50


Q3 ……….… 0.75 d’ou ( Q3 – 450) = ( 0.75 – 0.50) d’ou Q3 = 606.250
700 ………… 0.90 (700 – 450) (0.90 – 0.50)

L’intervalle interquartile sera : [Q1 , Q3] = [300 , 606.25]


L’écart interquartile sera: eQ = Q3 – Q1 = 606.250 – 300 = 306.250 dinars
On peut dire donc que 50% des salaires sont compris entre 300 et 606.25 dinars ou encore que
50% des salaires sont compris dans une fourchette de 306.25 dinars.

b- Les déciles
Ils sont au nombre de neuf, notés D1, D2, D3……et D9. Ces déciles divisent la population en dix
parties égales et sont également déterminés à l’aide de la fonction de répartition en utilisant
les propriétés suivantes :
- F (D1) = 10%
- F (D2) = 20%
:
:
- F (D5) = F(Me) = 50%
:
:
- F(D9) = 90%

Ainsi l’intervalle inter décile qui contient 90% des observations est [D 1 , D9].
L’écart interdécile noté eD sera défini par : eD = D9 – D1
c- Les centiles
Ils sont au nombre de quatre vingt dix-neuf, notés C1, C2, C3……et C99. Ces centiles divisent la
population en cent parties égales et sont également déterminés à l’aide de la fonction de
répartition en utilisant les propriétés suivantes :
- F (C1) = 1%
- F (C2) = 2%
:
:
- F (C50) = F(Me) = 50%
:
:
- F(C99) = 99%

Ainsi l’intervalle intercentile qui contient 99% des observations est [C 1 , C99].
L’écart intercentile noté eC sera défini par : eC = D99 – D1

4- La variance et l’écart type


La variance et l’écart type sont les paramètres de dispersion les plus utilisés en statistique. La
variance traduit la moyenne des carrés des décalages par rapport à la moyenne arithmétique.

k k
V (X)  1  ni ( xi  X )  fi ( xi  X )
2 2

N i1 i 1

L’expression de la variance peut être présentée sous une deuxième forme développée qui est
plus commode au niveau des calculs :

k k
V (X)  ( 1  ni xi2 )  X 2  (  fi xi
2
) X 2
N i1 i 1

Remarque : Dans le cas d’une variable continue, le terme xi au niveau des formules de calcul
de la variance est remplacé par le centre de la classe ci.

L’écart type noté X ou  (X) est la racine carrée de la variance. L’écart type est exprimé
dans la même unité que la variable statistique.

  (X)  V (X )

L’écart type est très utilisé pour décrire la dispersion d’une distribution statistique. Ainsi plus
l’écart type est élevé plus la dispersion des observations autour de la moyenne est forte.

Exemple : Reprenons l’exemple précédant de la distribution des salaires afin de calculer la


variance et l’écart type des salaires.
Salaires
(en dinars) ni ci ni ci ni ci2
[150 , 200 [ 10 175 1750 306250
[200 , 300 [ 40 250 10000 2500000
[300 , 450 [ 50 375 18750 7031250
[450 , 700 [ 80 575 46000 26450000
[700 , 1200 [ 20 950 19000 18050000
Totaux 200 - 95500 54337500

X  95500 477.5dinars
200
V(X)  ( 1 54337500)  477.52 43681.25 d'ou  (X)  43681.25  209dinars
200

a- Variance de plusieurs sous-populations


Soit une population P de taille N composée de deux sous populations : P1 et P2
respectivement de taille N1 et N2, de moyennes respectives X1 et X2. et de variances
respectives V(X1) et V(X2) . On démontre que la variance V(X) relative à la population P est
donnée par l’expression :

2
V(X)  1 ( N1 V(X1)  N2 V(X2) )  1 ( N1( X1  X )  N2 ( X2  X ) )
2
N N

la variance est donc décomposée en deux termes :


- La moyenne des variances : 1 ( N1 V(X1)  N2 V(X2) ) qui nous renseigne sur la dispersion
N
au sein de chaque sous population. On l’appelle aussi variance intra-population.
2
- La variance des moyennes : 1 ( N1( X1  X )  N2 ( X2  X ) ) qui nous renseigne sur la
2
N
dispersion de la moyenne de chaque sous population par rapport à la moyenne de la
population totale. On l’appelle aussi variance inter-populations.
Ainsi la variance totale peut être décomposée ainsi :
Variance totale = variance intra-population + variance inter-populations

Cette formule de calcul de la variance totale, peut être généralisée pour le cas d’une
population composée de k sous populations.

k k
V(X)  1 Ni V(Xi )  1 Ni ( Xi  X )
2
N i1 N i1

5- Le coefficient de variation
Le coefficient de variation (noté CV) est un indicateur de dispersion relative. Il est défini par
le rapport entre l’écart type et la moyenne arithmétique.
CV  
__
X
Le coefficient de variation est un paramètre sans dimension. Il sert à comparer deux
distributions qui ne sont pas exprimées dans la même unité, ou dans le cas de distributions
dont les moyennes arithmétiques sont très différents. Ainsi un coefficient de variation plus
élevé correspond a une distribution plus dispersée.
III- Les paramètres de forme
En plus de l’étude de la tendance centrale et de la dispersion, il est intéressant d’étudier la
forme de la courbe d’une distribution. Cette étude de la forme se fait à l’aide de deux types de
coefficients :
- Le coefficient d’asymétrie.
- Le coefficient d’aplatissement.

1- Le coefficient d’asymétrie
Pour une distribution parfaitement symétrique on a l’égalité entre les trois paramètres de
__
tendance centrale a savoir le mode, la médiane et la moyenne arithmétique : M 0  M e  X
Cependant dès que cette relation n’est pas vérifiée on aura une distribution asymétrique.

__ __ __
M0  Me  X M0 Me  X M0  Me  X
Distribution symétrique Distribution étalée vers la droite Distribution étalée vers la gauche
ou ou
distribution dissymétrique à gauche distribution dissymétrique à droite
ou ou
distribution avec asymétrie positive distribution avec asymétrie négative

Il existe dans la littérature plusieurs coefficients pour mesurer l’asymétrie d’une distribution.
Dans la suite on se limitera à la présentation de deux coefficients.

a- Le coefficient empirique de Pearson


Le coefficient d’asymétrie de Pearson est un nombre sans unité défini par :
__
 M0
Cp  X

- Si Cp = 0 alors la distribution est symétrique.
- Si Cp > 0 alors la distribution est dissymétrique à gauche.
- Si Cp < 0 alors la distribution est dissymétrique à droite.

b- Le coefficient de Fisher
On définit le moment centré d’ordre r noté  r , par la formule suivante :
k __
 r  fi ( xi  X )
r

i 1

Le coefficient d’asymétrie de Fisher noté 1 est aussi un nombre sans unité. Il est défini par le
rapport :
 1 33

- Si 1 = 0 alors la distribution est symétrique.
- Si 1 > 0 alors la distribution est dissymétrique à gauche.
- Si 1 < 0 alors la distribution est dissymétrique à droite.

2- Les coefficients d’aplatissement


Le coefficient d’aplatissement permet de comparer la distribution étudiée par rapport à celle
de la loi normale qui est une distribution symétrique ayant une allure en cloche.
On distingue trois formes de distributions :
- Distribution normale ou mésokurtique.
- Distribution aiguë ou leptokurtique. (moins aplatie que la distribution normale)
- Distribution plate ou paltykurtique. (plus aplatie que la distribution normale)

Il existe dans la littérature plusieurs coefficients pour mesurer l’asymétrie d’une distribution.
Dans la suite on se limitera à la présentation de deux coefficients.

a- Le coefficient de Pearson
Le coefficient d’aplatissement de Pearson noté  est un nombre sans unité défini par :
4

4
- Si  = 3 alors la distribution est normale.
- Si  > 3 alors la distribution est leptokurtique ou aiguë.
- Si  < 3 alors la distribution est platykurtique ou plate.
b- Le coefficient de Fisher
Le coefficient d’aplatissement de Fisher noté 2 est un nombre sans unité défini par :

4
  3  3
4
2

- Si 2 = 0 alors la distribution est normale.


- Si 2 > 0 alors la distribution est leptokurtique ou aiguë.
- Si 2 < 0 alors la distribution est platykurtique ou plate.

IV- La concentration
L’étude de la concentration a pour objet de mesurer les éventuelles inégalités au niveau de la
répartition de certaines variables entre les individus.
La notion de concentration ne s’applique qu’à des variables quantitatives continues à valeurs
positives cumulables. En plus, il faut que ce cumul ait un sens pour qu’il puisse être
interprété.
Ce concept de concentration peut être appliqué dans plusieurs domaines : l’étude de la
concentration des salaires, la concentration des richesses ou des revenus, la concentration des
superficies agricoles…etc. La question à laquelle on doit répondre est par exemple : la
richesse est-elle répartie d’une manière égalitaire entre les individus ?
Deux indicateurs statistiques sont fournis afin d’évaluer le degré de concentration d’une
distribution statistique :
- La courbe de concentration.
- L’indice de concentration de Gini.

1-Définitions
Soit X une variable statistique continue et xi le centre de la classe [ bi-1 , bi [.
On appelle valeur globale associée au couple (xi , ni ), le produit défini par : VG i = ni xi .
On appelle valeur globale relative associée au couple (xi , ni ), le rapport noté qi , défini par :
qi  kni xi
ni xi
i 1

On appelle valeur globale relative cumulée croissante associée à la valeur x i et notée Qi :


i
Qi  q j
j 1

Exemple : On considère la répartition des salaires dans une firme employant 96 personnes.

Salaires Centres Effectifs Valeurs globales Valeurs globales Valeurs globales relatives
(en dinars) xi ni ni xi relatives cumulées croissantes
qi Qi
[200 , 300[ 250 25 6250 0,118 0,118
[300 , 500[ 350 15 5250 0,099 0,217
[500 , 700[ 600 25 15000 0,283 0,500
[700 , 900[ 800 24 19200 0,362 0,861
[900 , 1200[ 1050 7 7350 0,139 1
Totaux 96 53050 1

La deuxième valeur, au niveau de la colonne des valeurs globales relatives cumulées


croissantes, peut être interprété comme suit : les salaires de moins de 500 dinars représentent
21.7% de la masse salariale globale ou de l’ensemble des salaires données aux employés.

 On appelle médiale d’une série statistique, qu’on note par Mle, la valeur de la variable telle
que : Q ( Mle) = 0.5 = 50 %

Dans l’exemple précédant on a : Mle = 700 ceci veut dire que les salaires de moins de 700
dinars distribués aux employés représentent 50% de la masse salariale globale.

Lors du calcul de la médiale et dans le cas ou la valeur 0.5 n’apparaît pas dans la colonne des
valeurs globales relatives cumulées croissantes, on procède par interpolation linéaire. Ainsi la
médiale peut se déterminer par interpolation linéaire, de la même manière que la médiane.
Seulement, les calculs ne se font plus sur les fréquences cumulées croissantes de la série, mais
sur les valeurs globales relatives cumulées croissantes.

2-Courbe de concentration
La courbe de concentration ou courbe de Lorenz est obtenu en joignant les points de
coordonnées ( Fi , Qi ) dans un repère orthonormé où les Fi sont portés sur l’axe des
abscisses et les Qi sur l’axe des ordonnées. Cette représentation se fait dans un carré de coté
égal à 1 (100%).

Reprenons l’exemple précédant afin de tracer la courbe de concentration correspondante.

Salaires Effectifs Fréquences Fréquences cumulées Valeurs globales relatives


(en dinars) ni fi croissantes cumulées croissantes
Fi Qi
[200 , 300[ 25 0,260 0,260 0,118
[300 , 500[ 15 0,157 0,417 0,217
[500 , 700[ 25 0,260 0,677 0,500
[700 , 900[ 24 0,250 0,927 0,861
[900 , 1200[ 7 0,073 1 1
Totaux 96 1 - -

Courbe de concentration
B
1,00
Qi

A
0,00
0,00 1,00
Fi
O

L’interprétation de cette courbe de concentration se fait par rapport à la diagonale (OB)


(première bissectrice). Ainsi, plus la courbe de concentration se rapproche de la diagonale,
plus la répartition est égalitaire et plus la courbe s’éloigne de la diagonale, plus la distribution
est inégalitaire ou concentrée.
Il existe deux cas extrêmes :
- Si la courbe de concentration se confond avec la diagonale, on dit que la concentration
est nulle et il s’agit d’une répartition parfaitement égalitaire.
- Si la courbe de concentration se confond avec les cotés OA et AB du triangle OAB,
on dit que la concentration est totale et il s’agit d’une répartition totalement
inégalitaire.

Dans notre exemple, la courbe de concentration est située entre les deux cas extrêmes
précédents tout en se rapprochant plus de la diagonale. On dit alors que la répartition des
salaires dans cette firme est moyennement égalitaire.

3-Indice de concentration de Gini


On appelle surface de concentration, qu’on note par S, la surface comprise entre la diagonale
(OB) et la courbe de concentration. Ainsi plus la courbe s’éloigne de la diagonale plus la
surface de concentration est grande.

L’indice de concentration de Gini noté IG est défini par le rapport entre l’aire de la surface de
concentration et l’aire du triangle OAB :

Aire de la surface de concentration S


IG  Aire du triangle OAB
 1 2 S
2
Propriétés :
- L’indice de Gini est compris entre zéro et un.
- Si la courbe de concentration se confond avec la diagonale (OB), l’indice de Gini est
égal à zéro.
- Si la courbe de concentration se confond avec les cotés OA et AB du triangle OAB,
l’indice de Gini est égal à un.
- Plus l’indice de Gini tend vers 1 plus la concentration est forte.
- Plus l’indice de Gini tend vers 0 plus la concentration est faible.

Pour le calcul de l’indice de Gini, on utilise la méthode des trapèzes qui consiste à calculer
l’aire de la surface complémentaire à S par rapport à l’aire du triangle OAB. A l’aide de cette
méthode on peut démontrer que l’indice de Gini est égal à :

p
I G 1  f i (Qi Qi1)
i 1

Reprenons l’exemple précédant de la répartition des salaires afin de calculer l’indice de Gini
correspondant.

Salaires
(en dinars) xi ni fi Fi ni xi qi Qi fi (Qi+ Qi-1)

[200 , 300[ 250 25 0,260 0,260 6250 0,118 0,118 0,031


[300 , 500[ 350 15 0,157 0,417 5250 0,099 0,217 0,053
[500 , 700[ 600 25 0,260 0,677 15000 0,283 0,500 0,186
[700 , 900[ 800 24 0,250 0,927 19200 0,362 0,861 0,340
[900 , 1200[ 1050 7 0,073 1 7350 0,139 1 0,136
Totaux - 96 1 - 53050 1 - 0,746

L’indice de Gini sera alors: IG = 1 – 0.746 = 0.254


Cette valeur de l’indice de Gini indique que la concentration est relativement faible.

Vous aimerez peut-être aussi