Vous êtes sur la page 1sur 22

Cours de Statistique Descriptive.

Version : octobre 2007

PARTIE III :

LES CARACTERISTIQUES DES


DISTRIBUTIONS STATISTIQUES A
UN SEUL CARACTERE

PLAN

1. INTRODUCTION ................................................................................................................................................................................... - 3 -

2. LES CARACTERISTIQUES DE TENDANCE CENTRALE .................................................................................................................. - 3 -

2.1. LA MOYENNE ARITHMETIQUE ...........................................................................................................................ERREUR ! SIGNET NON DEFINI.


2.1.1. CAS D’UNE VARIABLE DISCRETE ..........................................................................................................................................................- 8 -
2.1.2. CAS D’UNE VARIABLE CONTINUE ..........................................................................................................................................................- 9 -
2.1.3. QUELQUES PROPRIETES DE LA MOYENNE ARITHMETIQUE ......................................................................................................................- 9 -
2.1.4. LIMITES DE LA MOYENNE ARITHMETIQUE ............................................................................................................................................- 10 -
2.2. LE MODE ...............................................................................................................................................................................................- 3 -
2.2.1. CAS DES SERIES A CARACTERE QUALITATIF OU QUANTITATIF DISCRET ...................................................................................................- 3 -
2.2.2. CAS DES SERIES A CARACTERE QUANTITATIF CONTINU .........................................................................................................................- 3 -
2.3. LA MEDIANE OU MEDIANTE .....................................................................................................................................................................- 4 -
2.3.1. CAS DES SERIES A CARACTERES DISCRETS ..........................................................................................................................................- 4 -
2.3.1.1. Cas d’une série individualisée (données non groupées) ............................................................................................................ - 4 -
2.3.1.2. Cas d’une série non individualisée (données groupées) ............................................................................................................ - 4 -
2.3.2. CAS DES SERIES A CARACTERES CONTINUS .........................................................................................................................................- 5 -
2.3.2.1. Détermination de la médiane par interpolation linéaire............................................................................................................... - 5 -
2.3.2.2. Détermination de la médiane par l’histogramme......................................................................................................................... - 7 -
2.4. AUTRES CARACTERISTIQUES DE TENDANCE CENTRALE.....................................................................................ERREUR ! SIGNET NON DEFINI.
2.4.1. GENERALISATION DE LA MEDIANE : LES QUANTILES...............................................................................................................................- 7 -
2.4.1.1. Les quartiles................................................................................................................................................................................ - 7 -
2.4.1.2. Les déciles .................................................................................................................................................................................. - 8 -
2.4.1.3. Les centiles ................................................................................................................................................................................. - 8 -
2.4.2. LA PHI-MOYENNE ...............................................................................................................................................................................- 8 -
2.4.2.1. La moyenne arithmétique......................................................................................................................Erreur ! Signet non défini.
2.4.2.2. La moyenne géométrique ......................................................................................................................................................... - 10 -
2.4.2.3. La moyenne harmonique .......................................................................................................................................................... - 10 -

3. LES CARACTERISTIQUES DE DISPERSION................................................................................................................................... - 11 -

3.1. L’ETENDUE .........................................................................................................................................................................................- 11 -


3.2. L’INTERVALLE INTERQUARTILE .............................................................................................................................................................- 11 -
3.3. L’ECART ABSOLU MOYEN .....................................................................................................................................................................- 12 -
3.4. L’ECART ABSOLU PAR RAPPORT A LA MEDIANE .....................................................................................................................................- 12 -
3.5. LA VARIANCE ......................................................................................................................................................................................- 12 -
3.6. L’ECART TYPE .....................................................................................................................................................................................- 13 -
3.7. LE COEFFICIENT DE VARIATION .............................................................................................................................................................- 13 -

4. LES CARACTERISTIQUES DE FORME ............................................................................................................................................ - 14 -

4.1. LA MESURE DE L’ASYMETRIE ................................................................................................................................................................- 15 -


4.1.1. POSITIONS RESPECTIVES : MODE, MEDIANE ET MOYENNE ...................................................................................................................- 15 -
4.1.2. LE COEFFICIENT D’ASYMETRIE DE YULE .............................................................................................................................................- 15 -
4.1.3. LES COEFFICIENTS D’ASYMETRIE DE PEARSON...................................................................................................................................- 16 -

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 1 -
Cours de Statistique Descriptive.
Version : octobre 2007

4.1.4. LE COEFFICIENT D’ASYMETRIE DE FISHER ..........................................................................................................................................- 16 -


4.2. LA MESURE DE L’APLATISSEMENT ........................................................................................................................................................- 16 -
4.2.1. LE COEFFICIENT D’APLATISSEMENT DE PEARSON ...............................................................................................................................- 17 -
4.2.2. LE COEFFICIENT D’APLATISSEMENT DE FISHER ...................................................................................................................................- 17 -
4.2.3. AUTRES COEFFICIENTS D’APLATISSEMENT .........................................................................................................................................- 17 -

5. LES CARACTERISTIQUES DE CONCENTRATION ......................................................................................................................... - 18 -

5.1. DEFINITION DE LA CONCENTRATION ......................................................................................................................................................- 18 -


5.2. DETERMINATION DE LA CONCENTRATION PAR LE CALCUL : L’ECART MEDIALE –MEDIANE ........................................................................- 18 -
5.3. DETERMINATION GRAPHIQUE DE LA CONCENTRATION ............................................................................................................................- 20 -
5.3.1. LA COURBE DE CONCENTRATION DE GINI – LORENTZ..........................................................................................................................- 20 -
5.3.2. L’INDICE DE GINI ..............................................................................................................................................................................- 21 -

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 2 -
Cours de Statistique Descriptive.
Version : octobre 2007

1. Introduction
Une fois les données collectées et ordonnées, le plus souvent sous forme de tableaux et de graphiques
qui permettent une première analyse du phénomène étudié (une dimension), les différentes
caractéristiques calculables à partir de la distribution statistique permettent de résumer l’échantillon au
moyen de paramètres ou de caractéristiques facilement compréhensibles et opérationnels :
1. les caractéristiques de tendance centrale
2. les caractéristiques de dispersion
3. les caractéristiques de forme
4. les caractéristiques de concentration

2. Les caractéristiques de tendance centrale


Les caractéristiques de tendance centrale fournissent des informations sur l’ordre de grandeur de la
série d’observations.
Les caractéristiques de tendance centrale (appelées aussi valeurs centrales ou paramètres de position)
sont des valeurs numériques qui s’expriment dans la même unité que les observations.

2.1. Le mode

Le mode d’une distribution statistique, qu’on note Mo , est la valeur de la variable qui correspond
au plus grand effectif ou à la plus grande fréquence.

C’est la valeur de la variable la plus fréquente que l’on observe dans une série statistique. Le mode est
donc la valeur dominante dans une série statistique.

2.1.1. Cas des séries à caractère qualitatif ou quantitatif discret

Dans ce cas la détermination du mode est immédiate. Le mode est la valeur pour laquelle l’effectif est le
plus élevé.

2.1.2. Cas des séries à caractère quantitatif continu

Deux cas se présentent :

Pour les séries à caractère quantitatif continu avec un découpage en classes d’amplitudes égales, la
classe modale est la classe qui correspond à l’effectif le plus grand (ou à la fréquence la plus
importante). Aussi, on peut prendre le mode comme le centre de la classe modale.

Pour les séries à caractère quantitatif continu avec un découpage en classes d’amplitudes inégales,
la classe modale est la classe qui correspond à l’effectif corrigé le plus grand (ou à la fréquence
corrigée la plus importante). Dans ce cas le mode, sera le centre de la classe correspondant à la
densité ( di ) la plus importante.
n effectif de la classe
di = i densité =
ai amplitude de cette classe

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 3 -
Cours de Statistique Descriptive.
Version : octobre 2007

2.2. La médiane ou médiante

La médiane (ou médiante), qu’on note Mé, est la valeur (observé ou possible) de la variable
statistique dans la série d’observations rangées (par ordre croissant ou décroissent) qui partage
cette série en deux parties, chacune comportant le même nombre d’observations.

La médiane est en conséquence la valeur de la variable pour laquelle la fréquence cumulée est égale à
n n
0,5 ( F(Mé ) = 0,5 ) et l’effectif cumulé est égal à ( N(Mé ) = ).
2 2

2.2.1. Cas d’une variable discrète

2.2.1.1. Cas d’une série individualisée (données non groupées)

Une série individualisée est une série dans laquelle chaque modalité est observée une seule fois :
ni = 1, ∀ i = 1, 2, ,k. Pour déterminer la médiane, on ordonne dans un premier temps, les valeurs
observées de la plus petite à la plus grande (ou dans l’ordre inverse). La médiane est la valeur de la
variable située ‘au milieu’ de la série ordonnée.

Deux situations se présentent :

1. Si le nombre d’observations est impair (k = 2m + 1) , la médiane est alors parfaitement déterminée et


correspond à l’observation de rang égal à (m+1) dans la série ordonnée. Il y a donc m observations
de chaque coté de la médiane : Mé = n m+1

2. Si le nombre d’observations est pair (k = 2m) , soit on définit un intervalle médian [n m , n m+1 ] , soit on
n + n m+1
choisit par convention la moyenne de deux valeurs centrales. Mé = m
2

2.2.1.2. Cas d’une série non individualisée (données groupées)

C’est le cas le plus fréquent rencontré. On a donc un tableau {x i ,ni } et la médiane se calcule en utilisant
les fréquences cumulées ou les effectifs cumulés.

Exemple 1 :
Répartition de 400 entreprises dans une zone industrielle A selon
le nombre d’adresses électroniques à leurs dispositions

Fréquences cumulées Effectifs cumulés


Modalités Effectifs Fréquences croissantes croissants
xi ni fi
Fi C N iC
0 50 0,125 0,125 50
1 30 0,075 0,200 80
Mé 2 120 0,300 0,500 200
3 80 0,200 0,700 280
4 70 0,175 0,875 350
5 50 0,125 1 400
Total 400 1

Pour l’exemple 1, la médiane est égale à 2, c' est-à-dire 50% des entreprises (200 entreprises) ont deux
e-mails. Dans ce cas la médiane est directement déterminée puisque la lecture du tableau donne la
valeur de la modalité pour laquelle la fréquence cumulée est égale à 0,5.

Exemple 2 :

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 4 -
Cours de Statistique Descriptive.
Version : octobre 2007

Répartition de 400 entreprises dans une zone industrielle B selon le nombre


d’adresses électroniques à leurs dispositions

Fréquences cumulées Effectifs cumulés


Modalités Effectifs Fréquences croissantes croissants
xi ni fi
Fi C N iC
0 60 0,150 0,150 60
1 20 0,050 0,200 80
100 0,250 0,450 180 50%
3 120 0,300 0,750 300

4 80 0,200 0,950 380
5 20 0,050 1 400
Total 400 1
n
Pour l’exemple 2, les valeurs 0,5 (et 200= ) apparaissent entre deux lignes du tableau (la 3ème et la
2
4ème).
Par convention, la médiane est la valeur de la variable qui correspond à la 4ème ligne.
Cependant, cette proposition n’est qu’une valeur approchée et approximative de la "médiane exacte"
puisqu’il y à 75% et non pas 50% des entreprises qui ont un nombre d’adresses électroniques inférieur
ou égal à 3.

2.2.2. Cas des séries à caractères continus

2.2.2.1. Cas d’une série individualisée (ou données non groupées)

Lorsque les données sont non groupées et peu nombreuses, on procède comme dans le cas d’une
variable discrète. On ordonne la série de la plus petite à la plus grande valeur.
• Lorsque le nombre d’observations n est impair, la médiane est la valeur de la série ordonnée située à
n +1
la position .
2
• Lorsque le nombre d’observations n est pair, la médiane est le centre de l’intervalle médian.

2.2.2.2. Cas d’une série non individualisée (ou données groupées)

La détermination se fait à partir des fréquences cumulées ou des effectifs cumulés. La médiane peut
être obtenue de plusieurs manières.

2.2.2.2.1 Détermination de la médiane par interpolation linéaire

Dans le cas d’une variable continue, la médiane est la valeur de la variable associée à la fréquence
cumulée 50%, c' est-à-dire F(Mé) = 0,5 .
En raison du groupement des observations par classe, il est nécessaire de déterminer en premier lieu la
classe médiane, puis déterminer en second lieu la médiane par interpolation linéaire.

La classe médiane se détermine à partir des colonnes des fréquences cumulées croissantes Fi C ou à
partir des colonnes des effectifs cumulés croissants N iC . On repère entre quelles valeurs se situe 0,5
n
(50%) dans la colonne Fi C ou dans la colonne des effectifs cumulés croissants N iC .
2

Exemple :
Répartition des employés d’une entreprise selon le salaire annuel (en dinars)

Modalités Effectifs Fréquences Effectifs cumulés Fréquences cumulées

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 5 -
Cours de Statistique Descriptive.
Version : octobre 2007

Salaires ni fi croissants croissantes


N iC Fi C
[3000, 4000[ 25 0,131 25 0,131
[4000, 5000[ 35 0,183 60 0,314
[5000, 6000[ 27 0,141 87 0,455
n/2 0,5
[6000, 7000[ 65 0,340 152 0,796
[7000, 8000[ 20 0,105 172 0,901
[8000, 9000[ 8 0,042 180 0,942
[9000, 10000[ 11 0,058 191 1,000
Total 191 1,000

La valeur 0,5 apparaît entre deux lignes du tableau (la 3ème et la 4ème). En utilisant la même convention
que dans le cas discret, la classe médiane est donc : [x i , x i+1 [ = [6000-7000[.

Pour pouvoir passer à l’interpolation linéaire, on suppose une répartition uniforme des individus dans la
classe médiane.
La méthode d’interpolation linéaire dans le calcul de la médiane consiste à assimiler une proportion de
courbe à une droite. La portion de la courbe cumulative qui se situe dans la classe médiane est souvent
peu incurvée (séries unimodales, non excessivement asymétriques), et on peut calculer la médiane par
ce principe.
F(x)

F(xi+1) E

C
0,5
F(xi)
A B D

xi Mé xi+1 xi

D’une manière générale, si la classe médiane est la classe [x i , x i+1 [ , les valeurs de la fonction de
répartition correspondantes aux bornes de cette classe sont F( x i ) = Fi−1 et F( x i+1 ) = Fi .
L’application du théorème de Thalès (les triangles ABC et ADE sont semblables) permet d’écrire :
AB AD
=
BC DE
→ AB représente (Mé - x i ) .
→ AD représente (xi +1 - xi ) = ai qui correspond à l’amplitude de la classe médiane.
→ BC représente (F(Mé ) − Fi−1 ) = (0,5 − Fi−1 ) .
→ DE représente (F( x i+1 ) − F( x i )) = (Fi − Fi−1 ) = fi qui est la fréquence relative associée à la classe i.
Donc :
AB AD (Mé - x i ) (x i+1 - x i )
= =
BC DE (F(Mé ) − Fi−1 ) (F( x i+1 ) − F( x i ))

(Mé - x i ) a (0,5 − Fi−1 )


= i Mé = x i + a i
(0,5 − Fi−1 ) f i fi

Numériquement, on obtient :
xi = 6000

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 6 -
Cours de Statistique Descriptive.
Version : octobre 2007

xi+1 = 7000
ai = 1000
F( x i ) = Fi−1 = F(6000) = 0,455
F( x i+1 ) = Fi = F(7000) = 0,796
(0,5 − Fi−1 ) 0,5 − 0,455
Donc Mé = x i + a i = 6000 + 1000 ≈ 6132
fi 0,796 − 0,455
Conclusion : Le salaire médian de l’entreprise est donc 6132 dinars, c'est-à-dire la moitié des salariés
gagnent moins de 6132 dinars et l’autre moitié gagnent plus de 6132 dinars.

2.2.2.2.2 Détermination de la médiane par l’histogramme

Une autre alternative est proposée pour déterminer la médiane à partir de l’histogramme.
La médiane est la valeur du caractère telle que la droite d’équation : x = Mé partage l’histogramme en
deux aires ou surfaces égales.

65

35

27
25
20

11
8


[3000, 4000[ [4000, 5000[ [5000, 6000[ [6000, 7000[ [7000, 8000[ [8000, 9000[ [9000, 10000[

Numériquement, on aura :
191
25×1000 + 35×1000 + 27×1000 + (Mé−6000)×65 = ( ) × 1000 donc Mé ≈ 6131
2

2.3. Les quantiles

On appelle quantile d’ordre α la série statistique {x i }, i = 1,2, , n et on note x α la valeur de la


variable X, telle que α% des valeurs observées soient inférieures à x α .
Si F représente la fonction de fréquences cumulées croissantes alors F C ( xα ) = α % .

En d’autres mots, les quantiles correspondent aux valeurs de la variable statistique qui partagent la série
ordonnée en q parties égales.
En statistiques descriptives, trois catégories de quantiles sont généralement utilisées.

2.3.1. Les quartiles

Les quartiles sont les trois valeurs x25, x25 et x75 de la variable X qui partagent la série des valeurs
rangées par ordre croissant en 4 parties (q=4) contenant chacune 25% des valeurs observées de
la série statistique (le quart des effectifs).

Il y donc 3 quartiles qui sont notés comme suit : x25=Q1, x50=Q2 et x75=Q3.
Le calcul des quartiles s’effectue de la même façon que la médiane (méthode des triangles semblables
ou par interpolation linéaire).

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 7 -
Cours de Statistique Descriptive.
Version : octobre 2007

On peut écrire F(Q1)=0,25 ; F(Q2)=0,50 et F(Q3)=0,75.

Q1 Q2 Q3

x1 Mé xn
n n n n
4 4 4 4

25% 25% 25% 25%

2.3.2. Les déciles

Les déciles partagent la série statistique ordonnée par ordre croissant en dix parties contenant
chacune 10% des valeurs observées.

Il y donc 9 déciles qui sont notés comme suit : x10=D1, x20=D2,… et x90=D9.
Ils sont associés respectivement aux fréquences cumulées 10% ; 20% ;… et 90%.

2.3.3. Les centiles

Les centiles partagent la série statistique ordonnée par ordre croissant en cent parties contenant
chacune 1% des valeurs observées.

Il y donc 99 centiles qui sont notés comme suit : x1=C1, x2=C2,… et x99=C99.
Ils sont associés respectivement aux fréquences cumulées 1% ; 2% ;… et 99%.

2.4. Les moyennes

On suppose dans cette section que X est une variable définie sur une population composée de n
individus.

2.4.1. La moyenne arithmétique

La moyenne arithmétique d’une série statistique est égale à la somme des valeurs prises par le
caractère, pondéré par les fréquences.

2.4.1.1. Données non groupées

Soit x1 , x 2 ,..., x n les n observations de la variable X.


On appelle moyenne arithmétique simple des n valeurs {x1 , x 2 ,..., x n } , ou encore moyenne
arithmétique de la variable X, et on note X le rapport défini par :
x1 + x 2 + ... + x n
X =
n
soit, en utilisant le signe :

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 8 -
Cours de Statistique Descriptive.
Version : octobre 2007

1 n
X = xi
n i =1

2.4.1.2. Données groupées

2.4.1.2.1 Cas d’une variable discrète

Lorsque les données d’une variable X sont organisées dans des tableaux de dénombrement, chacune
des valeurs observées xi de la variable X est pondérée par un coefficient égal au nombre
ni d’observations de cette valeur.
Soit la variable statistique discrète X qui prend les valeurs entières x 1, x 2 ,..., x k où k est le nombre de
modalités (ou d’observations distinctes).
La moyenne arithmétique qu’on note X , est calculée comme suit :
n1 x1 + n2 x 2 + ... + nk x k 1 k k ni
X = = ni x i = f i xi , puisque f i =
n1 + n2 + ... + nk n i =1 i =1 n

2.4.1.2.2 Cas d’une variable continue

Dans le cas d’une variable statistique continue on dispose d’observations regroupées en classes. La
convention généralement retenue consiste à adopter, comme valeurs de la variable statistique dans les
x + x i +1
calculs, les centres des classes définis par : c i = i avec i = 1, 2, ..., k .
2
Cette opération revient à supposer que les observations à l’intérieur de chaque classe sont reparties
d’une façon uniforme. Pour calculer la moyenne arithmétique, il suffit de remplacer dans l’expression
précédente, les x i par les c i avec i = 1, 2, ..., k :
k k
1
X= nic i = fi c i
n i =1 i =1

2.4.1.3. Quelques propriétés de la moyenne arithmétique

a) La somme des écarts (déviations) entre les valeurs de la variables et leur moyenne arithmétique,

( ) ( )
k k
pondérés par les effectifs (ou par les fréquences), est nulle : ni x i − X = f i x i − X =0
i =1 i =1
b) La moyenne arithmétique est invariante par changement d’échelle. Autrement dit, si chaque
valeur de la série xi est multipliée par une même constante k, alors la moyenne arithmétique est
1 n
aussi multipliée par cette même constante ( kX i = kX ).
n i =1
c) La moyenne de la population est égale à la moyenne des moyennes des sous- populations
1 k
pondérées par les effectifs correspondants : X = n j X j avec :
n j =1

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 9 -
Cours de Statistique Descriptive.
Version : octobre 2007

Population Taille Moyenne arithmétique


P n X

sous -populations
P1 n1 X1

Ps ns Xs

2.4.1.4. Limites de la moyenne arithmétique

La moyenne arithmétique tient compte de toutes les observations dans la série et elle a l’inconvénient
d’être très sensible aux valeurs extrêmes (outliers).

Exemple :

On dispose de 2 séries sur la consommation d’eau potable pour 2 groupes de 7 personnes :


Série 1 : 20 24 25 26 27 28 30 X1 = 25,7
Série 2 : 20 24 25 26 27 28 95 X 2 = 35,0
La moyenne peut constituer une bonne mesure de la tendance centrale dans le cas de la 1ère série.
Toutefois, pour la 2ème série, on constate que la moyenne est plus grande que toutes les valeurs de la
série à l’exception de la valeur extrême (95, la valeur la plus élevée) et elle ne représente pas assez
bien la tendance centrale. Dans ce cas la moyenne arithmétique est contaminée par la présence de
cette valeur extrême.

2.4.2. La moyenne géométrique

Lorsque la fonction ϕ est la fonction logarithmique : ϕ( x ) = Log x , ( x > 0) , M ϕ représente la moyenne


géométrique notée G.
ϕ( x i ) = Logx i ∀i = 1, 2, , k.

( ) ∏ (x )
k k k
f i Log(x i ) =
f fi
ϕ(M ϕ ) = Log(M ϕ ) = Log x i i = Log i
i =1 i =1 i =1

f f
M ϕ = G = x1 1 × .x 2 2 × . × xk
fk
k
= ∏ xi
i =1
( )
fi

N.B.
La moyenne géométrique du produit de deux variables X et Y est égale au produit des moyennes
géométriques de X et de Y.
La moyenne géométrique réduit l’influence des grandes valeurs et accroît celle des petites. Cette
propriété est liée à l’utilisation de la fonction logarithmique. Ainsi pour une même série, la
moyenne géométrique est inférieure à la moyenne arithmétique.

2.4.3. La moyenne harmonique

1
Lorsque la fonction ϕ est la fonction inverse : ϕ( x ) = , M ϕ représente la moyenne harmonique
x
notée H.
1
ϕ( x i ) = ∀i = 1, 2, , k.
xi

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 10 -
Cours de Statistique Descriptive.
Version : octobre 2007

n n 1
Mϕ = H = = = ( xi ≠ 0)
1 1 1 k ni k fi
+ + ... +
x1 x 2 xn i =1 xi i =1 xi

3. Les caractéristiques de Dispersion


Les caractéristiques de tendance centrale fournissent des informations sur l’ordre de grandeur de la
série mais elles ne transmettent aucune indication sur la manière dont sont regroupées ces informations.
Donc, il faut disposer d’informations supplémentaires relatives à l’étalement des modalités du caractère
autour d’une valeur centrale.
On peut approcher la notion de dispersion (fluctuations autour d’une valeur centrale, ou plus
généralement dans un intervalle) par la notion d’écarts mesurables.
Les caractéristiques de dispersion qui mesurent l’intensité du groupement des valeurs autour d’une
caractéristique centrale (généralement la moyenne).

3.1. L’étendue

L’étendue, qu’on note E, est la différence entre la plus grande et la plus petite des valeurs
observées de la série statistique. Si on note x min . la plus petite modalité et x max . la plus grande
modalité, l’étendue est E = x max . − x min .

N.B.
L’inconvénient majeur de l’étendue est sa dépendance directe des valeurs extrêmes parfois
exceptionnelles (ou accidentelles) et qui entraînent une grande dispersion de la série.

3.2. L’intervalle interquartile

Pour pallier à l’inconvénient de l’étendue du fait de sa dépendance des valeurs extrêmes, on peut
écarter ces valeurs extrêmes dans le calcul de la dispersion de la série.
L’intervalle interquartile, qu’on note IIQ , est la différence entre le troisième et le premier quartile et on ne
considère ainsi que 50% des observations : IIQ=Q3 - Q1 . Il s' agit d'un indicateur de dispersion autour de
la médiane Mé.

Intervalle Interquartile

Q1 Q2 Q3

x1 Mé xn
n n n n
4 4 4 4

25% 25% 25% 25%

N.B.

D9 -D1

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 11 -
Cours de Statistique Descriptive.
Version : octobre 2007

Exemple :
Classes ni fi
[80 ; 100[ 26 18,6
[100 ; 110[ 33 42,1
[110 ; 120[ 64 87,9
[120 ; 130[ 7 92,9
[130 ; 150[ 10 100,0
140

Q1 et Q3 sont déterminées par interpolation linéaire dans la classe correspondante : Q1= 102,7 et Q3
=117,2 soit IIQ=Q3 - Q1 = 11.
Après avoir écarté le quart des observations dont la valeur est la plus élevée et le quart des
observations dont la valeur est la plus faible, on peut dire que 50% des observations se trouvent donc
dans un intervalle d’amplitude 11.

3.3. L’écart absolu moyen

L’écart absolu moyen, qu’on note eM , est la moyenne arithmétique des valeurs absolues des
1 k k
écarts par rapport à la moyenne arithmétique : eM = ni x i − X = f i xi − X .
n i =1 i =1

Il s’agit donc de la distance moyenne des valeurs observées par rapport à la valeur centrale.
Lorsqu’il s’agit d’observations groupées en classes, on fait les calculs en supposant que toutes les
observations appartenant à une classe sont regroupées au centre de celle-ci.

3.4. L’écart absolu par rapport à la médiane

Dans la calcul de l’écart absolu moyen, la caractéristique de tendance centrale considérée était la
moyenne arithmétique. Il est cependant possible de considérer une autre caractéristique de tendance
centrale, telle que la médiane par exemple.

L’écart absolu par rapport à la médiane, qu’on note eMé , est la moyenne arithmétique des valeurs
k k
1
absolues des écarts par rapport à la médiane : e Mé = n i x i − Mé = f i x i − Mé .
n i =1 i =1
N.B.
Ces écarts s’expriment dans la même unité que la variable statistique X étudiée.

3.5. La variance

L’usage des écarts absolus moyens est peu commode du fait des valeurs absolues qui leur fait préférer
une autre caractéristique de dispersion appelée écart-type (ou son carré la variance).

La variance d’une variable statistique X, qu’on note Var (X), est la moyenne arithmétique des
carrés des écarts par rapport à la moyenne arithmétique :
1 n
• Pour les données non groupées : V (X ) = ( xi − X ) ²
n i =1
( )
2
k ni x i − X k
( )
2
• Pour les données groupées : Var(X) = = fi xi − X .
i =1 n i =1

V(X) s’appelle aussi l’écart quadratique moyen.

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 12 -
Cours de Statistique Descriptive.
Version : octobre 2007

N.B.
Il est souvent plus pratique d’utiliser une formule alternative pour la variance :
2
k k
ni x i
Var(X) = fi x i2 − X2 = − X2 .
i=1 i=1 n carré des moyennes

moyenne des carrés

La variance est toujours positive. Elle est nulle uniquement dans le cas particulier où toutes les
valeurs de la série sont identiques.

Extension :
La variance est un paramètre de dispersion plus utilisé que les autres de pour ses propriétés
algébriques:
1. Pour plusieurs populations d’effectifs ( n1;n2 ; ;nk ) , de moyennes respectives X1; X2 ; ; Xk et ( )
(
de variances respectives Var ( X1 ) ; Var ( X2 ) ; ; Var ( Xk ) ) , on peut écrire :
ni
( ) ni
k 2 k
Variance globale = Xi − X + Var ( Xi )
i=1 N i=1 N
variance des moyennes moyenne des variances

où X est la moyenne des moyennes et N = n1 + n2 + + nk

2. Changement d’échelle et d’origine :


X: ( x i , ni ) → Y: ( y i =axi +b , ni )
Var ( X ) → Var ( Y ) = a2 Var ( X )

3.6. L’écart-type

La variance est définie à partir des carrés des écarts à la moyenne, il en résulte qu’elle ne s’exprime pas
dans la même unité que la variable X étudiée. Ainsi, si X est exprimée en Dinard (D), V(X) sera
exprimée en « Dinard au carré » (D²), unité qui ne correspond à aucune mesure courante. Pour cette
raison, entre autres, et afin de pouvoir représenter sur un même graphique la variable et sa dispersion,
on utilise souvent à la place de la variance, sa racine carrée, l’écart-type.

L’écart-type d’une variable statistique X, qu’on note σ( X) , est égal à la racine carrée de la
k k
variance : σ( X) = Var ( X) =
1
n
(
ni x i − X ) 2
= (
fi x i − X ) 2
.
i=1 i=1

N.B.
Plus l’écart type est grand, plus la dispersion autour de la moyenne arithmétique est grande.
On utilise plus couramment l' écart-type qui est la racine carrée de la variance et qui a l'
avantage
d'
être un nombre de même dimension que les données (contrairement à la variance qui en est le
carré).

3.7. Le coefficient de variation (ou de dispersion relative)

L’écart type ainsi que les écarts absolus moyens et les indicateurs de tendance centrale X , Mé et Mo
dépendent de l’unité de mesure de la variable statistique étudiée. Ils dépendent également de l’ordre de
grandeur des valeurs observées.
Pour comparer les dispersions de distributions qui ne sont pas exprimées dans la même unité ou de
distributions dont les moyennes sont différentes, on peut utiliser un indice de dispersion relatif
indépendant.

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 13 -
Cours de Statistique Descriptive.
Version : octobre 2007

Le coefficient de variation d’une série statistique (exprimé souvent en pourcentage), qu’on note
CV(X), défini comme le rapport entre l’écart type et la moyenne :
σ(X)
CV(X) =
X
Cet indicateur donne une mesure relative de la dispersion. Donc, ce coefficient permet de
relativiser l'
écart-type en fonction de la taille des valeurs.

Exemple :

Le tableau ci-dessous donne la structure par âge de la population de deux villes différences A et B.

Structure par âge de la population des deux villes A et B

Effectifs ni
Centre de
Classes
classe ci Ville A Ville B
[0 ; 15[ 7,5 296 201
[15 ; 30[ 22,5 298 225
[30 ; 50[ 40 247 279
[50 ; 70[ 60 123 201
[70 ; 90[ 80 36 94
TOTAL 1000 1000

Les caractéristiques de tendance centrale et de dispersion sont calculées et précisées dans le tableau
ci-dessous :
Caractéristiques principales des deux populations

Ville A Ville B

Moyenne X A =29,065 X B =37,31


Variance V(XA) = 391,14 V(XB) = 504,78
Ecart-type σ ( X A ) = 19,78 σ ( X B ) =22,47
Coefficient de variation CV(XA) = 68,0% CV(XB) = 60,2%

La comparaison directe des deux écarts-types semble indiquer une dispersion des âges plus forte dans
la ville B que dans la ville A (22,47 ans contre 19,78 ans). On interprète en disant qu’en moyenne, l’écart
(mesurée en années) entre l’âge d’un individu et l’âge moyen de la population (d’où il est issu) est égal à
22,47 ans pour la ville B alors qu’il est de 19,78 ans pour la ville A.
.
la comparaison des distributions à partir du coefficient de variation indique au contraire une dispersion
plus forte (CV(XA) = 68%) pour la ville A que pour la ville B (CV(XB) = 60,2%). On interprète en disant que l’écart
(mesuré avec ) entre l’âge d’un individu et l’âge moyen de la population est égal à 68% de la moyenne
pour la ville A alors qu’il est de 60,2% de la moyenne pour la ville B.

En conclusion, les âges sont plus dispersés pour la ville A que pour la ville B. Le coefficient de variation
a ainsi supprimé l’effet dû à la moyenne et inversé le résultat initial.
Le coefficient de variation doit être utilisé systématiquement dès que l’on veut comparer la dispersion de
plusieurs distributions.

4. Les caractéristiques de forme


Pour décrire les séries statistiques, on a arboré jusqu’à maintenant :
♦ les caractéristiques de tendance centrale, qui donnent un ordre de grandeur de la série.
♦ les caractéristiques de dispersion qui mesurent l’intensité du groupement des valeurs
autour d’une caractéristique centrale (généralement la moyenne).

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 14 -
Cours de Statistique Descriptive.
Version : octobre 2007

Les coefficients ou les caractéristiques de forme cherchent à caractériser ou à mesurer l’allure générale
de la courbe des fréquences d’une série statistique sans la tracer.
On repère généralement deux mesures de la forme d’une série :
La mesure de l’asymétrie renseigne sur la façon régulière ou non de la répartition des
observations de part et d’autre d’une valeur centrale.
La mesure de l’aplatissement sert à faire apparaître si une faible variation de la variable
entraîne ou non une forte variation des fréquences relatives.

4.1. La mesure de l’asymétrie

4.1.1. Positions respectives : mode, médiane et moyenne

Ayant les valeurs du Mode, de la Médiane et de la Moyenne, on peut deviner l’allure d’une série par la
comparaison de tendances centrales traditionnelles.
fi
Distribution parfaitement symétrique : Une distribution
statistique est symétrique si les observations sont
également dispersées de part et d’autre de la moyenne
arithmétique. Dans une distribution parfaitement symétrique,
la moyenne arithmétique, le mode et la médiane sont
confondus : Mo = Mé = X .
xi
Mo = Mé = X

fi
Distribution oblique à gauche : Une distribution est
oblique à gauche (ou asymétrique à gauche) si les valeurs
de la variable statistique sont étalées à droite.
Dans ce cas on a : Mo < Mé < X

xi
Mo Mé X

fi

Distribution oblique à droite : Une distribution est oblique


à droite (ou asymétrique à droite) si les valeurs de la
variable statistique sont étalées à gauche.
Dans ce cas on a : Mo > Mé > X
xi
X Mé Mo

N.B.
Les paramètres d’asymétrie, appelés SKEWNESS, permettent de caractériser la forme des
courbes représentatives.

4.1.2. Le coefficient d’asymétrie de Yule

Yule présente une mesure de l’asymétrie en comparant l’étalement vers la gauche et l’étalement vers la
droite, tous deux repérés par la position des quartiles (Q1, Mé =Q2 et Q3).
Le coefficient de Yule, qu’on note s, est défini par :

(Q3 − Mé) − (Mé − Q1 ) (Q3 − Mé) − (Mé − Q1 ) (Q3 − Q2 ) − (Q2 − Q1 )


s= = =
(Q3 − Mé) + (Mé − Q1 ) Q3 − Q1 Q3 − Q1

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 15 -
Cours de Statistique Descriptive.
Version : octobre 2007

Si s = 0, la distribution est symétrique et les quartiles sont équivalents.


Si s > 0, la distribution est oblique à gauche : (l’écart entre Médiane et Q1 est relativement petit),
donc Médiane se rapproche plus de Q1 , alors la courbe des fréquences étalée à droite
Si s < 0, la distribution est oblique à droite : (raisonnement inversé).

4.1.3. Les coefficients d’asymétrie de Pearson

Pearson1 propose deux coefficients pour mesurer l’asymétrie :

Le premier analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique) par
rapport à la dispersion de la série. Il est défini par :
X − Mo
s=
σ

Si s = 0, la distribution est symétrique et les quartiles sont équivalents.


Si s > 0, la distribution est oblique à gauche.
Si s < 0, la distribution est oblique à droite.

N.B.
Ce coefficient n’est valable que pour les distributions faiblement asymétriques.
Ce coefficient d’asymétrie utilise le mode qui n’est pas un paramètre de tendance centrale
excellent. En plus, dans le cas d’une distribution bimodale, le calcul ne peut pas se faire.

4.1.4. Le coefficient d’asymétrie de Fisher

Pour une distribution statistique donnée, on appelle moment centré d’ordre p (par rapport à la
moyenne X ) la valeur suivante :
1
µp = n i ( x i − X) p
n

Le coefficient d’asymétrie de Fisher2, qu’on note γ1 , se base sur le coefficient de Pearson. Il est défini
par :
µ µ3
γ1 = 3 3 ou encore γ1 =
(σ) ( µ2 )
3

Si γ1 = 0, la distribution est symétrique


Si γ1 > 0, la distribution est oblique à gauche
Si γ1 < 0, la distribution est oblique à droite.

4.2. La mesure de l’aplatissement

Une courbe des fréquences est plus au moins aplatie, par référence à la courbe des fréquences (ou
densité) de la Loi Normale (Loi de Gauss-Laplace). Ainsi, on compare si la distribution est plus ou moins
aplatie par rapport à une courbe de Gauss-Laplace de même moyenne et de même écart type.
Donc, une courbe est dite aplatie lorsqu’une variation forte de la variable étudiée ne s’accompagne pas
de forte variation de la fréquence relative fi , par référence à la courbe des fréquences de la loi Normale.

1 Karl Pearson, statisticien britannique du début du XX siècle.


2 Ronald Fisher biologiste statisticien britannique.

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 16 -
Cours de Statistique Descriptive.
Version : octobre 2007

fi
fi fi

xi xi
xi

Courbe normale Courbe platicurtique : Courbe leptocurtique :


Une courbe platicurtique est moins Une courbe leptocurtique est plus
aiguë et plus plate que celle de la loi aiguë et moins plate que celle de la loi
normale. Dans ce cas les observations normale. Dans ce cas les observations
sont éloignées par rapport à la sont plutôt concentrées autour de la
moyenne. moyenne.

Les paramètres d’aplatissement permettent d’estimer l’aplatissement ou encore d’apprécier l’importance


des queues d’une distribution.

4.2.1. Le coefficient d’aplatissement de Pearson

Le coefficient d’aplatissement de Pearson, qu’on note β 2 , est défini par :


µ µ4
β2 = 44 = ¨.
σ ( µ2 )
2

Si β 2 = 3, la courbe est normale.


Si β 2 > 3 et d’autant plus grand que la courbe est leptocurtique.
Si β 2 < 3 et d’autant plus proche de 1 que la courbe est platicurtique.

4.2.2. Le coefficient d’aplatissement de Fisher

Le coefficient d’aplatissement de Fisher, qu’on note γ 2 , est défini par :


µ µ4
γ 2 = β2 − 3 = 44 − 3 = −3
σ ( µ2 )
2

Si γ 2 = 0, la courbe est normale.


Si γ 2 > 0 la courbe est leptocurtique.
Si γ 2 < 0 la courbe est platicurtique ( γ 2 reste >-2 puisque µ 4 > σ 4 ).

4.2.3. Autres coefficients d’aplatissement

Il est possible aussi de mesurer l’aplatissement en comparant les intervalles interquartile et interdécile.
On peut définir par exemple le coefficient d’aplatissement, qu’on note A :
(Q 3 − Q 1 )
A=
2(D 9 − D 1 )
Si 0,15 ≤ A ≤ 0,25 , la courbe est normale.
Si A > 0,25 , la courbe est leptocurtique.
Si A < 0,15 , la courbe est platicurtique.

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 17 -
Cours de Statistique Descriptive.
Version : octobre 2007

5. Les caractéristiques de Concentration

Jusque là, on a abordé les formes de la distribution à l’aide de certaines statistiques, les plus
importantes d’entre elles étaient les statistiques de dispersion.
Cependant, les mesures déjà rencontrées (écart type, écart absolu moyen, etc.) ne renseignent que sur
la dispersion au sein d’une série.
Mais, peut-on trouver un moyen de comparer une dispersion par rapport à une autre (qui serait une
norme) pour chaque quantile observé ? (Comparaison de dispersion entre séries).

5.1. Définition de la concentration

La concentration d’une distribution mesure sa répartition ‘observée’ par rapport à une ‘norme’ de
répartition (la répartition à laquelle on s’attend). Donc il s’agit de comparer deux séries de fréquences
cumulées. Elle est souvent utilisée dans l’analyse des parts distributives des salaires, des fortunes, des
parts de marché des entreprises, etc.…C’est aussi une mesure de l’état des inégalités dans la
distribution.
Deux conditions sont importantes pour étudier la concentration : l’addition des différentes modalités du
caractère doit avoir un sens et le partage de la masse globale doit être possible.
La concentration peut être déterminée selon deux méthodes :
par le calcul de l’écart entre la médiale et la médiane.
par les graphes.

5.2. Détermination de la concentration par le calcul : l’écart médiale –médiane

5.2.1. Définitions

5.2.1.1. Valeurs globales et valeur globales relatives

On appelle valeur globale associée au couple (ni , xi ) le produit ni .xi .


On appelle valeur globale relative associée au couple (ni , xi ) , et on note qi le rapport défini par :
ni x i
qi = k
ni x i
i =1

Dans le cas de données groupées en classes statistiques, les valeurs xi sont les centres de classes ci .
k
Si on note S la « masse de la variable X » (soit S = ni xi ), la valeur qi est la fréquence associée à la
i =1

valeur globale ni .xi . Elle exprime la proportion que représente la valeur globale correspondant à la
modalité xi par rapport à la masse S.

5.2.1.2. Valeurs globales relatives cumulées croissantes

On appelle valeur globale relative cumulée croissante associée à la modalité xi de la variable


X, et on note Qi, la somme des valeurs globales relatives associées aux valeurs inférieures ou
égales à xi .
i
Qi = F C ( n i x i ) = qj
j =1

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 18 -
Cours de Statistique Descriptive.
Version : octobre 2007

Si la distribution présente k modalités, on a :

Q1 = q 1
Q2 = q 1 + q 2

Qk = q1 + q2 +…+ qk = 1.

5.2.2. La médiale

La médiale, noté Ml, est une médiane que l’on calcule non pas sur les effectifs ni de la série
{ni , xi } ,
mais sur le produit ni .xi En conséquence, la médiale est la valeur du caractère xi
associée à Qi =50%.

Dans le cas de données groupée en classes statistiques, les valeurs de xi sont les centres de classes.

5.2.3. Détermination algébrique de la concentration

Une première mesure de la concentration peut être donnée par l’écart entre la médiale, qu’on note Ml ,
et la médiane Mé

On appelle écart médiale-médiane, et on note ∆M , le nombre défini par :


∆M = Ml − Mé

Si ∆M = Ml − Mé = 0 , la médiale est égale à la médiane ce qui implique que 50% des individus
(unités statistiques) se partagent 50% de la masse du caractère. On est dans le cas d’une égalité
parfaite ou d’équi-répartition.

Si ∆M = Ml − Mé ≠ 0 , la répartition du caractère n’est pas égalitaire. L’écart ∆M , est alors comparé à


∆M Ml − Mé
l’étendue E = x max . − x min . de la série. On calcule le rapport = qui peut être utilisé
E x max . − x min .
pour comparer la concentration de plusieurs distributions.
o Si ∆M est grand par rapport à l’étendue E , la concentration est forte.
o Si ∆M est petit par rapport à l’étendue E , la concentration est faible.

Exemple :
Répartition des employés d’une entreprise selon le salaire annuel (en dinars)
Fréquences cumulées
Modalités Effectifs Fréquences Effectifs cumulés croissants croissantes
Salaires ni fi NiC C
Fi
[3000, 4000[ 25 0,131 25 0,131
[4000, 5000[ 35 0,183 60 0,314
[5000, 6000[ 27 0,141 87 0,455
[6000, 7000[ 65 0,340 152 n/2 0,796 0,5
[7000, 8000[ 20 0,105 172 0,901
[8000, 9000[ 8 0,042 180 0,942
[9000, 10000[ 11 0,058 191 1,000
Total 191 1,000

Généralement, on procède selon les étapes suivantes :

1) Détermination de la médiane

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 19 -
Cours de Statistique Descriptive.
Version : octobre 2007

Le salaire annuel médian de l’entreprise est de 6132 dinars.

2) Calcul de la médiale

Centres des Effectifs cumulés


Modalités Effectifs croissants Masse salariale
classes Masse salariale cumulée
Salaires ni n i xi
xi NiC
[3000, 4000[ 3500 25 25 87500 87500
[4000, 5000[ 4500 35 60 157500 245000
[5000, 6000[ 5500 27 87 148500 393500 Moitié de la
masse salariale=
[6000, 7000[ 6500 65 152 422500 816000 569250
[7000, 8000[ 7500 20 172 150000 966000
[8000, 9000[ 8500 8 180 68000 1034000
[9000, 10000[ 9500 11 191 104500 1138500
Total 191 1138500

La classe médiale est [6000, 7000[


Pour calculer la médiale Ml , on procède par interpolation linéaire comme pour le cas de la médiane.
Ml − 6000 7000 − 6000
On a donc : =
569250 − 393500 816000 − 393500
Ainsi : Ml 6416
La totalité des salaires inférieurs à Ml 6416 est égale à la totalité des salaires supérieurs à Ml 6416 .

3) L’écart médiale

∆M = Ml − Mé
∆M = Ml − Mé = 6416-6132 = 284

4) L’étendue de la série

E = x max . − x min .
E = x max . − x min . =10000-3000=7000

∆M Ml − Mé
Le rapport = =4,06%.
E x max . − x min .
Ce rapport est faible, la série possède donc une faible concentration (donc il n’y a pas de grandes
disparités salariales entre les classes de salaires.

5.3. Détermination graphique de la concentration

5.3.1. La courbe de concentration de Gini – Lorentz

Il existe un moyen visuel de déterminer la concentration sans passer par la comparaison des deux
médianes. Il suffit de confronter les deux fonctions cumulatives sur un graphique.

La courbe de concentration (ou courbe de Lorenz) se construit sur un repère orthonormé à partir
des fréquences cumulées relatives.
Les valeurs des fréquences cumulées relatives de la série {n i , x i } sont donc celles de F(x). Elles
varient de 0 à 1. On les porte en abscisses :
i i ni
Fréquences cumulées correspondant aux effectifs ni : F C ( x i ) = fh =
h =1 1 n
Les valeurs des fréquences cumulées relatives de la série {ni .x i , x i } qui ont permis de calculer la
médiale varient aussi de 0 à 1. On les porte en ordonnées :

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 20 -
Cours de Statistique Descriptive.
Version : octobre 2007

i ni x i
Fréquences cumulées de la totalité du phénomène ni .x i : F C ( ni x i ) =
1 ni x i
i

L’ensemble des points désignant les combinaisons des valeurs des deux fonctions s’appelle la courbe
de Lorentz.
Cette courbe est alors représentée dans un carré avec les extrémités de 0 à 1 : on obtient donc un carré
qui porte le nom de carré de Gini3.
Cette courbe a pour but de décrire les effets de la concentration dans une population.

1 B
F(nx)

Courbe de Lorenz

0,75

Aire de concentration
0,5

Droite d’équi-répartition
0,25

0 A
0 0,25 0,5 0,75 1 F(x)

Si la courbe de concentration est confondue avec la droite d’équi-répartition, on est dans une situation
de répartition égalitaire de la masse du caractère entre les individus : Dans ce cas x% des individus se
partagent x% de la masse du caractère.
L’aire comprise entre la droite d’équi-répartition et la courbe de concentration est appelée aire de
concentration.
Au plus la courbe de concentration s’écarte de la droite d’équi-répartition, au plus la concentration est
forte.

5.3.2. L’indice de Gini

On appelle indice ou coefficient de concentration (ou indice de Gini) qu’on note G, le rapport
entre la courbe et la diagonale (aire de concentration) à l’aire du triangle OAB.
aire de concentration
G=
aire de OAB

Puisque l’aire de OAB = 0,5 (d’après le carré de Gini) donc G = 2 × aire de concentrat ion et
0 ≤ G ≤ 1.

Si G = 0, la concentration est nulle (inexistante) et la répartition est parfaitement égalitaire (équi-


répartition).
Si G = 1, la concentration est maximale (forte) et la répartition est totalement inégalitaire
(inégalité maximale).

3 L’italien Corrado Gini est connu pour ses travaux sur les disparités de revenus.

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 21 -
Cours de Statistique Descriptive.
Version : octobre 2007

La mesure pratique de G se fait en mesurant les surfaces des trapèzes.

On suppose l’existence d’autant de trapèzes que de classes.

Fi ( n.x )

Fi− 1(n.x ) Trapèze j

Bj
bj

Fi− 1 ( x ) Fi ( x )

0 h 1

Dans ce cas l’aire de concentration est égale à la surface du triangle OAB moins (-) la somme des
aires des trapèzes.

k (Qi −1 + Qi ) f i
Aire de concentration = 0,5 −
i =1 2
k
L’indice de Gini est : G = 1 - (Q i + Q i-1 )f i .
i =1

Institut Supérieur d’Administration des affaires de Sfax (ISAAS)


DR. CHIRAZ KARAMTI (MAITRE-ASSISTANT EN METHODES QUANTITATIVES) - 22 -

Vous aimerez peut-être aussi