Académique Documents
Professionnel Documents
Culture Documents
I- Le vocabulaire statistique
1
Un caractère qualitatif nominal ne peut être ordonné. Chaque modalité est exprimée par un nom
ou un code qui le distingue des autres.
Exemple : Situation matrimoniale (marié, célibataire, divorcé).
- Les caractères quantitatifs : Ce sont les caractères dont les modalités prennent des valeurs
numériques, pour simplifier, que l'on peut "mesurer".
Le caractère quantitatif est discret si les valeurs du caractère sont isolées. Ses seules valeurs
possibles sont des nombres entiers.
Exemple : Nombre d’enfants (0, 1, 2).
Le caractère est continu si les valeurs du caractère appartiennent à l’ensemble des réels. Pour ce
type de variable, il est d’usage de regrouper les modalités en intervalles, appelés Classes.
La « largeur» de chaque intervalle s’appelle l’amplitude. Chaque modalité peut prendre
potentiellement toutes les valeurs à l’intérieur de son intervalle de variation : ces valeurs peuvent
être des nombres réels (en pratique ils sont décimaux).
Exemple : Taille d’une personne en cm ([170;175[).
2
I-2 Effectifs et Fréquences
On appelle effectif d’une variable (respectivement d’une classe, respectivement d’une modalité)
le nombre d’individus possédant le caractère de cette variable (respectivement d’une classe,
respectivement d’une modalité)
On appelle fréquence d’une valeur (respectivement d’une classe, respectivement d’une
modalité) le quotient de l’effectif de cette valeur par l’effectif total de la population :
effectif de la valeur
fréquence 100
effectif total pour obtenir
un pourcentage
On notera que :
k
n
i 1
i N où N représente la taille de la population étudiée (ou encore l’effectif total).
ni
fi , i 1,......, k . Cette fréquence a la propriété d’appartenir à l’intervalle [0, 1]
N
puisque 0 ≤ ni ≤ N. Dans ce cas, le tableau statistique (xi, fi) est alors appelé distribution
statistique des fréquences d’une variable statistique.
D’une manière générale, une série statistique peut être présentée sous la forme d’un tableau
ayant la forme suivante:
x1 n1 f1
x2 n2 f2
x3 n3 f3
. . .
. . .
. . .
xk nk fk
Total N 1
3
Exemple 1 : Cas d’une variable statistique qualitative
Entrées des voyageurs non résidents par nationalité en 2008, source INS
Effectifs
Nationalité Fréquences
(en millier)
Total 5099 1
Nombre de
Effectifs Fréquences
Pièces
1 8409 0,091
2 24863 0,270
3 31529 0,343
4 19398 0,211
Total 92009 1
4
Exemple 3 : Cas d’une variable statistique quantitative continue
Répartition de la population tunisienne par tranche d’âge en 2008, source INS
[0 – 4[ 832 0,182
Total 4572 1
lim F( x ) 0
x
lim F ( x ) 1
x
5
x2 n2 f2 F(x2) = f1 + f2
x3 n3 f3 F(x3) = f1 + f2+ f3
. . .
. . .
. . .
xk nk fk F(xk) = f1 + f2+ f3+…..+ fk=1
Total N 1 _
Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS
Nombre de n. f. F(x)
Pièces
0
1 8409 0,091 0,091
Total 92009 1 _
6
Groupe d’âge F(x)
n. f.
(en année)
0
[0 – 4[ 832 0,182 0,182
Total 4572 1 _
F: IR → [1, 0]
x → F(x) = prop ( X ≥ x )
il s’agit de déterminer la proportion des individus possédant au moins le caractère x.
. . .
. . .
. . .
xk nk fk F(xk) = 1-(f1 + f2+ f3+…..+ fk) = 0
Total N 1 _
7
II- Représentation Graphique
● Fidèles : la réalité des données ne doivent pas être déformées par la réalisation du
graphique ;
On l'a compris chaque graphique doit être pertinent par rapport aux données et à l’objectif
poursuivi.
Le diagramme en barres permet de comparer les parties entre elles. Lorsque les modalités sont
ordonnées par effectifs décroissants, on obtient un diagramme dit de Pareto. La longueur de la
barre est proportionnelle aux effectifs ou à la fréquence.
Entrées des voyageurs non résidents par nationalité en 2008, source INS
Effectifs
Nationalité Fréquences
(en millier)
Total 5099 1
8
0,400
0,350
0,300
0,250
0,200
0,150
0,100
0,050
0,000
Française Allemande Italienne Algérienne Libyenne
Pour cela, il faut calculer l’angle de chaque secteur selon la formule suivante : i f i 360
Entrées des voyageurs non résidents par nationalité en 2008, source INS
Effectifs i f i 360
Nationalité Fréquences
(en millier)
9
Française
Allemande
Italienne
Algérienne
Libyenne
Le diagramme en bâtons (ou à bandes) : il permet de facilement comparer les effectifs ou les
fréquences entre eux.
Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS
Nombre de n. f. F(x)
Pièces
0
1 8409 0,091 0,091
Total 92009 1 _
10
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 et plus
La fonction cumulative d’une variable statistique discrète est une fonction en escaliers.
L’intérêt de cette fonction est de déduire rapidement la proportion des individus ayant la
valeur du caractère inférieure à une valeur quelconque xi, en prenant l’ordonnée du point
xi sur la courbe cumulative.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8
11
II-2 Cas d’une variable quantitative continue :
L’Histogramme : Il est constitué par des rectangles continus ayant pour base chacune
des classes et une aire proportionnelle à l'effectif ou à la fréquence de la classe
correspondante.
Amplitude d’une classe: on appelle amplitude d’une classe [xi ; xi+1[, la distance entre xi
et xi+1, définie par : ai = xi+1- xi
Deux cas sont à distinguer :
1er cas :
Si les amplitudes sont toutes égales, la hauteur du rectangle est proportionnelle à la
fréquence.
Total 4572 1 _
12
2ème cas :
Si les amplitudes sont inégales, il faut corriger les fréquences selon la formule suivante :
fi
f ic a*
ai
Groupe d’âge
a. f. f.c
(en année)
[0 – 4[ 4 0,182 0,182
Total - 1
13
Polygone des Fréquences : le polygone des fréquences permet d’avoir une idée générale
sur l’allure de la distribution des fréquences.
Il est obtenu en reliant les milieux des sommets des rectangles de l’histogramme par une
𝒙𝒊 𝒙𝒊 𝟏
courbe de coordonnés (ci, fi), i=1,… ; k, où 𝒄𝒊 = 𝟐
est le centre de la classe [xi ; xi+1[
Groupe d’âge
n. c. f.
(en année)
[0 – 4[ 832 2 0,182
Total 4572 - 1
14
Pour les fréquences cumulatives:
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 4 8 12 16 20 24 28
15
III- Les indicateurs d’une distribution statistique
La lecture d'un tableau ou l’interprétation d'un graphique ne permet pas forcément de connaître
suffisamment des données pour pouvoir en analyser les répartitions, d'autant plus que la
consultation de tableaux peut s'avérer très longue. On cherche alors à résumer celle-ci par
certaines caractéristiques, c'est à dire par un seul nombre destiné à caractériser l'ensemble des
données d'une façon objective et impersonnelle.
Les indicateurs de position tentent de donner une information sur la valeur de la modalité "autour
de laquelle se situent les autres modalités" (d'où le terme de tendance "centrale").
III-1-1 La Moyenne
La moyenne est sans doute l'indice de position le plus connu, ne serait ce que parce que la
moyenne de leurs notes est d'une importance primordiale pour les élèves et les étudiants. Il reste
cependant que pour eux le mot de moyenne est toujours associé à la notion de moyenne
arithmétique, éventuellement pondérée. En réalité il existe d'autres moyennes (géométriques,
harmoniques, quadratiques, etc..) et, selon les caractères étudiés et les conditions d'expérience, il
s'agira d'employer la "bonne" moyenne.
La moyenne arithmétique d'une série de valeurs d'une variable statistique est égale à la somme
de ces valeurs divisée par leur nombre. On la note X
Exemple : Un étudiant qui a eu comme notes 14, 15, 17, 19 et 12 a une moyenne égale à :
14 15 17 19 12
X 15,4
5
Inconvénient : Le calcul peut s'avérer très lourd lors de l'énumération d'un grand nombre de
données.
La Moyenne Arithmétique Pondérée
Si, dans une classe, 4 élèves ont obtenu la note 14, 3 élèves ont obtenu la note 15 et 5 élèves ont obtenu la
note17
14 14 14 14 15 15 15 17 17 17 17 17
On ne va pas calculer X 15,5
12
14 4 15 3 17 5
mais plutôt on va calculer X 15,5
12
16
Définition :
Si pour une population donnée, on a k valeurs du caractère x1, x2,........., xk d'effectifs respectifs
n1, n2,......, nk alors la moyenne de cette série statistique est donnée par :
n 1 x 1 n 2 x 2 ...... n k x k 1 k k
nixi k
ni k
X nixi xi f x i i
N N i 1 i 1 N i 1 N i 1
xi ni fi ni x xi fi x xi
1 k 1 5 5
X ni xi ni xi f i x i 2,929
N i 1 269364 i 1 i 1
1 k k
X n ici fici
N i 1 i 1
Groupe d’âge f. X c.
n. c. f.
(en année)
17
[12 – 16[ 1012 14 0,220 3,08
k
X f i c i 10,564
i 1
Propriété :
La moyenne arithmétique est invariante par changement de variable.
Si on définit une nouvelle variable Y=aX+b avec a et b deux constantes et a≠0, on a alors :
y i ax i b i 1, 2, ....., k
k k k k k
Y f i y i f i (ax i b) a f i x i f i b a f i x i b f i aX b
i 1 i 1 i 1 i 1 i 1
Y aX b
III-1-2 Le Mode
Le mode d’une variable statistique, noté Mo, est la valeur de la variable statistique pour laquelle
la fréquence est la plus élevée.
Mo( X) max( x i , f i )
fi
Le mode peut être calculé pour les caractères qualitatifs comme pour les caractères
quantitatifs.
Pour une variable statistique discrète, le mode est la valeur la plus fréquente.
Lorsque la variable est continue, on parle de classe modale : c’est la classe correspondant « au
pic » de l’histogramme, autrement dit c’est la classe pour laquelle fi est maximale.
Une série statistique n'admettant qu'un seul mode est dite unimodale ; elle est dite multimodale
dans le cas contraire, plus précisément bimodale dans le cas de deux modes, trimodale dans le
cas de trois modes, etc...
Exemple :
Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS
18
Nombre de n. f.
Pièces
1 8409 0,091
2 24863 0,270
3 31529 0,343
4 19398 0,211
Total 92009 1
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 et plus
III-1-3 La Médiane
La médiane d’une variable statistique X, notée Me, est la valeur de cette variable qui partage
en deux effectifs égaux, la série des observations préalablement ordonnées par valeurs
19
croissantes ou décroissantes du caractère X. Elle peut aussi être déterminée en prenant
l’abscisse du point ½ sur l’ordonnées de la courbe cumulative des fréquences, c'est-à-dire
F(Me)=1/2.
Médiane d’une variable statistique discrète :
Cas n°1 : Si le nombre d’observation est impair, n=2p+1 alors Me= (p+1)ème observation : il
y a p observations avant Me et p autres observations après Me.
Exemple :
Prenons l’exemple de 11 observations portant sur les valeurs xi « le nombre d’appartements par
immeuble dans un quartier résidentiel de Tunis » :
Numéro d’immeuble xi
1 11
2 15
3 13
4 11
5 12
6 14
7 15
8 16
9 10
10 12
11 11
On commence par classer les immeubles par ordre croissant selon le nombre
d’appartements.
Rang xi Numéro d’immeuble
1 10 9
2 11 1
20
3 11 4
4 11 11
5 12 5
6 12 10
7 13 3
8 14 6
9 15 2 →Individu Média
10 15 7
11 16 8
Interprétation :
n=2p+1 → 11=2*5+1→p=5 d’où Me correspond à p+1= 6 observation→Me=12
50% des immeubles dans un quartier résidentiel de Tunis ont un nombre d’appartements au plus
égale à 12.
Numéro xi
d’immeuble
1 11
2 15
3 13
4 11
5 12
21
6 14
7 15
8 16
9 10
10 12
11 11
12 13
On commence par classer les immeubles par ordre croissant selon le nombre
d’appartements.
Rang xi Numéro
d’immeuble
1 10 9
2 11 1
3 11 4
4 11 11
5 12 5
6 12 10
→Intervalle Médian
7 13 3
8 13 12
9 14 6
10 15 2
11 15 7
12 16 8
Interprétation :
22
n=2p→ 12=2*6 → p=6 et p+1=7 d’où Me correspond à Intervalle Médian = [ p ème, p+1ème ]
observation → Me = [ 12, 13 ]
50% des immeubles dans un quartier résidentiel de Tunis ont un nombre d’appartements au plus
égale à 12 et au moins égale à 13.
Cas n° 3 : Lorsque les données sont regroupés dans un tableau statistique, il est préférable
dans ce cas de déterminer la médiane à partir de la courbe des fréquences cumulées.
Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS
Nombre de n. f. F(x)
Pièces
0
1 8409 0,091 0,091
Total 92009 1 _
Exemple :
23
Groupe d’âge F(x)
n. f.
(en année)
0
[0 – 4[ 832 0,182 0,182
Total 4572 1 _
Interpolation Linéaire :
X F(x)
- 12 - 0,549
- Me - 0,5
-8 - 0,359
Me 8 0,5 0,359
12 8 0,549 0,359
0,5 0,359
Me 8 (12 8)
0,549 0,359
0,5 0,359
Me 8 (12 8)
0,549 0,359
Me 10,968
24
Les quantiles sont des valeurs qui divisent une série statistique ordonnée en plusieurs groupes
comprenant la même proportion des données. Voici un arbre représentant les quantiles les plus
fréquemment utilisés.
Les Quantiles
Les Quartiles
Les quartiles, notés par Q1, Q2 et Q3, divisent une série statistique ordonnée en quatre groupes
égaux comprenant chacun 25% des données de la série.
On dit que
1. 25% des données sont inférieures à Q1 tels que F(Q1)=0,25
2. 50% des données sont inférieures à Q2 tels que F(Q2)=0,5
3. 75% des données sont inférieures à Q3 tels que F(Q3)=0,75
Les Déciles
Les déciles, notés par D1, D2, ..., D8 et D9, divisent une série statistique ordonnée en dix groupes
égaux comprenant chacun 10% des données de la série.
On dit que :
1. 10% des données sont inférieures à D1 tels que F(D1)=0,1
2. 20% des données sont inférieures à D2 tels que F(D2)=0,2
3. ...
4. 90% des données sont inférieures à D9 tels que F(D9)=0,9
Les Centiles
Les centiles, notés par C1, C2, ...C98 et C99, divisent une série statistique ordonnée en 100 groupes
égaux comprenant chacun 1% des données de la série.
On dit que
25
Applications :
Total 4572 1 _
Q1 / F(Q1)=0,25
Interpolation Linéaire :
X F(x)
-8 - 0,359
- Q1 - 0,25
-4 - 0,182
26
Q1 4 0,25 0,182
8 4 0,359 0,182
0,25 0,182
Q1 4 (8 4)
0,359 0,182
0,25 0,182
Q1 4 (8 4)
0,359 0,182
Q1 5,536
Q2 / F(Q2)=0,5=Me=10,968
Q3 / F(Q3)=0,75
X F(x)
- 16 - 0,769
- Q3 - 0,75
- 12 - 0, 549
Q3 12 0,75 0,549
16 12 0,769 0,549
0,75 0,549
Q3 12 (16 12)
0,769 0,549
0,75 0,549
Q3 12 (16 12)
0,769 0,549
Q3 15,654
III-2 Les caractéristiques de Dispersion
Les indices de dispersion sont censés renseigner sur la manière dont les données se répartissent
autour d'une valeur centrale, en termes d'éloignement. Ce sont donc des nombres, et par
conséquent cette notion ne peut avoir de sens que pour les caractères quantitatifs.
III-2-1 L’Etendue
On appelle étendue d'une distribution statistique quantitative la différence entre la plus grande et
la plus petite valeur observée. Si on note xMin et xMax respectivement la plus petite modalité et la
plus grande modalité de la variable, l’étendue est ETD(x)= xMax - xMin.
Notons cependant que l’étendue n’est pas un indicateur toujours fiable, car il
dépend des valeurs extrêmes qui prouvent être f ausses ou aberrantes.
27
Exemple : l’étendue relative à la répartition de la population tunisienne par tranche d’âge en
2008 est ETD (x)= xMax - xMin= 20-0=20 ans.
Application :
50% de la population tunisienne sont âgés entre 5,536 et 15,654 soit un écart de 10,118.
Etant donné une série statistique quantitative X = (xi; ni) avec i=1…..k, on appelle écart absolu moyen
par rapport à une valeur centrale X , la quantité définie par :
k
EAM f i x i x
i 1
Application :
Groupe
d’âge n. c. f. f. X c.
ci X
f i ci X
(en année)
- EAM
Total 4572 1 10,564
4,947
28
III-2-4 Variance et Ecart type
On appelle une variance la moyenne arithmétique des carrés des écarts entre les
valeurs du caractère et la moyenne arithmétique.
k 2 k 2
1
V (x) n i x i x f x i i x
N i 1 i 1
k 2 k 2
1
x V (x) n i x i x f x i i x
N i1 i1
La variance et l’écart-type peuvent s’écrire sous une autre forme plus commode pour le calcul
de ces paramètres :
k 2
V (x ) f x
i1
i i x
f x
k
i
2
i 2 x ix x 2
i1
k
i1
f i x i2 2 f i x i x f i x 2
k k k
i1
fix 2
i i1
2fix ix
i1
fix 2
k k k
i1
fix 2 x fix i x fi
2
i
i 1 i1
2
X 1
f x
k
i
2
i 2x2 x2
i1
f x
k
i
2
i x2
i1
29
ci X c X fi ci X
2 2
Groupe n. c. f. f. X c. i
d’âge
V(x)=
Total 4572 - 1 10,564 - -
32,466
f c
k
V (x) i
2
i x2
i1
30
f
k
x V (x) i c i2 x 2
i1
32 , 466
5 , 698 ans
Plus le coefficient de variation est faible, plus la dispersion est faible et plus la population est
homogène.
Pour r = 1,
k
m r ( x) f i x ri ; r 0; 1; 2;....; n.
i 1
k
m1 ( x) fi xi
i 1
X
31
Si a = X , on obtient les moments centrés d’ordre r :
k
r ( x) fi ( xi X)r ; r 0; 1; 2;....;n.
i 1
Pour r = 1, k
1 ( x ) f i ( x i X)
i 1
k k
fi xi X f i
i 1 i 1
XX
0
k
Pour r = 2, 2 ( x ) f i ( x i X )
2
i 1
k
f i x i2 x 2
i 1
m 2 ( x ) m 21 ( x )
V( x )
Une distribution est symétrique si les valeurs de la variable statistique sont dispersées de manière
égale de part et d’autre de la moyenne.
32
Graphique d’une distribution symétrique :
fi
Mo =Me = x xi
On parle d’asymétrie négative, pour une distribution asymétrique à droite.
xi
Mo < Me < x
Mo > Me > x
33
μ3
Le coefficient d’asymétrie de Fisher :
σ³
Si 0 , alors la distribution est symétrique.
Si 0 , alors la distribution est asymétrique à gauche (étalée à gauche).
Si 0 , alors la distribution est asymétrique à droite (étalée à droite).
Une distribution est plus ou moins aplatie suivant que les fréquences des valeurs voisines des
valeurs centrales sont plus ou moins élevées par rapport aux autres.
leptokurtique
fi
mésokurtique
platykurtique
xi
34
μ4
Le coefficient d’aplatissement de Fisher : 3
σ4
0 si la distribution est mésokurtique (normale).
L’étude de concentration a été introduite par le statisticien italien Corrado Gini (1884 − 1965)
dans les années 1910 − 1914. Elle ne s’applique qu’à des variables statistiques continues à
valeurs positives et cumulables.
L’étude de concentration d’une série statistique a pour but de mesurer les inégalités de
répartition d’une valeur totale. Elle cherche, au moyen d’un indice de concentration appelé
Indice de Gini, à décrire comment la population se partage la masse totale du caractère étudié.
III-4-1 La Médiale
La médiale est la valeur de la variable qui sépare la masse du caractère en deux parties égales.
Par masse du caractère, on entend les produits (ni*xi), c'est-à-dire l’importance que représente
chaque modalité xi.
Exemple :
Répartition des salaires annuels en milliers de dinars dans une entreprise
xi ni ci fi F(x) ni*ci qi Qi
[20, 25[ 6 22,5 0,15 0,15 135 135/1300= 0,104
0,104
[25, 30[ 8 27,5 0,2 0,35 220 220/1300= 0,273
0,169
[30, 35[ 12 32,5 0,3 0,65 390 0,300 0,573
[35, 40[ 10 37,5 0,25 0,9 375 0,288 0,862
[40, 50[ 4 45 0,1 1 180 0,138 1
Total 40 1 1300 1
35
On pratique alors une interpolation linéaire classique selon la formule suivante :
X Q
- 35 - 0,573
- Ml - 0,5
- 30 - 0, 273
Ml 30 0,5 0,273
35 30 0,573 0,273
0,5 0,273
Ml 30 ( 35 30 )
0,573 0,273
Ml 33,783 Md
Interprétation : 50% de la masse salariale est donnée à des salariés qui gagnent
au plus 33783 dinars par an.
III-4-2 L’écart médiale-médiane
On appelle écart médiale-médiane d’une série statistique, le nombre défini par :
M Ml Me
Cet écart nous fournit un premier renseignement sur la concentration d’une distribution
statistique.
Si ∆M = 0 ⇔ Ml = Me, alors la concentration est nulle et la répartition de la valeur totale
est parfaitement égalitaire.
Si ∆M ≠ 0 alors la répartition de la valeur totale n’est pas égalitaire. Cependant, aucune
information sur l’intensité de cette inégalité ne peut être avancée.
Exemple :
M Ml Me
33,783 32,5
1,283 MD 0
La répartition de la masse salariale sur les salariés n’est pas égalitaire.
36
III-4-3 LA COURBE DE CONCENTRATION ou COURBE DE LORENZ
La courbe de Lorenz représente les couples des valeurs de F(x) et de Qi. Elle met donc en
relation la fonction de répartition et les parts cumulées de chaque valeur ou classe dans le total
des valeurs observées de la série.
Propriétés :
- La courbe s’inscrit donc dans un carré de côté unitaire, le « carré de Gini » ; sa diagonale,
de l’origine au point (1,1), représente une situation de répartition parfaitement égalitaire et
porte dès lors le nom de droite d’équi-répartition.
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0 F(x)
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
37
III-4-4 UNE MESURE DE LA CONCENTRATION ou L’INDICE DE GINI
L’indice de Gini, est le rapport entre l’aire du triangle sous la droite d’équi-
répartition et l’aire entre cette droite et la courbe de Lorenz.
Règle de décision :
Si IG → 1, la distribution se caractérise par une forte concentration. La
répartition est donc inégalitaire.
Si IG → 0, la distribution se caractérise par une faible concentration. La
répartition est donc égalitaire.
A
Qi
O F(xj) B
38
Propriétés :
IG varie entre 0 (situation d’équi-répartition) et 1 (situation d’inégalité totale).
Calcul de IG :
Données :
- Le carré a 1 pour côté donc l’aire du carré = 1 aire OAB = ½ = dénominateur.
- La courbe de Lorenz est en fait une ligne brisée dont les sommets ont pour coordonnées
d’abscisse F(xi) et d’ordonnée Qi.
39
Méthode : dite « des trapèzes » qui consiste à décomposer l’aire du numérateur en trapèzes et
triangles complémentaires mutuellement exclusifs.
Qj
A
E D
C
F(xj)
O G H B
Donc
IGx aire (OADC)
40
D’où Aire (OADC) = 1/2 – [½ f1 x Q1+½ f2 (Q1+ Q2) + ½ f3 (Q2+ Q3)]
=1/2(1 – [f1 x Q1+f2 (Q1+ Q2) + f3 (Q2+ Q3)]
IG = 2 x 1/2(1 – [f1 x Q1+f2 (Q1+ Q2) + f3 (Q2+ Q3)]
k
IG 1 - f i (Q i1 Q i )
i 1
Total 1 0,890
IG 1 - 0,890
0,11
Interprétation :
IG→0, la distribution se caractérise par une faible concentration. La répartition est faiblement
inégalitaire.
Remarques importantes à propos de l’utilisation de IG :
- Les valeurs de IG sont indicatives et doivent toujours être utilisées avec un recul critique.
41
- IG sous-estime toujours la concentration (l’inégalité dans la répartition) quand les
données sont regroupées en classe à cause de l’hypothèse d’équi-répartition à l’intérieur
des classes et du centre de classe pris comme référence, de plus les classes ouvertes des
extrémités ne sont pas bien prises en compte.
1 1
0,9
0,8
0,7
0,6
0,5
G
0,4
0,3
0,2
0,173
0,1
0,056
0,014 0,033
0 0
0 0,2 0,4 0,6 0,8 1
Courbe de LORENZ
42