Académique Documents
Professionnel Documents
Culture Documents
et de concentration.
1 8 0.10
2 12 0.15
3 16 0.20
4 32 0.40
5 12 0.15
Totaux 80 1
Ainsi, le mode de cette série est 4 cela signifie que la majorité des ménages possèdent quatre
appareils électroménagers.
Exemple : On considère la répartition des salaires des 160 employés d’une entreprise.
Nombre
Salaires d’employés Fréquence
( en dinars) ( ni ) ( fi )
[300 , 450 [ 40 0.25
[450 , 600 [ 56 0.35
[600 , 750 [ 48 0.30
[750 , 900 [ 16 0.10
Totaux 160 1
La classe modale est donc [450 , 600[. Ainsi, on peut dire que la majorité des employés
perçoivent un salaire compris entre 450 et 600 dinars.
On peut avoir une valeur isolée du mode à l’intérieur de la classe modale et ce en utilisant la
formule suivante :
M o bi 1 ai m1
m1 m2
Avec :
bi-1 : borne inférieure de la classe modale.
bi : borne supérieure de la classe modale.
ai : amplitude de la classe modale.
m1 = ni – ni-1 ou m1 = fi – fi-1
m2 = ni – ni+1 ou m2 = fi – fi+1
ni : effectif de la classe modale.
ni-1 : effectif de la classe se situant avant la classe modale.
ni+1 : effectif de la classe se situant après la classe modale.
fi : fréquence de la classe modale.
fi-1 : fréquence de la classe se situant avant la classe modale.
fi+1 : fréquence de la classe se situant après la classe modale.
60
m2
50 m1
40
30
20
10
0
300 450 Mo 600 750 900
Remarque : Si les amplitudes des classes sont inégales, la recherche du mode doit alors se
faire, sur la distribution corrigée des effectifs ou des fréquences.
2- La Médiane
La médiane notée Me est la valeur de la variable qui partage la population en deux groupes
égaux c’est à dire de même effectif. On peut dire alors que 50% des individus ont une valeur
inférieure à la médiane et 50% des individus ont une valeur supérieur à la médiane, ceci peut
se résumer par : F (Me) = 0.5
La détermination de la médiane dépend du type du caractère : discret ou continue.
a- Cas d’une variable discrète
Dans ce cas la détermination de la médiane dépend de la parité de l’effectif (N) :
N 1
- Si n est impair alors la médiane correspond à la valeur de rang .
2
- Si n est pair alors on parle d’intervalle médian défini par :
[ la valeur de rang (N / 2) , la valeur de rang (N / 2)+1 ]
L’effectif total est pair donc on aura un intervalle médian défini par :
[ la valeur de rang 40 , la valeur de rang 41 ] c’est à dire [4 , 4] donc dans ce cas on pourra
dire que la médiane est égale à 4. Cela signifie que 50% des ménages ont moins que 4
appareils électroménagers et 50% des ménages ont plus que 4 appareils électroménagers.
0.5 Fi1
On aura ainsi : Mé bi1 ai
Fi Fi1
Nombre Fréquence
Salaires d’employés Fréquence cumulée
( en dinars) ( ni ) ( fi ) croissante
( Fi )
[300 , 450 [ 40 0.25 0.25
[450 , 600 [ 56 0.35 0.60
[600 , 750 [ 48 0.30 0.90
[750 , 900 [ 16 0.10 1
Totaux 160 1 -
0.5 0.25
Donc on aura : Mé 450 150 557.143dinars
0.60 0.25
Ainsi 50% des salaires distribués sont inférieurs à 557.143 dinars et 50% des salaires
distribués sont supérieurs à 557.143 dinars.
3- La Moyenne arithmétique
__
La moyenne arithmétique, dite simplement moyenne notée X est la caractéristique de
tendance centrale la plus utilisée pour décrire une distribution.
N
__ xi
Moyenne arithmétique simple : X i 1
N
p
__ ni x i p
Moyenne arithmétique pondérée : X i1 f i xi
N i1
Remarque : Dans le cas d’une variable continue, où les données sont groupées en classes, on
applique la même formule en remplaçant les xi par les centres des classes ci.
__
Ainsi on aura : X 268 3.35
80
Donc en moyenne dans un foyer on 3.35 appareils électroménagers.
Salaires ni ci ni ci
(en dinars)
[150 , 200 [ 10 175 1750
[200 , 300 [ 40 250 10000
[300 , 450 [ 50 375 18750
[450 , 700 [ 80 575 46000
[700 , 1200 [ 20 950 19000
Totaux 200 - 95500
__
Ainsi on aura : X 95500 477.5
200
Donc le salaire moyen dans cette entreprise est de 477.5 dinars.
N1 X1 N2 X2 N1 X1 N2 X2
X
N1 N2 N
Cette formule peut être généralisée pour le cas d’une population composée de k sous
populations.
k
N N ........... N k Xk N i Xi
X 1 X1 2 X2 i 1
N1 N2 ................... Nk N
4- Autres moyennes
La moyenne arithmétique est le critère le plus utilisé pour décrire une valeur moyenne d’une
distribution statistique. Cependant pour certaines variables on doit recourir à d’autres types de
moyennes.
a-Moyenne quadratique
La moyenne quadratique peut être définie à partir du moment d’ordre r noté mr.
k
mr
r
fi xi
i 1
Q i 1
N
k
ni xi
2
Q i 1
N
Il est à noter que le carrée de la moyenne quadratique est égal à la moyenne arithmétique des
carrées.
b-Moyenne harmonique
La moyenne harmonique d’une série strictement positive est égale à l’inverse de la moyenne
arithmétique des inverses des valeurs observées. Cette moyenne harmonique est notée H.
N
H N
1
x
i 1 i
H N 1
k k
i1
ni
x i
i1
fi
x i
On utilise cette moyenne, à chaque fois que l’inverse de l’observation peut être interprété.
C’est le cas du nombre de kilomètres parcourus par heure(vitesse) ou bien du rendement d’un
placement par unité monétaire.
Exemple : Un automobiliste a fait le trajet aller entre Tunis et Sousse a une vitesse constante
de 80 km/h, au retour il a fait ce même trajet à une vitesse de 120 km/h. Quelle est alors la
vitesse moyenne sur l’ensemble du trajet aller et retour.
Il s’agit dans ce cas d’une moyenne harmonique.
H 2 96 k m/ h
1 1
80 120
c-Moyenne géométrique
La moyenne géométrique d’une série statistique positive est définie par la racine nième du
produit des valeurs observées. On la note généralement par G.
i1
Cette moyenne géométrique est utilisée a chaque fois que le produit des observations ou leur
puissance se prête à une interprétation. C’est le cas du taux de croissance ou bien du taux
d’intérêt.
Exemple : Un épargnant a placé un somme d’argent durant les deux premières années à un
taux d’intérêt annuel de 8%, et à un taux de 10% durant les trois années suivantes.
Calculer le taux de placement annuel moyen sur cette période de cinq ans.
G 5 (1.08 ) (1.10 ) 1.092 ; Ainsi le taux de placement annuel moyen est de : 9.2%
2 3
Remarque : Pour une série statistique pour laquelle les quatre moyennes définies ci-dessus
existent, on a alors la relation suivante :
H G X Q
L’étendue est très simple à calculer mais elle présente l’inconvénient d’être très sensible
uniquement aux valeurs extrêmes de la distribution.
k k
e Me 1 ni xi M e fi xi M e
N i1 i 1
k k
e X 1 ni xi X fi xi X
N i1 i 1
Les écarts absolus moyens sont rarement utilisés car leurs expressions algébriques ne sont pas
commodes au niveau des calculs, car elles font intervenir des valeurs absolues.
Exemple : le tableau suivant résume la répartition des salaires dans une entreprise employant
200 personnes. Calculer les trois quartiles ainsi que l’intervalle et l’écart interquartile.
Fréquences
Salaires ni fi cumulées
(en dinars) croissantes
[150 , 200 [ 10 0.05 0.05
[200 , 300 [ 40 0.20 0.25
[300 , 450 [ 50 0.25 0.50
[450 , 700 [ 80 0.40 0.90
[700 , 1200 [ 20 0.10 1
Totaux 200 1 -
b- Les déciles
Ils sont au nombre de neuf, notés D1, D2, D3……et D9. Ces déciles divisent la population en dix
parties égales et sont également déterminés à l’aide de la fonction de répartition en utilisant
les propriétés suivantes :
- F (D1) = 10%
- F (D2) = 20%
:
:
- F (D5) = F(Me) = 50%
:
:
- F(D9) = 90%
Ainsi l’intervalle inter décile qui contient 90% des observations est [D 1 , D9].
L’écart interdécile noté eD sera défini par : eD = D9 – D1
c- Les centiles
Ils sont au nombre de quatre vingt dix-neuf, notés C1, C2, C3……et C99. Ces centiles divisent la
population en cent parties égales et sont également déterminés à l’aide de la fonction de
répartition en utilisant les propriétés suivantes :
- F (C1) = 1%
- F (C2) = 2%
:
:
- F (C50) = F(Me) = 50%
:
:
- F(C99) = 99%
Ainsi l’intervalle intercentile qui contient 99% des observations est [C 1 , C99].
L’écart intercentile noté eC sera défini par : eC = D99 – D1
k k
V (X) 1 ni ( xi X ) fi ( xi X )
2 2
N i1 i 1
L’expression de la variance peut être présentée sous une deuxième forme développée qui est
plus commode au niveau des calculs :
k k
V (X) ( 1 ni xi2 ) X 2 ( fi xi
2
) X 2
N i1 i 1
Remarque : Dans le cas d’une variable continue, le terme xi au niveau des formules de calcul
de la variance est remplacé par le centre de la classe ci.
L’écart type noté X ou (X) est la racine carrée de la variance. L’écart type est exprimé
dans la même unité que la variable statistique.
(X) V (X )
L’écart type est très utilisé pour décrire la dispersion d’une distribution statistique. Ainsi plus
l’écart type est élevé plus la dispersion des observations autour de la moyenne est forte.
X 95500 477.5dinars
200
V(X) ( 1 54337500) 477.52 43681.25 d'ou (X) 43681.25 209dinars
200
2
V(X) 1 ( N1 V(X1) N2 V(X2) ) 1 ( N1( X1 X ) N2 ( X2 X ) )
2
N N
Cette formule de calcul de la variance totale, peut être généralisée pour le cas d’une
population composée de k sous populations.
k k
V(X) 1 Ni V(Xi ) 1 Ni ( Xi X )
2
N i1 N i1
5- Le coefficient de variation
Le coefficient de variation (noté CV) est un indicateur de dispersion relative. Il est défini par
le rapport entre l’écart type et la moyenne arithmétique.
CV
__
X
Le coefficient de variation est un paramètre sans dimension. Il sert à comparer deux
distributions qui ne sont pas exprimées dans la même unité, ou dans le cas de distributions
dont les moyennes arithmétiques sont très différents. Ainsi un coefficient de variation plus
élevé correspond a une distribution plus dispersée.
III- Les paramètres de forme
En plus de l’étude de la tendance centrale et de la dispersion, il est intéressant d’étudier la
forme de la courbe d’une distribution. Cette étude de la forme se fait à l’aide de deux types de
coefficients :
- Le coefficient d’asymétrie.
- Le coefficient d’aplatissement.
1- Le coefficient d’asymétrie
Pour une distribution parfaitement symétrique on a l’égalité entre les trois paramètres de
__
tendance centrale a savoir le mode, la médiane et la moyenne arithmétique : M 0 M e X
Cependant dès que cette relation n’est pas vérifiée on aura une distribution asymétrique.
__ __ __
M0 Me X M0 Me X M0 Me X
Distribution symétrique Distribution étalée vers la droite Distribution étalée vers la gauche
ou ou
distribution dissymétrique à gauche distribution dissymétrique à droite
ou ou
distribution avec asymétrie positive distribution avec asymétrie négative
Il existe dans la littérature plusieurs coefficients pour mesurer l’asymétrie d’une distribution.
Dans la suite on se limitera à la présentation de deux coefficients.
b- Le coefficient de Fisher
On définit le moment centré d’ordre r noté r , par la formule suivante :
k __
r fi ( xi X )
r
i 1
Le coefficient d’asymétrie de Fisher noté 1 est aussi un nombre sans unité. Il est défini par le
rapport :
1 33
- Si 1 = 0 alors la distribution est symétrique.
- Si 1 > 0 alors la distribution est dissymétrique à gauche.
- Si 1 < 0 alors la distribution est dissymétrique à droite.
Il existe dans la littérature plusieurs coefficients pour mesurer l’asymétrie d’une distribution.
Dans la suite on se limitera à la présentation de deux coefficients.
a- Le coefficient de Pearson
Le coefficient d’aplatissement de Pearson noté est un nombre sans unité défini par :
4
4
- Si = 3 alors la distribution est normale.
- Si > 3 alors la distribution est leptokurtique ou aiguë.
- Si < 3 alors la distribution est platykurtique ou plate.
b- Le coefficient de Fisher
Le coefficient d’aplatissement de Fisher noté 2 est un nombre sans unité défini par :
4
3 3
4
2
IV- La concentration
L’étude de la concentration a pour objet de mesurer les éventuelles inégalités au niveau de la
répartition de certaines variables entre les individus.
La notion de concentration ne s’applique qu’à des variables quantitatives continues à valeurs
positives cumulables. En plus, il faut que ce cumul ait un sens pour qu’il puisse être
interprété.
Ce concept de concentration peut être appliqué dans plusieurs domaines : l’étude de la
concentration des salaires, la concentration des richesses ou des revenus, la concentration des
superficies agricoles…etc. La question à laquelle on doit répondre est par exemple : la
richesse est-elle répartie d’une manière égalitaire entre les individus ?
Deux indicateurs statistiques sont fournis afin d’évaluer le degré de concentration d’une
distribution statistique :
- La courbe de concentration.
- L’indice de concentration de Gini.
1-Définitions
Soit X une variable statistique continue et xi le centre de la classe [ bi-1 , bi [.
On appelle valeur globale associée au couple (xi , ni ), le produit défini par : VG i = ni xi .
On appelle valeur globale relative associée au couple (xi , ni ), le rapport noté qi , défini par :
qi kni xi
ni xi
i 1
Exemple : On considère la répartition des salaires dans une firme employant 96 personnes.
Salaires Centres Effectifs Valeurs globales Valeurs globales Valeurs globales relatives
(en dinars) xi ni ni xi relatives cumulées croissantes
qi Qi
[200 , 300[ 250 25 6250 0,118 0,118
[300 , 500[ 350 15 5250 0,099 0,217
[500 , 700[ 600 25 15000 0,283 0,500
[700 , 900[ 800 24 19200 0,362 0,861
[900 , 1200[ 1050 7 7350 0,139 1
Totaux 96 53050 1
On appelle médiale d’une série statistique, qu’on note par Mle, la valeur de la variable telle
que : Q ( Mle) = 0.5 = 50 %
Dans l’exemple précédant on a : Mle = 700 ceci veut dire que les salaires de moins de 700
dinars distribués aux employés représentent 50% de la masse salariale globale.
Lors du calcul de la médiale et dans le cas ou la valeur 0.5 n’apparaît pas dans la colonne des
valeurs globales relatives cumulées croissantes, on procède par interpolation linéaire. Ainsi la
médiale peut se déterminer par interpolation linéaire, de la même manière que la médiane.
Seulement, les calculs ne se font plus sur les fréquences cumulées croissantes de la série, mais
sur les valeurs globales relatives cumulées croissantes.
2-Courbe de concentration
La courbe de concentration ou courbe de Lorenz est obtenu en joignant les points de
coordonnées ( Fi , Qi ) dans un repère orthonormé où les Fi sont portés sur l’axe des
abscisses et les Qi sur l’axe des ordonnées. Cette représentation se fait dans un carré de coté
égal à 1 (100%).
Courbe de concentration
B
1,00
Qi
A
0,00
0,00 1,00
Fi
O
Dans notre exemple, la courbe de concentration est située entre les deux cas extrêmes
précédents tout en se rapprochant plus de la diagonale. On dit alors que la répartition des
salaires dans cette firme est moyennement égalitaire.
L’indice de concentration de Gini noté IG est défini par le rapport entre l’aire de la surface de
concentration et l’aire du triangle OAB :
Pour le calcul de l’indice de Gini, on utilise la méthode des trapèzes qui consiste à calculer
l’aire de la surface complémentaire à S par rapport à l’aire du triangle OAB. A l’aide de cette
méthode on peut démontrer que l’indice de Gini est égal à :
p
I G 1 f i (Qi Qi1)
i 1
Reprenons l’exemple précédant de la répartition des salaires afin de calculer l’indice de Gini
correspondant.
Salaires
(en dinars) xi ni fi Fi ni xi qi Qi fi (Qi+ Qi-1)