Vous êtes sur la page 1sur 42

LA STATISTIQUE DESCRIPTIVE

I- Le vocabulaire statistique

I-1 Population, Individu, Caractère et modalités


Une étude statistique descriptive s'effectue sur un ensemble P, appelé population. Cette
terminologie est issue de la démographie, première science à avoir développé des méthodes
statistiques. Il s’agit de répondre à la question : sur qui porte l’étude ?
Il est cependant clair que la population que l'on envisage en statistique dépend du domaine que
l'on traite, et peut donc aussi bien être constituée d'êtres humains que d'animaux, d'objets, voire
d'événements.
Nous pouvons dire que la population correspond à l’ensemble des individus sur lesquels porte
l’étude. Par conséquent, on appelle individu tout élément de la population, quelle que soit sa
nature. On l’appelle également unité statistique.
Si l'on reprend l'exemple de la démographie, i.e. l'étude d'une population d'êtres humains, il est
évident qu'on ne saurait étudier toute la complexité des individus. On va en fait ne s'intéresser
qu'à certaines caractéristiques de ces individus, comme l'âge, le sexe, les revenus, le nombre
d'enfants, etc. il s’agit de répondre à la question : sur quoi porte l’étude ?
Plus généralement, on appelle caractère ou variable statistique toute application X de la
population P dans un ensemble E, dont les éléments sont appelés modalités du caractère X.
Par exemple le caractère « sexe » dans une enquête démographique prend deux modalités :
masculin ou féminin, alors que le caractère « âge » peut prendre une vingtaine de modalités si on
prend des classes d’âge de cinq année et en supposant que dans la population il n’y a aucun
individu qui dépasse les cent ans.

On distingue deux types de caractère :


- Les caractères qualitatifs : Ce sont les caractères dont les modalités ne sont pas des nombres
(profession, niveau de satisfaction, nationalité). On distingue deux types de caractère: qualitatif
nominal ou ordinal.
Un caractère est qualitatif ordinal lorsque les modalités peuvent être classées dans un certain
ordre les unes par rapport aux autres. Les échelles ordinales identifient les importances relatives,
mais ne quantifient pas les différences entre des valeurs.
Exemple : Niveau de satisfaction (Très satisfait, satisfait, pas du tout satisfait).

1
Un caractère qualitatif nominal ne peut être ordonné. Chaque modalité est exprimée par un nom
ou un code qui le distingue des autres.
Exemple : Situation matrimoniale (marié, célibataire, divorcé).
- Les caractères quantitatifs : Ce sont les caractères dont les modalités prennent des valeurs
numériques, pour simplifier, que l'on peut "mesurer".
Le caractère quantitatif est discret si les valeurs du caractère sont isolées. Ses seules valeurs
possibles sont des nombres entiers.
Exemple : Nombre d’enfants (0, 1, 2).
Le caractère est continu si les valeurs du caractère appartiennent à l’ensemble des réels. Pour ce
type de variable, il est d’usage de regrouper les modalités en intervalles, appelés Classes.
La « largeur» de chaque intervalle s’appelle l’amplitude. Chaque modalité peut prendre
potentiellement toutes les valeurs à l’intérieur de son intervalle de variation : ces valeurs peuvent
être des nombres réels (en pratique ils sont décimaux).
Exemple : Taille d’une personne en cm ([170;175[).

2
I-2 Effectifs et Fréquences
On appelle effectif d’une variable (respectivement d’une classe, respectivement d’une modalité)
le nombre d’individus possédant le caractère de cette variable (respectivement d’une classe,
respectivement d’une modalité)
On appelle fréquence d’une valeur (respectivement d’une classe, respectivement d’une
modalité) le quotient de l’effectif de cette valeur par l’effectif total de la population :

effectif de la valeur
fréquence   100
effectif total pour obtenir
un pourcentage

On notera que :
k
 n
i 1
i  N où N représente la taille de la population étudiée (ou encore l’effectif total).

ni
 fi  , i  1,......, k . Cette fréquence a la propriété d’appartenir à l’intervalle [0, 1]
N
puisque 0 ≤ ni ≤ N. Dans ce cas, le tableau statistique (xi, fi) est alors appelé distribution
statistique des fréquences d’une variable statistique.

D’une manière générale, une série statistique peut être présentée sous la forme d’un tableau
ayant la forme suivante:

Valeurs Effectifs Fréquences

x1 n1 f1

x2 n2 f2

x3 n3 f3

. . .
. . .
. . .
xk nk fk

Total N 1

3
Exemple 1 : Cas d’une variable statistique qualitative
Entrées des voyageurs non résidents par nationalité en 2008, source INS
Effectifs
Nationalité Fréquences
(en millier)

Française 1395 0,274

Allemande 522 0,102

Italienne 445 0,087

Algérienne 969 0,190

Libyenne 1768 0,347

Total 5099 1

Exemple 2 : Cas d’une variable statistique quantitative discrète


Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS

Nombre de
Effectifs Fréquences
Pièces

1 8409 0,091

2 24863 0,270

3 31529 0,343

4 19398 0,211

5 et Plus 7810 0,085

Total 92009 1

4
Exemple 3 : Cas d’une variable statistique quantitative continue
Répartition de la population tunisienne par tranche d’âge en 2008, source INS

Groupe d’âge Effectifs


Fréquences
(en année) (en millier)

[0 – 4[ 832 0,182

[4– 8[ 807 0,177

[8 – 12[ 867 0,190

[12 – 16[ 1012 0,220

[16 – 20[ 1054 0,231

Total 4572 1

I-3 Fréquences cumulées croissantes et/ou décroissantes


Définition : La fonction cumulative d’une variable statistique quantitative, X, est une
application F, définie par :
F: IR → [0, 1]
x → F(x) = prop ( X ≤ x )
F(x) est la proportion (prop) des individus dont la valeur du caractère, X, est inférieur à x. En
d’autres termes, il s’agit de déterminer la proportion des individus possédant au plus le caractère
x.
Cette fonction vérifie les propriétés suivantes :

 lim F( x )  0
x  

 lim F ( x )  1
x  

 F(x) est une fonction croissante, c'est-à-dire :  x 2  x1  F ( x 2 )  F ( x1 )

Valeurs n. f. F(x) = prop ( X ≤ x )


0
x1 n1 f1 F(x1) = f1

5
x2 n2 f2 F(x2) = f1 + f2

x3 n3 f3 F(x3) = f1 + f2+ f3

. . .
. . .
. . .
xk nk fk F(xk) = f1 + f2+ f3+…..+ fk=1

Total N 1 _

Exemple 2 : Cas d’une variable statistique quantitative discrète

Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS

Nombre de n. f. F(x)
Pièces
0
1 8409 0,091 0,091

2 24863 0,270 0,361

3 31529 0,343 0,704

4 19398 0,211 0,915

5 et Plus 7810 0,085 1

Total 92009 1 _

Exemple 3 : Cas d’une variable statistique quantitative continue


Répartition de la population tunisienne par tranche d’âge en 2008, source INS

6
Groupe d’âge F(x)
n. f.
(en année)
0
[0 – 4[ 832 0,182 0,182

[4– 8[ 807 0,177 0,359

[8 – 12[ 867 0,190 0,549

[12 – 16[ 1012 0,220 0,769

[16 – 20[ 1054 0,231 1

Total 4572 1 _

Remarque : nous pouvons également calculer la fréquence cumulative décroissante dont la


fonction prend la forme suivante :

F: IR → [1, 0]
x → F(x) = prop ( X ≥ x )
il s’agit de déterminer la proportion des individus possédant au moins le caractère x.

Valeurs n. f. F(x) = prop ( X ≥ x )


1
x1 n1 f1 F(x1) = 1-f1

x2 n2 f2 F(x2) = 1-(f1 + f2)

x3 n3 f3 F(x3) = 1-(f1 + f2+ f3)

. . .
. . .
. . .
xk nk fk F(xk) = 1-(f1 + f2+ f3+…..+ fk) = 0

Total N 1 _

7
II- Représentation Graphique

L'objectif essentiel des graphiques est de représenter la série statistique.

Comme toute représentation, ces graphiques doivent être :

● Lisibles : les données représentées doivent pouvoir être lues ;

● Fidèles : la réalité des données ne doivent pas être déformées par la réalisation du
graphique ;

● Autosuffisants : tous les renseignements doivent être mis dans la légende y


compris l'ensemble de référence.

On l'a compris chaque graphique doit être pertinent par rapport aux données et à l’objectif
poursuivi.

II-1 Cas d’une variable qualitative

 Diagramme en barres ou tuyaux d’orgues

Le diagramme en barres permet de comparer les parties entre elles. Lorsque les modalités sont
ordonnées par effectifs décroissants, on obtient un diagramme dit de Pareto. La longueur de la
barre est proportionnelle aux effectifs ou à la fréquence.

Entrées des voyageurs non résidents par nationalité en 2008, source INS

Effectifs
Nationalité Fréquences
(en millier)

Française 1395 0,274

Allemande 522 0,102

Italienne 445 0,087

Algérienne 969 0,190

Libyenne 1768 0,347

Total 5099 1

8
0,400

0,350

0,300

0,250

0,200

0,150

0,100

0,050

0,000
Française Allemande Italienne Algérienne Libyenne

 Diagramme à Secteurs ou Camembert


Le diagramme à secteurs (circulaire ou semi-circulaire) : il permet de comparer la partie au tout.
L'aire du secteur est proportionnelle à l'effectif ou à la fréquence.

Pour cela, il faut calculer l’angle de chaque secteur selon la formule suivante :  i  f i  360

Entrées des voyageurs non résidents par nationalité en 2008, source INS

Effectifs  i  f i  360 
Nationalité Fréquences
(en millier)

Française 1395 0,274 98,490

Allemande 522 0,102 36,854

Italienne 445 0,087 31,418

Algérienne 969 0,190 68,413

Libyenne 1768 0,347 124,824

Total 5099 1 360

9
Française
Allemande
Italienne
Algérienne
Libyenne

II-2 Cas d’une variable quantitative discrète

 Pour les fréquences relatives ou simples:

Le diagramme en bâtons (ou à bandes) : il permet de facilement comparer les effectifs ou les
fréquences entre eux.

Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS

Nombre de n. f. F(x)
Pièces
0
1 8409 0,091 0,091

2 24863 0,270 0,361

3 31529 0,343 0,704

4 19398 0,211 0,915

5 et Plus 7810 0,085 1

Total 92009 1 _

10
0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05

0
1 2 3 4 5 et plus

 Pour les fréquences cumulatives:

La fonction cumulative d’une variable statistique discrète est une fonction en escaliers.
L’intérêt de cette fonction est de déduire rapidement la proportion des individus ayant la
valeur du caractère inférieure à une valeur quelconque xi, en prenant l’ordonnée du point
xi sur la courbe cumulative.

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8

11
II-2 Cas d’une variable quantitative continue :

 Pour les fréquences relatives :

L’Histogramme : Il est constitué par des rectangles continus ayant pour base chacune
des classes et une aire proportionnelle à l'effectif ou à la fréquence de la classe
correspondante.
Amplitude d’une classe: on appelle amplitude d’une classe [xi ; xi+1[, la distance entre xi
et xi+1, définie par : ai = xi+1- xi
Deux cas sont à distinguer :
1er cas :
Si les amplitudes sont toutes égales, la hauteur du rectangle est proportionnelle à la
fréquence.

Répartition de la population tunisienne par tranche d’âge en 2008, source INS


Groupe d’âge F(x)
n. f.
(en année)
0
[0 – 4[ 832 0,182 0,182

[4– 8[ 807 0,177 0,359

[8 – 12[ 867 0,190 0,549

[12 – 16[ 1012 0,220 0,769

[16 – 20[ 1054 0,231 1

Total 4572 1 _

12
2ème cas :
Si les amplitudes sont inégales, il faut corriger les fréquences selon la formule suivante :

fi
f ic   a*
ai

Avec a * l’amplitude la plus fréquente.


Répartition de la population tunisienne par tranche d’âge en 2008, source INS

Groupe d’âge
a. f. f.c
(en année)

[0 – 4[ 4 0,182 0,182

[4– 12[ 8 0,367 0,184

[12 – 16[ 4 0,220 0,220

[16 – 20[ 4 0,231 0,231

Total - 1

13
Polygone des Fréquences : le polygone des fréquences permet d’avoir une idée générale
sur l’allure de la distribution des fréquences.

Il est obtenu en reliant les milieux des sommets des rectangles de l’histogramme par une
𝒙𝒊 𝒙𝒊 𝟏
courbe de coordonnés (ci, fi), i=1,… ; k, où 𝒄𝒊 = 𝟐
est le centre de la classe [xi ; xi+1[

Répartition de la population tunisienne par tranche d’âge en 2008, source INS

Groupe d’âge
n. c. f.
(en année)

[0 – 4[ 832 2 0,182

[4– 8[ 807 6 0,177

[8 – 12[ 867 10 0,190

[12 – 16[ 1012 14 0,220

[16 – 20[ 1054 18 0,231

Total 4572 - 1

14
 Pour les fréquences cumulatives:

La représentation graphique de la fonction de répartition appelée courbe cumulative se


présente comme suit :

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 4 8 12 16 20 24 28

15
III- Les indicateurs d’une distribution statistique
La lecture d'un tableau ou l’interprétation d'un graphique ne permet pas forcément de connaître
suffisamment des données pour pouvoir en analyser les répartitions, d'autant plus que la
consultation de tableaux peut s'avérer très longue. On cherche alors à résumer celle-ci par
certaines caractéristiques, c'est à dire par un seul nombre destiné à caractériser l'ensemble des
données d'une façon objective et impersonnelle.

III-1 Les caractéristiques de Valeur Centrale et de Position

Les indicateurs de position tentent de donner une information sur la valeur de la modalité "autour
de laquelle se situent les autres modalités" (d'où le terme de tendance "centrale").

III-1-1 La Moyenne

La moyenne est sans doute l'indice de position le plus connu, ne serait ce que parce que la
moyenne de leurs notes est d'une importance primordiale pour les élèves et les étudiants. Il reste
cependant que pour eux le mot de moyenne est toujours associé à la notion de moyenne
arithmétique, éventuellement pondérée. En réalité il existe d'autres moyennes (géométriques,
harmoniques, quadratiques, etc..) et, selon les caractères étudiés et les conditions d'expérience, il
s'agira d'employer la "bonne" moyenne.

 La Moyenne Arithmétique Simple

La moyenne arithmétique d'une série de valeurs d'une variable statistique est égale à la somme
de ces valeurs divisée par leur nombre. On la note X
Exemple : Un étudiant qui a eu comme notes 14, 15, 17, 19 et 12 a une moyenne égale à :
14  15  17  19  12
X  15,4
5
Inconvénient : Le calcul peut s'avérer très lourd lors de l'énumération d'un grand nombre de
données.
 La Moyenne Arithmétique Pondérée

Si, dans une classe, 4 élèves ont obtenu la note 14, 3 élèves ont obtenu la note 15 et 5 élèves ont obtenu la
note17
14  14  14  14  15  15  15  17  17  17  17  17
On ne va pas calculer X  15,5
12
14  4  15  3  17  5
mais plutôt on va calculer X  15,5
12

16
Définition :
Si pour une population donnée, on a k valeurs du caractère x1, x2,........., xk d'effectifs respectifs
n1, n2,......, nk alors la moyenne de cette série statistique est donnée par :

n 1  x 1  n 2  x 2  ......  n k  x k 1 k k
nixi k
ni k
X   nixi     xi  f x i i
N N i 1 i 1 N i 1 N i 1

 Cas d’une variable quantitative discrète

xi ni fi ni x xi fi x xi

1 8409 0,091 8409 0,091

2 24863 0,270 49726 0,54

3 31529 0,343 94587 1,029

4 19398 0,211 77592 0,844

5 et Plus 7810 0,085 39050 0,425

Total 92009 1 269364 𝑿 =2,929

1 k 1 5 5
X   ni xi   ni xi  f i x i  2,929
N i 1 269364 i 1 i 1

 Cas d’une variable quantitative continue

1 k k
X   n ici   fici
N i 1 i 1

Groupe d’âge f. X c.
n. c. f.
(en année)

[0 – 4[ 832 2 0,182 0,364

[4– 8[ 807 6 0,177 1,062

[8 – 12[ 867 10 0,190 1,9

17
[12 – 16[ 1012 14 0,220 3,08

[16 – 20[ 1054 18 0,231 4,158

Total 4572 - 1 𝑿 =10,564

k
X   f i c i  10,564
i 1

Propriété :
La moyenne arithmétique est invariante par changement de variable.

Si on définit une nouvelle variable Y=aX+b avec a et b deux constantes et a≠0, on a alors :

y i  ax i  b  i  1, 2, ....., k
k k k k k
Y   f i y i   f i (ax i  b)   a f i x i  f i b  a f i x i  b f i  aX  b
i 1 i 1 i 1 i 1 i 1

 Y  aX  b

III-1-2 Le Mode

Le mode d’une variable statistique, noté Mo, est la valeur de la variable statistique pour laquelle
la fréquence est la plus élevée.

Mo( X)  max( x i , f i )
fi

Le mode peut être calculé pour les caractères qualitatifs comme pour les caractères
quantitatifs.
Pour une variable statistique discrète, le mode est la valeur la plus fréquente.

Lorsque la variable est continue, on parle de classe modale : c’est la classe correspondant « au
pic » de l’histogramme, autrement dit c’est la classe pour laquelle fi est maximale.

Une série statistique n'admettant qu'un seul mode est dite unimodale ; elle est dite multimodale
dans le cas contraire, plus précisément bimodale dans le cas de deux modes, trimodale dans le
cas de trois modes, etc...

Exemple :
Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS

18
Nombre de n. f.
Pièces

1 8409 0,091

2 24863 0,270

3 31529 0,343

4 19398 0,211

5 et Plus 7810 0,085

Total 92009 1

0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05

0
1 2 3 4 5 et plus

𝑀𝑜(𝑋) = 𝑚𝑎𝑥 (𝑥 , 𝑓 ) avec 𝑚𝑎𝑥(𝑓 ) = 0,343 → 𝑴𝒐(𝑿) = 𝟑

La plupart des logements à Mahdia possèdent 3 pièces en 2004.

III-1-3 La Médiane
La médiane d’une variable statistique X, notée Me, est la valeur de cette variable qui partage
en deux effectifs égaux, la série des observations préalablement ordonnées par valeurs

19
croissantes ou décroissantes du caractère X. Elle peut aussi être déterminée en prenant
l’abscisse du point ½ sur l’ordonnées de la courbe cumulative des fréquences, c'est-à-dire
F(Me)=1/2.
 Médiane d’une variable statistique discrète :
Cas n°1 : Si le nombre d’observation est impair, n=2p+1 alors Me= (p+1)ème observation : il
y a p observations avant Me et p autres observations après Me.

Exemple :

Prenons l’exemple de 11 observations portant sur les valeurs xi « le nombre d’appartements par
immeuble dans un quartier résidentiel de Tunis » :

Numéro d’immeuble xi

1 11

2 15

3 13

4 11

5 12

6 14

7 15

8 16

9 10

10 12

11 11

On commence par classer les immeubles par ordre croissant selon le nombre
d’appartements.
Rang xi Numéro d’immeuble

1 10 9

2 11 1

20
3 11 4

4 11 11

5 12 5

6 12 10

7 13 3

8 14 6

9 15 2 →Individu Média

10 15 7

11 16 8

Interprétation :
n=2p+1 → 11=2*5+1→p=5 d’où Me correspond à p+1= 6 observation→Me=12
50% des immeubles dans un quartier résidentiel de Tunis ont un nombre d’appartements au plus
égale à 12.

Cas n°2 : Si le nombre d’observation est pair, n = 2p alors Me = Intervalle Médian =


[ p ème, p+1ème ] observation : il y a p observations avant Me et p+1 autres observations après
Me.

Reprenons l’exemple avec 12 observations:

Numéro xi
d’immeuble
1 11

2 15

3 13

4 11

5 12

21
6 14

7 15

8 16

9 10

10 12

11 11

12 13

On commence par classer les immeubles par ordre croissant selon le nombre
d’appartements.

Rang xi Numéro
d’immeuble

1 10 9

2 11 1

3 11 4

4 11 11

5 12 5

6 12 10
→Intervalle Médian
7 13 3

8 13 12

9 14 6

10 15 2

11 15 7

12 16 8

Interprétation :

22
n=2p→ 12=2*6 → p=6 et p+1=7 d’où Me correspond à Intervalle Médian = [ p ème, p+1ème ]
observation → Me = [ 12, 13 ]
50% des immeubles dans un quartier résidentiel de Tunis ont un nombre d’appartements au plus
égale à 12 et au moins égale à 13.

Cas n° 3 : Lorsque les données sont regroupés dans un tableau statistique, il est préférable
dans ce cas de déterminer la médiane à partir de la courbe des fréquences cumulées.

Répartition des logements selon le nombre de pièces à Mahdia en 2004, source INS

Nombre de n. f. F(x)
Pièces
0
1 8409 0,091 0,091

2 24863 0,270 0,361

3 31529 0,343 0,704

4 19398 0,211 0,915

5 et Plus 7810 0,085 1

Total 92009 1 _

 Médiane d’une variable statistique continue :


La détermination de la médiane se fait :
1. Soit directement à partir de la courbe de la fonction cumulative
2. Soit grâce à la méthode d’interpolation linéaire

Exemple :

23
Groupe d’âge F(x)
n. f.
(en année)
0
[0 – 4[ 832 0,182 0,182

[4– 8[ 807 0,177 0,359

[8 – 12[ 867 0,190 0,549

[12 – 16[ 1012 0,220 0,769

[16 – 20[ 1054 0,231 1

Total 4572 1 _

Interpolation Linéaire :

X F(x)

- 12 - 0,549

- Me - 0,5
-8 - 0,359

Me  8 0,5  0,359

12  8 0,549  0,359
0,5  0,359
 Me  8  (12  8)
0,549  0,359
0,5  0,359
 Me  8  (12  8)
0,549  0,359
 Me  10,968

III-1-4 Les Quantiles

24
Les quantiles sont des valeurs qui divisent une série statistique ordonnée en plusieurs groupes
comprenant la même proportion des données. Voici un arbre représentant les quantiles les plus
fréquemment utilisés.
Les Quantiles

Quartiles Déciles Centiles

 Les Quartiles

Les quartiles, notés par Q1, Q2 et Q3, divisent une série statistique ordonnée en quatre groupes
égaux comprenant chacun 25% des données de la série.
On dit que
1. 25% des données sont inférieures à Q1 tels que F(Q1)=0,25
2. 50% des données sont inférieures à Q2 tels que F(Q2)=0,5
3. 75% des données sont inférieures à Q3 tels que F(Q3)=0,75

 Les Déciles
Les déciles, notés par D1, D2, ..., D8 et D9, divisent une série statistique ordonnée en dix groupes
égaux comprenant chacun 10% des données de la série.
On dit que :
1. 10% des données sont inférieures à D1 tels que F(D1)=0,1
2. 20% des données sont inférieures à D2 tels que F(D2)=0,2
3. ...
4. 90% des données sont inférieures à D9 tels que F(D9)=0,9

 Les Centiles

Les centiles, notés par C1, C2, ...C98 et C99, divisent une série statistique ordonnée en 100 groupes
égaux comprenant chacun 1% des données de la série.

On dit que

1. 1% des données sont inférieures à C1 tels que F(C1)=0,01


2. 2% des données sont inférieures à C2 tels que F(C2)=0,02
3. ...
4. 99% des données sont inférieures à C99 tels que F(C99)=0,99

25
Applications :

Groupe d’âge F(x)


n. f.
(en année)
0
[0 – 4[ 832 0,182 0,182

[4– 8[ 807 0,177 0,359

[8 – 12[ 867 0,190 0,549

[12 – 16[ 1012 0,220 0,769

[16 – 20[ 1054 0,231 1

Total 4572 1 _

Calculer les quartiles de cette série statistique.

 Q1 / F(Q1)=0,25

Interpolation Linéaire :

X F(x)

-8 - 0,359
- Q1 - 0,25
-4 - 0,182

26
Q1  4 0,25  0,182

8  4 0,359  0,182
0,25  0,182
Q1  4  (8  4)
0,359  0,182
0,25  0,182
Q1  4  (8  4)
0,359  0,182
Q1  5,536

 Q2 / F(Q2)=0,5=Me=10,968
 Q3 / F(Q3)=0,75

X F(x)

- 16 - 0,769

- Q3 - 0,75
- 12 - 0, 549

Q3  12 0,75  0,549

16  12 0,769  0,549
0,75  0,549
Q3  12  (16  12)
0,769  0,549

0,75  0,549
Q3  12  (16  12)
0,769  0,549
Q3  15,654
III-2 Les caractéristiques de Dispersion

Les indices de dispersion sont censés renseigner sur la manière dont les données se répartissent
autour d'une valeur centrale, en termes d'éloignement. Ce sont donc des nombres, et par
conséquent cette notion ne peut avoir de sens que pour les caractères quantitatifs.

III-2-1 L’Etendue

On appelle étendue d'une distribution statistique quantitative la différence entre la plus grande et
la plus petite valeur observée. Si on note xMin et xMax respectivement la plus petite modalité et la
plus grande modalité de la variable, l’étendue est ETD(x)= xMax - xMin.
Notons cependant que l’étendue n’est pas un indicateur toujours fiable, car il
dépend des valeurs extrêmes qui prouvent être f ausses ou aberrantes.

27
Exemple : l’étendue relative à la répartition de la population tunisienne par tranche d’âge en
2008 est ETD (x)= xMax - xMin= 20-0=20 ans.

III-2-2 Ecart et Intervalle Interquartile

On appelle écart interquartile d'une distribution statistique la différence entre le troisième et le


premier quartile.
On appelle Intervalle Interquartile d'une distribution statistique l'intervalle [Q1; Q3], où Q1 et Q3
désignent respectivement le premier et le troisième quartile.
Soit Q1 et Q3 le premier et le troisième quartile respectivement d'une distribution X. Si le
caractère est quantitatif continu, l'intervalle interquartile [Q1; Q3] contient alors 50% de la
population, et contient la médiane Q2 = Me.

Application :

IIQ(x) = [Q1; Q3]= [5,536; 15,654]

50% de la population tunisienne sont âgés entre 5,536 et 15,654 soit un écart de 10,118.

III-2-3 Ecart absolu moyen

Etant donné une série statistique quantitative X = (xi; ni) avec i=1…..k, on appelle écart absolu moyen
par rapport à une valeur centrale X , la quantité définie par :
k
EAM   f i x i  x
i 1
Application :

En moyenne, chaque individu s’éloigne de la moyenne

Groupe
d’âge n. c. f. f. X c.
ci  X 
f i ci  X 
(en année)

[0 – 4[ 832 2 0,182 0,364 -8,564 1,559

[4– 8[ 807 6 0,177 1,062 -4,564 0,808

[8 – 12[ 867 10 0,190 1,9 -0,564 0,107

[12 – 16[ 1012 14 0,220 3,08 3,436 0,756

[16 – 20[ 1054 18 0,231 4,158 7,436 1,718

- EAM 
Total 4572 1 10,564
4,947

28
III-2-4 Variance et Ecart type

On appelle une variance la moyenne arithmétique des carrés des écarts entre les
valeurs du caractère et la moyenne arithmétique.
k 2 k 2
1
V (x)   n i x i  x    f x i i  x
N i 1 i 1

On appelle écart-type la quantité positive définie par :

k 2 k 2
1
 x  V (x)   n i x i  x    f x i i  x
N i1 i1

La variance et l’écart-type peuvent s’écrire sous une autre forme plus commode pour le calcul
de ces paramètres :

k 2

V (x )   f x
i1
i i  x

 f x 
k
 i
2
i  2 x ix  x 2
i1
k
 
i1
f i x i2  2 f i x i x  f i x 2
k k k
 
i1
fix  2
i i1
2fix ix  
i1
fix 2
k k k
 
i1
fix  2 x  fix i  x  fi
2
i
i 1 i1
2

  
X 1

 f x  
k
 i
2
i 2x2  x2
i1

 f x  
k
 i
2
i x2
i1

29
ci  X c  X fi ci  X
2 2
Groupe n. c. f. f. X c. i
d’âge

[0 – 4[ 832 2 0,182 0,364 -8,564 73,342 13,348

[4– 8[ 807 6 0,177 1,062 -4,564 20,830 3,687

[8 – 12[ 867 10 0,190 1,9 -0,564 0,318 0,060

[12 – 16[ 1012 14 0,220 3,08 3,436 11,806 2,597

[16 – 20[ 1054 18 0,231 4,158 7,436 55,294 12,773

V(x)=
Total 4572 - 1 10,564 - -
32,466

Groupe n. c. f. f. X c. c.2 f. X c.2


d’âge

[0 – 4[ 832 0,182 0,364 4 0,728


2

[4– 8[ 807 0,177 1,062 36 6,372


6

[8 – 12[ 867 0,190 1,9 100 19


10

[12 – 16[ 1012 14 0,220 3,08 196 43,12

[16 – 20[ 1054 18 0,231 4,158 324 74,844

Total 4572 - 1 10,564 144,064

 f c  
k
V (x)  i
2
i x2
i1

 144 , 064  (10 , 564 ) 2


 32 , 466 ans

30
 f 
k
 x  V (x)  i c i2 x 2

i1

 32 , 466
 5 , 698 ans

nterprétation : en moyenne, l’âge de la population tunisienne s’écarte de la moyenne de ±5,698


ans.

III-2-5 Le coefficient de variation

Il est défini par le rapport de l’écart-type à la moyenne


x
CV ( X ) 
X
Le coefficient de variation est donc un nombre sans unité, qui permet de comparer deux ou
plusieurs distributions qui ont:

 des moyennes différentes.


 des unités de mesure différentes.

Plus le coefficient de variation est faible, plus la dispersion est faible et plus la population est
homogène.

III-2-5 Les Moments d’une variable statistique


Le moment d’ordre r d’une variable statistique X, noté Mr(x) par rapport à une valeur
quelconque a, est définit par l’expression suivante :
k
M r ( x)   fi ( xi  a)r ; r  0; 1; 2;....; n.
i 1

Si a =0, on obtient les moments simples d’ordre r :

 Pour r = 1,
k
m r ( x)   f i x ri ; r  0; 1; 2;....; n.
i 1

k
m1 ( x)   fi xi
i 1

X

31
Si a = X , on obtient les moments centrés d’ordre r :

k
r ( x)   fi ( xi  X)r ; r  0; 1; 2;....;n.
i 1

 Pour r = 1, k
1 ( x )   f i ( x i  X)
i 1
k k
  fi xi  X  f i
i 1 i 1

 XX
0
k

Pour r = 2,  2 ( x )   f i ( x i  X )
2

i 1

 
k
  f i x i2  x 2
i 1

 m 2 ( x )  m 21 ( x )
V( x )

III-3 Les caractéristiques de Forme

Outre les paramètres de position et de dispersion, il existe deux autres classes de


paramètres, dits de forme, qui selon Fisher, décrivent une série.
Ils mesurent le degré de symétrie d’une part, d’aplatissement, d’autre part.
III-3-1 L’Asymétrie

Une distribution est symétrique si les valeurs de la variable statistique sont dispersées de manière
égale de part et d’autre de la moyenne.

Dans une distribution parfaitement symétrique, la moyenne, le mode et la médiane sont


confondus : Mo=Me= X .

32
Graphique d’une distribution symétrique :

fi

Mo =Me = x xi
On parle d’asymétrie négative, pour une distribution asymétrique à droite.

xi
Mo < Me < x

On parle d’asymétrie positive, pour une distribution asymétrique à gauche.

Mo > Me > x

33
μ3
 Le coefficient d’asymétrie de Fisher : 
σ³
Si   0 , alors la distribution est symétrique.
Si   0 , alors la distribution est asymétrique à gauche (étalée à gauche).
Si   0 , alors la distribution est asymétrique à droite (étalée à droite).

III-3-2 L’Aplatissement ou KURTOSIS

Une distribution est plus ou moins aplatie suivant que les fréquences des valeurs voisines des
valeurs centrales sont plus ou moins élevées par rapport aux autres.

On parle d’une distribution :


 mésokurtique, si cette distribution est similaire à une distribution normale centrée réduite
(N(0,1)) ;
 leptokurtique, si cette distribution est moins plate que la distribution normale ;
 platykurtique, si cette distribution est plus plate que la distribution normale.

Exemple graphique d’une distribution normale centrée réduite :

leptokurtique

fi

mésokurtique

platykurtique

xi

34
μ4
 Le coefficient d’aplatissement de Fisher :   3
σ4
  0 si la distribution est mésokurtique (normale).

  0 si la distribution est leptokurtique (aigue).

  0 si la distribution est platykurtique (plate).

III-4 MESURE DE LA CONCENTRATION


Outre la dispersion, mesurée principalement par la variance, il peut être intéressant de mesurer
l’inégalité dans la répartition des valeurs de la variable. Par exemple dans la répartition du
revenu, des salaires, de la propriété, du capital, du patrimoine, etc.

L’étude de concentration a été introduite par le statisticien italien Corrado Gini (1884 − 1965)
dans les années 1910 − 1914. Elle ne s’applique qu’à des variables statistiques continues à
valeurs positives et cumulables.
L’étude de concentration d’une série statistique a pour but de mesurer les inégalités de
répartition d’une valeur totale. Elle cherche, au moyen d’un indice de concentration appelé
Indice de Gini, à décrire comment la population se partage la masse totale du caractère étudié.

III-4-1 La Médiale

La médiale est la valeur de la variable qui sépare la masse du caractère en deux parties égales.
Par masse du caractère, on entend les produits (ni*xi), c'est-à-dire l’importance que représente
chaque modalité xi.

Exemple :
Répartition des salaires annuels en milliers de dinars dans une entreprise
xi ni ci fi F(x) ni*ci qi Qi
[20, 25[ 6 22,5 0,15 0,15 135 135/1300= 0,104
0,104
[25, 30[ 8 27,5 0,2 0,35 220 220/1300= 0,273
0,169
[30, 35[ 12 32,5 0,3 0,65 390 0,300 0,573
[35, 40[ 10 37,5 0,25 0,9 375 0,288 0,862
[40, 50[ 4 45 0,1 1 180 0,138 1
Total 40 1 1300 1

La médiale est définie donc selon l’expression suivante : Ml / Q(Ml)=0,5.

35
On pratique alors une interpolation linéaire classique selon la formule suivante :

X Q

- 35 - 0,573
- Ml - 0,5
- 30 - 0, 273

Ml  30 0,5  0,273

35  30 0,573  0,273
0,5  0,273

Ml  30  ( 35  30 )
0,573  0,273
Ml  33,783 Md

Interprétation : 50% de la masse salariale est donnée à des salariés qui gagnent
au plus 33783 dinars par an.
III-4-2 L’écart médiale-médiane
On appelle écart médiale-médiane d’une série statistique, le nombre défini par :
M  Ml  Me
Cet écart nous fournit un premier renseignement sur la concentration d’une distribution
statistique.
 Si ∆M = 0 ⇔ Ml = Me, alors la concentration est nulle et la répartition de la valeur totale
est parfaitement égalitaire.
 Si ∆M ≠ 0 alors la répartition de la valeur totale n’est pas égalitaire. Cependant, aucune
information sur l’intensité de cette inégalité ne peut être avancée.
Exemple :
M  Ml  Me
 33,783  32,5
 1,283 MD  0
La répartition de la masse salariale sur les salariés n’est pas égalitaire.

36
III-4-3 LA COURBE DE CONCENTRATION ou COURBE DE LORENZ

La courbe de Lorenz représente les couples des valeurs de F(x) et de Qi. Elle met donc en
relation la fonction de répartition et les parts cumulées de chaque valeur ou classe dans le total
des valeurs observées de la série.

Propriétés :
- La courbe s’inscrit donc dans un carré de côté unitaire, le « carré de Gini » ; sa diagonale,
de l’origine au point (1,1), représente une situation de répartition parfaitement égalitaire et
porte dès lors le nom de droite d’équi-répartition.

- Selon la convention anglo-saxonne, la fonction de répartition F(x) est représentée en abscisse


et les Qi en ordonnée. Etant donné la forme logistique (en S) de la fonction de répartition, la
courbe de Lorenz se situera toujours sous la droite d’équi-répartition.

- La courbure de la courbe de Lorenz indique le degré d’inégalité : plus la courbe se


rapproche des bords du carré, plus la répartition est inégalitaire ; plus la courbe se rapproche
de la diagonale, plus la répartition est égalitaire.
Courbe de Lorenz (en bleu) et droite d’équi-répartition (en rouge)
Qi
1

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0 F(x)
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

37
III-4-4 UNE MESURE DE LA CONCENTRATION ou L’INDICE DE GINI

L’indice de Gini, est le rapport entre l’aire du triangle sous la droite d’équi-
répartition et l’aire entre cette droite et la courbe de Lorenz.

Règle de décision :
 Si IG → 1, la distribution se caractérise par une forte concentration. La
répartition est donc inégalitaire.
 Si IG → 0, la distribution se caractérise par une faible concentration. La
répartition est donc égalitaire.

Exemple graphique du calcul de l’IG

A
Qi

O F(xj) B

38
Propriétés :
IG varie entre 0 (situation d’équi-répartition) et 1 (situation d’inégalité totale).

Calcul de IG :
Données :
- Le carré a 1 pour côté donc l’aire du carré = 1  aire OAB = ½ = dénominateur.
- La courbe de Lorenz est en fait une ligne brisée dont les sommets ont pour coordonnées
d’abscisse F(xi) et d’ordonnée Qi.

39
Méthode : dite « des trapèzes » qui consiste à décomposer l’aire du numérateur en trapèzes et
triangles complémentaires mutuellement exclusifs.

Exemple graphique du calcul de IG

Qj
A

E D

C
F(xj)
O G H B

IGaire (OADC)/ aire(OAB)

Donc
IGx aire (OADC)

Aire (OADC)= Aire OAB – (Aire OCG+Aire CGHD+Aire DHBA)


Aire OCG = ½ (OGxCG)= ½ F(x1)xQ1 = ½ f1 x Q1
Aire CGHD = ½ (CG+DH)xHG = ½ (Q1+ Q2)x[F(x2)- F(x1)] or F(x2)- F(x1)= f2

 Aire CGHD = ½ f2 (Q1+ Q2)


Aire DHBA = ½ (DH+AB)xHB= ½ (Q2+ Q3)x[F(x3)- F(x2)]= ½ f3 (Q2+ Q3)

40
D’où Aire (OADC) = 1/2 – [½ f1 x Q1+½ f2 (Q1+ Q2) + ½ f3 (Q2+ Q3)]
=1/2(1 – [f1 x Q1+f2 (Q1+ Q2) + f3 (Q2+ Q3)]


IG = 2 x 1/2(1 – [f1 x Q1+f2 (Q1+ Q2) + f3 (Q2+ Q3)]

IG = 1 – [f1 x Q1+f2 (Q1+ Q2) + f3 (Q2+ Q3)]


3
IG  1 -  f i (Q i1  Q i )
i 1

Et d’une manière générale

k
IG  1 -  f i (Q i1  Q i )
i 1

Répartition des salaires annuels en milliers de dinars dans une entreprise


xi f. Qi Qi-1+ Qi fi (Qi-1+ Qi)
[20, 25[ 0,15 0,104 0,104 0,016

[25, 30[ 0,2 0,273 0,377 0,075

[30, 35[ 0,3 0,573 0,846 0,254

[35, 40[ 0,25 0,862 1,435 0,359

[40, 50[ 0,1 1 1,862 0,186

Total 1 0,890

IG  1 - 0,890
 0,11
Interprétation :
IG→0, la distribution se caractérise par une faible concentration. La répartition est faiblement
inégalitaire.
Remarques importantes à propos de l’utilisation de IG :

- Les valeurs de IG sont indicatives et doivent toujours être utilisées avec un recul critique.

41
- IG sous-estime toujours la concentration (l’inégalité dans la répartition) quand les
données sont regroupées en classe à cause de l’hypothèse d’équi-répartition à l’intérieur
des classes et du centre de classe pris comme référence, de plus les classes ouvertes des
extrémités ne sont pas bien prises en compte.

- IG ne donne qu’une information synthétique. En particulier, IG ne permet aucune


interprétation sur la forme de la courbe de Lorenz.

Une illustration : la répartition du revenu mondial (PNUD, rapport 1992) :

Courbe de LORENZ de la répartition du revenu


mondial : IG = 68,96%

1 1

0,9

0,8

0,7

0,6

0,5
G

0,4

0,3

0,2
0,173
0,1
0,056
0,014 0,033
0 0
0 0,2 0,4 0,6 0,8 1

Courbe de LORENZ

42

Vous aimerez peut-être aussi