Vous êtes sur la page 1sur 38

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/340793807

Statistiques descriptives avec STATA : Partie II

Method · April 2020

CITATIONS READS

0 14,867

1 author:

Dalila Chenaf-Nicet
University of Bordeaux
123 PUBLICATIONS   219 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

migration, conflit et qualité des institutions View project

internationalization and performance View project

All content following this page was uploaded by Dalila Chenaf-Nicet on 20 April 2020.

The user has requested enhancement of the downloaded file.


COURS DE STATISTIQUE DESCRIPTIVE SOUS STATA :
ETUDE DES DISTRIBUTIONS STATISTIQUES A UNE DIMENSION

PARTIE II - Analyse des paramètres caractéristiques des distributions statistiques


unidimensionnelles : paramètres de position, de dispersion et de forme. ...................................... 2
Chapitre 1 - Les Paramètres de Position .................................................................................. 2
Le mode .............................................................................................................................. 2
La médiane .......................................................................................................................... 7
La médiane dans le cas qualitatif (nominal) ordinal .............................................................. 7
La médiane dans le cas quantitatif discret............................................................................. 8
La médiane dans le cas quantitatif continu ........................................................................... 9
La médiale ......................................................................................................................... 11
La médiale dans le cas quantitatif discret ............................................................................ 11
La médiale dans le cas quantitatif continu .......................................................................... 12
La médiane, la médiale et l’écart médian ............................................................................ 13
Les quantiles et les intervalles inter quantiles...................................................................... 13
Les quartiles....................................................................................................................... 13
Les déciles et percentiles .................................................................................................... 14
Chapitre 2 - Les Paramètres de dispersion - Les moyennes ................................................... 17
La moyenne et les propriétés de la moyenne ...................................................................... 17
La moyenne arithmétique. ................................................................................................. 17
Les propriétés des moyennes ............................................................................................. 19
L’écart absolu moyen et l’écart absolu médian ................................................................... 19
Les autres types de moyennes ............................................................................................ 20
Chapitre 3 - Les Paramètres de dispersion- Variance et Ecart-type ........................................ 22
La variance et l’écart-type simple ....................................................................................... 22
La notion d’inertie. ............................................................................................................ 23
La variance et l’écart-type et utilisation des tables de fréquence.......................................... 24
L’utilité et l’utilisation de l’écart-type .................................................................................. 26
Le coefficient de variation ................................................................................................. 26
Généralisation - Les moments ........................................................................................... 27
Chapitre 4 - Les Paramètres de forme et de concentration ..................................................... 28
Le coefficient d'asymétrie - Asymétrie en anglais (Skewness") ............................................ 28
Une boîte à moustache ...................................................................................................... 30
Coefficient d'aplatissement - Kurtosis. ............................................................................... 32
L’indice de concentration de Gini. ..................................................................................... 34
La Courbe de Lorenz. ........................................................................................................ 34
L’indice de Gini ................................................................................................................. 36
Indice de Hoover............................................................................................................... 36
PARTIE II - Analyse des paramètres caractéristiques des distributions statistiques
unidimensionnelles : paramètres de position, de dispersion et de forme.

L’objectif est ici de caractériser la distribution de la série à l’aide de nombres résumant de façon
suffisamment complète l'ensemble ses valeurs. Ces indicateurs faciliteront la comparaison
d'échantillons.

Les paramètres de position (tendance centrale): fournissent l'ordre de grandeur des valeurs
de la série et la position autour de laquelle rassemblent ces valeurs.

Les paramètres de dispersion: quantifient les fluctuations des valeurs autour de la valeur
centrale. Permettent d'apprécier l'étalement des valeurs de la série (les unes par rapport aux autres
ou à la valeur centrale).

Les paramètres de forme: donnent une idée de la symétrie et de l'aplatissement et de la


concentration d'une distribution.

Chapitre 1 - Les Paramètres de Position


Les paramètres de position (mode, médiane, moyenne) permettent de savoir autour de quelles
valeurs se situent les valeurs d'une variable statistique.

Le mode

Le mode, noté Mo, est la modalité qui admet la plus grande fréquence (c’est la valeur qui a été
observée le plus grand nombre de fois):
f (Mo) = Max (fi) ; i ∈ [ 1, N ]
Il est facile de le définir pour une variable qualitative ou une variable quantitative discrète.
Reprenons des exemples déjà utilisés dans la partie I.

Exemple 1 : 30 Bacheliers ayant eu une mention au Bac dans une classe de terminale dans le Lycée
X. Nous avons ici une variable qualitative. La table fréquence se présente comme suit :

Table de Fréquence - Variable qualitative ordinale


Mention Effectifs Effectif cumulé Fréquence Fréquence
cumulée
Passable 18 18 60% 60%
Assez bien 6 24 20% 80%
Bien 3 27 10% 90%
Très bien 3 30 10% 100%

Pour cette variable qualitative le mode en rouge s’observe pour la modalité «passable ».
20
15
mean of effectifs

10
5
0

Assez bien Bien


Passable Très bien

Si vous voulez faire le graphe de la série et souligner le mode en rouge le codage est le suivant :

graph bar effectifs , over( mention ) ascategory asyvars bar(1, fcolor(maroon)) bar(3,
fcolor(red)) bargap(5)

Il y a un gap de 5 entre les barres (mais on peut mettre le chiffre que l’on veut) car ce sont des
variables qualitatives. Cela indique que les données ne sont pas en continu. Plus le chiffre est
élevé et plus l’écart entre les barres est grand. « fcolor », c’est la commande qui donne des
couleurs différentes aux barres et qui souligne celle du mode en rouge.

Exemple 2 : Le nombre de salariés dans les entreprises de petite taille. Pour rappel, les réponses
des 10 entreprises sont représentées dans la table de fréquence ci-après (exemple de la partie I).

Table de fréquence – Variable quantitative discrète


Nombre de Effectif Effectif cumulé Fréquence Fréquences
salariés Cumulées
1 salarié 2 2 0.2 0.2
2 salariés 1 3 0.1 0.3
3 salariés 3 6 0.3 0.6
4 salariés 1 7 0.1 0.7
5 salariés 2 9 0.2 0.9
6 salariés 1 10 0.1 1
N = 10

Dans cet exemple le mode est à 3 salariés.


Le graphique est ci-après où le mode est aussi mis en évidence en rouge dans le codage du
graphique.
3
mean of effectif

2
1
0

1 salarié 2 salariés
3 salariés 4 salariés
5 salariés 6 salariés

graph bar Effectif , over(Nombredesalariés) ascategory asyvars bar(1, fcolor(maroon)) bar(3,


fcolor(red))

On note qu’ici il n’y a pas de gap entre les barre.


Pour une variable quantitative continue il faut dans un premier temps définir la classe
modale: c'est la classe dont la densité de fréquence est maximum (le mode correspond au
maximum de l’histogramme).

Attention : Si les classes ont même amplitude la classe modale est la classe qui a le plus grand
effectif ou fréquence et le mode peut être considéré comme le centre de la classe (en suppossant
une répartition uniforme des effectifs à l’intérieure de la classe).
Reprenons d’exemple de la partie I, avec le chiffre d’affaires de 10 entreprises interrogées.

Table de fréquence – Variable quantitative continue


Chiffre Centre Effectif Densité Effectif Fréquence Densité Fréquences
Affaires de classe effectif cumule fréquence Cumulées
[8-13[ 10.5 5 1 5 0.5 0.1 0.5
[13-18[ 15.5 2 0.4 7 0.2 0.04 0.7
[18-23[ 20.5 1 0.2 8 0.1 0.02 0.8
[23-28[ 25.5 1 0.2 9 0.1 0.02 0.9
[28-33] 30.5 1 0.2 10 0.1 0.02 1

Dans l’exemple la classe modèle est [8-13[, et le mode peut être considéré comme étant égal à
10.5.
8 5

13 2

Aca
18 1

23 1

28 1

0 1 2 3 4 5
frequency

Une fois encore le bâton du mode est de couleur rouge. Le codage pour obtenir le graphique le
codage est (le graphique est ici renversé juste pour faire joli) :

catplot Aca , asyvars blabel(bar) bar(1, fcolor(red)) showyvars legend(off)

Si on souhaite conserver la légende le codage est :

catplot Aca , asyvars blabel(bar) bar(1, fcolor(red)) showyvars

8 5

13 2
Aca

18 1

23 1

28 1

0 1 2 3 4 5
frequency

8 13
18 23
28

Si les amplitudes ne sont pas égales l'effectif ou la fréquence sont remplacés par la densité.
.8
Densité de lafréquence

.6
.4
.2
0

[0- 0.25[ [0.25-0.50[


[0.50 - 1[ [1-2.5[
[10 60[ [2.5-5[
[5 – 10[

Est repris dans ce graphique l’exemple de la partie 1 où les amplitudes de classe n’étaient pas
égales. Le mode est matérialisé en rouge.
Les données de cet exemple continu sont données ci-après :

Table de Fréquence
Chiffre Entreprises amplitudes fréquence Densité de Fréquences Fréquences
d’affaires la fréquence cumulées cumulées
Millions croissantes décroissantes
d’euros
[0 - 0.25[ 13712 0.25 0.203 0.81 0.203 1
[0.25-0.50[ 10674 0.25 0.158 0.63 0.361 0.797
[0.50 - 1[ 11221 0.5 0.166 0.33 0.527 0.631
[1-2.5[ 15496 1.5 0.229 0.15 0.756 0.473
[2.5-5[ 10043 2.5 0.148 0.05 0;904 0.096
[5 – 10[ 3347 5 0.05 0.001 0.953 0.046
[10 60[ 3147 50 0.05 0.0001 1 0
Total =67640 =

Les étapes du calcul sont alors :


- Définir dans un 1er temps la classe modale
- Dans un 2ème temps il faut tenir compte des densités de fréquence des 2 classes
adjacentes pour calculer le mode avec la formule :

M° = x1 + (1/(1+2)= (xi+1-xi )
Ici, la 1ère classe est la classe modale et il n’y a pas de classe adjacente à gauche. Donc:
M° = 0 + (0,203 /(0,18+0,203)*( 0,25-0) = 1,39
M° = 0 + (0,203 /(0,383)*(0,25) = 0,13
Attention : ici on commence à zéro car la classe modale est la première et démarre à zéro.
Remarques :
- Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales le
mode coïncide avec le centre de la classe modale.
- Le mode dépend beaucoup de la répartition en classes.
- Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu'elle est
plurimodale. Cette situation est intéressante car elle met en évidence l'existence de plusieurs sous-
populations.

La médiane

La médiane ne s’applique qu’aux variables qui admettent une relation d’ordre (variables que l’on
peut ordonner ou classer). Dans le cas des variables qualitatives où il est possible de donner un
ordre par codage alors il est possible de définir une médiane. Dans le cas des bacheliers et de leur
mention au bac on peut utiliser cette technique. On pose donc que plus le chiffre augmente et
plus les performances des bacheliers sont satisfaisantes :
- 1 passable. 2. Assez bien, etc.

Ordonner est donc possible dans le cas des variables quantitatives et les qualitatives
ordinales. Par contre si la variable c’est la CSP du répondant à un questionnaire, on ne peut pas
utiliser cette technique (il y a aucun raison de penser qu’une profession est supérieure à une
autre). La médiane n’a pas dans ce dernier exemple de sens.

Définition : La médiane notée Me est la valeur qui partage la liste des observations
préalablement classées par ordre croissant en deux effectifs qui ont le même nombre
d’observations. En d’autres termes la a médiane Me est telle que l'effectif des observations dont
les modalités sont inférieures à Me est égal à l'effectif des observations dont les modalités sont
supérieures à Me.

Graphiquement. la médiane est la valeur qui partage l’histogramme en deux zones ayant des aires
de même grandeur. C’est aussi la valeur qui correspond à 50% des fréquences cumulées.
En règle générale.
- si N est impair on définit la médiane avec la formule :
Me = (N+1)/2
- si N est pair on définit la médiane à l’aide des deux valeurs centrales avec la formule :

𝑵 𝑵
+ (𝟐 + 𝟏 )
𝑴𝒆 = 𝟐
𝟐

Beaucoup ne s’embêtent pas avec ces formules. Ils divisent simplement l’effectif en 2 qu’il soit
pair ou impair.

La médiane dans le cas qualitatif (nominal) ordinal

20 personnes sont interrogées à la sortie du cinéma sur leur avis sur le film qu’elles viennent de
visionner. Les réponses sont les suivantes :
Avis sur le film Effectif Effectif cumulé Fréquence Fréquence cumulée
N’a pas aimé 2 2 10 10
Moyennement 6 8 30 40
A aimé 9 17 45 85
A adoré 3 20 15 100
20

Comme N est pair : la médiane se trouve aux 10.5ème individu. Mais comme on ne peut pas
couper des individus en deux. Mais on peut dire que la médiane est entre les deux valeurs
centrales « 10 et le 11ème » : entre le 10 et le 11ème individu qui ont la même réponse donc la
médiane est à « a aimé ».

Attention : Si le 10ème individu avait répondu « moyennement » et le 11 « a aimé ». Nous aurions


dit que la réponse médiane est entre « moyennement » à a « aimé ».
20
15
mean of spectateur

10
5
0

A adoré A aimé Moyennement N’a pas aimé

Lorsqu’on dispose d’un diagramme de fréquences cumulées. la médiane correspond à la première


barre traversée par l’horizontale tracée à 50 %.

La médiane dans le cas quantitatif discret

Les variables quantitatives discrètes admettent une relation d’ordre est peuvent être traitées
comme précédemment.

Exemple : le nombre de personnes qui vivent sous le toit.


Individus 1 personne 2 personnes 3 personnes 4 personnes Total effectif
Effectifs 2 2 4 2 10
Effectif cumulé 2 4 8 10
Fréquence % 20 20 40 20
Fréquence
20 40 80 100
cumulée

Dans ce cas N est pair (10 personnes) : donc la médiane est au niveau de la 5.5ème personnes qui
répond (donc entre 5 et 6 : on ne coupe pas les gens en deux !)
La médiane est au niveau de la modalité 3 (personnes). Mais cela reste difficile à interpréter. On
peut toutefois dire que environ 50% des personnes vivent dans des logements où il y a moins de
trois personnes et environ 50% vivent dans des logements où il y a plus de 3 personnes

Lorsqu’on dispose d’un diagramme de fréquences cumulées, la médiane correspond à la première


barre traversée par l’horizontale tracée à 50 %.

La médiane dans le cas quantitatif continu

Dans ce cas la médiane est déterminée à partir de l’intervalle médian et par une technique
d’extrapolation.
Les extrapolations se font tant à partir des données d’une table de fréquence que d’un polygone
de fréquence cumulée.
Reprenons l’exemple de la taille des étudiants de l’amphithéâtre de la partie I. Supposons que
nous avons la taille de 10 étudiantes de l’amphithéâtre en mètre.

Table de fréquence dans le cas d’une variable continue : la taille des étudiantes
Etudiants Taille
Etudiante 1 1.57
Etudiante 2 1.58
Etudiante 3 1.60
Etudiante 4 1.64
Etudiante 5 1.65
Etudiante 6 1.66
Etudiante 7 1.67
Etudiante 8 1.68
Etudiante 9 1.69
Etudiante 10 1.70

Comme N est pair la médiane est entre la 5ème et la 6ème étudiante : donc entre 1.65 et 1.66.
(1.65+1.66)/2 = 1.655

Dans cet exemple nous pouvons dire que 50% des filles ont une taille supérieure à 1.655. Mais
aussi que 50% des filles ont une taille inférieure à cette valeur.

Classes Effectif Effectif cumule Fréquence Fréquences Cumulées


[1.50 - 1.55[ 0 0 0.0 0.0
[1.55 - 1.60[ 2 2 0.2 0.2
[1.60 - 1.65[ 2 4 0.2 0.4
[1.65 - 1.70[ 5 9 0.5 0.9
[1.70 - 1.75[ 1 10 0.1 1

Les 50% de fréquence cumulées se trouvent entre la classe (1.65 - 1.70). En l’absence c’un
polygone de fréquence on fait l’extrapolation linéaire avec la formule suivante :

Me = Borne inférieur + (Borne supérieure – Borne inférieure) * [0.5 –fréquence cumulée


Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]
Me = 1.65 + (1.70 – 1. 65)*[0.5 – 0.40]/[0.90 – 0.40] = 1.66

Sous STATA pour obtenir la médiane il suffit de coder « sum nom de la variable, détails »
Dans le cas de l’exemple en codant :

sum taille, détail


On obtient les résultats suivants :

Dans le cas présent il est normal de ne pas trouver 1. 655 car le regroupement en classe fait
perdre de l’information. Il y donc souvent des arrondis à réaliser.

On peut aussi faire une interpolation linéaire via un graphique de polygone de fréquence
cumulée. Avec comme formule pour un polygone de fréquence cumulée (on trouve la même
chose avec un polygone d’effectif cumulée).
(Yme (50%) - Yinf)/(Xme – Xinf) = (Ysup-Yinf)/(Xsup-Xinf)

Y : les ordonnées sur le graphique


X : Les abscisses sur le graphique.
Xinf : les abscisses de la classe inférieure (ici 1.65) et Xsup celle de la classe supérieure (1.70)
Ysup : les ordonnées correspondant à la classe sup (ici 0.9) et Yinf celle de ma classe inf (ici 0.4)

La médiane présente plusieurs avantages :


- elle est facile à calculer
- elle est représentative de l’échantillon
- elle est unique
- elle est insensible aux variations des extrêmes

La médiane présente des propriétés intéressantes:


- de translation : si on ajoute la même constante à toutes les observations. on ajoute
également cette valeur à la médiane
- de dilatation : si on multiplie toutes les observations par un même facteur la médiane
est multipliée par ce facteur.

Cependant elle présente un inconvénient :


- Quand on dispose de plusieurs échantillons sur une même variable, chaque échantillon a
sa médiane et il n’est pas possible de calculer une médiane générale.

La médiale

Si les deux grandeurs sont proches dans leur définition comme dans leur mode de calcul il ne faut
toutefois pas les confondre.
La médiane est la valeur de la variable tel que la moitié des individus prends une valeur qui lui est
inférieure (supérieure). La médiale est la valeur de la variable telle que la moitié (50%) de la
masse du caractère lui est inférieure.

Par masse du caractère on entend le produit (n i*xi). C'est-à-dire l’importance de chaque caractère
pondéré par son effectif. La Médiale est notée Ml.

La médiale dans le cas quantitatif discret

Soit l’exemple ci-après déjà utilisé où l’on interroge des ménages sur le nombre d’enfants qui
vivent dans leur foyer.

Le nombre d’enfants par foyers


Nombre d’enfants par Effectif Masse Fréquence des Fréquence des
foyer ni*xi masses masses cumulées
0 1 1 3.1% 3.1%
1 3 3 9.3% 12.4
2 8 16 50% 62.4
3 4 12 37.6 100
Effectif total = 16 Masse totale = 32 100

31 correspond donc au nombre total d’enfants si l’on considère l’ensemble des personnes
interrogées : 31 c’est la masse totale.

Ici la moitié de la masse c’est 15. On atteint le chiffre 15 à 2 enfants. La modalité 2 enfants par
femme permet d’atteindre la moitié de la masse du caractère. (On dépasse les 50% de masse
cumulée à la modalité 2). C’est donc la Médiale.

Dans l’exemple suivant on a fait une collecte pendant une kermesse auprès de parents pour
financer un voyage scolaire.

Exemple : Les contributions à une Kermesse d’école (achat de tickets de tombola)


Contributions en Effectif Effectif Masse Masse Fréquence des Fréquence
euros à une cumulés ni*xi cumulée masses des masses
Kermesse cumulées
10 3 3 30 30 5.5% 3.1%
25 3 6 75 105 13.8% 12.4
30 8 14 240 345 44% 62.4
50 4 18 200 545 36.7 100
Effectif total Masse totale = 100
= 18 545 euros
La moitié de la masse est à 272,5 euros. Donc la moitié de la masse se trouve au niveau de la
modalité 30 euros. La moitié de la collecte réalisée a été obtenue par des personnes ayant
donné au moins 30 euros.
Ce n’est pas toujours aussi facile à calculer et il faut parfois passer par la technique de
l’extrapolation.

La médiale dans le cas quantitatif continu

La médiale est un paramètre que l’on utilise souvent dans les calculs de masse salariale. Par
exemple une entreprise de 17 salariés avec la grille de salaire suivante :

Niveau de Centre de Effectif Effectif Masse Masse Fréquence de Fréquence


salaire classe cumulé cumulée la masse cumulée de
la masse
[1200- 1350 7 7 9450 9450 31.5 31.5
1500[
[1500- 1650 5 12 8250 17700 27.5 59%
1800[
[1800- 1950 4 16 7800 25500 26 85
2100[
[2100- 2250 2 18 4500 30000 15 100%
2400[
18 30000 100

On a une masse salariale totale de 30 000. La moitié de la masse est de 15 000. On atteint ce
chiffre de 15 000 au niveau de la classe [1500 - 1800[. donc au niveau de 12 salariés de l’entreprise
On a donc la classe médiale mais pour obtenir la médiale il faut faire une extrapolation
comme pour la médiane :

Ml = Borne inférieur + (Borne supérieure - Borne inférieure) * [0.5 –fréquence cumulée


Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]

Ml = 1500 + (1800-1500)* (0.5-0.315)/(0.59-0.315) et donc Ml = 1701.8 euros


La moitié de la masse salariale réalisée par les 18 salariés est obtenu par des salariés dont le salaire
est inférieur à 1701. 8 euros.

La médiale est toujours supérieure à la médiane. Dans l’exemple des salaires la médiane est au
niveau du 9.5 salariés. Donc entre le 9ème et le 10ème individu. La classe médiane est donc [1500-
1800[. On reprend la même formule d’extrapolation pour la médiane :

Me = 1500 +(1800-1500)*[(0.50 - 0.38)]/[0.65-0.38)] = 1633.3

Niveau de salaire Effectif Effectif cumulé Fréquence Fréquence cumulée


[1200-1500[ 7 7 0.38 0.38
[1500-1800[ 5 12 0.27 0.65
[1800-2100[ 4 16 0.24 0.88
[2100-2400[ 2 18 0.12 1
18 30000

On note donc que :


Ml > Me
La médiane, la médiale et l’écart médian

L’écart médian se définit comme l’écart entre la médiale et la médiane. Cet écart est considéré
comme un indicateur de concentration.
M = Médiale - Médiane

L’écart est forcément positif puisque Ml est supérieure à Me

Dans l’exemple précédent la médiale est égale à 68.5. Pour avoir une idée de la concentration il
faut comparer ce chiffre à l’écart entre la valeur de la plus petit et de la plus grande des valeurs de
du caractère.
Ici les salaires vont de 2400 euros à 1200 euros, soit un écart de : 1200 euros

Indice de concentration = 68.5/1200 = 0.05. La concentration des salaires est donc plutôt
faible.

Les quantiles et les intervalles inter quantiles

Les quantiles d’ordre «  » sont une généralisation de la notion de médiane.


On nomme quantile d’ordre «  » (Q) la valeur de valeur de la variable telle que  % des
observations prennent une valeur qui lui soit inférieure. La médiane est ainsi le quantile d’ordre
50 puisque la médiane est bien la valeur de la variable telle que 50% des observations prennent
une valeur qui lui est inférieur.

Il existe trois types de quantiles : les quartiles. les déciles et les centiles (percentiles).

Les quartiles

Les quartiles généralement notés : Q1. Q2. Q3. sont les trois valeurs qui permettent de scinder
la population (l’échantillon) en 4 parts égales.
- Q1 : 1er quantile, c’est la valeur de la variable telle que 25% des observations lui soient
inférieures.
Lorsqu’on dispose d’un diagramme de fréquences cumulées. Q1 correspond à la première barre
traversée par l’horizontale tracée à 25 %
- Q2 : 2ème quantile, c’est la valeur de la variable telle que 50% des observations lui soient
inférieures. On retrouve ici la médiane. Lorsqu’on dispose d’un diagramme de fréquences
cumulées. la médiane correspond à la première barre traversée par l’horizontale tracée à 50 %
- Q3 : 3er quantile, c’est la valeur de la variable telle que 75% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées. Q3 correspond à la
première barre traversée par l’horizontale tracée à 70 %

Pour obtenir les quartiles il suffit d’utiliser les mêmes codages définis précédemment dans le cas
de la taille des étudiantes.

sum taille, détail

On obtient les résultats suivants :


Avec les quartiles on peut définir deux notons :
- L’écart interquartile est la différence entre Q3 et Q1.
- L’intervalle interquartile est l’intervalle qui comprend 50% des observations. Il est
égal à [Q1 – Q3]
-

Pour les variables quantitatives continues on parlera de classe d’intervalle interquartile et le


quartile peut se définir par extrapolation : le calcul est identique à la médiane, mais dans la
formule on remplace le 50 (50% pour la médiane) par 25 (25% pour le 1 er quartile) ou 75 (75%
pour le 3ème quartile).

Ql = Borne inférieur + (Borne supérieure - Borne inférieure) * [0.25 –fréquence cumulée


Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]
Q3 = Borne inférieur + (Borne supérieure - Borne inférieure) * [0.75 –fréquence cumulée
Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]

Les déciles et percentiles

Les déciles sont aussi notés : D1. D2. D3.…D9. sont les 9 valeurs qui permettent de scinder la
population (l’échantillon) en 10 parts égales.
- D1 : 1er décile c’est la valeur de la variable telle que 10% des observations lui soient
inférieures.
Lorsqu’on dispose d’un diagramme de fréquences cumulées, D1 correspond à la première barre
traversée par l’horizontale tracée à 10 %
- D2 : 2ème décile, c’est la valeur de la variable telle que 20% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées, D2 correspond à la
première barre traversée par l’horizontale tracée à 20 %
Et ainsi de suite jusqu’à D9………….
- D9 : 9er décile, c’est la valeur de la variable telle que 90% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées. D9 correspond à la
première barre traversée par l’horizontale tracée à 90 %

Attention : Le 5ème décile est en fait la Médiane.

En matière de salaire ou d’inégalité de revenu le rapport D9/D1 est très fréquemment utilisé
comme indicateur d’inégalité.

Pour les variables quantitatives continues on parlera de classe d’intervalle inter décile et le décile
peut se définir par extrapolation. Une fois encore le calcul est le même :

Pour le 1ere décile :


D1 = Borne inférieur + (Borne supérieure – Borne inférieure) * [0.1 –fréquence cumulée
Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]

Pour le 10ème :
D9 = Borne inférieur + (Borne supérieure – Borne inférieure) * [0.9 –fréquence cumulée
Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]

Les centiles sont notés : C1. C2. C3.…C99. Ce sont les 99 valeurs qui permettent de scinder la
population (l’échantillon) en 100 parts égales.
- C1 : 1er centile (percentile) c’est la valeur de la variable telle que 1% des observations lui
soient inférieures.
Lorsqu’on dispose d’un diagramme de fréquences cumulées. C1 correspond à la première barre
traversée par l’horizontale tracée à 1%
- C2 : 2ème centile, c’est la valeur de la variable telle que 2% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées. C2 correspond à la
première barre traversée par l’horizontale tracée à 2 %
- C50 : 50ème centile. C’est la valeur de la variable telle que 50% des observations lui soient
inférieurs. On retrouve la médiane
Et ainsi de suite jusqu’à C99…….
- C99 : 99er centile, c’est la valeur de la variable telle que 99% des observations lui soient
inférieurs. Lorsqu’on dispose d’un diagramme de fréquences cumulées. C99 correspond à la
première barre traversée par l’horizontale tracée à 99 %.

Sous Stata le codage reste identique :

Sum taille, détail

On obtient les résultats suivants :


Mais on peut vouloir des mesures plus précises des centiles. Par exemple si on ne veut que 3 ème et
le 50ème (la médiane). On peut utiliser le codage suivant dans le cas de l’exemple du nombre
personnes vivants sous un même toit

centile nombredepersonne, c(3 50)

On obtient le résultat suivant :


Chapitre 2 - Les Paramètres de dispersion - Les moyennes
Les paramètres de dispersion sont essentiellement les moyennes, variances et les écart-types

La moyenne et les propriétés de la moyenne

La moyenne n’a de sens que dans le cas des variables quantitatives (on ne peut pas calculer
une « sexe moyen » ou «un catégorie sociaux professionnelle moyenne). Par contre on sera
toujours obligé de différentier les variables discrètes des variables continues.

Il existe plusieurs sortes de moyennes mais moins souvent utilisées que la moyenne
« arithmétique » car elles ne possèdent pas les mêmes propriétés et sont plus difficiles à manier.
Elles seront présentées après la moyenne arithmétique et ses propriétés.

La moyenne arithmétique.

On connaît tous les moyennes arithmétiques simples (notée, ) quand on calcule par
exemple sa note moyenne. La formule de la moyenne est :
𝑁
1
x = ∑ 𝑥𝑖
𝑁
𝑖=1

Exemple : Les notes d’un étudiant par matière


Matières Mathématiques Statistiques Macroéconomie Management
Notes à
l’examen 12 11 10.5 13
(Valeur de X)

Sous Stata obtenir la moyenne simple se fait à partir de la commande « sum » déjà vue qui donne
la moyenne simple des variables.
Mais il faudra distinguer plusieurs configurations de calcul.
 Moyenne dans le cas discret
Si plusieurs valeurs occurrent plus d'une fois dans les mesures, dans le cas discret la moyennes
« moyenne arithmétique » ou « moyenne empirique » devient la moyenne arithmétique des
modalités pondérées par l’effectif (ni) :
𝑁
1
x = ∑ 𝑛𝑖 ∗ 𝑥𝑖
𝑁
𝑖=1

La moyenne pondérée se calcule donc à partir de l’effectif de la variable X.

Valeur de X ...
Effectif ...

Soit l’exemple des notes non pas d’un élève pour plusieurs matières (moyenne simple) mas la
note de plusieurs élèves dans une seule matière (moyenne pondérée).
Exemple : La note moyenne en statistique sur 10 à l’examen pour 100 étudiants.
Note des étudiants en
0 1 2 3 4 5 6 7 8 9 10
statistique /10
Effectifs des étudiants
5 12 25 20 12 8 7 5 3 2 1
(ni)

La moyenne est égale à:


𝑋̅=(1/100)*[0*5+1*12+2*25+3*20+4*12+5*8+6*7+7*5+8*3+9*2+10*1]
𝑋̅=( (0+12+50+60+48+40+42+35+24+18+10)/100 = 3.39.

Une moyenne pondérée peut aussi se calculer à partir des fréquences. En effet :
𝑁 𝑁 𝑁
1 𝑛𝑖
x = ∑ 𝑛𝑖 ∗ 𝑥𝑖 = ∑ ∗ 𝑥𝑖 = ∑ 𝑓𝑖 ∗ 𝑥𝑖
𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1

Exemple : La note moyenne en statistique sur 10 à l’examen pour 100 étudiants.


Note des étudiants en
0 1 2 3 4 5 6 7 8 9 10
statistique /10
Fréquence des étudiants
0.05 0.12 0.25 0.20 0.12 0.08 0.07 0.05 0.03 0.02 0.01
(fi)

𝑋̅ = [0*0.05 +1*0.12+2*0.25+3*0.20+4*0.12+5*0.08+6*0.07+7*0.05+8*0.03+9*0.02+10*0.01]
= 0+0.12+0.5+0.6+0.48+0.4+0.42+0.35+0.24+0.18+0.1=3.39
Sous stata le codage est le suivant :

ameans note [fweight = Effectifs]

« note » est le nom de la variable des note et « Effectifs » le nom de la variable des effectifs.

 La moyenne dans le cas continu


On utilise dans ce cas pour le calcul des centres de classes en posant comme hypothèse une
répartition uniforme des effectifs dans la classe d’appartenance.

Exemple : Les niveaux de salaire dans une entreprise


Niveau de salaire Centres de Effectif Effectif Fréquence Fréquence
classes cumulé cumulée
[1200-1500[ 1350 7 7 0,38 0,38
[1500-1800[ 1650 5 12 0,27 0.65
[1800-2100[ 1950 4 16 0,24 0,88
[2100-2400[ 2250 2 18 0,12 1
18

La formule est la même mais on utilise les centres de classe pour les x i.
𝑁 𝑁 𝑁
1 𝑛𝑖
x = ∑ 𝑛𝑖 ∗ 𝑥𝑖 = ∑ ∗ 𝑥𝑖 = ∑ 𝑓𝑖 ∗ 𝑥𝑖
𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1

1 1 1
x= (1350 ∗ 7 + 1650 ∗ 5 + 1950 ∗ 4 + 2250 ∗ 2) = (9450 + 8250 + 7800 + 4500) = 30000
18 18 18
x = 1666
Le codage sous stata est le même que précédemment mais avec comme valeur de xi les centres de
classe (voir partie I pour la méthode de calcul du centre de classe sous stata).

ameans salaire [fweight = Effectifs]

Les propriétés des moyennes

La moyenne a les mêmes avantages et propriétés que la médiane :

Les avantages :
- elle se calcule simplement
- elle est représentative de la série.
Les propriétés :
- de translation : si on ajoute (enlève) la même valeur constante à toutes les observations,
on ajoute (enlève) également cette valeur à la moyenne.
Y = ax alors Y = a*𝑥̅
- de dilatation : si on multiplie (divise) toutes les observations par une même valeur la
moyenne est multipliée (divisée) par cette valeur.

On notera que les deux propriétés se combinent. Cependant la moyenne présente un


inconvénient majeur:
- elle est sensibles aux valeurs extrêmes. Il est toujours possible de classer les valeurs et
enlever les «k » valeurs les plus élevées et les « k » valeurs les plus faibles et calculer une
« Moyenne réduite ».

L’écart absolu moyen et l’écart absolu médian

On appelle écart absolu moyen de la variable X, la moyenne arithmétique des valeurs absolues
des écarts de X à sa moyenne. La formule est la suivante :

𝟏 𝒑
Emoyen = 𝑵 ∑𝒊=𝟏 𝒏𝒊 ∗ |𝒙𝒊 − 𝒙
̅|

On peut en fait calculer un écart absolu de la variable X par rapport à sa médiane, ou par rapport
à un nombre réel quelconque « a ».

𝟏 𝒑
Emoyen = 𝑵 ∑𝒊=𝟏 𝒏𝒊 ∗ |𝒙𝒊 − 𝒂|

Cependant l’écart moyen est toujours minimum quand il est calculé par rapport à la moyenne. Il
faut noter que la somme des écarts à la moyenne (pas absolus) est forcément nulle :
𝒑

∑ (𝒙 𝒊 − 𝒙
̅) = 𝟎
𝒊=𝟏

Nous faisons la démonstration de ce point ci-après dans le cas d’une moyenne simple. Soit les
notes obtenus par un étudiants d’économie dans 4 matières/
Matières Mathématiques Statistiques Macroéconomie Management
Notes à
l’examen 12 11 10 17
(Valeur de X)

La moyenne est x = 12,5


Note Ecart à la moyenne Ecart absolus
12 -0,5 0,5
11 -1,5 1,5
10 -2,5 2,5
17 +4,5 4,5
Somme des écarts 0 Somme des écarts absolus 9

La somme des écarts est donc bien nulle.

On peut remplacer le « a » par différents paramètres et notamment par la médiane. Dans ce cas
on obtient l'écart médian absolu. Il est noté, em et il se définit comme étant égal à la moyenne
des valeurs absolues des différences entre les observations et leur médiane notée ici :

Les autres types de moyennes

Il existe trois autres types de moyennes : géométrique, harmonique et quadratique (que nous
verrons au chapitre suivant l’écart-type).

On utilise la moyenne géométrique : notée g


Quand la logique est multiplicative : par exemple quand on calcule des taux de
croissance d’une variable sur plusieurs périodes. On peut l’utiliser quand on veut calculer le
rendement moyen d’un placement sur n périodes.

̅
On utilise la moyenne Arithmétique : notée 𝒙
Quand la logique est additive

On utilise la Moyenne Harmonique : noté H


Quand il y a des calculs de proportionnalité (vitesse et Kilomètre ou débit d’eau, temps
de remplissage, etc.)
𝑛
𝐻=
1 1 1
+. + ⋯ +
𝑥1 𝑥2 𝑥𝑛

On utilise la moyenne Quadratique : notée q


Quand il s’agit de calculer des écarts. On l’utilise aussi quand on veut appréhender un
phénomène sinusoïdal. En fait quand on calcule un écart-type on calcule une moyenne
quadratique.
𝟏
𝒒 = √ ∑ 𝒙𝟐𝒊
𝒏
On a la relation suivante entre les moyennes :
̅<q
H<g < 𝒙

Le codage dans le cas des notes des lycéens suivant vous donne en fait les 3 moyennes :

ameans note [fweight = Effectifs]


Chapitre 3 - Les Paramètres de dispersion- Variance et Ecart-type
Les quantiles et l’étendue sont des paramètres de dispersion mais ils ont été présentés dans le
chapitre précédent. Pour rappel :
Étendue :
- et = (Valeur maximum de X– Valeur minimum de X)
Intervalle interquartile :
- [Q3 – Q1] = C’est l’écart qui contient 50% des valeurs de la série
L’écart interquartile :
- Q3 – Q1

Dans ce chapitre nous allons donc nous concentrer sur les notions de variance et d’écart-type.

La variance et l’écart-type simple

La variance est notée V(x) et l’écart type qui est la racine carré de la variance et est noté: (x).
Dans les deux il s’agit d’un type particulier de moyennes puisque ce sont des écarts à la moyenne,
le tout au carré.

On appelle variance de X (V(x)), la moyenne arithmétique des carrés des écarts de X à sa


moyenne. On appelle écart-type de X ( (x)), la racine carré de la variance de X.

Les formules des deux grandeurs sont données par :


𝑁
1
𝑉(𝑥 ) = ∑(𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1
𝑁
1
𝜎 (𝑥 ) = √ ∑(𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1

La variance et l’écart type peuvent également s’obtenir grâce à la formule de König qui est la
suivante :
𝑁
1
𝑉 (𝑥 ) = ∑(𝑥𝑖 )2 − 𝑥̅ 2
𝑁
𝑖=1
Nous verrons que nous pourrons également la calculer avec les tables de fréquence
ultérieurement:
Dans l’exemple suivant nous reprenons les données sur les notes d’un étudiant obtenues dans
quatre matières.

Exemple de calcul de la variance et de l’écart-type


Matières Mathématiques Statistiques Macroéconomie Management Somme

Notes à l’examen 12 11 10 13

Valeur de la moyenne 11.5 11.5 11.5 11.5

𝐶𝑎𝑙𝑐𝑢𝑙 𝑑𝑒 𝑙′ é𝑐𝑎𝑟𝑡 à 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒(𝑥𝑖 − 𝑥̅ ) 12-11.5 = 0.5 11-11.5 = -0.5 10-11.5 = -1.5 13-11,5 = 1.5 0

𝐶𝑎𝑙𝑐𝑢𝑙 𝑑𝑒 𝑙′ é𝑐𝑎𝑟𝑡à 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑎𝑢 𝑐𝑎𝑟𝑟é(𝑥𝑖 − 𝑥̅ )2 0.25 0.25 2.25 2.25 5

Moyenne = 11.5
1
La variance est donc égale à 𝑉 (𝑥 ) = 𝑁 ∑𝑁 2
𝑖=1(𝑥𝑖 − 𝑥̅ ) =5/4 = 1.25
L'écart-type est donc égal à 𝜎 (𝑥 ) = 1.11

On peut interpréter ces chiffres de la manière suivante : La distance moyenne qui sépare les notes
de l’étudiant de sa moyenne. On ne peut pas faire la somme de ces distances qui éloigne chaque
note de la moyenne et diviser par 4, car la somme des écarts à la moyenne est forcément nulle
(ligne 4 du tableau). Dès lors on fait ce calcul mais en élevant au carré ces distances. L’écart -type
est alors la notion la plus proche de cette idée de distance moyenne à la valeur centrale (la
moyenne).

On note trois propriétés de la variance que l’on retrouve dans le cas général :
- La variance est toujours un nombre réel positif puisque c'est une somme de carrés.
- La variance est nulle si, et seulement si, X possède une seule valeur : v(b) = 0 si b est un
réel quelconque.
- La variance admet les transformations linéaires telles que :
-V(aX) = a²V(X)
- La variance d’une somme est telle que :
- V(X+Y) = V(X) + V(Y) + 2 cov(X,Y)
Si les deux variables X et Y ne sont pas du tout liées entre elles alors Cov (X,Y) = 0

La grandeur « cov(x, y) », c’est-à-dire la covariance de x et y se calcule selon la formule suivante :

La covariance indique le degré de liaison entre deux variables statistiques.

Finalement, la dernière propriété est, soit b une constante alors :


- V(b) = 0, une constante ne varie pas
- V(aX+b) = a2V(X) car b et X ne sont pas liés.

Tout ce qui vient d’être dit est vrai pour l’écart type qui est la racine carré de la variance.

La notion d’inertie.

La variance est une notion de distance (par rapport à la moyenne dans la plupart des cas).
L’inertie est une notion plus large puisque l’on calcule des distances mais par rapport à un point
quelconque.

L’Inertie par rapport à un point a. On appelle inertie d'une variable statistique X par rapport à
un point « a », la moyenne du carré de la distance de X au point a :
𝑁
1
𝐼𝑎𝑥 = ∑(𝑥𝑖 − 𝑎)2
𝑁
𝑖=1
L'inertie de X par rapport au point moyen est naturellement la variance de X.
L'inertie Ia (X) est minimale lorsque a est égal à la moyenne.

Sous Stata pour obtenir variance et écart type il suffit d’utiliser la commande « sum » déjà
présentée. Dans l’exemple considérant la taille des étudiantes déjà présenté, le code « sum taille,
detail)
Std. Dev (standard deviation) est la valeur de l’écart-type.

La variance et l’écart-type et utilisation des tables de fréquence

On doit une fois encore distinguer les variables quantitatives discrètes des variables quantitatives
continues.
Cependant les formules sont toujours les mêmes que cela soit pour le cas discret ou continu.
𝑁
1
𝑉(𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1
De même la forme e de König de la variance reste valable :
𝑁
1
𝑉(𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 )2 − 𝑥̅ 2
𝑁
𝑖=1
La formule de l’écart-type demeure :
𝑁
1
𝜎 (𝑥 ) = √ ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1

Cependant on peut remplacer les effectifs par les fréquences sans que cela ne change quoi que ce
soit à la logique de calcul puisque ni/N = fi:
𝑁

𝑉(𝑥 ) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑖=1
𝑁

𝑉(𝑥 ) = ∑ 𝑓𝑖 (𝑥𝑖 )2 − 𝑥̅ 2
𝑖=1
𝑁

𝜎 (𝑥 ) = √∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑖=1

Propriété de la variance :
- Si on ajoute le même nombre  à toutes les valeurs de la série statistique, la
variance et l’écart type ne changent pas.
- Si on multiplie toutes les valeurs de la série statistique par un même nombre «  »,
la variance est multipliée par 2 (Rappel de la propriété : V(aX) = a²V(X)) et l’écart type est alors
multiplié par ||
 Le calcul de la variance dans le cas discret.
Soit le nombre de minutes effectuées par 50 salariés d’une entreprise pour effectuer une tâche
dans une chaîne de production.

Exemple : Temps de production par salariés


Minutes Effectifs (𝑥𝑖 − 𝑥̅ )2 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
47 5 (47 – 49,36)2 =5.56 5*5.56= 27.8
48 8 (48 – 49,36)2 =1,84 8*1.84 = 14.72
49 12 (49 – 49,36)2 =0,12 12*0.12= 1.44
50 15 (50 – 49,36)2 =0,40 15*0.40 = 6
51 9 (51 – 49,36)2 =2.68 9*2.68 = 24.12
52 1 (52 – 49,36)2 =6.96 1*6.96 = 6.96
V = 81.04/50 = 1.62
Ecart-type = 1.27
Dans cet exemple la moyenne est égale à 49.36

 Le calcul de la variance dans le cas continu.

Dans le cas de variable continu la valeur de x est remplacée par le centre de classe. On peut
utiliser indifféremment les deux formules suivantes :
𝑁
1
𝑉 (𝑥 ) = ∑ 𝑛𝑖 (𝑐𝑖 )2 − 𝑥̅ 2
𝑁
𝑖=1
Ou
𝑁
1
𝑉(𝑥 ) = ∑ 𝑛𝑖 (𝑐𝑖 − 𝑥̅ )2
𝑁
𝑖=1

Dans l’exemple déjà utilisé pour calculer la moyenne dans un cas continu
Niveau de salaire Centres de Effectif Effectif Fréquence Fréquence
classes cumulé cumulée
[1200-1500[ 1350 7 7 0,38 0,38
[1500-1800[ 1650 5 12 0,27 0.65
[1800-2100[ 1950 4 16 0,24 0,88
[2100-2400[ 2250 2 18 0,12 1
18

La moyenne calculée est de 1666.66. Il s’agit donc du salaire moyen.

Niveau de Centres de Effectif (𝑐𝑖 − 𝑥̅ ) (𝑐𝑖 − 𝑥̅ )2 𝑛𝑖 (𝑐𝑖 − 𝑥̅ )2


salaire classes
[1200-1500[ 1350 7 (1350-1666.66) 100273.55 701914.88
[1500-1800[ 1650 5 (1650 - 1666.66) 277.55 1387.77
[1800-2100[ 1950 4 (1950 - 1666.66) 80281.55 321126.22
[2100-2400[ 2250 2 (2250 - 1666.66) 340285.55 680571.11
V = 1705000 /18= 94722,22
Ecart-type = 307.76
L’utilité et l’utilisation de l’écart-type

L’écart-type est une moyenne quadratique qui est très souvent utilisée en statistique. L’écart type à
un intérêt pratique.
Quelle que soit la loi statistique utilisée
- au moins 75% des valeurs observées se situent entre -2 et +2 écart-types de la
moyenne
- au moins 89% des valeurs se situent entre -3 et +3 écart-types de la moyenne
(Chebychev' s inequality)

Dans le cas de la loi normale on obtient des valeurs encore plus élevées puisque :
- 95% des valeurs se situent entre -2 et +2 écart-types de la moyenne
- 99% des valeurs se situent entre -3 et +3 écart-types de la moyenne.

Exemple : Les notes des 20 étudiants à l’examen de statistique


Note à l’examen de Effectifs d’étudiants xi*ni (xi – moyenne)2 ni(xi – moyenne)2
Statistique
0 5 5 13.69 68.45
1 1 1 7.29 7.29
2 3 6 2.89 8.67
3 1 3 0.49 0.49
4 4 16 0.09 0.36
5 2 10 1.69 3.38
6 1 6 5.29 5.29
7 0 0 10.89 0
8 1 8 18.49 18.49
9 1 9 28.09 28.09
10 1 10 39.69 39.69
Moyenne 3.7 Variance = 2.43

Moyenne = 74/20 = 3.7 ;


Variance = 2.43 ;
Ecart-type = 1,56
3,7
10 éléves 7 éléves

17/20*100 = 85%% % des étudiants ont leur note comprise entre les deux bornes.

Le coefficient de variation

Pour une série statistique donnée on appelle le coefficient de variation de la variable X. le rapport
de l’écart-type de la variable à sa moyenne :
CV = / x

Plus la valeur du coefficient de variation est élevée. plus la dispersion autour de la moyenne est
grande.

1 Image tirée de http://www.parisschoolofeconomics.com/chassagnon-arnold/Stat4.pdf


Il est généralement exprimé en pourcentage. Sans unité. il permet la comparaison de distributions
de valeurs dont les échelles de mesure ne sont pas comparables. (Source INSEE).

Généralisation - Les moments

On retrouve ici une généralisation des cas présentés auparavant.

Soit X une variable statistique quantitative. On appelle moment d'ordre r de X, l’expression:


𝑁
1
𝜇 (𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 )𝑟
𝑁
𝑖=1
On note alors que si r = 0 alors le moment d’ordre zéro est égale à 1 : 𝜇 0 = 1
On note alors que si r = 1 alors le premier moment est égale à la moyenne : 𝜇 1 = 𝑥̅
On note alors que si r = 2 alors le deuxième moment est égale au carré de la moyenne: 𝜇2 =𝑥̅ 2

On appelle moment centré d'ordre r de la variable X, l’expression :


𝑁
1
𝜇(𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )𝑟
𝑁
𝑖=1
On note alors que si r = 0 alors le moment centré d’ordre zéro. 𝜇 (𝑥 ) est égale à 1.
On note alors que si r = 1 alors le moment centré d’ordre un est 𝜇 (𝑥 ) = 0. En effet la somme
des écarts à la moyenne est nul.
On note alors que si r=2 alors le moment centré d’ordre deux est la variance 𝜇 (𝑥 ) = 𝑉(𝑥)

Centrer et réduire une variable statistique quantitative X consiste alors à la remplacer par la
variable X’ dont l’expression est :

(𝑋𝑖 − 𝑋̅)
X’ = 𝜎(𝑥)
En faisant l’écart à sa moyenne, on dit que la variable est centrée : 𝑋𝑖 − 𝑋̅ (la variable sera alors
de moyenne nulle)
En divisant par l’écart-type on dit qu’on réduit la variable (la variable sera alors d’écart-type = 1)
Chapitre 4 - Les Paramètres de forme et de concentration
On définit les paramètres de forme uniquement pour les variables statistiques quantitatives
qu’elles soient discrètes ou continues.

La distribution d’une variable statistique peut avoir plusieurs formes :

On s’intéresse ici au degré de symétrie (d’asymétrie) de la courbe par rapport à une valeur de
référence qui est souvent la moyenne de la distribution. Mais on peut aussi d’interroger sur son
degré d’aplatissement (plus ou moins aplatie ou plus ou moins pointue).

Le coefficient d'asymétrie - Asymétrie en anglais (Skewness")

Source : educatim.fr

On note trois cas possibles qui conduisent à 3 égalités (inégalités) possibles:


- Si la distribution asymétrie à gauche alors : Le mode est a gauche puis
vient la valeur médiane puis la moyenne. C’est le cas du graphique 1 ci-avant.
- Si la distribution symétrique : . C’est le cas de la courbe du milieu mais
c’est également la distribution que l’on retrouve dans le cas d’une courbe qui suit une
loi de Gauss (on dit aussi loi normale ou distribution normale). C’est cas est un
général la courbe de référence dans les études statistiques.
- Si la distribution asymétrie à droite : . Le mode est à droite, c’est le cas
ème
du 2 graphique ci-avant.

Pour calculer cet étalement il existe de nombreux coefficient d’asymétrie, mais en règle générale
sont proposés trois indicateurs: PEARSON, YULE et FISHER.

2
Graphique tiré de : http://www.itse.be/statistique2010
Le coefficient de PEARSON se calcule à partir du mode et de la moyenne et en utilisant la
formule suivante :
𝑋̅ − 𝑀𝑜
𝑃=
𝜎(𝑥)
L’interprétation du coefficient
- Si P=0. la distribution est symétrique.
- Si P>0. la distribution est étalée à droite.
- Si P<0. la distribution est étalée à gauche (asymétrique à droite)

Le coefficient de YULE se calcule à partir de la médiale et des quartiles et en utilisant la formule


suivante :
𝑄1 + 𝑄3 − 2𝑀𝑒
𝑌=
2(𝑄3 − 𝑄1 )

Ce coefficient permet de localiser la médiane dans une boîte à moustaches (voir ci-après). par
rapport au milieu du segment formé par et .
Ce coefficient est indépendant de l'unité de mesure, Y est toujours compris entre -1 et 1. car la
médiane est située en et .
 Si Y = 0. la distribution est symétrique.
 Si Y> 0. la distribution est étalée à droite (asymétrie à gauche)
 Si Y<0. la distribution est étalée à gauche (asymétrie à droite).

Le coefficient de FISHER se calcule à partir des moments centrés


𝜇3 𝜇3
𝐹= 3 = 𝜎3
(𝜇22 )
- Si. F est proche de 0. la distribution est symétrique comme dans le cas d’une
distribution normale..
- Si. F> 0. la distribution est étalée à droite.
- Si. F< 0. la distribution est étalée à gauche

C’est généralement celui qui est utilisé en Statistique et que l’on nomme du nom anglais le
Skweness.

Il existe également le coefficient de Pearson qui se calcule également à partir des moments
et qui a comme expression :
Le coefficient d'asymétrie de Pearson est défini par :

Avec
 qui désigne le moment centré d'ordre 3. soit (dans le cas simple sinon il y a n i dans la
formule):
𝑁
1
𝜇3 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )3
𝑁
𝑖=1
 qui désigne le moment centré d'ordre 2. soit (dans le cas simple sinon il y a n i dans la
formule):
𝑁
1
𝜇2 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1
C'est à dire la variance.

Comment interpréter
Attention il est toujours positif et il est nul pour une distribution à densité de fréquence
symétrique, telle la loi de Gauss.

Une boîte à moustache

Il est possible de résumer sous la forme d'un graphique l'information fournie d’une part, par
l'étendue, ainsi que par les trois quartiles et les intervalles qui les séparent et ainsi avoir une
idée de la forme de la distribution.
Ce graphique porte le nom de boîte à moustaches. ou encore de boîte à pattes ou diagramme
en boîte (diagramme de Tukey)

- la médiane nous renseigne sur le milieu de la série ;


- les largeurs des deux parties de la boîte rendent compte de la dispersion des
valeurs situées au centre de la série (la boîte contient 50% (environ) de l'ensemble des
observations : 25% à gauche de la médiane et 25% à sa droite) ;
- la longueur des moustaches renseigne sur la dispersion des valeurs situées au
début de la série ordonnée (les valeurs les plus petites correspondant à 25% des
observations) ou à la fin de celle-ci (les valeurs les plus grandes correspondant aussi à
25% des observations) ;

Dde façon générale. la boîte et les moustaches seront d'autant plus étendues que la dispersion de
la série statistique est grande.

3
http://www.itse.be/statistique2010/co/233_Cours_boxplot.html
On associe une boite à Moustache à un diagramme en bâton par exemple.

L'examen de la boîte à moustaches montre que les moustaches sont de plus petite amplitude à
gauche. Il y a donc une asymétrie à gauche. Si elles étaient de plus petites amplitudes à droite on
parlerait d’asymétrie à droite.

Soit à présent un nouvel exemple sur le nombre de jours d’absence d’élèves dans un lycée
pendant un trimestre.

Exemple : Boite à moustache


Nombre de jours d'absence Effectif Eff. cumulé
0 3 3
1 4 7
2 5 12
3 2 14
4 1 15
5 1 16
7 2 18
10 2 20
Total 20

Médiane = entre le 10ème et le 11ème individu = modalité 2


Q 1 = 20/4 = 5 = modalité 1
Q3 = 3*5 = 15ème individu : modalité 4
Etendue = de Xmin = 0 jour au X max= 10 jours
Le coefficient de Fisher est égal à 1,12

L’ensemble de ces statistiques peut être obtenu en codant :

tabstat nombredejours, statistics( median p25 p75 min max range skewness kurtosis)

Le codage pour obtenir le graphique de la boite à moustache sous stata peut être complexe, mais
le plus simple est de coder comme suit :

graph box nombredejours


10
8
6
notes

4
2
0

Imaginons que les nombre de jours d’absence soient repérés aussi selon le sexe des élèves. Le
codage devient :

graph box nombredejours, over(sexe)


10
8
6
notes

4
2
0

1 2

On peut aussi utiliser (by(sexe)) cela donne juste des graphiques séparés.

Coefficient d'aplatissement - Kurtosis.

On peut i caractériser l'aplatissement d'une distribution par le coefficient de Pearson (β2) ou celui
de Fisher (F2). Les deux utilisent les moments centrés d'ordre 4 (μ4).

Si la variable est discrète :


𝑁
1
𝜇4 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )4
𝑁
𝑖=1
Si la variable est continue on remplace par le centre de classe.
𝑁
1
𝜇4 = ∑ 𝑛𝑖 (𝑐𝑖 − 𝑥̅ )4
𝑁
𝑖=1
Le coefficient de PEARSON (β2) prend alors la formule suivante :
𝜇4
𝛽2 = 4
𝜎
Le coefficient de Fisher (F2) prend alors la formule suivante (certains manuels indiquent ici
YULE):
𝜇4
𝐹2 = 4 − 3
𝜎
Si la statistique est calculée par rapport à 3 c'est parce que, en Probabilités. on peut démontrer
que le coefficient d'aplatissement de Pearson pour une variable aléatoire qui suit une loi de Gauss.
est égal à 3. Donc on compare ici Pearson à ce coefficient.

 Comment interpréter les résultats de façon générale ?


Plus la distribution observée est effilée, plus ces coefficients sont grands ; plus la distribution
observée est aplatie. plus ces coefficients sont petits.

 Comment interpréter F2 et β2 de manière plus précise?


Si F2 est égal à 0, le polygone statistique de la variable a le même aplatissement qu'une courbe en
cloche, on dit que la variable est mésokurtique (donc β2 = 3).

Si F2 est > 0, le polygone statistique de la variable est moins aplati qu'une courbe en cloche. on
dit que la variable est leptokurtique (donc β2 > 3).

Si F2 est < 0, le polygone statistique de la variable est plus aplati qu'une courbe en cloche. on dit
que la variable est platykurtique (donc β2 <3).
.

Pour obtenir Skweness, médiane, moyenne et kurtosis il est possible sous stata de coder de
plusieurs façons. Soit en utilisant « sum » comme déjà vu dans le cas de l’exemple de la taille des
étudiantes

Soit en codant « tabstat » comme dans l’exemple des nombres de jours d’absence.
L’indice de concentration de Gini.
C’est l’outil principal de l’analyse des inégalités de revenus au sein d’une population.

La Courbe de Lorenz.

Attention si la notion de concentration ne s'applique qu'à des variables statistiques quantitatives il


faut toutefois noter que ces variables n’admettent que des valeurs strictement positives (revenus.
salaires. patrimoine. etc.).

Pour comprendre l’utilisation de la courbe de Lorentz considérons l’exemple classique de la


distribution des revenus dans une population (par exemple parmi la population française).

Les revenus sont divisés en m classes : la ième classe. [di. d i + 1[, a pour centre, ci et pour effectif, ni.

On note Fi la fréquence cumulée de di +1 : c'est la proportion des ménages français dont le revenu
est strictement plus petit que di + 1
𝑛𝑖 ∗ 𝑐𝑖
𝑛
∑𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 )

On note qi la proportion de masse de revenu représentée par les ménages dont le revenu est
strictement plus petit que d i + 1.
𝑖 𝑖
∑𝑖𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 ) ∑𝑖𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 ) 1 ∗ 𝑐𝑖
𝑞𝑖 = 𝑛 = = ∑(𝑓𝑖 ∗ 𝑐𝑖 ) = ∑ 𝑓𝑖 ∗
∑𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 ) 𝑛 ∗ 𝑥̅ 𝑥̅ 𝑥̅
𝑖=1 𝑖=1
i=1 uniquement pour le 1ere individu (q1)
i=2 uniquement pour le 1ere individu et le 2ème individu (q2)
Le numérateur intègre tous les individus (n : c’est donc la masse totale)

La courbe de concentration ou courbe de Lorenz, est donc la ligne polygonale qui joint les points
de coordonnées (Fi. qi).

En réalité, pour une variable statistique continue, on ne connaît la courbe de Lorenz que pour
les extrémités des classes : pour réaliser l'interpolation linéaire on suppose comme à chaque
fois que la répartition des valeurs de la variable à l'intérieur de chaque classe est uniforme.
Dans le cas d'une variable discrète. on adopte la même représentation par ligne polygonale.

Soit l’exemple d’un ensemble de 20 salariés d’une entreprise qui indique leur niveau de salaire
(tableau 1). Les réponses sont classées par décile (tableau 2).

Tableau 1
Centres de Effectif
Niveau de salaire Effectif
classes cumulé
[1200-1500[ 1350 8 8
[1500-1800[ 1650 4 12
[1800-2100[ 1950 6 18
[2100-2400[ 2250 2 20

Tableau 2
Masse salariale Part de la masse Part cumulée
Centres de
Niveau de salaire Effectif détenue détenue par
classes
chaque décile
[1200-1500[ 1350 2 2700 0,08 0,08

[1200-1500[ 1350 2700 0,08 0,16


2
[1200-1500[ 1350 2700 0,08 0,24
2
[1200-1500[ 1350 2700 0,08 0,32
2
[1500-1800[ 1650 3300 0,10 0,42
2
[1500-1800[ 1650 3300 0,10 0,52
2
[1800-2100[ 1950 3900 0,12 0,63
2
[1800-2100[ 1950 3900 0,12 0,75
2
[1800-2100[ 1950 3900 0,12 0,87
2
[2100-2400[ 2250 4500 0,13 1,00
2
33600 0,08 0,08

La 3ème colonne indique la proportion de la masse détenue par chaque décile. La dernière
représente la part cumulée. On obtient alors le graphique suivant.
1
.8
part cumulée

.6
.4
.2
0

0 20 40 60 80 100
part de la population

La courbe de Lorenz est toujours inscrite dans le carré [0. 1] × [0. 1].

On peut interpréter la courbe à partir des éléments suivants :


- Les points extrêmes sont les points (0, 0) et (1, 1) servent de basent de référence puisque
0 % des salariés reçoivent 0 % de la masse de revenu et 100 % des salariés reçoivent 100 % de la
masse de revenu.
- La courbe est nécessairement convexe vers le bas. Cela résulte du fait que la pente du
segment qui correspond, par exemple, aux points d'abscisses 50 et d’ordonnées 42. (50% des
salariés à 42% des revenus) ne peut être inférieure à celle du segment qui la précède.
- la courbure de la courbe de Lorenz est généralement interprétée comme un indice
d'inégalité. En effet dans une situation d'égalité absolue, la courbe prendrait la forme d'un
segment de droite (diagonale du carré) allant des points (0, 0) aux points (1, 1). 10% de la
population à 10% de la masse des revenus, 20% de la population à 20% de la masse des revenus,
et ainsi de suite…
- De même, dans une situation d'inégalité totale où la quasi-totalité de la masse salariale
serait détenue par une petite minorité de la population, la courbe de Lorenz longerait l'axe des
abscisses avant de remonter brutalement vers le point de coordonnée (1. 1).

L’indice de Gini

L'indice de Gini (du nom du statisticien italien Corrado Gini), est obtenu en déterminant la
surface S comprise entre la courbe de Lorenz et la diagonale et en rapportant cette surface à la
surface du demi-carré dans lequel s'inscrit cette courbe. Comme la surface du carré est égale à 1,
l'indice de Gini est le double de l'aire S comprise entre la courbe de Lorenz et la diagonale du
carré.

Très souvent. la surface S est déterminée de manière graphique.

Numériquement, on peut calculer l'indice de Gini par la formule :

𝐺 = 1 − ∑𝑖=𝑛−1
𝑖=1 (𝐹𝑖 − 𝐹𝑖−1 ) ∗ (𝑞𝑖 + 𝑞𝑖−1 )

Si G= 0, c'est que la courbe de Lorenz coïncide avec la diagonale du carré (égalité absolue).
Si G = 1, c'est que la courbe de Lorenz longe d'abord l'axe des Fréquences cumulées. puis la
droite F = 1 (inégalité maximale).

De façon générale, l'indice de Gini peut être interprété comme ayant une valeur d'autant plus
grande que l'inégalité est grande : il constitue donc une bonne mesure de l'inégalité.

Sous Stata il faut installer la commande ginidesc (ssc install ginidesc) afin d’obtenir le calcul de
l’indice.
Dans le cadre de l’exemple des salaires le codage est

ginidesc partcumulée

Indice de Hoover

L'indice d'équi-répartition de Hoover indique la quantité de ressource qu'il faudrait transférer


d'un individu à un autre pour aboutir à une répartition totalement équitable:

Par exemple si pour une richesse totale de 100 un individu possède 10 et l’autre 90, il faudra que
ce dernier donne au premier 40. Ils auraient ainsi chacun 50.
L’indice à pour formule

H = 1/2 Sommei | fi - fmoy|


Avec :
fi = Ri/Rtot : proportion de la ressource totale détenue par l'individu i
fmoy = 1/p : proportion moyenne de richesse détenue par un individu.
 Avantage : L'indice est bien compris entre 0 (équi-répartition) et 1 (concentration
maximale). On notera que la valeur 1 ne pourrait être atteinte que si on avait une infinité
d'individus ne possédant rien et un individu possédant tout.
 Inconvénients :
L'indice ne renseigne pas sur la structure des inégalités (2 groupes à revenus différents ou
bien 1 individu très riche et beaucoup d'individus pauvres).

View publication stats

Vous aimerez peut-être aussi