Académique Documents
Professionnel Documents
Culture Documents
net/publication/340793807
CITATIONS READS
0 14,867
1 author:
Dalila Chenaf-Nicet
University of Bordeaux
123 PUBLICATIONS 219 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Dalila Chenaf-Nicet on 20 April 2020.
L’objectif est ici de caractériser la distribution de la série à l’aide de nombres résumant de façon
suffisamment complète l'ensemble ses valeurs. Ces indicateurs faciliteront la comparaison
d'échantillons.
Les paramètres de position (tendance centrale): fournissent l'ordre de grandeur des valeurs
de la série et la position autour de laquelle rassemblent ces valeurs.
Les paramètres de dispersion: quantifient les fluctuations des valeurs autour de la valeur
centrale. Permettent d'apprécier l'étalement des valeurs de la série (les unes par rapport aux autres
ou à la valeur centrale).
Le mode
Le mode, noté Mo, est la modalité qui admet la plus grande fréquence (c’est la valeur qui a été
observée le plus grand nombre de fois):
f (Mo) = Max (fi) ; i ∈ [ 1, N ]
Il est facile de le définir pour une variable qualitative ou une variable quantitative discrète.
Reprenons des exemples déjà utilisés dans la partie I.
Exemple 1 : 30 Bacheliers ayant eu une mention au Bac dans une classe de terminale dans le Lycée
X. Nous avons ici une variable qualitative. La table fréquence se présente comme suit :
Pour cette variable qualitative le mode en rouge s’observe pour la modalité «passable ».
20
15
mean of effectifs
10
5
0
Si vous voulez faire le graphe de la série et souligner le mode en rouge le codage est le suivant :
graph bar effectifs , over( mention ) ascategory asyvars bar(1, fcolor(maroon)) bar(3,
fcolor(red)) bargap(5)
Il y a un gap de 5 entre les barres (mais on peut mettre le chiffre que l’on veut) car ce sont des
variables qualitatives. Cela indique que les données ne sont pas en continu. Plus le chiffre est
élevé et plus l’écart entre les barres est grand. « fcolor », c’est la commande qui donne des
couleurs différentes aux barres et qui souligne celle du mode en rouge.
Exemple 2 : Le nombre de salariés dans les entreprises de petite taille. Pour rappel, les réponses
des 10 entreprises sont représentées dans la table de fréquence ci-après (exemple de la partie I).
2
1
0
1 salarié 2 salariés
3 salariés 4 salariés
5 salariés 6 salariés
Attention : Si les classes ont même amplitude la classe modale est la classe qui a le plus grand
effectif ou fréquence et le mode peut être considéré comme le centre de la classe (en suppossant
une répartition uniforme des effectifs à l’intérieure de la classe).
Reprenons d’exemple de la partie I, avec le chiffre d’affaires de 10 entreprises interrogées.
Dans l’exemple la classe modèle est [8-13[, et le mode peut être considéré comme étant égal à
10.5.
8 5
13 2
Aca
18 1
23 1
28 1
0 1 2 3 4 5
frequency
Une fois encore le bâton du mode est de couleur rouge. Le codage pour obtenir le graphique le
codage est (le graphique est ici renversé juste pour faire joli) :
8 5
13 2
Aca
18 1
23 1
28 1
0 1 2 3 4 5
frequency
8 13
18 23
28
Si les amplitudes ne sont pas égales l'effectif ou la fréquence sont remplacés par la densité.
.8
Densité de lafréquence
.6
.4
.2
0
Est repris dans ce graphique l’exemple de la partie 1 où les amplitudes de classe n’étaient pas
égales. Le mode est matérialisé en rouge.
Les données de cet exemple continu sont données ci-après :
Table de Fréquence
Chiffre Entreprises amplitudes fréquence Densité de Fréquences Fréquences
d’affaires la fréquence cumulées cumulées
Millions croissantes décroissantes
d’euros
[0 - 0.25[ 13712 0.25 0.203 0.81 0.203 1
[0.25-0.50[ 10674 0.25 0.158 0.63 0.361 0.797
[0.50 - 1[ 11221 0.5 0.166 0.33 0.527 0.631
[1-2.5[ 15496 1.5 0.229 0.15 0.756 0.473
[2.5-5[ 10043 2.5 0.148 0.05 0;904 0.096
[5 – 10[ 3347 5 0.05 0.001 0.953 0.046
[10 60[ 3147 50 0.05 0.0001 1 0
Total =67640 =
M° = x1 + (1/(1+2)= (xi+1-xi )
Ici, la 1ère classe est la classe modale et il n’y a pas de classe adjacente à gauche. Donc:
M° = 0 + (0,203 /(0,18+0,203)*( 0,25-0) = 1,39
M° = 0 + (0,203 /(0,383)*(0,25) = 0,13
Attention : ici on commence à zéro car la classe modale est la première et démarre à zéro.
Remarques :
- Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales le
mode coïncide avec le centre de la classe modale.
- Le mode dépend beaucoup de la répartition en classes.
- Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu'elle est
plurimodale. Cette situation est intéressante car elle met en évidence l'existence de plusieurs sous-
populations.
La médiane
La médiane ne s’applique qu’aux variables qui admettent une relation d’ordre (variables que l’on
peut ordonner ou classer). Dans le cas des variables qualitatives où il est possible de donner un
ordre par codage alors il est possible de définir une médiane. Dans le cas des bacheliers et de leur
mention au bac on peut utiliser cette technique. On pose donc que plus le chiffre augmente et
plus les performances des bacheliers sont satisfaisantes :
- 1 passable. 2. Assez bien, etc.
Ordonner est donc possible dans le cas des variables quantitatives et les qualitatives
ordinales. Par contre si la variable c’est la CSP du répondant à un questionnaire, on ne peut pas
utiliser cette technique (il y a aucun raison de penser qu’une profession est supérieure à une
autre). La médiane n’a pas dans ce dernier exemple de sens.
Définition : La médiane notée Me est la valeur qui partage la liste des observations
préalablement classées par ordre croissant en deux effectifs qui ont le même nombre
d’observations. En d’autres termes la a médiane Me est telle que l'effectif des observations dont
les modalités sont inférieures à Me est égal à l'effectif des observations dont les modalités sont
supérieures à Me.
Graphiquement. la médiane est la valeur qui partage l’histogramme en deux zones ayant des aires
de même grandeur. C’est aussi la valeur qui correspond à 50% des fréquences cumulées.
En règle générale.
- si N est impair on définit la médiane avec la formule :
Me = (N+1)/2
- si N est pair on définit la médiane à l’aide des deux valeurs centrales avec la formule :
𝑵 𝑵
+ (𝟐 + 𝟏 )
𝑴𝒆 = 𝟐
𝟐
Beaucoup ne s’embêtent pas avec ces formules. Ils divisent simplement l’effectif en 2 qu’il soit
pair ou impair.
20 personnes sont interrogées à la sortie du cinéma sur leur avis sur le film qu’elles viennent de
visionner. Les réponses sont les suivantes :
Avis sur le film Effectif Effectif cumulé Fréquence Fréquence cumulée
N’a pas aimé 2 2 10 10
Moyennement 6 8 30 40
A aimé 9 17 45 85
A adoré 3 20 15 100
20
Comme N est pair : la médiane se trouve aux 10.5ème individu. Mais comme on ne peut pas
couper des individus en deux. Mais on peut dire que la médiane est entre les deux valeurs
centrales « 10 et le 11ème » : entre le 10 et le 11ème individu qui ont la même réponse donc la
médiane est à « a aimé ».
10
5
0
Les variables quantitatives discrètes admettent une relation d’ordre est peuvent être traitées
comme précédemment.
Dans ce cas N est pair (10 personnes) : donc la médiane est au niveau de la 5.5ème personnes qui
répond (donc entre 5 et 6 : on ne coupe pas les gens en deux !)
La médiane est au niveau de la modalité 3 (personnes). Mais cela reste difficile à interpréter. On
peut toutefois dire que environ 50% des personnes vivent dans des logements où il y a moins de
trois personnes et environ 50% vivent dans des logements où il y a plus de 3 personnes
Dans ce cas la médiane est déterminée à partir de l’intervalle médian et par une technique
d’extrapolation.
Les extrapolations se font tant à partir des données d’une table de fréquence que d’un polygone
de fréquence cumulée.
Reprenons l’exemple de la taille des étudiants de l’amphithéâtre de la partie I. Supposons que
nous avons la taille de 10 étudiantes de l’amphithéâtre en mètre.
Table de fréquence dans le cas d’une variable continue : la taille des étudiantes
Etudiants Taille
Etudiante 1 1.57
Etudiante 2 1.58
Etudiante 3 1.60
Etudiante 4 1.64
Etudiante 5 1.65
Etudiante 6 1.66
Etudiante 7 1.67
Etudiante 8 1.68
Etudiante 9 1.69
Etudiante 10 1.70
Comme N est pair la médiane est entre la 5ème et la 6ème étudiante : donc entre 1.65 et 1.66.
(1.65+1.66)/2 = 1.655
Dans cet exemple nous pouvons dire que 50% des filles ont une taille supérieure à 1.655. Mais
aussi que 50% des filles ont une taille inférieure à cette valeur.
Les 50% de fréquence cumulées se trouvent entre la classe (1.65 - 1.70). En l’absence c’un
polygone de fréquence on fait l’extrapolation linéaire avec la formule suivante :
Sous STATA pour obtenir la médiane il suffit de coder « sum nom de la variable, détails »
Dans le cas de l’exemple en codant :
Dans le cas présent il est normal de ne pas trouver 1. 655 car le regroupement en classe fait
perdre de l’information. Il y donc souvent des arrondis à réaliser.
On peut aussi faire une interpolation linéaire via un graphique de polygone de fréquence
cumulée. Avec comme formule pour un polygone de fréquence cumulée (on trouve la même
chose avec un polygone d’effectif cumulée).
(Yme (50%) - Yinf)/(Xme – Xinf) = (Ysup-Yinf)/(Xsup-Xinf)
La médiale
Si les deux grandeurs sont proches dans leur définition comme dans leur mode de calcul il ne faut
toutefois pas les confondre.
La médiane est la valeur de la variable tel que la moitié des individus prends une valeur qui lui est
inférieure (supérieure). La médiale est la valeur de la variable telle que la moitié (50%) de la
masse du caractère lui est inférieure.
Par masse du caractère on entend le produit (n i*xi). C'est-à-dire l’importance de chaque caractère
pondéré par son effectif. La Médiale est notée Ml.
Soit l’exemple ci-après déjà utilisé où l’on interroge des ménages sur le nombre d’enfants qui
vivent dans leur foyer.
31 correspond donc au nombre total d’enfants si l’on considère l’ensemble des personnes
interrogées : 31 c’est la masse totale.
Ici la moitié de la masse c’est 15. On atteint le chiffre 15 à 2 enfants. La modalité 2 enfants par
femme permet d’atteindre la moitié de la masse du caractère. (On dépasse les 50% de masse
cumulée à la modalité 2). C’est donc la Médiale.
Dans l’exemple suivant on a fait une collecte pendant une kermesse auprès de parents pour
financer un voyage scolaire.
La médiale est un paramètre que l’on utilise souvent dans les calculs de masse salariale. Par
exemple une entreprise de 17 salariés avec la grille de salaire suivante :
On a une masse salariale totale de 30 000. La moitié de la masse est de 15 000. On atteint ce
chiffre de 15 000 au niveau de la classe [1500 - 1800[. donc au niveau de 12 salariés de l’entreprise
On a donc la classe médiale mais pour obtenir la médiale il faut faire une extrapolation
comme pour la médiane :
La médiale est toujours supérieure à la médiane. Dans l’exemple des salaires la médiane est au
niveau du 9.5 salariés. Donc entre le 9ème et le 10ème individu. La classe médiane est donc [1500-
1800[. On reprend la même formule d’extrapolation pour la médiane :
L’écart médian se définit comme l’écart entre la médiale et la médiane. Cet écart est considéré
comme un indicateur de concentration.
M = Médiale - Médiane
Dans l’exemple précédent la médiale est égale à 68.5. Pour avoir une idée de la concentration il
faut comparer ce chiffre à l’écart entre la valeur de la plus petit et de la plus grande des valeurs de
du caractère.
Ici les salaires vont de 2400 euros à 1200 euros, soit un écart de : 1200 euros
Indice de concentration = 68.5/1200 = 0.05. La concentration des salaires est donc plutôt
faible.
Il existe trois types de quantiles : les quartiles. les déciles et les centiles (percentiles).
Les quartiles
Les quartiles généralement notés : Q1. Q2. Q3. sont les trois valeurs qui permettent de scinder
la population (l’échantillon) en 4 parts égales.
- Q1 : 1er quantile, c’est la valeur de la variable telle que 25% des observations lui soient
inférieures.
Lorsqu’on dispose d’un diagramme de fréquences cumulées. Q1 correspond à la première barre
traversée par l’horizontale tracée à 25 %
- Q2 : 2ème quantile, c’est la valeur de la variable telle que 50% des observations lui soient
inférieures. On retrouve ici la médiane. Lorsqu’on dispose d’un diagramme de fréquences
cumulées. la médiane correspond à la première barre traversée par l’horizontale tracée à 50 %
- Q3 : 3er quantile, c’est la valeur de la variable telle que 75% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées. Q3 correspond à la
première barre traversée par l’horizontale tracée à 70 %
Pour obtenir les quartiles il suffit d’utiliser les mêmes codages définis précédemment dans le cas
de la taille des étudiantes.
Les déciles sont aussi notés : D1. D2. D3.…D9. sont les 9 valeurs qui permettent de scinder la
population (l’échantillon) en 10 parts égales.
- D1 : 1er décile c’est la valeur de la variable telle que 10% des observations lui soient
inférieures.
Lorsqu’on dispose d’un diagramme de fréquences cumulées, D1 correspond à la première barre
traversée par l’horizontale tracée à 10 %
- D2 : 2ème décile, c’est la valeur de la variable telle que 20% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées, D2 correspond à la
première barre traversée par l’horizontale tracée à 20 %
Et ainsi de suite jusqu’à D9………….
- D9 : 9er décile, c’est la valeur de la variable telle que 90% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées. D9 correspond à la
première barre traversée par l’horizontale tracée à 90 %
En matière de salaire ou d’inégalité de revenu le rapport D9/D1 est très fréquemment utilisé
comme indicateur d’inégalité.
Pour les variables quantitatives continues on parlera de classe d’intervalle inter décile et le décile
peut se définir par extrapolation. Une fois encore le calcul est le même :
Pour le 10ème :
D9 = Borne inférieur + (Borne supérieure – Borne inférieure) * [0.9 –fréquence cumulée
Inférieur]/[Fréquence cumulée supérieure – Fréquence cumulée inférieure]
Les centiles sont notés : C1. C2. C3.…C99. Ce sont les 99 valeurs qui permettent de scinder la
population (l’échantillon) en 100 parts égales.
- C1 : 1er centile (percentile) c’est la valeur de la variable telle que 1% des observations lui
soient inférieures.
Lorsqu’on dispose d’un diagramme de fréquences cumulées. C1 correspond à la première barre
traversée par l’horizontale tracée à 1%
- C2 : 2ème centile, c’est la valeur de la variable telle que 2% des observations lui soient
inférieures. Lorsqu’on dispose d’un diagramme de fréquences cumulées. C2 correspond à la
première barre traversée par l’horizontale tracée à 2 %
- C50 : 50ème centile. C’est la valeur de la variable telle que 50% des observations lui soient
inférieurs. On retrouve la médiane
Et ainsi de suite jusqu’à C99…….
- C99 : 99er centile, c’est la valeur de la variable telle que 99% des observations lui soient
inférieurs. Lorsqu’on dispose d’un diagramme de fréquences cumulées. C99 correspond à la
première barre traversée par l’horizontale tracée à 99 %.
La moyenne n’a de sens que dans le cas des variables quantitatives (on ne peut pas calculer
une « sexe moyen » ou «un catégorie sociaux professionnelle moyenne). Par contre on sera
toujours obligé de différentier les variables discrètes des variables continues.
Il existe plusieurs sortes de moyennes mais moins souvent utilisées que la moyenne
« arithmétique » car elles ne possèdent pas les mêmes propriétés et sont plus difficiles à manier.
Elles seront présentées après la moyenne arithmétique et ses propriétés.
La moyenne arithmétique.
On connaît tous les moyennes arithmétiques simples (notée, ) quand on calcule par
exemple sa note moyenne. La formule de la moyenne est :
𝑁
1
x = ∑ 𝑥𝑖
𝑁
𝑖=1
Sous Stata obtenir la moyenne simple se fait à partir de la commande « sum » déjà vue qui donne
la moyenne simple des variables.
Mais il faudra distinguer plusieurs configurations de calcul.
Moyenne dans le cas discret
Si plusieurs valeurs occurrent plus d'une fois dans les mesures, dans le cas discret la moyennes
« moyenne arithmétique » ou « moyenne empirique » devient la moyenne arithmétique des
modalités pondérées par l’effectif (ni) :
𝑁
1
x = ∑ 𝑛𝑖 ∗ 𝑥𝑖
𝑁
𝑖=1
Valeur de X ...
Effectif ...
Soit l’exemple des notes non pas d’un élève pour plusieurs matières (moyenne simple) mas la
note de plusieurs élèves dans une seule matière (moyenne pondérée).
Exemple : La note moyenne en statistique sur 10 à l’examen pour 100 étudiants.
Note des étudiants en
0 1 2 3 4 5 6 7 8 9 10
statistique /10
Effectifs des étudiants
5 12 25 20 12 8 7 5 3 2 1
(ni)
Une moyenne pondérée peut aussi se calculer à partir des fréquences. En effet :
𝑁 𝑁 𝑁
1 𝑛𝑖
x = ∑ 𝑛𝑖 ∗ 𝑥𝑖 = ∑ ∗ 𝑥𝑖 = ∑ 𝑓𝑖 ∗ 𝑥𝑖
𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1
𝑋̅ = [0*0.05 +1*0.12+2*0.25+3*0.20+4*0.12+5*0.08+6*0.07+7*0.05+8*0.03+9*0.02+10*0.01]
= 0+0.12+0.5+0.6+0.48+0.4+0.42+0.35+0.24+0.18+0.1=3.39
Sous stata le codage est le suivant :
« note » est le nom de la variable des note et « Effectifs » le nom de la variable des effectifs.
La formule est la même mais on utilise les centres de classe pour les x i.
𝑁 𝑁 𝑁
1 𝑛𝑖
x = ∑ 𝑛𝑖 ∗ 𝑥𝑖 = ∑ ∗ 𝑥𝑖 = ∑ 𝑓𝑖 ∗ 𝑥𝑖
𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1
1 1 1
x= (1350 ∗ 7 + 1650 ∗ 5 + 1950 ∗ 4 + 2250 ∗ 2) = (9450 + 8250 + 7800 + 4500) = 30000
18 18 18
x = 1666
Le codage sous stata est le même que précédemment mais avec comme valeur de xi les centres de
classe (voir partie I pour la méthode de calcul du centre de classe sous stata).
Les avantages :
- elle se calcule simplement
- elle est représentative de la série.
Les propriétés :
- de translation : si on ajoute (enlève) la même valeur constante à toutes les observations,
on ajoute (enlève) également cette valeur à la moyenne.
Y = ax alors Y = a*𝑥̅
- de dilatation : si on multiplie (divise) toutes les observations par une même valeur la
moyenne est multipliée (divisée) par cette valeur.
On appelle écart absolu moyen de la variable X, la moyenne arithmétique des valeurs absolues
des écarts de X à sa moyenne. La formule est la suivante :
𝟏 𝒑
Emoyen = 𝑵 ∑𝒊=𝟏 𝒏𝒊 ∗ |𝒙𝒊 − 𝒙
̅|
On peut en fait calculer un écart absolu de la variable X par rapport à sa médiane, ou par rapport
à un nombre réel quelconque « a ».
𝟏 𝒑
Emoyen = 𝑵 ∑𝒊=𝟏 𝒏𝒊 ∗ |𝒙𝒊 − 𝒂|
Cependant l’écart moyen est toujours minimum quand il est calculé par rapport à la moyenne. Il
faut noter que la somme des écarts à la moyenne (pas absolus) est forcément nulle :
𝒑
∑ (𝒙 𝒊 − 𝒙
̅) = 𝟎
𝒊=𝟏
Nous faisons la démonstration de ce point ci-après dans le cas d’une moyenne simple. Soit les
notes obtenus par un étudiants d’économie dans 4 matières/
Matières Mathématiques Statistiques Macroéconomie Management
Notes à
l’examen 12 11 10 17
(Valeur de X)
On peut remplacer le « a » par différents paramètres et notamment par la médiane. Dans ce cas
on obtient l'écart médian absolu. Il est noté, em et il se définit comme étant égal à la moyenne
des valeurs absolues des différences entre les observations et leur médiane notée ici :
Il existe trois autres types de moyennes : géométrique, harmonique et quadratique (que nous
verrons au chapitre suivant l’écart-type).
̅
On utilise la moyenne Arithmétique : notée 𝒙
Quand la logique est additive
Le codage dans le cas des notes des lycéens suivant vous donne en fait les 3 moyennes :
Dans ce chapitre nous allons donc nous concentrer sur les notions de variance et d’écart-type.
La variance est notée V(x) et l’écart type qui est la racine carré de la variance et est noté: (x).
Dans les deux il s’agit d’un type particulier de moyennes puisque ce sont des écarts à la moyenne,
le tout au carré.
La variance et l’écart type peuvent également s’obtenir grâce à la formule de König qui est la
suivante :
𝑁
1
𝑉 (𝑥 ) = ∑(𝑥𝑖 )2 − 𝑥̅ 2
𝑁
𝑖=1
Nous verrons que nous pourrons également la calculer avec les tables de fréquence
ultérieurement:
Dans l’exemple suivant nous reprenons les données sur les notes d’un étudiant obtenues dans
quatre matières.
Notes à l’examen 12 11 10 13
𝐶𝑎𝑙𝑐𝑢𝑙 𝑑𝑒 𝑙′ é𝑐𝑎𝑟𝑡 à 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒(𝑥𝑖 − 𝑥̅ ) 12-11.5 = 0.5 11-11.5 = -0.5 10-11.5 = -1.5 13-11,5 = 1.5 0
Moyenne = 11.5
1
La variance est donc égale à 𝑉 (𝑥 ) = 𝑁 ∑𝑁 2
𝑖=1(𝑥𝑖 − 𝑥̅ ) =5/4 = 1.25
L'écart-type est donc égal à 𝜎 (𝑥 ) = 1.11
On peut interpréter ces chiffres de la manière suivante : La distance moyenne qui sépare les notes
de l’étudiant de sa moyenne. On ne peut pas faire la somme de ces distances qui éloigne chaque
note de la moyenne et diviser par 4, car la somme des écarts à la moyenne est forcément nulle
(ligne 4 du tableau). Dès lors on fait ce calcul mais en élevant au carré ces distances. L’écart -type
est alors la notion la plus proche de cette idée de distance moyenne à la valeur centrale (la
moyenne).
On note trois propriétés de la variance que l’on retrouve dans le cas général :
- La variance est toujours un nombre réel positif puisque c'est une somme de carrés.
- La variance est nulle si, et seulement si, X possède une seule valeur : v(b) = 0 si b est un
réel quelconque.
- La variance admet les transformations linéaires telles que :
-V(aX) = a²V(X)
- La variance d’une somme est telle que :
- V(X+Y) = V(X) + V(Y) + 2 cov(X,Y)
Si les deux variables X et Y ne sont pas du tout liées entre elles alors Cov (X,Y) = 0
Tout ce qui vient d’être dit est vrai pour l’écart type qui est la racine carré de la variance.
La notion d’inertie.
La variance est une notion de distance (par rapport à la moyenne dans la plupart des cas).
L’inertie est une notion plus large puisque l’on calcule des distances mais par rapport à un point
quelconque.
L’Inertie par rapport à un point a. On appelle inertie d'une variable statistique X par rapport à
un point « a », la moyenne du carré de la distance de X au point a :
𝑁
1
𝐼𝑎𝑥 = ∑(𝑥𝑖 − 𝑎)2
𝑁
𝑖=1
L'inertie de X par rapport au point moyen est naturellement la variance de X.
L'inertie Ia (X) est minimale lorsque a est égal à la moyenne.
Sous Stata pour obtenir variance et écart type il suffit d’utiliser la commande « sum » déjà
présentée. Dans l’exemple considérant la taille des étudiantes déjà présenté, le code « sum taille,
detail)
Std. Dev (standard deviation) est la valeur de l’écart-type.
On doit une fois encore distinguer les variables quantitatives discrètes des variables quantitatives
continues.
Cependant les formules sont toujours les mêmes que cela soit pour le cas discret ou continu.
𝑁
1
𝑉(𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1
De même la forme e de König de la variance reste valable :
𝑁
1
𝑉(𝑥 ) = ∑ 𝑛𝑖 (𝑥𝑖 )2 − 𝑥̅ 2
𝑁
𝑖=1
La formule de l’écart-type demeure :
𝑁
1
𝜎 (𝑥 ) = √ ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1
Cependant on peut remplacer les effectifs par les fréquences sans que cela ne change quoi que ce
soit à la logique de calcul puisque ni/N = fi:
𝑁
𝑉(𝑥 ) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑖=1
𝑁
𝑉(𝑥 ) = ∑ 𝑓𝑖 (𝑥𝑖 )2 − 𝑥̅ 2
𝑖=1
𝑁
𝜎 (𝑥 ) = √∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑖=1
Propriété de la variance :
- Si on ajoute le même nombre à toutes les valeurs de la série statistique, la
variance et l’écart type ne changent pas.
- Si on multiplie toutes les valeurs de la série statistique par un même nombre « »,
la variance est multipliée par 2 (Rappel de la propriété : V(aX) = a²V(X)) et l’écart type est alors
multiplié par ||
Le calcul de la variance dans le cas discret.
Soit le nombre de minutes effectuées par 50 salariés d’une entreprise pour effectuer une tâche
dans une chaîne de production.
Dans le cas de variable continu la valeur de x est remplacée par le centre de classe. On peut
utiliser indifféremment les deux formules suivantes :
𝑁
1
𝑉 (𝑥 ) = ∑ 𝑛𝑖 (𝑐𝑖 )2 − 𝑥̅ 2
𝑁
𝑖=1
Ou
𝑁
1
𝑉(𝑥 ) = ∑ 𝑛𝑖 (𝑐𝑖 − 𝑥̅ )2
𝑁
𝑖=1
Dans l’exemple déjà utilisé pour calculer la moyenne dans un cas continu
Niveau de salaire Centres de Effectif Effectif Fréquence Fréquence
classes cumulé cumulée
[1200-1500[ 1350 7 7 0,38 0,38
[1500-1800[ 1650 5 12 0,27 0.65
[1800-2100[ 1950 4 16 0,24 0,88
[2100-2400[ 2250 2 18 0,12 1
18
L’écart-type est une moyenne quadratique qui est très souvent utilisée en statistique. L’écart type à
un intérêt pratique.
Quelle que soit la loi statistique utilisée
- au moins 75% des valeurs observées se situent entre -2 et +2 écart-types de la
moyenne
- au moins 89% des valeurs se situent entre -3 et +3 écart-types de la moyenne
(Chebychev' s inequality)
Dans le cas de la loi normale on obtient des valeurs encore plus élevées puisque :
- 95% des valeurs se situent entre -2 et +2 écart-types de la moyenne
- 99% des valeurs se situent entre -3 et +3 écart-types de la moyenne.
17/20*100 = 85%% % des étudiants ont leur note comprise entre les deux bornes.
Le coefficient de variation
Pour une série statistique donnée on appelle le coefficient de variation de la variable X. le rapport
de l’écart-type de la variable à sa moyenne :
CV = / x
Plus la valeur du coefficient de variation est élevée. plus la dispersion autour de la moyenne est
grande.
Centrer et réduire une variable statistique quantitative X consiste alors à la remplacer par la
variable X’ dont l’expression est :
(𝑋𝑖 − 𝑋̅)
X’ = 𝜎(𝑥)
En faisant l’écart à sa moyenne, on dit que la variable est centrée : 𝑋𝑖 − 𝑋̅ (la variable sera alors
de moyenne nulle)
En divisant par l’écart-type on dit qu’on réduit la variable (la variable sera alors d’écart-type = 1)
Chapitre 4 - Les Paramètres de forme et de concentration
On définit les paramètres de forme uniquement pour les variables statistiques quantitatives
qu’elles soient discrètes ou continues.
On s’intéresse ici au degré de symétrie (d’asymétrie) de la courbe par rapport à une valeur de
référence qui est souvent la moyenne de la distribution. Mais on peut aussi d’interroger sur son
degré d’aplatissement (plus ou moins aplatie ou plus ou moins pointue).
Source : educatim.fr
Pour calculer cet étalement il existe de nombreux coefficient d’asymétrie, mais en règle générale
sont proposés trois indicateurs: PEARSON, YULE et FISHER.
2
Graphique tiré de : http://www.itse.be/statistique2010
Le coefficient de PEARSON se calcule à partir du mode et de la moyenne et en utilisant la
formule suivante :
𝑋̅ − 𝑀𝑜
𝑃=
𝜎(𝑥)
L’interprétation du coefficient
- Si P=0. la distribution est symétrique.
- Si P>0. la distribution est étalée à droite.
- Si P<0. la distribution est étalée à gauche (asymétrique à droite)
Ce coefficient permet de localiser la médiane dans une boîte à moustaches (voir ci-après). par
rapport au milieu du segment formé par et .
Ce coefficient est indépendant de l'unité de mesure, Y est toujours compris entre -1 et 1. car la
médiane est située en et .
Si Y = 0. la distribution est symétrique.
Si Y> 0. la distribution est étalée à droite (asymétrie à gauche)
Si Y<0. la distribution est étalée à gauche (asymétrie à droite).
C’est généralement celui qui est utilisé en Statistique et que l’on nomme du nom anglais le
Skweness.
Il existe également le coefficient de Pearson qui se calcule également à partir des moments
et qui a comme expression :
Le coefficient d'asymétrie de Pearson est défini par :
Avec
qui désigne le moment centré d'ordre 3. soit (dans le cas simple sinon il y a n i dans la
formule):
𝑁
1
𝜇3 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )3
𝑁
𝑖=1
qui désigne le moment centré d'ordre 2. soit (dans le cas simple sinon il y a n i dans la
formule):
𝑁
1
𝜇2 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑁
𝑖=1
C'est à dire la variance.
Comment interpréter
Attention il est toujours positif et il est nul pour une distribution à densité de fréquence
symétrique, telle la loi de Gauss.
Il est possible de résumer sous la forme d'un graphique l'information fournie d’une part, par
l'étendue, ainsi que par les trois quartiles et les intervalles qui les séparent et ainsi avoir une
idée de la forme de la distribution.
Ce graphique porte le nom de boîte à moustaches. ou encore de boîte à pattes ou diagramme
en boîte (diagramme de Tukey)
Dde façon générale. la boîte et les moustaches seront d'autant plus étendues que la dispersion de
la série statistique est grande.
3
http://www.itse.be/statistique2010/co/233_Cours_boxplot.html
On associe une boite à Moustache à un diagramme en bâton par exemple.
L'examen de la boîte à moustaches montre que les moustaches sont de plus petite amplitude à
gauche. Il y a donc une asymétrie à gauche. Si elles étaient de plus petites amplitudes à droite on
parlerait d’asymétrie à droite.
Soit à présent un nouvel exemple sur le nombre de jours d’absence d’élèves dans un lycée
pendant un trimestre.
tabstat nombredejours, statistics( median p25 p75 min max range skewness kurtosis)
Le codage pour obtenir le graphique de la boite à moustache sous stata peut être complexe, mais
le plus simple est de coder comme suit :
4
2
0
Imaginons que les nombre de jours d’absence soient repérés aussi selon le sexe des élèves. Le
codage devient :
4
2
0
1 2
On peut aussi utiliser (by(sexe)) cela donne juste des graphiques séparés.
On peut i caractériser l'aplatissement d'une distribution par le coefficient de Pearson (β2) ou celui
de Fisher (F2). Les deux utilisent les moments centrés d'ordre 4 (μ4).
Si F2 est > 0, le polygone statistique de la variable est moins aplati qu'une courbe en cloche. on
dit que la variable est leptokurtique (donc β2 > 3).
Si F2 est < 0, le polygone statistique de la variable est plus aplati qu'une courbe en cloche. on dit
que la variable est platykurtique (donc β2 <3).
.
Pour obtenir Skweness, médiane, moyenne et kurtosis il est possible sous stata de coder de
plusieurs façons. Soit en utilisant « sum » comme déjà vu dans le cas de l’exemple de la taille des
étudiantes
Soit en codant « tabstat » comme dans l’exemple des nombres de jours d’absence.
L’indice de concentration de Gini.
C’est l’outil principal de l’analyse des inégalités de revenus au sein d’une population.
La Courbe de Lorenz.
Les revenus sont divisés en m classes : la ième classe. [di. d i + 1[, a pour centre, ci et pour effectif, ni.
On note Fi la fréquence cumulée de di +1 : c'est la proportion des ménages français dont le revenu
est strictement plus petit que di + 1
𝑛𝑖 ∗ 𝑐𝑖
𝑛
∑𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 )
On note qi la proportion de masse de revenu représentée par les ménages dont le revenu est
strictement plus petit que d i + 1.
𝑖 𝑖
∑𝑖𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 ) ∑𝑖𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 ) 1 ∗ 𝑐𝑖
𝑞𝑖 = 𝑛 = = ∑(𝑓𝑖 ∗ 𝑐𝑖 ) = ∑ 𝑓𝑖 ∗
∑𝑖=1(𝑛𝑖 ∗ 𝑐𝑖 ) 𝑛 ∗ 𝑥̅ 𝑥̅ 𝑥̅
𝑖=1 𝑖=1
i=1 uniquement pour le 1ere individu (q1)
i=2 uniquement pour le 1ere individu et le 2ème individu (q2)
Le numérateur intègre tous les individus (n : c’est donc la masse totale)
La courbe de concentration ou courbe de Lorenz, est donc la ligne polygonale qui joint les points
de coordonnées (Fi. qi).
En réalité, pour une variable statistique continue, on ne connaît la courbe de Lorenz que pour
les extrémités des classes : pour réaliser l'interpolation linéaire on suppose comme à chaque
fois que la répartition des valeurs de la variable à l'intérieur de chaque classe est uniforme.
Dans le cas d'une variable discrète. on adopte la même représentation par ligne polygonale.
Soit l’exemple d’un ensemble de 20 salariés d’une entreprise qui indique leur niveau de salaire
(tableau 1). Les réponses sont classées par décile (tableau 2).
Tableau 1
Centres de Effectif
Niveau de salaire Effectif
classes cumulé
[1200-1500[ 1350 8 8
[1500-1800[ 1650 4 12
[1800-2100[ 1950 6 18
[2100-2400[ 2250 2 20
Tableau 2
Masse salariale Part de la masse Part cumulée
Centres de
Niveau de salaire Effectif détenue détenue par
classes
chaque décile
[1200-1500[ 1350 2 2700 0,08 0,08
La 3ème colonne indique la proportion de la masse détenue par chaque décile. La dernière
représente la part cumulée. On obtient alors le graphique suivant.
1
.8
part cumulée
.6
.4
.2
0
0 20 40 60 80 100
part de la population
La courbe de Lorenz est toujours inscrite dans le carré [0. 1] × [0. 1].
L’indice de Gini
L'indice de Gini (du nom du statisticien italien Corrado Gini), est obtenu en déterminant la
surface S comprise entre la courbe de Lorenz et la diagonale et en rapportant cette surface à la
surface du demi-carré dans lequel s'inscrit cette courbe. Comme la surface du carré est égale à 1,
l'indice de Gini est le double de l'aire S comprise entre la courbe de Lorenz et la diagonale du
carré.
𝐺 = 1 − ∑𝑖=𝑛−1
𝑖=1 (𝐹𝑖 − 𝐹𝑖−1 ) ∗ (𝑞𝑖 + 𝑞𝑖−1 )
Si G= 0, c'est que la courbe de Lorenz coïncide avec la diagonale du carré (égalité absolue).
Si G = 1, c'est que la courbe de Lorenz longe d'abord l'axe des Fréquences cumulées. puis la
droite F = 1 (inégalité maximale).
De façon générale, l'indice de Gini peut être interprété comme ayant une valeur d'autant plus
grande que l'inégalité est grande : il constitue donc une bonne mesure de l'inégalité.
Sous Stata il faut installer la commande ginidesc (ssc install ginidesc) afin d’obtenir le calcul de
l’indice.
Dans le cadre de l’exemple des salaires le codage est
ginidesc partcumulée
Indice de Hoover
Par exemple si pour une richesse totale de 100 un individu possède 10 et l’autre 90, il faudra que
ce dernier donne au premier 40. Ils auraient ainsi chacun 50.
L’indice à pour formule