Académique Documents
Professionnel Documents
Culture Documents
3. Indicateurs statistiques
3.1 Paramètres de tendance centrale : mode, médiane, moyenne, quartiles, déciles etc.
3.2 Paramètres de dispersion : Entendue, écart absolu, variance, écart-type,
Coefficient de variation et les quantiles et autres caractéristiques de dispersion.
3.3 Construction du diagramme en boîte
4. Caractéristiques de forme :
4.1 Coefficient d’asymétrie ou Skewness
4.2 Coefficient d’aplatissement ou Kurtosis
5. Caractéristiques de concentration
5.1 Courbe de concentration
5.2 Coefficient de concentration de Gini
5.3 La médiale
5.4 Comparaison médiane et médiale
Nous remercions en avance ceux qui voudront bien nous faire part de leurs remarques et
suggestions.
I.1. Définitions
I.1.2 Population
La population est l’ensemble de tous les éléments considérés dans une étude. Les éléments de
la population sont appelés individus ou unités statistiques.
Chaque unité statistique peut être étudiée suivant un ou plusieurs caractères.
I.1.4 Echantillonnage
Pour des raisons de nombre d’individus souvent extrêmement grand, l’échantillonnage nous
conduit à n’examiner ou sélectionner qu’une fraction ou sous ensemble de la population. On dit
que l’on fait un sondage. Il se justifie souvent pour des raisons de coûts ou de délais.
Donc, un échantillon est un sous-ensemble fini de la population. Cet échantillon n'est jamais
parfaitement représentatif d'une population. Il doit refléter fidèlement la composition et la
complexité de la population statistique.
Modalités 𝑥𝑖 𝑥1 𝑥2 𝑥3 ⋯ 𝑥𝑘 Total
Effectif 𝑛𝑖 𝑛1 𝑛2 𝑛3 ⋯ 𝑛𝑘 N
Fréquence 𝑓𝑖 𝑓1 𝑓2 𝑓3 ⋯ 𝑓𝑘 1 ou 100%
L’ensemble des couples (𝑥𝑖 , 𝑛𝑖 )1≤𝑖≤𝑘 est appelée série statistique ou distribution statistique.
Exercice 1
Modalités 𝑥𝑖 0 1 2 3 4 5 6 Total
Effectif 𝑛𝑖 4 9 7 2 5 3 1
Exercice 2
Age (ans) [20, 30[ [30, 40[ [40, 50[ [50,65[ [65-80[ [80-90[
Proportion 7% 20% 17% 34% 16% 6%
1) Reproduire cette série statistique dans un tableau indiquant les fréquences cumulées
croissantes et décroissantes.
2) Quel est la proportion de ménages propriétaires de leur logement ayant moins de 65 ans ?
Ayant au moins 50 ans ?
Pour visualiser le comportement d’une distribution statistique, il est commode d’en faire une
représentation graphique.
Exemple :
35
30 Veuf (ve)
25
20 31%
19%
15
10
5
0
44%
Etat matrimonial
N’importe qu’elle série statistique peut être représentée par de diagramme circulaire ou semi
circulaire, pourvue que le nombre de modalités ne soit pas trop élevé.
Modalités 𝑥𝑖 0 1 2 3 4 5 6 Total
Effectif 𝑛𝑖 4 9 7 2 5 3 1
10
9
8
7
Polygone des effectifs
Effectifs
6
5
4
3
2
1
0
0 1 2 3 4 5 6
Nombre d'enfants a charge
Les deux polygones cumulatifs sont symétriques l’un de l’autre par rapport à l’horizontale
d’ordonnée la moitié de l’effectif total ou 50%. Son abscisse est la valeur du caractère, appelée
médiane, notée Me.
Exemple
Soit la distribution statistique des salaires (en milliers de francs) de l’entreprise X de centaine
de travailleurs.
Interprétation : 65% des salariés perçoivent moins de 40000Fcfa. 15% des salariés perçoivent
au moins 50000Fcfa.
Construction :
Soit les points 𝐴0 (20, 0), 𝐴1 (30, 40), 𝐴2 (40, 65), 𝐴3 (50,85) et 𝐴4 (60,100)
La ligne polygonale passant par 𝐴0 , 𝐴1 , 𝐴2 , 𝐴3 𝑒𝑡𝐴4 est la courbe cumulative croissante de la
distribution.
De même, soit les points 𝐵0 (60, 0), 𝐵1 (50, 15), 𝐵2 (40, 35), 𝐵3 (30, 60) et 𝐵4 (20,100)
La ligne polygonale passant par 𝐵0 , 𝐵1 , 𝐵2 , 𝐵3 𝑒𝑡𝐵4 est la courbe cumulative décroissante de la
distribution.
Les courbes se coupent au point d’ordonnée 50 ou 50% c'est-à-dire la moitié de l’effectif total.
L’abscisse du point d’intersection est appelée Médiane.
I. 3. Indicateurs statistiques
Attention : Si les amplitudes de classe sont inégales on prend comme classe modale, la classe
qui a la fréquence (ou effectif) rectifié(e) ou hauteur la plus grande.
NB : Il existe aussi des cas de série bimodale ou multimodale. Mais en général, le mode est
unique.
Exemples
1) Données discrètes : 8, 11, 7, 10, 13, 12, 10, 11, 10.
10 est le mode.
2) Données reparties par classes :
Interpolation linéaire
Pour une variable quantitative continue, la valeur approchée du mode peut être déterminé en
tenant compte des densités de fréquence des 2 classes adjacentes par la méthode d’interpolation
linéaire suivante.
La classe modale[𝑥𝑖 , 𝑥𝑖+1 [ étant déterminée, le mode 𝑀𝑜 vérifie
𝑀0 − 𝑥𝑖 𝑥𝑖+1 − 𝑀0
=
∆1 ∆2
𝑀0 − 𝑥𝑖 𝑥𝑖+1 − 𝑀0 𝑥𝑖+1 − 𝑥𝑖
= =
∆1 ∆2 ∆1 + ∆2
𝑥𝑖+1 − 𝑥𝑖
𝑀0 = 𝑥𝑖 + ∆1 ( )
∆1 + ∆2
Remarques
Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales, le
𝑥𝑖+1 +𝑥𝑖
mode coïncide avec le centre de la classe modale, alors 𝑀0 = 2
Le mode dépend beaucoup de la répartition en classes.
Le mode correspond également au point d’inflexion de la fonction de répartition F(x).
C’est à dire 𝐹 ′′ (𝑥0 ) = 0
- Le calcul de la médiane d’un ensemble hétérograde direct se fait aussi à partir des effectifs
ou fréquences cumulés. La médiane sera la valeur de la variable qui a un effectif cumulé est
égale à la moitié de l’effectif total note n/2 ou 50% de fréquence cumulée. Si n/2 ne
correspond pas à une valeur de la distribution et est compris entre deux valeurs de la
cumulation, alors la médiane est la valeur supérieure à n/2.
- La médiane peut aussi être calculée dans le cas d’une série à caractère continu en utilisant
la méthode de l’interpolation linéaire, en cherchant la classe contenant le 𝑛𝑒 /2 individu de
l’échantillon.
En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la
position exacte du 𝑛𝑒 /2 individu de la façon suivante par interpolation linéaire :
Supposons n/2 appartient à deux valeurs cumulatives croissantes notées 𝑛𝑖 𝑒𝑡 𝑛𝑗 (𝑛𝑗 > 𝑛𝑖 ) et
(𝑛𝑗 − 𝑛𝑖 ) 𝑒𝑠𝑡 𝑙 ′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓𝑑𝑒 [𝑥𝑖 , 𝑥𝑗 [ alors :
𝑛 𝑛
𝑀𝑒 −𝑥𝑖 −𝑛𝑖 −𝑛𝑖
2 2
=𝑛 ⤇ 𝑀𝑒 = 𝑥𝑖 + (𝑥𝑗 − 𝑥𝑖 ) [𝑛 ]
𝑥𝑗 −𝑥𝑖 𝑗 −𝑛𝑖 𝑗 −𝑛𝑖
Si n/2 appartient à deux valeurs cumulatives décroissantes, notées 𝑛𝑖′ 𝑒𝑡 𝑛𝑗′ (𝑛𝑖′ < 𝑛𝑗′ ) alors
𝑛
−𝑛𝑖′
𝑀𝑒 = 𝑥𝑗 − (𝑥𝑗 − 𝑥𝑖 ) [𝑛2′ −𝑛′ ]
𝑗 𝑖
NB : Les mêmes formules sont utilisables pour les fréquences cumulatives en nombre décimal
ou en %.
Exercice d’application
Distribution statistique des ouvriers d’une entreprise d’après leur salaire horaire (Fcfa)
Salaire horaire [800, 840[ [840, 880[ [880,900[ [900, 920[ [920, 960[
Effectif 𝑛𝑖 10 30 60 72 40
Amplitude 40 40 20 20 40
Hauteur 0,25 0,75 0,75 3,6 1
Eff. Cum 10 40 100 172 212
Eff. Cum 212 202 172 112 40
3.1. 3. Moyennes
La moyenne donne une information sur le total des valeurs mais elle ne décrit pas le
comportement de la série statistique.
NB : La moyenne quadratique joue un très grand rôle dans la statistique contemporaine, car elle
conduira à la notation d’écart type ou standard déviation.
Exercice 3 (A domicile)
1) On dispose du tableau suivant
𝑥𝑖 3 5 10 15 20
𝑛𝑖 6 𝑛2 9 𝑛4 10
3.2.1. Etendue
L’étendue est la différence entre la plus grande valeur et la plus petite valeur de la série (Max
valeur – Min valeur).
3.2.3 Variance
Soit un échantillon de n valeurs observées 𝑥1 , 𝑥2 , … , 𝑥𝑛 d’un caractère quantitatif X et soit 𝑥̅ sa
moyenne observée. On définit la variance ou fluctuation de cette série, le nombre positif ou
nul, notée 𝑺𝟐 𝒐𝒖 𝑽𝒐𝒖 𝝈𝟐 comme la moyenne arithmétique des carrés des écarts à la moyenne.
1
𝑉 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
La formule de la variance observée qui résulte du théorème de Koenig est donc
1
𝑉 = (𝑛 ∑𝑛𝑖=1 𝑥𝑖2 ) − 𝑥̅ 2
D’une manière générale, la variance est la moyenne des carrés des écarts à la moyenne.
1 𝑝 1 𝑝
𝑉 = 𝑛 ∑𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = (𝑛 ∑𝑖=1 𝑛𝑖 𝑥𝑖2 ) − 𝑥̅ 2
𝑝 𝑝
𝑉 = ∑𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 = (∑𝑖=1 𝑓𝑖 𝑥𝑖2 ) − 𝑥̅ 2
Quand on veut estimer une variance d’une variable X à partir d’un échantillon de taille n, on
utilise la variance “corrigée” divisée par n – 1, dont la plupart des logiciels statistiques
l’utilisent.
1 𝑝 𝑛
𝑉𝐶 = 𝑛−1 ∑𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = 𝑉 × 𝑛−1
3.2.4. Écart-type
L’écart-type (lire : sigma) est la racine carrée de la variance :
𝑛 𝑛
𝜎 = √𝑉 ou 𝜎 = √𝑉 𝑛−1 = 𝑉√𝑛−1 de la variance corrigée.
Un écart-type faible correspond à une série concentrée autour de la moyenne.
Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales. Donc il
y a environ :
68 % de la population dans l’intervalle [𝑥̅ ; 𝑥̅ ]
95 % de la population dans l’intervalle [𝑥̅ 2; 𝑥̅ +2]
99% de la population dans l’intervalle [𝑥̅ 3; 𝑥̅ 3]
De courbe de Gauss
3.2.7.1 Quartiles
Pour une série dont les valeurs ont été rangées en ordre croissant, les trois quartiles sont les trois
valeurs du caractère Q1, Q2 et Q3 partageant la série en quatre groupes de même effectif. Le
Q2 n’est autre que la médiane.
Q1 laisse 25% des observations en dessous, Q2 laisse 50% des observations au-dessous et Q3
laisse 75% des observations au-dessous.
On appelle intervalle quartile, l’intervalle noté [Q1; Q3]
On peut déterminer
Q1et Q3 respectivement à partir des valeurs classées N/4 et 3N/4 arrondies à l’unité par
excès.
𝑖 terme+(i+1) terme
Si N/4 ou 3N/4 est un nombre entier i, Q1 ou Q3=
2
Exemple1 : Soit une série statistique de 25 termes :
3,4,4,4,9,9,9,6,6,6,6,6,1,1,10,5,5,5,5,5,5,5,5,7,7
Déterminer l’intervalle quartile de cette série.
3.2.7.2. Déciles
Comme en quartile, pour une série dont le nombre de valeurs est assez important on peut définir
les déciles D1, D2, …, D9 ; c’est un partage en dix parties égales l’effectif total, dont D5 est la
médiane. Dont l'intervalle est [D1 ; D9].
L’intervalle [D1 ; D9] est l'intervalle inter décile, le nombre D9 – D1 est l'écart inter décile et
le nombre (D9 – D1) / D5 est l'écart interquartile relatif.
𝐷
NB : En matière de salaires, le rapport 𝐷9 est un paramètre de dispersion fréquemment utilisé.
1
Exercice 4
Voici les notes de X et Y en statistiques au 1er trimestre.
X 9 12 11 10 13
Y \6 18 11 15 5
La partie centrale de la distribution est représentée par une boîte de largeur arbitraire et de
longueur la distance interquartile, la médiane est tracée à l’intérieur. La boîte rectangle est
complétée par des moustaches correspondant aux valeurs suivantes :
La courbe de Lorenz est toujours inscrite dans le carré [0, 1] × [0, 1]. Cette courbe se caractérise
par les traits suivants :
Les points extrêmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reçoit 0 %
de la masse salariale et 100 % de la population reçoit 100 % de la masse salariale.
L’indice de Gini peut être interprété graphiquement. En effet, il correspond au double de l’aire
de concentration notée S.
𝐼𝐺 = 2𝑆 ∈ [0,1] et sans dimension
Pour calculer cette aire de concentration, on va tout d’abord calculer l’aire sous la courbe de
concentration qui peut se calculer avec une méthode d’approximation fréquemment utilisée, qui
est la méthode de trapèze.
(𝑝𝑖+1 − 𝑝𝑖 )(𝑞𝑖+1 + 𝑞𝑖 )
On calcule l’aire du 𝑖 𝑒𝑚𝑒 trapèze 𝑍𝑖 = 𝑎𝑣𝑒𝑧 𝑍 = ∑ 𝑍𝑖
2
Comme la surface du carré est 1, On en déduit que l’aire de concentration vaut
S=1/2 - Z alors 𝐼𝐺 = 2𝑆 = 1 − 2𝑍 ∈ [0,1]
NB : l’indice de Gini constitue donc une bonne mesure de l'inégalité. Il permet de mesurer les
inégalités scolaires, les inégalités de statut, les inégalités de salaires, etc. On l’exprime parfois
en % en parlant de coefficient de Gini.
5.2. Médiale
Elle n'est pas le salaire gagné par l'employé qui est "au milieu de la file", mais le salaire gagné
par le salarié qui permet d'atteindre la moitié de la masse salariale totale
Exercice d’application :
Dans une entreprise, on a relevé la répartition des salaires mensuels en euro entre les différents
employés. Les résultats de l’enquête sont donnés dans le tableau suivant.
En utilisant les fréquences relatives en nombre décimal, Calculer l’indice de Gini par la
méthode des trapèzes
Par exemple, le tableau montre que 55% des individus les moins bien rémunérés perçoivent
40,3% du total des salaires.
/ FIN CHAPITRE I