Académique Documents
Professionnel Documents
Culture Documents
Chapitre 2
Chapitre 2
1
2
.
.
.
.
N
Pour analyser ces données, on commence par analyser séparément
les variables. C’est la description unidimensionnelle, phase préliminaire
de toute étude statistique.
Cette description utilise des tableaux, des graphiques et des
caractéristiques numériques.
I. Tableaux statistiques 1. Tableaux statistiques
RAPPEL
- L’effectif de la modalité 𝐱 𝒊 = 𝑛𝑖
𝑛𝑖 𝑘
- La fréquence associée à 𝐱 𝒊 , 𝒇𝒊 = avec N = 𝑖=1 𝑛𝑖
𝑁
Elle correspond à la proportion d’individus présentant la même modalité
𝒇𝒊 ∈ [0; 1].
Pour des raisons de commodité, on exprime souvent les fréquences en
pourcentage.
k
Rmq. = i=1 𝑓𝑖 =1
I. Tableaux statistiques 1. Tableaux statistiques
DEFINITIONS
𝑖 𝑵𝑖
𝑭𝒊 = 𝑓 1
=
𝑗=1 𝑗 𝑁
𝑖
𝑗=1 𝑛𝑗 =
𝑁
Rmq.: Les effectifs cumulés et les fréquences cumulées ne concernent et ne
sont définis que pour un caractère quantitatif.
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Après la collecte des données statistiques, la première étape de l’analyse
statistique consiste à les présenter sous forme de tableaux. Chaque tableau
associé à une variable X doit comporter trois principales rubriques:
- Les modalités de la variable étudiée, 𝐱 𝒊
- Les effectifs 𝑛𝑖 correspondants à chaque modalité.
- Les fréquences 𝒇𝒊 relatives à chaque modalité 𝐱 𝒊 ,
Rmq. : Il faut veiller à indiquer le titre du tableau qui contient l’information nécessaire
à sa compréhension. Ex.: « Répartition des ménages par catégorie socio-
professionnelle (CSP) selon la CSP du chef de ménage, par commune de la région
Rabat Salé Kénitra au recensement de 1999 ».
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Variable qualitative :
Exemple1: On considère un groupe de 15 étudiants pour lesquels on a
observé la variable ‘mention obtenue au baccalauréat’.
TABLEAU STATISTIQUE
Variable qualitative :
Exemple1: Individu Mention
au bac
1 B
2 AB
Répartition des étudiants selon la mention obtenue
3 AB
4 P
Mention Effectif Fréquence Fréquence en
5 B
pourcentage
6 B
P 4 0,27=4/15 27% 7 TB
AB 4 0,27=4/15 27% 8 P
9 B
B 5 0,33=5/15 33%
10 AB
TB 2 0,13=2/15 13% 11 TB
12 P
13 B
14 AB
15 P
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Variable quantitative discrète :
Exemple 2: L’étude porte sur le nombre d’enfants à charge d’une population
de 24 personnes employées par une entreprise. Elle nous livre les résultats
suivants :
Individu Nombre Individu Nombre
d’enfants d’enfants
1 5 13 3
2 2 14 3
3 2 15 1
4 3 16 0
5 0 17 0
6 0 18 0
7 1 19 0
8 1 20 2
9 2 21 1
10 2 22 4
11 2 23 2
12 3 24 0
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Variable quantitative discrète :
Exemple 2:
Répartition des employés
La notion de fréquence cumulée selon le nombre d’enfants à charge
permet de répondre à la question:
« combien d’employés ont plus de 2 𝐱𝒊 ni 𝑵𝒊 𝑭𝒊𝒅 𝒇𝒊 𝑭𝒊𝒄
enfants » ou « combien d’employés 0 7 7 100% 29% 29%
ont plus de 4 enfants ». +
1 4 11 71% 17% 46%
2 7 18 54% 29% 75%
75% des employés ont 2 enfants et
moins. 3 4 22 25% 17% 92%
25% des employés ont 3 enfants et 4 1 23 8% 4% 96%
plus. 5 1 24 4% 4% 100%
Correspond Correspond
à la notion à la notion
« plus de » « moins de »
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Variable quantitative continue :
TABLEAU STATISTIQUE
Variable quantitative continue :
Exemple 3: Le tableau suivant est extrait d’une base de données sur le
comportement des consommateurs d’une région. Il renseigne sur plusieurs
caractères dont l’âge. Construire la distribution statistique sous forme de
tableau.
Individu Âge Individu Âge
1 25 11 34
2 35 12 27
3 26 13 31
4 38 14 38
5 34 15 64
6 33 16 66
7 41 17 71
8 64 18 70
9 52 19 76
10 39 20 25
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Variable quantitative continue :
Exemple 2:
Pour simplifier la construction du tableau, nous regroupons la variable en
classes. Le nombre de classes est fixé à 4.
Les bornes des classes correspondent à leurs limites inférieures et
supérieures.
1ère classe : de 20 à moins de 40 ans, elle correspond à l’intervalle [20,40[.
2ème classe : de 40 à moins de 60 ans, elle correspond à l’intervalle [40,60[.
3ème classe : de 60 à moins de 75 ans, elle correspond à l’intervalle [60,75[.
4ème classe : 75 ans et plus, elle correspond à l’intervalle [75, plus de 75 ans[.
I. Tableaux statistiques 1. Tableaux statistiques
TABLEAU STATISTIQUE
Variable quantitative continue :
Exemple 2:
Les amplitudes des classes:
1ère classe : [20,40[, 𝒂1 = 40 − 20 = 20
2ème classe : [40,60[, 𝒂2 = 60 − 40 = 20
3ème classe : [60,75[ , 𝒂3 = 75 − 60 = 15
4ème classe : [75, plus de 75 ans[, pas d’amplitude. Il s’agit d’une classe infinie
Âge Effectifs 𝑵𝒊 𝒇𝒊 𝑭𝒊
𝐱𝒊 𝒏𝒊
[20,40[ 12 12 60% 60%
[40,60[ 2 14 10% 70%
[60,75[ 5 19 25% 95%
75 ans et plus 1 20 5% 100%
Total 20
II. Représentations graphiques 1. Définition
REPRÉSENTATIONS GRAPHIQUES
Définition : La représentation graphique d’un ensemble de données consiste
à produire une représentation visuelle de celles-ci pour en faciliter l’analyse
et l’interprétation. Les représentations graphiques diffèrent selon le type de
variable.
REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Les diagrammes les plus utilisés pour représenter une variable qualitative sont:
REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Diagramme en tuyaux d’orgues ou diagramme à bandes
REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Exemple : On désire étudier la répartition de 22.000 actifs selon leur
catégorie socio-professionnelle.
REPRESENTATIONS GRAPHIQUES
Graphique en tuyaux d’orgues:
8000
7000
𝐱𝒊 𝑛𝑖 𝒇𝒊
6000
Ouvriers 5500 25%
5000
Employés 6600 30%
4000
Cadres 2640 12%
3000
Autres 7260 33%
2000
Total 22000 100%
1000
La catégorie « cadres » 0
représente le plus petit effectif Ouvriers Employés Cadres Autres
REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Diagramme en secteurs ou camembert
𝒏𝒊
𝜶𝒊 = ∗ 𝟑𝟔𝟎 = 𝒇𝒊 ∗ 𝟑𝟔𝟎
𝑵
Autres Ouvriers
33% 25%
Employé
Cadres s
12% 30%
II. Représentations graphiques 1. Variable qualitative
REPRESENTATIONS GRAPHIQUES
Diagramme en secteurs (camemberts)
𝐱𝒊 𝑛𝑖 𝒇𝒊
Ouvriers 5500 25% Ouvriers
Autres 25%
Employés 6600 30% 33%
Cadres Employés
12% 30%
II.Représentations graphiques 2. Variable quantitative discrète
REPRESENTATIONS GRAPHIQUES
Variable quantitative discrète :
Le diagramme en bâtons est la représentation graphique d’une distribution
statistique discrète (𝐱 𝒊 ,𝒏𝒊 ) ou (𝐱 𝒊 ,𝒇𝒊 ).
REPRESENTATIONS GRAPHIQUES
Variable qualitative discrète :
Exemple : On désire étudier le nombre de personnes présentes dans un
véhicules à partir d’un échantillon de 400 voitures.
REPRESENTATION GRAPHIQUE
Diagramme en bâtons
180
160
𝐱𝒊 𝑛𝑖 𝒇𝒊
140
1 40 10% 120
80
3 160 40%
60
4 100 25% 40
20
Total 400 100%
0
1 2 3 4
II. Représentations graphiques 3. Variable continue
REPRESENTATIONS GRAPHIQUES
Variable continue :
Dans le cas continu, le diagramme de référence est l’histogramme. A chaque
classe de la variable, on fait correspondre la surface d’un rectangle ayant pour
base l’amplitude de la classe.
REPRESENTATION GRAPHIQUE
Exemple (cas de classes d’amplitudes égales) : Une compagnie de taxis
s’intéresse au kilométrage effectué par ses véhicules. A cet effet, elle a relevé
les statistiques ci-dessous pour une matinée de travail.
REPRESENTATION GRAPHIQUE
Histogramme fréquentiel (cas de classes d’amplitudes égales) :
L'histogramme est un ensemble de rectangles juxtaposés dont la base
est déterminée par les extrémités de classes et la hauteur est
proportionnelle à la fréquence ou à l’effectif.
40,00%
30,00%
20,00%
10,00%
0,00%
10 20 30 40 50 60 70
II. Représentations graphiques 3.Variable continue
REPRESENTATION GRAPHIQUE
Exemple (cas de classes d’amplitudes inégales) : On reprend le même
exemple que précédemment, mais en regroupant les deux dernières classes.
REPRESENTATION GRAPHIQUE
Histogramme fréquentiel (cas de classes d’amplitudes inégales) :
On repère la plus petite amplitude appelée « amplitude unité » que l’on note
𝒂. Ici, l’amplitude unité est égale à 10. On note 𝒉𝒊 la hauteur corrigée des
colonnes de l’histogramme. On reporte les valeurs de 𝒇𝒊 ou 𝒏𝒊
correspondant aux amplitudes unités et on divise 𝒇𝒊 ou 𝒏𝒊 par le rapport des
amplitudes (𝒂𝒊 /𝒂) quand elles ne sont pas égales à l’amplitude unité.
20
Ici, l’amplitude de 𝑪5 est 20, donc on divise 𝒇5 par 10 = 2
D’où 𝒉5 = 16,92 ÷ 2 = 8,46
𝐱𝒊 𝑛𝑖 𝒇𝒊 (%) 𝒂𝒊 /𝒂 𝒉𝒊
[10-20[ 9 13,85 1 13,85
[20-30[ 13 20,00 1 20,00
[30-40[ 22 33,85 1 33,85
[40-50[ 10 15,38 1 15,38
[50-70[ 11 16,92 2 8,46
Total 65 100
II. Représentations graphiques 2.Variable quantitative continue
REPRESENTATION GRAPHIQUE
Histogramme fréquentiel (cas de classes d’amplitudes inégales) :
25
20
15
10
5
0 10 20 30 40 50 70
II. Représentations graphiques 3.Variable continue
REPRESENTATION GRAPHIQUE
Courbe des fréquences cumulées:
𝐱𝒊 𝒇𝒊 (%) Fi (%)
[10-20[ 13,85 13,85
[20-30[ 20,00 33,85
[30-40[ 33,85 67,70
[40-50[ 15,38 83,08
[50-70[ 16,92 100
II. Représentations graphiques 4. Exercices
EXERCICE :
EXERCICE :
III. Indicateurs statistiques
LE MODE
Définition : Le mode d’une distribution statistique est la valeur de la variable
pour laquelle l’effectif ou la fréquence est le plus élevé. C’est donc la valeur qui
se rencontre le plus fréquemment : on l’appelle aussi valeur dominante.
Notation: 𝐗 m
Remarques :
Lorsqu’une série statistique possède un seul mode, on dit que la série ou la
distribution est unimodale; lorsqu'elle en possède deux, on dit qu’elle est
bimodale et lorsqu’elle en possède plusieurs, on dit qu’elle est multimodale.
III. Indicateurs statistiques 1. Caractéristiques de position
LE MODE
Cas d’une variable discrète:
Le mode correspond à la modalité présentant le plus grand effectif (ou la plus
grande fréquence).
LE MODE
Cas d’une variable discrète:
Exemple : Quel est le mode de cette série ?
LE MODE
Exemple 1: Quel est le mode de cette série ?
5
4 4
4
2
1 1
1
0
0 1 2 3 4 5
III. Indicateurs statistiques 1. Caractéristiques de position
LE MODE
Cas d’une variable continue:
Deux situations se présentent:
1. Les amplitudes de classe sont égales:
On définit « la classe modale » comme la classe du tableau ou de
l’histogramme correspondant à la fréquence maximum.
Exemple:
20
𝐱𝒊 𝐧𝒊
15
classe
[10;20[ 5
modale 10
[20;30[ 10
[30;40[ 15 5
[40;50[ 5 0 10
20 30 40
III. Indicateurs statistiques 1. Caractéristiques de position
𝐱𝒊 𝐧𝒊 𝒂𝒊 𝒂𝒊 /𝒂 𝒉𝒊
[10;20[ 10 10 1 10
3. Correction de l’effectif
[20;30[ 40 10 1 40 en divisant chaque 𝐧𝒊 par
[30;50[ 220 20 2 110 le rapport d’amplitude
correspondant
[50;90[ 240 40 4 60
[90;100[ 10 10 1 10
La classe modale est donc [30;50[. Elle correspond à l’effectif corrigé de 110 (et non
[50;90[, comme on aurait pu l’imaginer en n’effectuant pas les corrections des
effectifs).
III. Indicateurs statistiques 1. Caractéristiques de position
LE MODE :
Cas d’une variable continue:
Deux situations se présentent:
2. Les amplitudes de classe sont inégales:
Le calcul de la classe modale se fait en trois étapes:
Exemple:
120
𝐱𝒊 𝐧𝒊 𝒉𝒊
100
[10;20[ 10 10
80
[20;30[ 40 40 60
[30;50[ 220 110 40
[50;90[ 240 60 20
[90;100[ 10 10 0
10 20 30 50 90 100
III. Indicateurs statistiques 1. Caractéristiques de position
LA MÉDIANE
Définition : La médiane est la valeur de la série (i.e. la modalité) qui la partage
en deux sous-ensembles de même effectif (ou de même fréquence).
Notation: 𝐌e
LA MÉDIANE
Exemple : (Si N=2n+1)
Soit la distribution suivante du nombre d’enfants par foyer avec 811 foyers
interrogés:
Nbre Effectif
On a 811 = 2*405+1 d'enfants Effectif cumulé
donc n=405, et le nombre d’enfants croissant
obtenue par le foyer 406 partage la population 0 291 291
1 170 461
en deux sous -groupes de même effectif.
2 155 616
La médiane est donc le nombre d’enfants
3 95 711
que possède le foyer 406, soit 1. 4 43 754
D’où : 𝐌e = 1 5 27 781
6 20 801
7 10 811
III. Indicateurs statistiques 1. Caractéristiques de position
LA MÉDIANE
Exemple : (Si N=2n)
Soit la distribution suivante du nombre d’enfants par foyer avec 24 foyers
interrogés:
D’où : Me = (2+2)/2 =2 1 4 11
2 7 18
3 4 22
4 1 23
5 1 24
III. Indicateurs statistiques 1. Caractéristiques de position
LA MÉDIANE
Cas d’une variable continue:
Les fréquences cumulées (ou les effectifs cumulés) permettent de déterminer
la classe [ 𝒆𝒊 ; 𝒆𝒊+1 [ où se situe la médiane. La classe ainsi obtenue est appelée
classe médiane.
Une fois qu’on identifie la classe médiane, on calcule la médiane par
interpolation linéaire.
Interpolation linéaire
Formule générale :
Soient [ 𝒆𝒊 ; 𝒆𝒊+1 [ la classe médiane et Fi et Fi+1 les fréquences cumulées
évaluées en 𝒆𝒊 et 𝒆𝒊+1 , alors :
50% − 𝐹𝑖 50% − 𝐹𝑖
𝑀𝑒 = 𝑒𝑖 + × 𝑒𝑖+1 − 𝑒𝑖 = 𝑒𝑖 + × 𝑎𝑖
𝐹𝑖+1 − 𝐹𝑖 𝐹𝑖+1 − 𝐹𝑖
III. Indicateurs statistiques 1. Caractéristiques de position
LA MÉDIANE
Exemple : Soit la distribution statistique suivante du revenu des
ménages:
𝒙𝒊 (en 𝒏𝒊 fi Fi
euros)
[0-1600[ 9 45% 45%
[1600-2400[ 7 35% 80%
Total 20 100%
III. Indicateurs statistiques 1. Caractéristiques de position
𝒙𝒊 (en 𝒏𝒊 fi Fi
euros)
[0-1600[ 9 45% 45%
[1600-2400[ 7 35% 80%
[2400,3200[ 4 20% 100%
Total 20 100%
LA MOYENNE ARITHMETIQUE
Définition : Soient 𝒙𝒊 (i = 1; : : : ; k) les modalités d'une série statistique, et 𝒏𝒊 (i
= 1; : : : ; k) les effectifs correspondants. La moyenne arithmétique pondérée
notée 𝑋 est égale à la somme du produit des valeurs de la variable par leurs
fréquences :
1 𝑘 𝑘 𝑛𝑖
𝑋= 𝑖=1 𝑛𝑖 𝑥𝑖 = 𝑖=1 𝑓𝑖 𝑥𝑖 car 𝑓𝑖 =
𝑁 𝑁
Remarques :
La moyenne est une valeur qui se présente comme si toutes les observations
lui étaient égales. Pour une variable continue, les données sont regroupées en
classes et les 𝒙𝒊 ne sont en général pas observées. Ces valeurs sont alors
remplacées par les centres de classes 𝑪𝒊 (i = 1; : : : ; k). Dans le cas où l’une
des bornes n’est pas définie, il faut l’estimer par le bon sens ou la
connaissance du phénomène. La classe d’âge « plus de 60 ans », pourra être
estimée par la classe [60 ans; 90 ans[ et correspond ainsi à un centre de
classe de 75 ans. Les risques d’erreurs sont minimisés par le fait que
généralement, les classes extrêmes ont un effectif plus réduit que les autres.
La moyenne prend en compte l’ensemble des valeurs (contrairement au mode
et à la médiane) et est sensible aux valeurs extrêmes.
III. Indicateurs statistiques 1. Caractéristiques de position
LA MOYENNE ARITHMETIQUE
Exemple 1: L’entreprise Sigma compte 30 ouvriers salariés à 1000
dhs, 15 employés salariés à 1200 dhs et 5 cadres salariés à 1500 dhs .
𝐱𝒊 𝑛𝑖 𝒇𝒊
1000 30 0,6
1200 15 0,3
1500 5 0,1
Total 50
LA MOYENNE ARITHMETIQUE
Exemple : Soit la distribution statistique suivante du revenu de 20 ménages:
𝐱𝒊 𝑪𝑖 𝒏i fi Fi
4
𝐺= 82 ∗ 122 = 9,8 xi ni
8 2
12 2
III. Indicateurs statistiques 1. Caractéristiques de position
LA MOYENNE HARMONIQUE
Définition : La moyenne harmonique est égale à l'inverse de la moyenne
arithmétique des inverses des observations.. On l’exprime souvent par son
inverse (1/H) pour faire apparaitre sa logique de construction semblable à celle
de la moyenne arithmétique.
𝑘
1 𝑛𝑖
1/𝐻 =
𝑁 𝑥𝑖
𝑖=1
Remarque : Son usage s'impose lorsque la variable statistique est un quotient
(coût moyen, vitesse moyenne, etc.)
Exemple : Sur un trajet on fait 60 km/h à l’aller et 30km/h au retour. Quelle est
la vitesse moyenne?
Ce n’est pas 90/2=45 (moyenne arithmétique). C’est la moyenne des rapports
(une heure pour x km).
1 1 1 1 1
= + = d′ où H = 40km/h
𝐻 2 30 60 40
III. Indicateurs statistiques 1. Caractéristiques de position
LA MOYENNE QUADRATIQUE
Définition : La moyenne quadratique est la racine carrée de la moyenne
arithmétique des carrés des valeurs. On l’exprime souvent par son carré (Q2)
𝑘
1
Q2 = 𝑛𝑖𝑥𝑖 2
𝑁
𝑖=1
Remarques : Elle est utilisée, notamment, en mathématique pour calculer la
superficie moyenne d’un ensemble de parcelles par exemple.
LES QUANTILES
Définition : La notion de quantile d’ordre 𝛼%, généralise la notion de médiane.
Le quantile d’ordre 𝛼 d’une variable quantitative X, est la valeur 𝒙𝛼 notée aussi
𝑄𝛼 de cette variable qui scinde la population en deux sous-populations telles
que dans la première on a (𝛼 %)*n individus et dans la seconde (100-𝛼)*n
individus.
Remarque :
- 𝒙50% = Me.
Les calculs des quantiles sont analogues à ceux de la médiane.
Pour des données regroupées en classes, on a : si 𝒙𝛼 ∈ ]ei+; ei+1[
𝛼 − 𝐹𝑖
𝒙𝛼 = 𝑒𝑖 + ∗ (𝑒𝑖+1 − 𝑒𝑖 )
𝐹𝑖+1 − 𝐹𝑖
III. Indicateurs statistiques 1. Caractéristiques de position
LES QUARTILES
Définition : Les quartiles de X sont ses trois quantiles 𝒙25%, 𝒙50% et 𝒙75%. Ce
sont les valeurs (𝒙𝑖 ) de la variable qui partagent la série en quatre sous-
ensembles égaux. Ils sont au nombre de 3.
Q1 =𝒙25%, s’appelle le premier quartile ; un quart des valeurs prises
par X sont inférieures ou égales à Q1 (ou bien 25% des individus ont
une modalité inférieure à Q1).
Q2 = 𝒙50% = Me est la médiane.
Q3 = 𝒙75% s’appelle le troisième quartile ; un quart des valeurs prises
par X sont inférieures ou égales à Q3 (ou bien 75% des individus ont
une modalité inférieure à Q1).
Le calcul se fait comme pour la médiane, en construisant la colonne des
effectifs cumulés ou celle des fréquences cumulées
III. Indicateurs statistiques 1. Caractéristiques de position
LES DECILES
Définition : Les déciles sont les valeurs (𝒙𝑖) de la variable qui partagent la
série en 10 sous-ensembles égaux. Ils sont au nombre de 9. les intervalles
qu’ils définissent contiennent chacun 10% des observations
D1 = 𝒙𝟏𝟎%, s’appelle le premier décile ; un dixième des valeurs prises
par X sont inférieures ou égales à D1 (ou bien D1 laisse 10% des
observations avant et 90% après).
…
D9 = 𝒙𝟗𝟎% s’appelle le 9ème décile ; neuf valeurs sur 10 prises par X
sont inférieures ou égales à D9 (ou bien D9 laisse 10% des
observations avant et 90% après).
III. Indicateurs statistiques 1. Caractéristiques de position
LES CENTILES
Définition : Les centiles sont les valeurs (𝒙𝑖) de la variable qui partagent la
série en 100 sous-ensembles égaux. Ils sont au nombre de 99. les intervalles
qu’ils définissent contiennent chacun 10% des observations
On les note : C1, C2,…, C100
III. Indicateurs statistiques 1. Caractéristiques de position
LES QUANTILES
Exemple : Calculer le premier quartile de la série statistique suivante:
On doit donc chercher la valeur de la variable pour laquelle un quart des
observations (25%) lui sont inférieures ou égales et trois quarts des
observations (75%) lui sont supérieures ou égales.
𝛼−𝐹0
𝑄1 ∈[0; 1600[ et 𝑄1 = 𝑒0 + ∗ (𝑒1 − 𝑒0 )
𝐹1 −𝐹0
25%−0
𝑄1 = 0 + x (1600-0) = 888,89 euros
45%−0
25% des individus ont un salaire inférieur ou égal à 888,89 euros
III. Indicateurs statistiques 2. Caractéristiques de dispersion
L’ETENDUE
Définition : L’étendue est la différence entre la plus grande et la plus petite des
valeurs observées de la variable. C’est la différence entre les deux valeurs
extrêmes et c’est la manière la plus simple de mesurer la dispersion.
Exemple: On pourra dire des notes d’un examen qu’elles varient de 2/20
à18/20
III. Indicateurs statistiques 2. Caractéristiques de dispersion
INTERVALLES INTERQUANTILES
Les quantiles ont été définis au § 1. On s’intéresse ici aux intervalles qu’ils
déterminent sur la série. Ces intervalles sont des indicateurs de dispersion
autour de la médiane.
INTERVALLES INTERQUANTILES
1
𝑋 = 10 𝑒𝑋 = 9 ( 7 − 10 + 8 − 10 + 9 − 10 + 10 − 10 + 10 − 10 +
10 − 10 + 11 − 10 + 12 − 10 + 13 − 10 )
= 1,3
L'écart absolu moyen de la notation est donc de 1,3, ce qui signifie que les
notes s'écartent en moyenne de 1,3 points de la moyenne de la classe. Il n'y a
donc pas, en moyenne, de gros écarts à la moyenne.
III. Indicateurs statistiques 2. Caractéristiques de dispersion
VARIANCE ET ECART-TYPE
Introduction :
La variance et l’écart-type sont des paramètres qui indiquent la dispersion des
données par rapport à la moyenne. Ils reposent sur le calcul de la différence
moyenne (ou écart moyen) entre chaque valeur de la variable et la moyenne
arithmétique de ces valeurs.
III. Indicateurs statistiques 2. Caractéristiques de dispersion
VARIANCE
Définition :
Soit S une série statistiques telles que 𝑥1 , 𝑥2 , … , 𝑥𝑝 sont les p valeurs de cette
série, et 𝑛1 , 𝑛2 , … , 𝑛𝑝 , les effectifs associés à ces valeurs.
Soit N = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑝 l'effectif total.
La variance de cette série statistique est la moyenne des carrés des écarts à la
moyenne. Ce nombre V(x), vaut donc :
2 2
𝑛1 𝑥1 − 𝑥 + 𝑛2 𝑥2 − 𝑥 2 + ⋯ + 𝑛𝑝 𝑥𝑝 − 𝑥
V(x) =
𝑛1 +𝑛2 + ⋯ + 𝑛𝑝
p
1
V x = ni(xi − X)2
N
i=1
III. Indicateurs statistiques 2. Caractéristiques de dispersion
VARIANCE
Si l’on développe puis simplifie la formule de la définition, on obtient la formule
de Koenig:
𝑝
1
𝑉 𝑥 = 𝑛𝑖𝑥𝑖2 − 𝑋 2
𝑁
𝑖=1
Cette formule est plus simple et rapide à mettre en œuvre que la formule de
définition.
Plus la valeur de la variance est élevée, plus les écarts entre les valeurs de la
variable et la moyenne sont grands, donc plus la dispersion autour de la
moyenne est grande.
Remarque:
Si les valeurs de la série sont regroupées en intervalles, on utilisera dans les
définitions suivantes, le centre des intervalles pour le calcul.
III. Indicateurs statistiques 2. Caractéristiques de dispersion
ECART-TYPE
La variance est une moyenne d’écarts élevés au carré; l’unité dans laquelle elle
s’exprime est donc le carré de l’unité de la variable. Sa valeur n’est donc pas
interprétable directement. En revanche, en calculant la racine carrée de la
variance, on obtient une valeur dont la signification concrète est simple. Cet
écart moyen se nomme écart-type.
Définition :
L’écart-type d’une série statistique, noté 𝜎(𝑥)est la racine carrée de la variance
𝜎(𝑥)= 𝑉(𝑥)
Plus l’écart-type est faible, plus les valeurs de la variable sont proches de 𝑋, et
plus la moyenne est représentative de l’ensemble de valeurs de la variable.
Plus il est élevé, moins la moyenne arithmétique est pertinente pour résumer
l’ensemble des données. Il est donc indispensable de compléter le calcul
de la moyenne par celui de l’écart-type.
III. Indicateurs statistiques 2. Caractéristiques de dispersion
VARIANCE ET ECART-TYPE
Exemple :
On considère les résultats obtenus par 2 classes de 25 élèves à un examen de
Statistique. Les résultats obtenus par les étudiants sont les suivants :
Classe 1 Classe 2
Note /20 xi Effectif ni Note/20 xi Effectif ni
8 5 0 5
9 5 5 5
10 5 10 5
11 5 15 5
12 5 20 5
Ces 2 classes ont la même moyenne à savoir 10/20. Cependant, il est clair que
les 2 classes sont très différentes. En effet, on peut le montrer en calculant
pour chaque classe, la variance des deux séries puis l’écart-type.
III. Indicateurs statistiques 2. Caractéristiques de dispersion
VARIANCE ET ECART-TYPE
Exemple :
Après calcul, on trouve les valeurs de variance suivantes :
L’écart moyen entre une note du groupe 1 et la note moyenne de ce groupe est
de 1,14 points. Tandis que pour le groupe 2, l’écart moyen entre une note de ce
groupe et la note moyenne est de 7,07 points
La dispersion autour de la moyenne des notes du groupe 2 est donc beaucoup
plus importante que celle du groupe 1. La note moyenne de 10 est donc plus
représentative de l’ensemble des notes dans le groupe1 que dans le groupe 2.
III. Indicateurs statistiques 2. Caractéristiques de dispersion
LE COEFFICIENT DE VARIATION
𝑋 et 𝜎 sont des grandeurs de même espèce que la variable étudiée. Si 𝑥𝑖 est
une longueur en mètres 𝑋 et 𝜎 sont exprimés en mètres. Le coefficient de
variation 𝐶𝑣 qui est le rapport de l'écart-type à la moyenne est un indicateur de
dispersion sans dimension qui est utilisé à la place de l’écart-type dans deux
cas:
- Cas 1: lorsqu’on veut comparer la dispersion de deux séries dont les
observations ne sont pas exprimées dans la même unité (par exemple : l’écart
des salaires en France et aux Etats-Unis demande qu’on compare des francs
et des dollars).
- Cas 2: lorsqu’on veut comparer la dispersion de deux séries exprimées dans
la même unité mais dont les ordres de grandeur sont très différents (exemple:
production de blé en France et production de blé mondiale).
Pour supprimer à la fois, l’effet d’unité et l’effet d’ordre de grandeur, on utilise le
coefficient de variation :
𝜎(𝑥)
𝐶𝑣 =
𝑋
𝐶𝑣 est souvent exprimé en pourcentage.
III.Indicateurs statistiques 3. Caractéristiques de concentration
Introduction :
COURBE DE LORENTZ
Exemple :
On étudie les salaires de 50 employés d’une entreprise :
xi ci ni fi Fi ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
COURBE DE LORENTZ
xi ci ni fi Fi Ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
III.Indicateurs statistiques 3.Caractéristiques de concentration
COURBE DE LORENTZ
INDICE DE GINI
xi ci ni fi Fi Ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
Définition : La médiale est la médiane de la série masse associée. Dans notre
exemple
50% − 19,1%
𝑀é𝑑𝑖𝑎𝑙𝑒 = 1200 + ∗ 1800 − 1200 = 1548
53,2% − 19,1%
Les salaries recevant moins de 1548 euros représentent 50% de la masse
salariale.
𝑀é𝑑𝑖𝑎𝑙𝑒−𝑀é𝑑𝑖𝑎𝑛𝑒
Mesure de concentration ∆= >=0
𝐸𝑡𝑒𝑛𝑑𝑢𝑒
∆ petit = faible concentration, ∆ grand= grande concentration.
Ici, on peut vérifier que ∆ = (1548 /1440)=(2100 /600) = 7,2%.
III.Indicateurs statistiques 3.Caractéristiques de concentration
MEDIALE
Exemple : On reprend l’exemple précédent
xi ci ni fi Fi Ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
Définition : La médiale est la médiane de la série masse associée. Dans notre
exemple
50% − 19,1%
𝑀é𝑑𝑖𝑎𝑙𝑒 = 1200 + ∗ 1800 − 1200 = 1548
53,2% − 19,1%
Les salaries recevant moins de 1548 euros représentent 50% de la masse
salariale.
𝑀é𝑑𝑖𝑎𝑙𝑒−𝑀é𝑑𝑖𝑎𝑛𝑒
Mesure de concentration ∆= >=0
𝐸𝑡𝑒𝑛𝑑𝑢𝑒
∆ petit = faible concentration, ∆ grand= grande concentration.
Ici, on peut vérifier que ∆ = (1548 /1440)=(2100 /600) = 7,2%.