Vous êtes sur la page 1sur 76

Chapitre 2

Statistique descriptive univariée


Données brutes relatives à une population de N individus étudiée selon
p caractères.
Variables X1 X2 …………………………………………. Xp
Individus

1
2
.
.
.
.
N
Pour analyser ces données, on commence par analyser séparément
les variables. C’est la description unidimensionnelle, phase préliminaire
de toute étude statistique.
Cette description utilise des tableaux, des graphiques et des
caractéristiques numériques.
I. Tableaux statistiques 1. Tableaux statistiques

 RAPPEL

Soit k le nombre de modalités 𝐱 𝒊 de la variable X (𝒊 =1,…..,k)

- L’effectif de la modalité 𝐱 𝒊 = 𝑛𝑖
𝑛𝑖 𝑘
- La fréquence associée à 𝐱 𝒊 , 𝒇𝒊 = avec N = 𝑖=1 𝑛𝑖
𝑁
Elle correspond à la proportion d’individus présentant la même modalité

𝒇𝒊 ∈ [0; 1].
Pour des raisons de commodité, on exprime souvent les fréquences en
pourcentage.

k
Rmq. = i=1 𝑓𝑖 =1
I. Tableaux statistiques 1. Tableaux statistiques

 DEFINITIONS

- L’effectif cumulé croissant associé à 𝐱 𝒊, , noté 𝑵𝒊 , correspond au nombre


d’individus de la population dont la valeur de la variable X est inférieure à 𝐱 𝒊 .

- La fréquence cumulée croissante, notée 𝑭𝒊 , correspond à la proportion des


individus de la population dont la valeur de la variable X est inférieure à 𝐱 𝒊 :

𝑖 𝑵𝑖
𝑭𝒊 = 𝑓 1
=
𝑗=1 𝑗 𝑁
𝑖
𝑗=1 𝑛𝑗 =
𝑁
Rmq.: Les effectifs cumulés et les fréquences cumulées ne concernent et ne
sont définis que pour un caractère quantitatif.
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Après la collecte des données statistiques, la première étape de l’analyse
statistique consiste à les présenter sous forme de tableaux. Chaque tableau
associé à une variable X doit comporter trois principales rubriques:
- Les modalités de la variable étudiée, 𝐱 𝒊
- Les effectifs 𝑛𝑖 correspondants à chaque modalité.
- Les fréquences 𝒇𝒊 relatives à chaque modalité 𝐱 𝒊 ,

Individu Modalité 𝐱 𝒊 Modalité 𝐱 𝒊 Effectif 𝒏𝒊 Fréquence 𝒇𝒊

Tableau brut Tableau statistique

Rmq. : Il faut veiller à indiquer le titre du tableau qui contient l’information nécessaire
à sa compréhension. Ex.: « Répartition des ménages par catégorie socio-
professionnelle (CSP) selon la CSP du chef de ménage, par commune de la région
Rabat Salé Kénitra au recensement de 1999 ».
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable qualitative :
Exemple1: On considère un groupe de 15 étudiants pour lesquels on a
observé la variable ‘mention obtenue au baccalauréat’.

Individu Mention au bac


1 B
2 AB
3 AB
4 P
5 B
6 B
7 TB
8 P
9 B
10 AB
11 TB
12 P
13 B
14 AB
15 P
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable qualitative :
Exemple1: Individu Mention
au bac
1 B
2 AB
Répartition des étudiants selon la mention obtenue
3 AB
4 P
Mention Effectif Fréquence Fréquence en
5 B
pourcentage
6 B
P 4 0,27=4/15 27% 7 TB

AB 4 0,27=4/15 27% 8 P
9 B
B 5 0,33=5/15 33%
10 AB
TB 2 0,13=2/15 13% 11 TB
12 P
13 B
14 AB
15 P
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable quantitative discrète :
Exemple 2: L’étude porte sur le nombre d’enfants à charge d’une population
de 24 personnes employées par une entreprise. Elle nous livre les résultats
suivants :
Individu Nombre Individu Nombre
d’enfants d’enfants
1 5 13 3
2 2 14 3
3 2 15 1
4 3 16 0
5 0 17 0
6 0 18 0
7 1 19 0
8 1 20 2
9 2 21 1
10 2 22 4
11 2 23 2
12 3 24 0
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable quantitative discrète :
Exemple 2:
Répartition des employés
La notion de fréquence cumulée selon le nombre d’enfants à charge
permet de répondre à la question:
« combien d’employés ont plus de 2 𝐱𝒊 ni 𝑵𝒊 𝑭𝒊𝒅 𝒇𝒊 𝑭𝒊𝒄
enfants » ou « combien d’employés 0 7 7 100% 29% 29%
ont plus de 4 enfants ». +
1 4 11 71% 17% 46%
2 7 18 54% 29% 75%
75% des employés ont 2 enfants et
moins. 3 4 22 25% 17% 92%
25% des employés ont 3 enfants et 4 1 23 8% 4% 96%
plus. 5 1 24 4% 4% 100%

Correspond Correspond
à la notion à la notion
« plus de » « moins de »
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable quantitative continue :

Ses modalités sont regroupées en classe. Ce regroupement se justifie par


l’existence d’un nombre important de modalités (il simplifie la présentation des
données.
• Les classes sont notées [ 𝒆𝒊 ; 𝒆𝒊+1 [ ; l’intervalle est fermé à gauche et
ouvert à droite.
• La différence (𝒆𝒊+1 - 𝒆𝒊 ) s’appelle l’amplitude de la classe ; elle est notée
𝒂𝒊 . Les amplitudes peuvent être constantes ou variables sur l’intervalle
de variation. On s'efforce, toutefois, d'avoir des classes de même
amplitude et qui ne soient pas trop nombreuses. Souvent cependant, les
valeurs extrêmes posent problème, d'où des premières ou dernières
classes qui sont soit ouvertes soit d'amplitudes différentes.
• La moyenne des extrémités de la classe (𝒆𝒊 + 𝒆𝒊+1 )/𝟐 est appelée
centre de la classe; elle est notée 𝑪𝒊
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable quantitative continue :
Exemple 3: Le tableau suivant est extrait d’une base de données sur le
comportement des consommateurs d’une région. Il renseigne sur plusieurs
caractères dont l’âge. Construire la distribution statistique sous forme de
tableau.
Individu Âge Individu Âge

1 25 11 34
2 35 12 27
3 26 13 31
4 38 14 38
5 34 15 64
6 33 16 66
7 41 17 71
8 64 18 70
9 52 19 76
10 39 20 25
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable quantitative continue :
Exemple 2:
Pour simplifier la construction du tableau, nous regroupons la variable en
classes. Le nombre de classes est fixé à 4.
Les bornes des classes correspondent à leurs limites inférieures et
supérieures.
1ère classe : de 20 à moins de 40 ans, elle correspond à l’intervalle [20,40[.
2ème classe : de 40 à moins de 60 ans, elle correspond à l’intervalle [40,60[.
3ème classe : de 60 à moins de 75 ans, elle correspond à l’intervalle [60,75[.
4ème classe : 75 ans et plus, elle correspond à l’intervalle [75, plus de 75 ans[.
I. Tableaux statistiques 1. Tableaux statistiques

 TABLEAU STATISTIQUE
Variable quantitative continue :
Exemple 2:
Les amplitudes des classes:
1ère classe : [20,40[, 𝒂1 = 40 − 20 = 20
2ème classe : [40,60[, 𝒂2 = 60 − 40 = 20
3ème classe : [60,75[ , 𝒂3 = 75 − 60 = 15
4ème classe : [75, plus de 75 ans[, pas d’amplitude. Il s’agit d’une classe infinie

Âge Effectifs 𝑵𝒊 𝒇𝒊 𝑭𝒊
𝐱𝒊 𝒏𝒊
[20,40[ 12 12 60% 60%
[40,60[ 2 14 10% 70%
[60,75[ 5 19 25% 95%
75 ans et plus 1 20 5% 100%
Total 20
II. Représentations graphiques 1. Définition

 REPRÉSENTATIONS GRAPHIQUES
Définition : La représentation graphique d’un ensemble de données consiste
à produire une représentation visuelle de celles-ci pour en faciliter l’analyse
et l’interprétation. Les représentations graphiques diffèrent selon le type de
variable.

La représentation graphique permet d'avoir une vision globale de la série


statistique et de comparer deux séries statistiques en superposant les
graphiques.
II. Représentations graphiques 1. Variable qualitative

 REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Les diagrammes les plus utilisés pour représenter une variable qualitative sont:

- Les diagrammes à bandes ou diagrammes en tuyaux d’orgues.


- Les diagrammes en secteurs ou camemberts.

Chaque modalité est représentée par une surface proportionnelle à l’effectif.


II. Représentations graphiques 1. Variable qualitative

 REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Diagramme en tuyaux d’orgues ou diagramme à bandes

 Il associe une bande verticale à chaque modalité.


 La distance entre chaque bande est constante.
 La largeur de chacune des bandes est la même et leurs hauteurs sont
égales à l’effectif ou à la fréquence de la modalité correspondante.
 La base de chacun des rectangles (base sur l’axe des abscisses) ne
possède aucune signification numérique puisque la variable est qualitative.
II. Représentations graphiques 1. Variable qualitative

 REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Exemple : On désire étudier la répartition de 22.000 actifs selon leur
catégorie socio-professionnelle.

Modalité 𝐱 𝒊 Effectif 𝑛𝑖 Fréquence 𝒇𝒊


Ouvriers 5500 25%
Employés 6600 30%
Cadres 2640 12%
Autres 7260 33%
Total 22000 100%
II. Représentations graphiques 1. Variable qualitative

 REPRESENTATIONS GRAPHIQUES
Graphique en tuyaux d’orgues:

8000

7000
𝐱𝒊 𝑛𝑖 𝒇𝒊
6000
Ouvriers 5500 25%
5000
Employés 6600 30%
4000
Cadres 2640 12%
3000
Autres 7260 33%
2000
Total 22000 100%
1000

 La catégorie « cadres » 0
représente le plus petit effectif Ouvriers Employés Cadres Autres

parmi les actifs interrogés.


 Les autres catégories (autres
que O, E et C), représentent le
plus grand effectif)
II. Représentations graphiques 1. Variable qualitative

 REPRESENTATIONS GRAPHIQUES
Variable qualitative :
Diagramme en secteurs ou camembert

 Il divise un disque (ou un demi-disque) en secteurs angulaires.


 Chaque secteur du disque correspond à une modalité.
 Les angles au centres des secteurs sont proportionnels aux effectifs ou aux
fréquences des modalités qu’ils représentent.
 L’angle au centre 𝜶𝒊 , associé à la modalité 𝐱 𝒊 d’effectif 𝐧𝒊 , est égal:

𝒏𝒊
𝜶𝒊 = ∗ 𝟑𝟔𝟎 = 𝒇𝒊 ∗ 𝟑𝟔𝟎
𝑵

Autres Ouvriers
33% 25%

Employé
Cadres s
12% 30%
II. Représentations graphiques 1. Variable qualitative

 REPRESENTATIONS GRAPHIQUES
Diagramme en secteurs (camemberts)

𝐱𝒊 𝑛𝑖 𝒇𝒊
Ouvriers 5500 25% Ouvriers
Autres 25%
Employés 6600 30% 33%

Cadres 2640 12%


Autres 7260 33%
Total 22000 100%

Cadres Employés
12% 30%
II.Représentations graphiques 2. Variable quantitative discrète

 REPRESENTATIONS GRAPHIQUES
Variable quantitative discrète :
Le diagramme en bâtons est la représentation graphique d’une distribution
statistique discrète (𝐱 𝒊 ,𝒏𝒊 ) ou (𝐱 𝒊 ,𝒇𝒊 ).

A chaque modalité 𝐱 𝒊 de la variable X, on fait correspondre un segment vertical


de longueur proportionnelle à 𝒏𝒊 ou à 𝒇𝒊 , selon que l’on veut faire apparaitre
respectivement des effectifs ou des fréquences.
II. Représentations graphiques 2.Variable quantitative discrète

 REPRESENTATIONS GRAPHIQUES
Variable qualitative discrète :
Exemple : On désire étudier le nombre de personnes présentes dans un
véhicules à partir d’un échantillon de 400 voitures.

Modalité 𝐱 𝒊 Effectif 𝑛𝑖 Fréquence 𝒇𝒊 Fréquence


cumulée 𝑭𝒊
1 40 10% 10%
2 100 25% 35%
3 160 40% 75%
4 100 25% 100%
Total 400 100%
II. Représentations graphiques 2.Variable quantitative discrète

 REPRESENTATION GRAPHIQUE
Diagramme en bâtons
180

160
𝐱𝒊 𝑛𝑖 𝒇𝒊
140
1 40 10% 120

2 100 25% 100

80
3 160 40%
60

4 100 25% 40

20
Total 400 100%
0
1 2 3 4
II. Représentations graphiques 3. Variable continue

 REPRESENTATIONS GRAPHIQUES
Variable continue :
Dans le cas continu, le diagramme de référence est l’histogramme. A chaque
classe de la variable, on fait correspondre la surface d’un rectangle ayant pour
base l’amplitude de la classe.

Parfois, l’histogramme ne donne pas une image « directe » du phénomène à


étudier. Pour obtenir une représentation moins « lourde » à visualiser, on peut
tracer la courbes des fréquences cumulées.
II. Représentations graphiques 3.Variable continue

 REPRESENTATION GRAPHIQUE
Exemple (cas de classes d’amplitudes égales) : Une compagnie de taxis
s’intéresse au kilométrage effectué par ses véhicules. A cet effet, elle a relevé
les statistiques ci-dessous pour une matinée de travail.

Modalité 𝐱 𝒊 Effectif 𝑛𝑖 Fréquence 𝒇𝒊 Fréquence


(%) cumulée 𝑭𝒊
[10-20[ 9 13,85 13,85
[20-30[ 13 20,00 33,85
[30-40[ 22 33,85 67,7
[40-50[ 10 15,38 83,08
[50-60[ 7 10,77 93,85
[60-70[ 4 6,15 100
Total 65 100
II. Représentations graphiques 3.Variable continue

 REPRESENTATION GRAPHIQUE
Histogramme fréquentiel (cas de classes d’amplitudes égales) :
L'histogramme est un ensemble de rectangles juxtaposés dont la base
est déterminée par les extrémités de classes et la hauteur est
proportionnelle à la fréquence ou à l’effectif.

40,00%

30,00%

20,00%

10,00%

0,00%
10 20 30 40 50 60 70
II. Représentations graphiques 3.Variable continue

 REPRESENTATION GRAPHIQUE
Exemple (cas de classes d’amplitudes inégales) : On reprend le même
exemple que précédemment, mais en regroupant les deux dernières classes.

Modalité 𝐱 𝒊 Effectif 𝑛𝑖 Fréquence 𝒇𝒊 Fréquence


(%) cumulée 𝑭𝒊
[10-20[ 9 13,85 13,85
[20-30[ 13 20,00 33,85
[30-40[ 22 33,85 67,7
[40-50[ 10 15,38 83,08
[50-70[ 11 16,92 100
Total 65 100
II. Représentations graphiques 3.Variable continue

 REPRESENTATION GRAPHIQUE
Histogramme fréquentiel (cas de classes d’amplitudes inégales) :
On repère la plus petite amplitude appelée « amplitude unité » que l’on note
𝒂. Ici, l’amplitude unité est égale à 10. On note 𝒉𝒊 la hauteur corrigée des
colonnes de l’histogramme. On reporte les valeurs de 𝒇𝒊 ou 𝒏𝒊
correspondant aux amplitudes unités et on divise 𝒇𝒊 ou 𝒏𝒊 par le rapport des
amplitudes (𝒂𝒊 /𝒂) quand elles ne sont pas égales à l’amplitude unité.
20
Ici, l’amplitude de 𝑪5 est 20, donc on divise 𝒇5 par 10 = 2
D’où 𝒉5 = 16,92 ÷ 2 = 8,46
𝐱𝒊 𝑛𝑖 𝒇𝒊 (%) 𝒂𝒊 /𝒂 𝒉𝒊
[10-20[ 9 13,85 1 13,85
[20-30[ 13 20,00 1 20,00
[30-40[ 22 33,85 1 33,85
[40-50[ 10 15,38 1 15,38
[50-70[ 11 16,92 2 8,46
Total 65 100
II. Représentations graphiques 2.Variable quantitative continue

 REPRESENTATION GRAPHIQUE
Histogramme fréquentiel (cas de classes d’amplitudes inégales) :

25
20
15
10
5
0 10 20 30 40 50 70
II. Représentations graphiques 3.Variable continue

 REPRESENTATION GRAPHIQUE
Courbe des fréquences cumulées:

𝐱𝒊 𝒇𝒊 (%) Fi (%)
[10-20[ 13,85 13,85
[20-30[ 20,00 33,85
[30-40[ 33,85 67,70
[40-50[ 15,38 83,08
[50-70[ 16,92 100
II. Représentations graphiques 4. Exercices

EXERCICE :

La distribution des 842 commerces d’une région suivant la variable


« Evolution du chiffre d’affaires » de 2019 par rapport à 2020, est la
suivante:
Evolution du Nombre de
chiffre d’affaires commerces
Evolution négative 415
Stabilité 156
Evolution positive 271
Total général 842

1) Préciser la nature de la variable.


2) Calculer les fréquences de cette distribution.
3) Donner plusieurs représentations graphiques de cette variable
II. Représentations graphiques 4. Exercices

EXERCICE :
III. Indicateurs statistiques

Pour poursuivre l’analyse des données et rendre leur interprétation plus


précise, on les résume par des indicateurs qui portent le nom de
caractéristiques. Ces caractéristiques résument les données des tableaux et
des graphes et procurent un gain de clarté. Elles sont indispensables si l’on
veut comparer plusieurs séries entre elles.
Il existe trois grands groupes d’indicateurs (ou caractéristiques):
 Les caractéristiques de valeur centrale et de position : elles permettent
de substituer à une distribution statistique une valeur représentative.
 Les caractéristiques de dispersion : elles permettent de chiffrer la
variabilité ou la dispersion autour d’une valeur centrale (généralement la
moyenne arithmétique).
 Les caractéristiques de concentration: elles mesurent la dispersion
relative de la variable indépendamment des unités choisies.
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE
Définition : Le mode d’une distribution statistique est la valeur de la variable
pour laquelle l’effectif ou la fréquence est le plus élevé. C’est donc la valeur qui
se rencontre le plus fréquemment : on l’appelle aussi valeur dominante.

Notation: 𝐗 m

Remarques :
Lorsqu’une série statistique possède un seul mode, on dit que la série ou la
distribution est unimodale; lorsqu'elle en possède deux, on dit qu’elle est
bimodale et lorsqu’elle en possède plusieurs, on dit qu’elle est multimodale.
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE
Cas d’une variable discrète:
Le mode correspond à la modalité présentant le plus grand effectif (ou la plus
grande fréquence).

Sur le tableau, le mode correspond au 𝐱 𝒊 pour lequel l’effectif ou la fréquence


sont le plus élevés.

Sur le diagramme en bâtons, c’est la valeur 𝐱 𝒊 correspondant au bâton le plus


haut.
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE
Cas d’une variable discrète:
Exemple : Quel est le mode de cette série ?

Répartition des employés d’une entreprise


selon le nombre d’enfants à charge

Nombre Effectif Fréquence Fréquence en


d’enfants pourcentage
0 7 0,29 29%
1 4 0,17 17%
2 7 0,29 29%
3 4 0,17 17%
4 1 0,04 4%
5 1 0,04 4%
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE
Exemple 1: Quel est le mode de cette série ?

Répartition des employés d’une entreprise


selon le nombre d’enfants à charge
8
7 7
7

5
4 4
4

2
1 1
1

0
0 1 2 3 4 5
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE
Cas d’une variable continue:
Deux situations se présentent:
1. Les amplitudes de classe sont égales:
On définit « la classe modale » comme la classe du tableau ou de
l’histogramme correspondant à la fréquence maximum.
Exemple:
20
𝐱𝒊 𝐧𝒊
15
classe
[10;20[ 5
modale 10
[20;30[ 10
[30;40[ 15 5
[40;50[ 5 0 10
20 30 40
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE 1. Calcul des amplitudes et


Cas d’une variable continue: identification de l’amplitude
Deux situations se présentent: unité a: 𝒂 = 𝟏𝟎

2. Les amplitudes de classe sont inégales:


Le calcul de la classe modale se fait en trois étapes:
Exemple: 2. Rapport des amplitudes 𝒂𝒊 /𝒂

𝐱𝒊 𝐧𝒊 𝒂𝒊 𝒂𝒊 /𝒂 𝒉𝒊
[10;20[ 10 10 1 10
3. Correction de l’effectif
[20;30[ 40 10 1 40 en divisant chaque 𝐧𝒊 par
[30;50[ 220 20 2 110 le rapport d’amplitude
correspondant
[50;90[ 240 40 4 60
[90;100[ 10 10 1 10

La classe modale est donc [30;50[. Elle correspond à l’effectif corrigé de 110 (et non
[50;90[, comme on aurait pu l’imaginer en n’effectuant pas les corrections des
effectifs).
III. Indicateurs statistiques 1. Caractéristiques de position

 LE MODE :
Cas d’une variable continue:
Deux situations se présentent:
2. Les amplitudes de classe sont inégales:
Le calcul de la classe modale se fait en trois étapes:
Exemple:

120
𝐱𝒊 𝐧𝒊 𝒉𝒊
100
[10;20[ 10 10
80
[20;30[ 40 40 60
[30;50[ 220 110 40
[50;90[ 240 60 20
[90;100[ 10 10 0
10 20 30 50 90 100
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MÉDIANE
Définition : La médiane est la valeur de la série (i.e. la modalité) qui la partage
en deux sous-ensembles de même effectif (ou de même fréquence).

Notation: 𝐌e

Cas d’une variable discrète:


Pour déterminer la médiane, on utilise les effectifs cumulés croissants :

 Lorsque l’effectif total est un nombre impair (N = 2n+1), la médiane est la


valeur prise par le (n+1) ième individu.
 Lorsque l’effectif total est un nombre pair (N = 2n), la médiane est la
moyenne de la valeur prise par le nième individu et le (n+1) ième
individu.
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MÉDIANE
Exemple : (Si N=2n+1)
Soit la distribution suivante du nombre d’enfants par foyer avec 811 foyers
interrogés:

Nbre Effectif
On a 811 = 2*405+1 d'enfants Effectif cumulé
donc n=405, et le nombre d’enfants croissant
obtenue par le foyer 406 partage la population 0 291 291
1 170 461
en deux sous -groupes de même effectif.
2 155 616
La médiane est donc le nombre d’enfants
3 95 711
que possède le foyer 406, soit 1. 4 43 754
D’où : 𝐌e = 1 5 27 781
6 20 801
7 10 811
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MÉDIANE
Exemple : (Si N=2n)
Soit la distribution suivante du nombre d’enfants par foyer avec 24 foyers
interrogés:

On a 24 = 2*12(de la forme N = 2n) Nombre Effectif Effectif


d’enfants cumulé
donc n=12, ainsi , la médiane est la moyenne
Obtenue par 12ème foyer et le 13ème foyer 0 7 7

D’où : Me = (2+2)/2 =2 1 4 11
2 7 18
3 4 22
4 1 23

5 1 24
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MÉDIANE
Cas d’une variable continue:
Les fréquences cumulées (ou les effectifs cumulés) permettent de déterminer
la classe [ 𝒆𝒊 ; 𝒆𝒊+1 [ où se situe la médiane. La classe ainsi obtenue est appelée
classe médiane.
Une fois qu’on identifie la classe médiane, on calcule la médiane par
interpolation linéaire.
Interpolation linéaire
Formule générale :
Soient [ 𝒆𝒊 ; 𝒆𝒊+1 [ la classe médiane et Fi et Fi+1 les fréquences cumulées
évaluées en 𝒆𝒊 et 𝒆𝒊+1 , alors :

50% − 𝐹𝑖 50% − 𝐹𝑖
𝑀𝑒 = 𝑒𝑖 + × 𝑒𝑖+1 − 𝑒𝑖 = 𝑒𝑖 + × 𝑎𝑖
𝐹𝑖+1 − 𝐹𝑖 𝐹𝑖+1 − 𝐹𝑖
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MÉDIANE
Exemple : Soit la distribution statistique suivante du revenu des
ménages:
𝒙𝒊 (en 𝒏𝒊 fi Fi
euros)
[0-1600[ 9 45% 45%
[1600-2400[ 7 35% 80%

[2400,3200[ 4 20% 100%

Total 20 100%
III. Indicateurs statistiques 1. Caractéristiques de position

𝒙𝒊 (en 𝒏𝒊 fi Fi
euros)
[0-1600[ 9 45% 45%
[1600-2400[ 7 35% 80%
[2400,3200[ 4 20% 100%
Total 20 100%

Pour déterminer la médiane, il faut :


1. Repérer la classe médiane, i.e. la classe contenant la médiane.
Ici, 45% des ménage ont un revenu < 1600 euros et 80% des ménages ont un
revenu < 2400 euros. Donc Me ∈ ]1600-2400[.
2. Estimer la médiane par interpolation linéaire
On a 𝑒𝑖 = 1600, 𝑒𝑖+1 = 2400, 𝐹𝑖 = 45%, 𝐹𝑖+1 = 80%,
50%−45%
- 𝑀𝑒 = 1600 + ∗ (2400 − 1600) = 1714,28 𝑒𝑢𝑟𝑜𝑠
80%−45%
50% des ménages ont un revenu inférieur à 1714,28 euros et les 50% autres
ont un revenu supérieur à 1714,28%
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MOYENNE ARITHMETIQUE
Définition : Soient 𝒙𝒊 (i = 1; : : : ; k) les modalités d'une série statistique, et 𝒏𝒊 (i
= 1; : : : ; k) les effectifs correspondants. La moyenne arithmétique pondérée
notée 𝑋 est égale à la somme du produit des valeurs de la variable par leurs
fréquences :
1 𝑘 𝑘 𝑛𝑖
𝑋= 𝑖=1 𝑛𝑖 𝑥𝑖 = 𝑖=1 𝑓𝑖 𝑥𝑖 car 𝑓𝑖 =
𝑁 𝑁
Remarques :
La moyenne est une valeur qui se présente comme si toutes les observations
lui étaient égales. Pour une variable continue, les données sont regroupées en
classes et les 𝒙𝒊 ne sont en général pas observées. Ces valeurs sont alors
remplacées par les centres de classes 𝑪𝒊 (i = 1; : : : ; k). Dans le cas où l’une
des bornes n’est pas définie, il faut l’estimer par le bon sens ou la
connaissance du phénomène. La classe d’âge « plus de 60 ans », pourra être
estimée par la classe [60 ans; 90 ans[ et correspond ainsi à un centre de
classe de 75 ans. Les risques d’erreurs sont minimisés par le fait que
généralement, les classes extrêmes ont un effectif plus réduit que les autres.
La moyenne prend en compte l’ensemble des valeurs (contrairement au mode
et à la médiane) et est sensible aux valeurs extrêmes.
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MOYENNE ARITHMETIQUE
Exemple 1: L’entreprise Sigma compte 30 ouvriers salariés à 1000
dhs, 15 employés salariés à 1200 dhs et 5 cadres salariés à 1500 dhs .

𝐱𝒊 𝑛𝑖 𝒇𝒊
1000 30 0,6
1200 15 0,3
1500 5 0,1
Total 50

30 ∗ 1000 + 15 ∗ 1200 + 5 ∗ 1500


𝑋=
50
𝑋= 1110 dhs
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MOYENNE ARITHMETIQUE
Exemple : Soit la distribution statistique suivante du revenu de 20 ménages:

𝐱𝒊 𝑪𝑖 𝒏i fi Fi

[0-1600[ 800 9 45% 45%


[1600-2400[ 2000 7 35% 80%
[2400,3200[ 2800 4 20% 100%
Total 20 100%

800 ∗ 9 + 2000 ∗ 7 + 2800 ∗ 4


𝑋=
20
𝑋= 1620 dhs
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MOYENNE GEOMETRIQUE PONDEREE


Définition : La moyenne géométrique d'une série statistique (d’une variable
statistique) est la racine nième des n valeurs positives du produit des valeurs
observées. La moyenne géométrique s’exprime comme suit:

Remarque : La moyenne géométrique est principalement utilisée pour calculer


les coefficients multiplicateurs moyens dont sont déduits les taux de variation
moyens (annuels, semestriels, mensuels, …).

Exemple : Soit le tableau:

4
𝐺= 82 ∗ 122 = 9,8 xi ni
8 2
12 2
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MOYENNE HARMONIQUE
Définition : La moyenne harmonique est égale à l'inverse de la moyenne
arithmétique des inverses des observations.. On l’exprime souvent par son
inverse (1/H) pour faire apparaitre sa logique de construction semblable à celle
de la moyenne arithmétique.
𝑘
1 𝑛𝑖
1/𝐻 =
𝑁 𝑥𝑖
𝑖=1
Remarque : Son usage s'impose lorsque la variable statistique est un quotient
(coût moyen, vitesse moyenne, etc.)

Exemple : Sur un trajet on fait 60 km/h à l’aller et 30km/h au retour. Quelle est
la vitesse moyenne?
Ce n’est pas 90/2=45 (moyenne arithmétique). C’est la moyenne des rapports
(une heure pour x km).
1 1 1 1 1
= + = d′ où H = 40km/h
𝐻 2 30 60 40
III. Indicateurs statistiques 1. Caractéristiques de position

 LA MOYENNE QUADRATIQUE
Définition : La moyenne quadratique est la racine carrée de la moyenne
arithmétique des carrés des valeurs. On l’exprime souvent par son carré (Q2)
𝑘
1
Q2 = 𝑛𝑖𝑥𝑖 2
𝑁
𝑖=1
Remarques : Elle est utilisée, notamment, en mathématique pour calculer la
superficie moyenne d’un ensemble de parcelles par exemple.

Pour résumer la tendance centrale d’une série, il convient de déterminer les


trois caractéristiques (mode, médiane et moyenne), car elles sont
complémentaires. Dans le cadre d’un mémoire, un commentaire précisant la
signification de chacun des résultats est indispensable.
III. Indicateurs statistiques 1. Caractéristiques de position

 LES QUANTILES
Définition : La notion de quantile d’ordre 𝛼%, généralise la notion de médiane.
Le quantile d’ordre 𝛼 d’une variable quantitative X, est la valeur 𝒙𝛼 notée aussi
𝑄𝛼 de cette variable qui scinde la population en deux sous-populations telles
que dans la première on a (𝛼 %)*n individus et dans la seconde (100-𝛼)*n
individus.

Remarque :
- 𝒙50% = Me.
Les calculs des quantiles sont analogues à ceux de la médiane.
Pour des données regroupées en classes, on a : si 𝒙𝛼 ∈ ]ei+; ei+1[

𝛼 − 𝐹𝑖
𝒙𝛼 = 𝑒𝑖 + ∗ (𝑒𝑖+1 − 𝑒𝑖 )
𝐹𝑖+1 − 𝐹𝑖
III. Indicateurs statistiques 1. Caractéristiques de position

 LES QUARTILES
Définition : Les quartiles de X sont ses trois quantiles 𝒙25%, 𝒙50% et 𝒙75%. Ce
sont les valeurs (𝒙𝑖 ) de la variable qui partagent la série en quatre sous-
ensembles égaux. Ils sont au nombre de 3.
 Q1 =𝒙25%, s’appelle le premier quartile ; un quart des valeurs prises
par X sont inférieures ou égales à Q1 (ou bien 25% des individus ont
une modalité inférieure à Q1).
 Q2 = 𝒙50% = Me est la médiane.
 Q3 = 𝒙75% s’appelle le troisième quartile ; un quart des valeurs prises
par X sont inférieures ou égales à Q3 (ou bien 75% des individus ont
une modalité inférieure à Q1).
Le calcul se fait comme pour la médiane, en construisant la colonne des
effectifs cumulés ou celle des fréquences cumulées
III. Indicateurs statistiques 1. Caractéristiques de position

 LES DECILES
Définition : Les déciles sont les valeurs (𝒙𝑖) de la variable qui partagent la
série en 10 sous-ensembles égaux. Ils sont au nombre de 9. les intervalles
qu’ils définissent contiennent chacun 10% des observations
 D1 = 𝒙𝟏𝟎%, s’appelle le premier décile ; un dixième des valeurs prises
par X sont inférieures ou égales à D1 (ou bien D1 laisse 10% des
observations avant et 90% après).
 …
 D9 = 𝒙𝟗𝟎% s’appelle le 9ème décile ; neuf valeurs sur 10 prises par X
sont inférieures ou égales à D9 (ou bien D9 laisse 10% des
observations avant et 90% après).
III. Indicateurs statistiques 1. Caractéristiques de position

 LES CENTILES
Définition : Les centiles sont les valeurs (𝒙𝑖) de la variable qui partagent la
série en 100 sous-ensembles égaux. Ils sont au nombre de 99. les intervalles
qu’ils définissent contiennent chacun 10% des observations
On les note : C1, C2,…, C100
III. Indicateurs statistiques 1. Caractéristiques de position

 LES QUANTILES
Exemple : Calculer le premier quartile de la série statistique suivante:
On doit donc chercher la valeur de la variable pour laquelle un quart des
observations (25%) lui sont inférieures ou égales et trois quarts des
observations (75%) lui sont supérieures ou égales.

𝛼−𝐹0
𝑄1 ∈[0; 1600[ et 𝑄1 = 𝑒0 + ∗ (𝑒1 − 𝑒0 )
𝐹1 −𝐹0
25%−0
𝑄1 = 0 + x (1600-0) = 888,89 euros
45%−0
25% des individus ont un salaire inférieur ou égal à 888,89 euros
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 L’ETENDUE
Définition : L’étendue est la différence entre la plus grande et la plus petite des
valeurs observées de la variable. C’est la différence entre les deux valeurs
extrêmes et c’est la manière la plus simple de mesurer la dispersion.

Notation: Etendue = 𝐗 max - 𝐗 min

Exemple: On pourra dire des notes d’un examen qu’elles varient de 2/20
à18/20
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 INTERVALLES INTERQUANTILES
Les quantiles ont été définis au § 1. On s’intéresse ici aux intervalles qu’ils
déterminent sur la série. Ces intervalles sont des indicateurs de dispersion
autour de la médiane.

Définition : On appelle intervalle interquartile I50 d’une série statistique


l’intervalle [Q1 ; Q3]. Il contient 50% des observations.
L’écart interquartile correspond à (Q3 - Q1)
De même, l’intervalle interdécile d’une série statistique I80 ,correspond à [D1;
D9]. Il contient 80% des observations.
L’écart interdécile correspond à (D9 - D1)
L’intervalle intercentile I98 ,correspond à [C1 ; C99]. Il contient 98% des
observations.
L’écart intercentile correspond à (C99 - C1)
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 INTERVALLES INTERQUANTILES

Remarque: Les intervalles interquartiles éliminent les valeurs extrêmes d’un


phénomène qui sont souvent aberrantes. Ceci fait perdre de l’information mais
fait gagner en homogénéité.
Plus les écarts interquantiles sont grands plus la dispersion de la série autour
de la médiane est importante.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 L’ECART ABSOLU MOYEN


Définition : Il s’agit d’une moyenne arithmétique d’écarts par rapport à une
valeur centrale (𝑋 ou Me). C’est une moyenne des écarts à la moyenne
arithmétique ou à la médiane.
 Ecart absolu moyen par rapport à la moyenne arithmétique:
𝑘
1
𝑒𝑥 = 𝑛𝑖 𝑥𝑖 − 𝑥
𝑁
𝑖=1
 Ecart absolu moyen par rapport à la médiane
𝑘
1
𝑒𝑀𝑒 = 𝑛𝑖 𝑥𝑖 − 𝑀𝑒
𝑁
𝑖=1
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 L’ECART ABSOLU MOYEN


Exemple 1: Soit la série statistique suivante des notes d’une classe en
mathématiques.
7;8;9;10;10;10;11;12;13

1
𝑋 = 10 𝑒𝑋 = 9 ( 7 − 10 + 8 − 10 + 9 − 10 + 10 − 10 + 10 − 10 +
10 − 10 + 11 − 10 + 12 − 10 + 13 − 10 )
= 1,3
L'écart absolu moyen de la notation est donc de 1,3, ce qui signifie que les
notes s'écartent en moyenne de 1,3 points de la moyenne de la classe. Il n'y a
donc pas, en moyenne, de gros écarts à la moyenne.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 VARIANCE ET ECART-TYPE

Introduction :
La variance et l’écart-type sont des paramètres qui indiquent la dispersion des
données par rapport à la moyenne. Ils reposent sur le calcul de la différence
moyenne (ou écart moyen) entre chaque valeur de la variable et la moyenne
arithmétique de ces valeurs.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 VARIANCE
Définition :
Soit S une série statistiques telles que 𝑥1 , 𝑥2 , … , 𝑥𝑝 sont les p valeurs de cette
série, et 𝑛1 , 𝑛2 , … , 𝑛𝑝 , les effectifs associés à ces valeurs.
Soit N = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑝 l'effectif total.
La variance de cette série statistique est la moyenne des carrés des écarts à la
moyenne. Ce nombre V(x), vaut donc :

2 2
𝑛1 𝑥1 − 𝑥 + 𝑛2 𝑥2 − 𝑥 2 + ⋯ + 𝑛𝑝 𝑥𝑝 − 𝑥
V(x) =
𝑛1 +𝑛2 + ⋯ + 𝑛𝑝

p
1
V x = ni(xi − X)2
N
i=1
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 VARIANCE
Si l’on développe puis simplifie la formule de la définition, on obtient la formule
de Koenig:

𝑝
1
𝑉 𝑥 = 𝑛𝑖𝑥𝑖2 − 𝑋 2
𝑁
𝑖=1

Cette formule est plus simple et rapide à mettre en œuvre que la formule de
définition.
Plus la valeur de la variance est élevée, plus les écarts entre les valeurs de la
variable et la moyenne sont grands, donc plus la dispersion autour de la
moyenne est grande.

Remarque:
Si les valeurs de la série sont regroupées en intervalles, on utilisera dans les
définitions suivantes, le centre des intervalles pour le calcul.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 ECART-TYPE
La variance est une moyenne d’écarts élevés au carré; l’unité dans laquelle elle
s’exprime est donc le carré de l’unité de la variable. Sa valeur n’est donc pas
interprétable directement. En revanche, en calculant la racine carrée de la
variance, on obtient une valeur dont la signification concrète est simple. Cet
écart moyen se nomme écart-type.
Définition :
L’écart-type d’une série statistique, noté 𝜎(𝑥)est la racine carrée de la variance
𝜎(𝑥)= 𝑉(𝑥)

Plus l’écart-type est faible, plus les valeurs de la variable sont proches de 𝑋, et
plus la moyenne est représentative de l’ensemble de valeurs de la variable.
Plus il est élevé, moins la moyenne arithmétique est pertinente pour résumer
l’ensemble des données. Il est donc indispensable de compléter le calcul
de la moyenne par celui de l’écart-type.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 VARIANCE ET ECART-TYPE
Exemple :
On considère les résultats obtenus par 2 classes de 25 élèves à un examen de
Statistique. Les résultats obtenus par les étudiants sont les suivants :

Classe 1 Classe 2
Note /20 xi Effectif ni Note/20 xi Effectif ni
8 5 0 5
9 5 5 5
10 5 10 5
11 5 15 5
12 5 20 5

Ces 2 classes ont la même moyenne à savoir 10/20. Cependant, il est clair que
les 2 classes sont très différentes. En effet, on peut le montrer en calculant
pour chaque classe, la variance des deux séries puis l’écart-type.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 VARIANCE ET ECART-TYPE
Exemple :
Après calcul, on trouve les valeurs de variance suivantes :

Ecart-type de la classe 1 √2=1,14


Ecart-type de la classe 2 √50=7,07

L’écart moyen entre une note du groupe 1 et la note moyenne de ce groupe est
de 1,14 points. Tandis que pour le groupe 2, l’écart moyen entre une note de ce
groupe et la note moyenne est de 7,07 points
La dispersion autour de la moyenne des notes du groupe 2 est donc beaucoup
plus importante que celle du groupe 1. La note moyenne de 10 est donc plus
représentative de l’ensemble des notes dans le groupe1 que dans le groupe 2.
III. Indicateurs statistiques 2. Caractéristiques de dispersion

 LE COEFFICIENT DE VARIATION
𝑋 et 𝜎 sont des grandeurs de même espèce que la variable étudiée. Si 𝑥𝑖 est
une longueur en mètres 𝑋 et 𝜎 sont exprimés en mètres. Le coefficient de
variation 𝐶𝑣 qui est le rapport de l'écart-type à la moyenne est un indicateur de
dispersion sans dimension qui est utilisé à la place de l’écart-type dans deux
cas:
- Cas 1: lorsqu’on veut comparer la dispersion de deux séries dont les
observations ne sont pas exprimées dans la même unité (par exemple : l’écart
des salaires en France et aux Etats-Unis demande qu’on compare des francs
et des dollars).
- Cas 2: lorsqu’on veut comparer la dispersion de deux séries exprimées dans
la même unité mais dont les ordres de grandeur sont très différents (exemple:
production de blé en France et production de blé mondiale).
Pour supprimer à la fois, l’effet d’unité et l’effet d’ordre de grandeur, on utilise le
coefficient de variation :
𝜎(𝑥)
𝐶𝑣 =
𝑋
𝐶𝑣 est souvent exprimé en pourcentage.
III.Indicateurs statistiques 3. Caractéristiques de concentration

Introduction :

Elles sont utilisées pour mesurer (essentiellement) la répartition de la masse


salariale. La répartition de la masse salariale se situe entre les deux cas
extrêmes suivants :

- Répartition des salaires parfaitement équitables : un certain pourcentage de


salariés reçoit le même pourcentage de la masse salariale. On dit que la
concentration est nulle.
- Un seul salarié reçoit toute la masse salariale (et les autres rien). On dit que
la concentration est maximale.

Trois indicateurs pour quantifier la concentration :


1 courbe de Lorentz
2 Indice de Gini
3 Médiale.
III.Indicateurs statistiques 3.Caractéristiques de concentration

 COURBE DE LORENTZ

Exemple :
On étudie les salaires de 50 employés d’une entreprise :

xi ci ni fi Fi ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%

- On calcule la masse salariale ni x ci


- On calcul le % de la masse salariale gi, ainsi que les fréquences cumulées
de la masse salariale Gi.
III.Indicateurs statistiques 3.Caractéristiques de concentration

 COURBE DE LORENTZ

Définition : La courbe de Lorentz est obtenue en faisant correspondre à la


fréquence cumulée Fi à la fréquence cumulée Gi de la masse salariale.

xi ci ni fi Fi Ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
III.Indicateurs statistiques 3.Caractéristiques de concentration

 COURBE DE LORENTZ

- Droite rouge = répartition parfaitement équitable.


- Plus la courbe de Lorentz est éloignée de la droite rouge et plus la
concentration est forte (répartition de moins en moins équitable).
III.Indicateurs statistiques 3.Caractéristiques de concentration

 INDICE DE GINI

L’indice de Gini est 2 fois l’aire entre la courbe de Lorentz et la première


bissectrice.
L’indice de Gini appartient à[0,1] et plus il est proche de 1, plus la répartition
des salaires est inégalitaire.
III.Indicateurs statistiques 3.Caractéristiques de concentration
 MEDIALE
Exemple : On reprend l’exemple précédent

xi ci ni fi Fi Ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
Définition : La médiale est la médiane de la série masse associée. Dans notre
exemple
50% − 19,1%
𝑀é𝑑𝑖𝑎𝑙𝑒 = 1200 + ∗ 1800 − 1200 = 1548
53,2% − 19,1%
Les salaries recevant moins de 1548 euros représentent 50% de la masse
salariale.
𝑀é𝑑𝑖𝑎𝑙𝑒−𝑀é𝑑𝑖𝑎𝑛𝑒
Mesure de concentration ∆= >=0
𝐸𝑡𝑒𝑛𝑑𝑢𝑒
∆ petit = faible concentration, ∆ grand= grande concentration.
Ici, on peut vérifier que ∆ = (1548 /1440)=(2100 /600) = 7,2%.
III.Indicateurs statistiques 3.Caractéristiques de concentration
 MEDIALE
Exemple : On reprend l’exemple précédent

xi ci ni fi Fi Ni ci gi Gi
[600,1200[ 900 15 30% 30% 13500 19,1% 19,1%
[1200,1800[ 1500 25 50% 80% 37500 53,2% 72,3%
[1800,2100[ 1950 10 20% 100% 19500 27,7% 100%
Total 50 100% 70500 100%
Définition : La médiale est la médiane de la série masse associée. Dans notre
exemple
50% − 19,1%
𝑀é𝑑𝑖𝑎𝑙𝑒 = 1200 + ∗ 1800 − 1200 = 1548
53,2% − 19,1%
Les salaries recevant moins de 1548 euros représentent 50% de la masse
salariale.
𝑀é𝑑𝑖𝑎𝑙𝑒−𝑀é𝑑𝑖𝑎𝑛𝑒
Mesure de concentration ∆= >=0
𝐸𝑡𝑒𝑛𝑑𝑢𝑒
∆ petit = faible concentration, ∆ grand= grande concentration.
Ici, on peut vérifier que ∆ = (1548 /1440)=(2100 /600) = 7,2%.

Vous aimerez peut-être aussi