Vous êtes sur la page 1sur 83

Statistiques descriptives

Y. LAMRANI ALAOUI

École Marocaine des Sciences de l’Ingénieur – EMSI

2020-2021

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 1 / 83


Introduction

Les statistiques regroupe un ensemble de méthodes dont la fonction


principale est de mettre en évidence les caractéristiques d’un grand
nombre de données recueillies, par exemple lors d’enquêtes ou
sondages. Parmi les méthodes statistiques, on peut distinguer :
1 les méthodes descriptives ou exploratoires, regroupées sous le nom
d’analyse des données (AD). L’objectif est de décrire de façon
synthétique et parlante des données observées pour mieux les analyser
et les comprendre.
2 les méthodes inférentielles regroupées sous le nom de statistique
inférentielle. L’objectif est de prendre une décision sur une population à
partir d’un échantillon.
Ces deux types de méthodes sont complémentaires et sont utilisées
conjointement dans la pratique statistique.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 2 / 83


Vocabulaire

Population: on appelle population un ensemble d’éléments


homogènes auxquels on s’intéresse. Par exemple, des entreprises, des
ménages, des étudiants,. . .
Les éléments de la population sont appelés les individus ou unités
statistiques.
Sur ces individus, on mesure un caractère ou une variable, le chiffre
d’affaires de l’entreprise, le revenu du ménage, l’age de l’étudiant. On
suppose que une variable statistique prend toujours une seule valeur
pour chaque individu.
La donnée de base de toute analyse statistique descriptive est un
tableau rectangulaire (tableau de données) croisant des individus et
des variables.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 3 / 83


Vocabulaire
Exemple d’un tableau de données

Table 1: Exemple d’un tableau de données

Chaque lingne représente un individu


Chaque colonne représente une variable

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 4 / 83


Types de variables

Variable quantitative
Une variable est dite quantitative si toutes ses valeurs possibles sont
numériques. On fait également la différence entre deux types de variables
quantitatives:
Variable quantitative discrète: si l’ensemble des valeurs possibles
est dénombrable.
Variable quantitative continue: si l’ensemble des valeurs possibles
est continu.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 5 / 83


Types de variables

Variable qualitative
Une variable est dite qualitative quand toutes ses valeurs possibles(
modalités) ne sont pas numériques; mais des noms, des catégories, des
adjectifs,. . . . Il y a deux catégories de variables qualitatives:
Variable qualitative nominale : modalités ne peuvent pas être
ordonnées(ex.coleur des yeux).
Variable qualitative ordinale : quand les modalités peuvent être
ordonnées(ex. satisfaction client).

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 6 / 83


Types de variables
Exemple:

Table 2: Exemple d’un tableau de données

Soit le tableau de données en haut:


le numero est une variable quantitative discrète
le genre est une variable qualitative nominale
la performance est une variable qualitative ordinale
la note est une variable quantitative continue

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 7 / 83


Série statistique

Une série statistique est la suite des valeurs prises par une variable X sur
les individus statistiques(observations):
Le nombre d’observations est noté n.
Les valeurs de la variable X sont notées: x1 , . . . , xi , . . . , xn

Exemple
On s’intéresse à la variable ’age’ et à la série statistique des valeurs prises
par cette variable sur 6 personnes(voir Table 2). Ici on a:

n=6 et x1 = 15, x2 = 16, x3 = 20, x4 = 14, x5 = 19, x6 = 21

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 8 / 83


Série statistique

Distribution observée d’une série statistique


La distribution observée d’une série statistique {x1 , x2 , . . . , xn } est définie
par les valeurs distinctes qui apparaissent dans cette série et le nombre de
fois que chacune d’elles apparaı̂t. Cette distribution peut être représentée
par le tableau suivant:
xj nj
.. ..
. .
xJ nJ

Où nj est l’effectif associé à xj et J est le nombre de valeurs distinctes de


la série et n = Jj=1 nj
P

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 9 / 83


Série statistique
Fréquence, effectifs cumulés et fréquences cumulées

Fréquence: à chaque valeur xj d’une variable, on peut associer une


fréquence:
nj
fj = , j = 1, . . . , J
n
Effectif cumulé: A chaque valeur xj , on associe un effectif cumulé Nj
représentant le nombre d’observations inférieures où égales à xj :
j
X
Nj = n1 + n2 + · · · + nj = nk
k=1

Fréquence cumulée: Pour un valeur xj , la fréquence cumulée est


définie par:
Nj
Fj = , j = 1, . . . , J
n

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 10 / 83


Variable qualitative nominale
Effectifs, fréquences et représentations graphiques

Effectifs et fréquences
Pour une variable qualitative nominale on peut calculer les effectifs et les
fréquences

Représentations graphiques
Le tableau statistique d’une variable qualitative nominale peut être
représenté par deux types de graphique:
1 Diagramme en secteurs(ou camembert ou piechart en anglais) pour
représenter les fréquences
2 Diagramme en barres pour représenter les effectifs

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 11 / 83


Variable qualitative nominale
Effectifs, fréquences et représentations graphiques

Exemple
Soit la variable ’Coleur-voiture’ notée X et soit la série statistique des
valeurs prises par X sur 20 voitures:

{N, N, B, G, G, N, G, G, G, N,G, N, J, N, J, B, G, G, G, N}

G grise
N noire
J jaune
B blanche.

Ici on a: n=20 et {x1 = N, x2 = N, x3 = B, . . . , x20 = N}

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 12 / 83


Variable qualitative nominale
Effectifs, fréquences et représentations graphiques

Exemple(suite)
de plus on a :

xj nj fj
G 9 0.45
N 7 0.35
J 2 0.10
B 2 0.10
P4 P4
j=1 nj = 20 et j=1 fj =1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 13 / 83


Variable qualitative nominale
Représentations graphiques

Exemple(suite):

Figure 1: représentations graphiques

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 14 / 83


Variable qualitative ordinale
Effectifs, effectifs cumulés, fréquence, fréquences cumulées et représentations graphiques

Pour une variable qualitative ordinale on peut calculer:


les effectifs et effectifs cumulés
les fréquences et les fréquences cumulées

Le tableau statistique d’une variable qualitative ordinale peut être


représenté par:
1 Diagramme en secteurs pour représenter les fréquences
2 Diagramme en barres des effectifs ou des effectifs cumulés

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 15 / 83


Variable qualitative ordinale
Effectifs, effectifs cumulés, fréquence, fréquences cumulées et représentations graphiques

Exemple
On interroge 16 personnes sur leur satisfaction d’un produit (variable Y ).
On a obtenu la série statistique suivante:

{S, MS, TS, NS, NS, S, TS, NS, NS, MS, S, TS, NS, NS, S, MS}

NS N’est pas satisfait(e)


S Satisfait(e)
MS Moyennement satisfait(e)
TS Très bien satisfait(e)

Ici on a: n=16 et {y1 = S, y2 = MS, y3 = TS, . . . , y15 = MS}

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 16 / 83


Variable qualitative ordinale
Effectifs, effectifs cumulés, fréquence, fréquences cumulées et représentations graphiques

Exemple(suite)
De plus on a:

xj nj Nj fj Fj
NS 6 6 0.375 0.375
MS 3 9 0.1875 0.5625
S 4 13 0.25 0.8125
TS 3 16 0.1875 1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 17 / 83


Variable qualitative ordinae
Représentations graphiques

Exemple(suite):

Figure 2: représentations graphiques

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 18 / 83


Variable qualitative ordinae
Représentations graphiques

Exemple(suite):

Figure 3: Diagramme en secteurs des fréquences

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 19 / 83


Variable quantitative discrète

Comme pour les variables qualitatives ordinales, on peut calculer les


effectifs,les effectifs cumulés, les fréquences et les fréquences cumulées
Une variable quantitative discrète peut être représentée par un
diagramme en bâtonnets des effectifs ou des fréquences
Les fréquences cumulées peuvent être représentées à l’aide de la
fonction de répartition:

 0 x < xj
F (x) = F xj ≤ x < xj+1
 j
1 x > xJ

Avec {x1 , x2 , . . . , xJ } est une série statistique d’une variable


quantitative discrète

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 20 / 83


Variable quantitative discrète
Exemple

Un petit village est composé de 50 ménages, soit la variable Z le nombre


de personnes par ménage. Les valeurs de la variable Z sont données
comme suit:

Les effectifs, les effectifs cumulés, les fréquences, les fréquences cumulées
sont données dans le tableau qui suit:

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 21 / 83


Variable quantitative discrète
Exemple(suite)

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1

On a n = 50

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 22 / 83


Variable quantitative discrète
Exemple(suite)

Figure 4: Diagramme en bâtonnets des effectifs

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 23 / 83


Variable quantitative discrète
Exemple(suite)

Figure 5: Fonction de répartition(fréquences cumulés)


Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 24 / 83
Variable quantitative continue

Une variable quantitative est dite continue lorsqu’elle peut prendre


n’importe quelle valeur dans R ou dans un intervalle de R.
En pratique, les variables continues sont regroupées en classes.
Si [aj ; bj ] designe la classe j, on note, de manière générale :
aj la borne inférieure de la classe j,
bj la borne supérieure de la classe j,
cj = (aj + bj )/2 le centre de la classe j,
αj = bj − aj l’amplitude de la classe j,
nj l’effectif de la classe j,
Nj l’effectif cumulé de la classe j,
fj la fréquence de la classe j,
Fj a fréquence cumulée de la classe j.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 25 / 83


Variable quantitative continue

Regrouper les données en classes nécessite de définir à priori le


nombre de classes J et l’amplitude de chaque classe αj .
pour une série statistique de n observations, il y a certaines régles
pour définir le nombre de classes:
La règle de Sturge : J = 1 √
+ (3.3 log10 (n)).
La règle de Yule : J = 2.5 4 n
l’amplitude(l’intervalle) de classe est obtenue comme suit:

(xmax − xmin )/J

Avec xmax et xmin désigne la plus grande (resp. la plus petite) valeur
observée.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 26 / 83


Variable quantitative continue

Il faut arrondir le nombre de classe J à l’entier le plus proche.


On peut aussi arrondir la valeur obtenue de l’intervalle de classe.
A partir de la plus petite valeur observée, on obtient les bornes de
classes en additionnant successivement l’intervalle de classe
(l’amplitude)

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 27 / 83


Exemple:
On mesure la taille en centimetres de 50 élèves d’une classe:

Regrouper ces données en classes en utilisant la règle de Sturge et


établire le tableau statistique.
Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 28 / 83
Selon la méthode de Sturge on a:

J = 1 + 3.3log10 (50) ≈ 7

l’amplitude de nos classes est:


171 − 152
αj = ≈3
7
Soient les classes proposées :

[152; 155[
[155; 158[
[158; 161[
[161; 164[
[164; 167[
[167; 170[
[170; 173[

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 29 / 83


Alors on peut élaborer le tableau statistique:

[aj ; bj ] nj Nj fj Fj
[152; 155[ 8 8 0.16 0.16
[155; 158[ 10 18 0.2 0.36
[158; 161[ 7 25 0.14 0.5
[161; 164[ 8 33 0.16 0.66
[164; 167[ 6 39 0.12 0.78
[167; 170[ 6 45 0.12 0.9
[170; 173[ 5 50 0.1 1.00

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 30 / 83


Variable quantitative continue
Représentation graphique

Histogramme
L’histogramme est une représentation graphique qui nous permet de
voir la forme de la distribution des données. On l’utilise surtout
lorsqu’on est en présence d’une variable quantitative continue.
La première chose à faire pour construire un histogramme est de
grouper les données en classes convenablement choisies.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 31 / 83


Variable quantitative continue
Représentation graphique

L’histogramme permet de représenter les hauteurs de classes par des


rectangles voisins
Pour un histogramme des effectifs, la hauteur du rectangle
correspondant à la classe j est donc donnée par:
nj
hj =
αj

Pour un histogramme de fréquences, la hauteur(appelée dans ce cas


densité) du rectangle associé à la classe j est donné par:

fj
dj =
αj

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 32 / 83


Variable quantitative continue
Représentation graphique

Exemple:
Soit le tableau statistique de l’exemple précédent:

[aj ; bj ] nj Nj fj Fj αj hj dj
[152; 155[ 8 8 0.16 0.16 3 2.66 0.053
[155; 158[ 10 18 0.2 0.36 3 3.33 0.066
[158; 161[ 7 25 0.14 0.5 3 2.33 0.046
[161; 164[ 8 33 0.16 0.66 3 2.66 0.053
[164; 167[ 6 39 0.12 0.78 3 2 0.04
[167; 170[ 6 45 0.12 0.9 3 2 0.04
[170; 173[ 5 50 0.1 1.00 3 1.66 0.033

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 33 / 83


Variable quantitative continue
Représentation graphique

Exemple(suite):
Si on représente l’histogramme de l’exemple précédent on trouve la figure
ci-dessous:

Figure 6: histogramme des effectifs

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 34 / 83


Variable quantitative continue
Représentation graphique

Remarques
Lorsque les amplitudes (αj )des classes sont égales, dans un
histogramme on peut considérer l’effectif de chaque classe comme sa
hauteur sans diviser par l’amplitude.

Fonction de répartition
La fonction de répartition F (x) est une fonction de R dans [0, 1], qui est
définie par:

 0 x < L0
fi+1
F (x) = F + αi (x − Li ) Li ≤ x < Li+1
 i
1 x > Ln

Avec: x ∈ [Li , Li+1 [, αi = Li+1 − Li et Fi+1 − Fi = fi+1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 35 / 83


Variable quantitative continue
Représentation graphique

Exemple:

Figure 7: Fonction de répartition d’une variable quantitative continue

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 36 / 83


Paramètres de position et de dispersion

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 37 / 83


Paramètres de position, de dispersion et de forme

En plus les représentations graphiques, on peut approfondir l’étude


descriptive d’une série statistique, en lui associant un certain nombre de
valeurs ou mesures, appelés paramètres, qui ont pour but de résumer dans
une certaine mesure les informations recueillies.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 38 / 83


Paramètres de position (ou de tendance centrale)

Les paramètres de position ou de tendance centrale sont entre autres


des valeurs centrales de la série étudiée. Il s’agit en général des
valeurs de localisations particulières.
Plusieurs paramètres de position ont été proposés. Parmi ces
paramètres ceux qu’on utilise le plus souvent sont :
1 la moyenne
2 la médiane
3 le mode.
4 les quantiles

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 39 / 83


Paramètres de position
La moyenne : Variable quantitative discrète

La moyenne arithmétique est la plus connue parmi tous les


paramètres destinés à définir une valeur centrale.
La moyenne ne peut être définie que sur une variable quantitative.
La moyenne estP la somme des valeurs observées divisée par leur
nombre: x̄ = n ni=1 xi
1

Formule généralisée par les fréquences: x̄ = ni=1 fi × xi


P

Formule généralisée par les effectifs: x̄ = n1 ni=1 ni × xi


P

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 40 / 83


Paramètres de position
La moyenne : Variable quantitative discrète

Exemple:
xi ni fi ni × xi fi × xi
23 3 0.3 69 6.9
10 4 0.4 40 4
15 2 0.2 30 3
13 1 0.1 13 1.3
Total n=10 1 152 15.2
Formule généralisée par les fréquences:
X n
x̄ = fi × xi = 15.2
i=1
Formule généralisée par les effectifs:
n
1X 152
x̄ = ni × xi = = 15.2
n 10
i=1
Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 41 / 83
Paramètres de position
La moyenne : Variable quantitative continue

La moyenne arithmétique
n n
1X X
x̄ = ni × ci OU x̄ = fi × ci
n
i=1 i=1

Avec ci le centre de la classe i

Exemple:
Classe ni ci ni × ci
[3000; 4000[ 26 3500 91000
[4000; 5000[ 33 4500 148500
[5000; 6000[ 64 5500 352000
[6000; 7000[ 7 6500 45500
[7000; 8000[ 10 7500 75000
Total n=140 − 712000

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 42 / 83


Paramètres de position
La moyenne : Variable quantitative continue

Exemple(suite):

Classe ni ci ni × ci
[3000; 4000[ 26 3500 91000
[4000; 5000[ 33 4500 148500
[5000; 6000[ 64 5500 352000
[6000; 7000[ 7 6500 45500
[7000; 8000[ 10 7500 75000
Total n=140 712000
n
1X 1
x̄ = ni × ci = × 712000 = 5085.07
n 140
i=1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 43 / 83


Paramètres de position
La moyenne : Variable quantitative continue

Remarques
Une moyenne ne se calcule que si les valeurs observées sont
numériques.
Une série ne peut pas posséder plusieurs moyennes distinctes.
Une moyenne est rarement une valeur observée de la série.
La moyenne est sensible aux valeurs aberrantes :

{1, 1, 1, 3, 3, 5, 6} 7→ x̄ = 2.86

{1, 1, 1, 3, 3, 5, 300} 7→ x̄ = 40.86

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 44 / 83


Paramètres de position
Le mode : Variable qualitative

Le mode est la valeur distincte correspondant àl’effectif le plus élevé ;

Exemple:
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le
suivant, le mode est C (célébataire)
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10

Le mode peut être calculé pour tous les types de variable,


quantitative et qualitative.
Le mode n’est pas nécessairement unique.
Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 45 / 83
Paramètres de position
Le mode : Variable quantitative discrète

Le mode
Le mode correspond à la valeur de la variable pour laquelle l’effectif (ou la
fréquence) est le plus grand.

Exemple:
xi ni fi
1 5 0.10
2 9 0.18
3 15 0.30
4 10 0.20
5 6 0.12
6 3 0.06
8 2 0.04
Total n=50 1
Le mode dans cet exemple est: 3
Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 46 / 83
Paramètres de position
Le mode : Variable quantitative continue

La classe modale est la classe dont la fréquence par unité d’amplitude


( αfii )est la plus élevée ;cette classe correspond donc au rectangle le plus
haut de l’histogramme des fréquences(ou des effectifs).

Exemple(amplitudes égales):

Classes ni αi
[10; 20[ 5 10
[20; 30[ 10 10
[30; 40[ 15 10
[40; 50[ 5 10
Total n=35

La classe modale dans cet exemple est: [30; 40[

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 47 / 83


Paramètres de position
Le mode : Variable quantitative continue

Exemple(amplitudes inégales):

Classes ni αi hi
[10; 20[ 10 10 1
[20; 30[ 40 10 4
[30; 50[ 220 20 11
[50; 90[ 240 40 6
[90; 100[ 10 10 1
Total n=520

La classe modale dans cet exemple est: [30; 50[

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 48 / 83


Paramètres de position
Le mode : Variable quantitative continue

La valeur exacte du mode est donnée comme suit:


∆1
Mo = Li + × αi
∆1 + ∆ 2

Li est la borne inférieure de la classe modale et αi son amplitude


Si les classes ont la même amplitude: ∆i = n0 − ni ou ∆i = f0 − fi
Si les classes ont des amplitudes différentes: ∆i = h0 − hi
n0 , f0 et h0 sont respectivement l’effectif,la fréquence et l’hauteur
associés à la classe modale
n1 , f1 et h1 sont respectivement l’effectif,la fréquence et l’hauteur
associés à la classe qui précède la classe modale
n2 , f2 et h2 sont respectivement l’effectif, la fréquence et l’hauteur
associés à la classe qui suit la classe modale
Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 49 / 83
Paramètres de position
Le mode : Variable quantitative continue

Méthode graphique

Youssef, L. A. (EMSI) Figure 8:


Statistiques descriptives 2020-2021 50 / 83
Paramètres de position
Le mode : Variable quantitative continue

Exemple:

Classes ni αi
[210; 230[ 30 20
[230; 250[ 60 20
[250; 270[ 100 20
[270; 290[ 20 20
Total n=210

Ici on a Les classes sont toutes de même amplitude (égale à 20), la


classe modale est alors:[250; 270[
Montrer que la valeur exacte du mode est: 256.66

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 51 / 83


Paramètres de position
Le mode : Variable quantitative continue

Solution de l’exemple:
Classes ni αi
[210; 230[ 30 20
[230; 250[ 60 20
[250; 270[ 100 20
[270; 290[ 20 20
Total n=210
Li = 250
αi = 270 − 250 = 20
∆1 = 100 − 60 = 40
∆2 = 100 − 20 = 80
Alors:
40
Mo = 250 + × 20 = 256.66
40 + 80

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 52 / 83


Paramètres de position
La médiane : variable quantitative discrète

Médiane
Soit une série statistique ordonnée par ordre croissant.: {x1 , x2 , . . . , xn }, la
médiane Me est la valeur qui se trouve au milieu de la série ordonnée par
ordre croissant. Elle est calculée comme suit:
Si n est impair: Me = x( n+1 )
2

Si n est pair:Me = 21 {x( n2 ) + x( n2 +1) }

Remarque
La médiane peut toujours être définie comme la valeur pour laquelle
la fonction de répartition égale à 0.5, c’est-à-dire: F (Me ) = 0.5
La médiane est la valeur qui corresponde au 1ère fréquence cumulé
supérieur ou égale à 50%

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 53 / 83


Paramètres de position
La médiane : variable quantitative discrète

Exemple 1
Soit la série statistique suivante {0, 0, 1, 1, 2, 2, 3, 4, }, on a n = 8. Alors:
x(4) + x(5) 1+2
Me = = = 1.5
2 2

Exemple 2
Soit la série statistique suivante {0, 0, 1, 1, 2, 2, 3}, on a n = 7. Alors:

Me = x(4) = 1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 54 / 83


Paramètres de position
La médiane : variable quantitative discrète

Exemple 3
Soit le tableau statistique suivant:

xj ni fj Fi
0 20 0.1 0.1
1 65 0.325 0.425
2 70 0.35 0.775
3 30 0.15 0.925
4 15 0.075 1
Total n=200 1

On a
0.425 < 0.5 ≤ F (2) = 0.775
On déduit que 2 est la valeur médiane.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 55 / 83


Paramètres de position
La médiane : variable quantitative continue

Pour une variable quantitative continue la valeur exacte de la médiane est


determinée par interpolation linéaire.

−Fi
On a tan(α) = FLi+1
i+1 −Li
=M 0.5−Fi
e −Li
⇒ Me = Li + F0.5−F i
i+1 −Fi
× αi
Avec [Li+1 , Li [ est la classe médiane et αi = Li+1 − Li .
Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 56 / 83
Paramètres de position
La médiane : variable quantitative continue

Exemple
Soit le tableau statistique suivant:

Classe ni fj Fi
[3000; 4000[ 26 0.186 0.186
[4000; 5000[ 33 0.235 0.421
[5000; 6000[ 64 0.458 0.879
[6000; 7000[ 7 0.050 0.929
[7000; 8000[ 10 0.071 1
Total n=140 1

Classe médiane=[5000; 6000[


0.5−0.421
On a: Me = 5000 + 0.879−0.421 × (6000 − 5000) = 5172.5

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 57 / 83


Paramètres de position
Les quantiles: variable quantitative discrète

Les quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Un quantile xp d’ordre p est donné par: F (xp ) = p
Soit n le nombre de valeurs d’une série statistique ordonnée, si np est
un nombre entier, alors:
1
xp = (x(np) + x(np+1) )
2
Si np n’est pas un nombre entier, alors:

xp = x(dnpe)

où dnpe représente le plus petit nombre entier supérieur ou égal à np.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 58 / 83


Paramètres de position
Les quantiles: variable quantitative discrète

Exercice
Soit la série statistique suivante:{20, 13, 16, 7, 12, 30, 1, 18, 6, 34}:
1 Calculer le quantile x 1
2
2 Calculer le quantile x 1
3

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 59 / 83


Paramètres de position
Les quantiles: variable quantitative discrète

Solution:
On commence par ordonner les valeurs de la série par ordre croissant:

{1, 6, 7, 12, 13, 16, 18, 20, 30, 34}

:
1
1 On a np = 10 × 2 = 5; c’est un entier, alors:

(x(5) + x(6) ) (13 + 16)


x1 = = = 14.5
2 2 2
1
2 On a np = 10 × 3 = 3.33; ce n’est pas un entier, alors:

x 1 = x(d3.33e) = x(4) = 12
3

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 60 / 83


Paramètres de position
Les quartiles: variable quantitative discrète

Les quartiles
Les quantiles: {x 1 ; x 1 ; x 3 } s’appellent des quartiles:
4 2 4
x 1 représente le 1er quartile ou Q1
4
x 1 représente la médiane, appelé également le 2ème quartile ou Q2
2
x 3 représente le 3ème quartile ou Q3
4

Remarque
Le quartile d’ordre p est la valeur qui corresponde à la 1ère fréquence
cumulée supéerieure ou éegale à p.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 61 / 83


Paramètres de position
Les quartiles: variable quantitative discrète

Exemple
Soit le tableau statistique suivant:

xj ni fj Fi
0 20 0.1 0.1
1 65 0.325 0.425
2 70 0.35 0.775
3 30 0.15 0.925
4 15 0.075 1
Total n=200 1 −

Le 1er quartile est: x 1 = 1


4
Le 2ème quartile est: x 1 = 2
2
Le 3ème quartile est: x 3 = 2
4

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 62 / 83


Paramètres de position
Les quartiles: variable quantitative continue

Exemple:

Classe ni fj Fi
[3000; 4000[ 12 0.024 0.024
[4000; 6000[ 30 0.061 0.085
[6000; 8000[ 120 0.246 0.331
[8000; 9000[ 210 0.431 0.762
[9000; 10000[ 90 0.184 0.946
[10000; 12000[ 25 0.051 1
Total n=487 1 −

Classe du Q1 : [6000; 8000[, on a 0.085 < 0.25 ≤ Fi+1 = 0.331


Classe du Q2 : [8000; 9000[, on a 0.331 < 0.50 ≤ Fi+1 = 0.762
Classe du Q3 : [8000; 9000[, on a 0.331 < 0.75 ≤ Fi+1 = 0.762

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 63 / 83


Paramètres de position
Les quartiles: variable quantitative continue

Exemple (suite):

Classe ni fj Fi
[3000; 4000[ 12 0.024 0.024
[4000; 6000[ 30 0.061 0.085
[6000; 8000[ 120 0.246 0.331
[8000; 9000[ 210 0.431 0.762
[9000; 10000[ 90 0.184 0.946
[10000; 12000[ 25 0.051 1
Total n=487 1 −

Les valeurs exactes des quartiles sont déterminés à l’aide de l’interpolation


linéaire comme comme le calcul de la médiane.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 64 / 83


Paramètres de position
Les quartiles: variable quantitative continue

Exemple(suite): calcul de Q1 :

Classe ni fj Fi
[3000; 4000[ 12 0.024 0.024
[4000; 6000[ 30 0.061 0.085
[6000; 8000[ 120 0.246 0.331
[8000; 9000[ 210 0.431 0.762
[9000; 10000[ 90 0.184 0.946
[10000; 12000[ 25 0.051 1
Total n=487 1 −

Classe de Q1 : [6000; 8000[


Fi+1 −Fi 0.25−Fi 0.25−Fi
Li+1 −Li = Q1 −Li ⇒ Q1 = Li + Fi+1 −Fi × (Li+1 − Li )
0.25−0.085
On déduit que Q1 = 6000 + 0.331−0.085 × (8000 − 6000) = 7341

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 65 / 83


Paramètres de position
Les quartiles: variable quantitative continue

Exemple (suite): calcul de Q2 (Me ) :

Classe ni fj Fi
[3000; 4000[ 12 0.024 0.024
[4000; 6000[ 30 0.061 0.085
[6000; 8000[ 120 0.246 0.331
[8000; 9000[ 210 0.431 0.762
[9000; 10000[ 90 0.184 0.946
[10000; 12000[ 25 0.051 1
Total n=487 1 −

Classe de Q2 : [8000; 9000[


Fi+1 −Fi 0.5−Fi 0.5−Fi
Li+1 −Li = Q2 −Li ⇒ Q2 = Li + Fi+1 −Fi × (Li+1 − Li )
0.5−0.331
On déduit que Q2 = 8000 + 0.762−0.331 × (9000 − 8000) = 8392

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 66 / 83


Paramètres de position
Les quartiles: variable quantitative continue

Exemple (suite): calcul de Q3 :

Classe ni fj Fi
[3000; 4000[ 12 0.024 0.024
[4000; 6000[ 30 0.061 0.085
[6000; 8000[ 120 0.246 0.331
[8000; 9000[ 210 0.431 0.762
[9000; 10000[ 90 0.184 0.946
[10000; 12000[ 25 0.051 1
Total n=487 1 −

Classe de Q3 : [8000; 9000[


Fi+1 −Fi 0.75−Fi 0.75−Fi
Li+1 −Li = Q3 −Li ⇒ Q3 = Li + Fi+1 −Fi × (Li+1 − Li )
0.75−0.331
On déduit que Q3 = 8000 + 0.762−0.331 × (9000 − 8000) = 8972

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 67 / 83


Paramètres de position
Les quantiles

Remarque
La formule de l’interpolation linéaire pourra être utilisé pour déterminer
n’importe quel quantile d’ordre p.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 68 / 83


Paramètres de dispersion(variabilité)
Etendue

Etendue
L’etendue d’une variable quantitative discrète est la différence entre la
plus grande valeur et la plus petite valeur de cette variable, donnée
par:
E = xmax − xmin
L’étendue donne une idée de la dispersion des observations.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 69 / 83


Paramètres de dispersion(variabilité)
L’écart interquartiles

L’écart interquartiles est la différence entre le premier et le troisième


quartile de la série d’observations :

EQ = Q3 − Q1

Il correspond à la longueur de l’intervalle interquartile contenant les


50% des valeurs centrales de la série d’observations,excluant les 25 %
des valeurs les plus faibles et les 25 % de valeurs les plus élevées:

[Q1 , Q3 [

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 70 / 83


Paramètres de dispersion(variabilité)
Boı̂te à moustaches (Box Plot)

La boı̂te à moustaches résume de manière simple et visuelle quelques


indicateurs de position de la variable quantitative étudiée (médiane,
quartiles). elle permet de comparer un même caractère dans deux
populations de tailles différentes et de détecter les valeurs abberantes.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 71 / 83


Paramètres de dispersion(variabilité)
Boı̂te à moustaches (Box Plot)

Les limites xg et xd de Box Plot sont déterminées de la manière suivantes :

a1 = Q1 − 1.5(Q3 − Q1 )
a2 = Q3 + 1.5(Q3 − Q1 )
xg = Plus petite observation supérieure ou égale a1 (moustache gauche)
xd = Plus grande observation inférieure ou égale a2 (moustache droite)

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 72 / 83


Paramètres de dispersion(variabilité)
Boı̂te à moustaches (Box Plot)

Exerice
Tracer la boı̂te à moustaches pour cette série statistiques:

{1, 6, 7, 12, 13, 16, 18, 20, 30, 34}

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 73 / 83


Paramètres de dispersion(variabilité)
Boı̂te à moustaches (Box Plot)

Exercice:
Dans un groupe de 40 étudiants, on a fait une étude sur le nombre
d’heures de classe de chacun la journée de mardi:

1 Construire le tableau complet de distribution des fréquences.


2 Calculer la moyenne, le mode et les 3 quartiles.
3 Tracer la boite à moustache pour cette variable statistique

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 74 / 83


Paramètres de dispersion(variabilité)
Boı̂te à moustaches (Box Plot)

Solution:
1.
xj ni fj Fi
1 2 0.05 0.05
2 3 0.075 0.125
3 7 0.175 0.300
4 9 0.225 0.525
5 10 0.250 0.775
6 6 0.150 0.925
7 2 0.05 0.975
8 1 0.025 1
Total n=40 1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 75 / 83


Paramètres de dispersion(variabilité)
Boı̂te à moustaches (Box Plot)

Solution:
2.
x̄ Mode Médiane(Q2 ) Q1 Q3
4.325 5 4 3 5
3.

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 76 / 83


Paramètres de dispersion(variabilité)
Variance: vaariable quantitative discrète

La variance d’une variable statistique X est le nombre:


n
X n
X
Var (X ) = fi (xi − x̄)2 = fi xi2 − x̄ 2
i=1 i=1

OU
n n
1X 1X
Var (X ) = ni (xi − x̄)2 = ni xi2 − x̄ 2
n n
i=1 i=1

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 77 / 83


Paramètres de dispersion(variabilité)
Variance: vaariable quantitative discrète

Exemple:

xj ni ni × xi ni × xi2
3 3 9 27
5 1 5 25
9 2 18 162
11 2 22 247
Total n=8 54 456

1 Pn 54
x̄ = n i=1 ni xi = 8 = 6.75
1 n 2 2 456
− (6.75)2 = 11.44
P
V (x) = n i=1 ni xi − x̄ = 8

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 78 / 83


Paramètres de dispersion(variabilité)
Variance: vaariable quantitative continue

La variance d’une variable statistique X est le nombre:


n
X n
X
Var (X ) = fi (ci − x̄)2 = fi ci2 − x̄ 2
i=1 i=1

OU
n n
1X 1X
Var (X ) = ni (ci − x̄)2 = ni ci2 − x̄ 2
n n
i=1 i=1

ci est le centre de la classe i

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 79 / 83


Paramètres de dispersion(variabilité)
Variance: vaariable quantitative continue

Exemple:

Classe ni ci ni × ci ni × ci2
[0; 10[ 8 5 40 200
[10; 20[ 20 15 300 4500
[20; 30[ 32 25 800 20000
[30; 40[ 35 35 1225 42875
[40; 50[ 16 45 720 32400
[50; 60[ 15 55 825 45375
Total n=126 − 3910 145350

1 Pn 3910
x̄ = n i=1 ni ci = 126 = 31.03
1 Pn 2 2 145350
V (x) = n i=1 ni ci − x̄ = 126 − (31.03)2 = 190.71

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 80 / 83


Paramètres de dispersion(variabilité)
Ecart type

p
La quantité: σX = Var (X ) s’appelle l’écart type de la variable
statistique X.

Exercice:

1 Calculer la moyenne et l’écart type de la variable statistique étudiée


Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 81 / 83
Paramètres de dispersion(variabilité)
Coefficient de variation

Le coefficient de variation permet de comparer la dispersion de différentes


séries avec des unités différentes, il donnée par:
σx
CV =

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 82 / 83


Statistiques descriptives

Y. LAMRANI ALAOUI

École Marocaine des Sciences de l’Ingénieur – EMSI

2020-2021

Youssef, L. A. (EMSI) Statistiques descriptives 2020-2021 83 / 83

Vous aimerez peut-être aussi