Académique Documents
Professionnel Documents
Culture Documents
à une variable
Statistiques descriptives à une variable
Objectifs de ce module
Plan du module
Voici les parties que nous allons aborder :
Représentations tabulaires
et graphiques
Ⅰ. Représentations tabulaires et graphiques
Plan de la partie
1. Caractères qualitatifs.
2. Caractères quantitatifs discrets.
3. Caractères quantitatifs continus.
Ⅰ. Représentations tabulaires et graphiques
Introduction
1. Caractères qualitatifs
Représentation tabulaire
1. Tableau à simple entrée, sans hiérarchie (sauf
si le caractère est ordinal).
1. Caractères qualitatifs
Débouchés ni fi
Autres 53 10%
Ⅰ. Représentations tabulaires et graphiques
1. Caractères qualitatifs
Diagramme à bandes
1. Aussi appelé représentation par « tuyaux
d’orgue ».
1. Caractères qualitatifs
Anciens élèves par secteurs d'activités
160
140
120
100
80
60
40
20
0
SSII Editeurs banque, Télécoms Industrie Autres
logiciels finance,
assurance
Ⅰ. Représentations tabulaires et graphiques
1. Caractères qualitatifs
Diagramme circulaire
1. Caractères qualitatifs
Anciens élèves par secteurs
d'activités
10%
28%
13%
SSII
Editeurs logiciels
banque, finance, assurance
Télécoms
Industrie
14% Autres
19%
16%
Ⅰ. Représentations tabulaires et graphiques
Représentation tabulaire
10 1 2,04 95,92
12 1 2,04 97,96
14 1 2,04 100
Ⅰ. Représentations tabulaires et graphiques
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ⅰ. Représentations tabulaires et graphiques
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ⅰ. Représentations tabulaires et graphiques
3. Caractères quantitatifs
continus
Représentation tabulaire
Classes ni fi Fi di
3. Caractères quantitatifs
continus
Histogramme des densités de fréquence
Ensemble de rectangles contigus.
Pour chaque classe on trace un rectangle :
de base B proportionnelle à l’amplitude de la
classede hauteur h proportionnelle à la densité de
fréquence de la classe
L’aire du rectangle sera alors proportionnelle à
la fréquence de la classe.
Ⅰ. Représentations tabulaires et graphiques
3. Caractères quantitatifs
continus
Double interprétation :
3. Caractères quantitatifs
continus Histogramme des densités de
fréquences
16
14
représente
12 1%
10
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Ⅰ. Représentations tabulaires et graphiques
3. Caractères quantitatifs
continusCourbe des fréquences cumulées
100
90
80
70
60
50
40
30
20
10
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Statistiques descriptives à une variable
Paramètres de tendance
centrale
Ⅱ. Paramètres de tendance centrale
Plan de la partie
1. Mode.
2. Moyennes.
3. Médiane.
Ⅱ. Paramètres de tendance centrale
Introduction
1. Les tableaux et graphiques contiennent la
totalité des données : ils sont parfois durs à
interpréter.
1. Mode
Définition
Pour un caractère discret, le mode est la valeur
la plus fréquente.
Pour un caractère continu, la classe modale est
la classe ayant la plus forte densité de
fréquence.
Exemple
6 est le mode pour le nombre de lettres du
prénom.
]17,18] est la classe modale pour les salaires
Ⅱ. Paramètres de tendance centrale
1. Mode
Remarques
1. On peut définir de même le mode pour un
caractère qualitatif.
2. L’exemple des salaires montre que la classe
modale n’est pas nécessairement la classe de
plus grand effectif.
3. On peut définir le mode pour un caractère
quantitatif continu, en prenant le milieu de la
classe modale.
Ⅱ. Paramètres de tendance centrale
1. Mode
Si la série n’a qu’un seul mode, elle est dite
unimodale.
Dans le cas contraire, on la qualifie de
plurimodale.
On peut alors se poser la question de savoir si
notre population n’est pas un mélange de
groupes hétérogènes.
2. Moyennes
Moyenne arithmétique
1. Si l’on ne dispose que d’un regroupement en
classes, on prendra pour xi le centre de la ième
classe.
Ⅱ. Paramètres de tendance centrale
2. Moyennes
Exemples
2. Moyennes
Avantages
2. Moyennes
Inconvénient
3. Médiane
Définition
Si F désigne la fonction des fréquences cumulées,
la médiane d’une série statistique sera la plus
petite valeur x telle que
F(x) ≥ 0,5. On la note Me.
3. Médiane
Avantages
Contrairement à la moyenne, la médiane n’est
pas sensible aux valeurs extrêmes.
dans l’exemple de l’entreprise où les 10 salariés
gagnent chacun 1500€ par mois et le patron
7000€ par mois, le salaire médian mensuel est de
1500€.
La médiane a une signification concrète, c.f.
interprétation de la diapositive précédente.
Ⅱ. Paramètres de tendance centrale
3. Médiane
Inconvénients
La détermination de la médiane ne prend pas
en compte toutes les données.
3. Médiane
Détermination pratique : caractère discret
3. Médiane
médiane : détermination graphique
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ⅱ. Paramètres de tendance centrale
3. Médiane
Détermination pratique : caractère
continu
On commence par déterminer la classe
médiane, i.e. la première classe où la
fréquence cumulée dépasse 0,5.
Ensuite, on calcule Me par interpolation linéaire.
Dans l’exemple de la partie Ⅰ, la classe
médiane est ]17;18]. On a alors :
50 − 40,42
M e = 17 + (18 −17) = 17,6
56,38 − 40,42
Ⅱ. Paramètres de tendance centrale
3. Médiane
Médiane : détermination graphique
100
90
80
70
60
50
40
30
20
10
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Statistiques descriptives à une variable
Paramètres de
dispersion
Ⅲ. Paramètres de dispersion
Plan de la partie
1. Étendue.
2. Écart interquartile. Boîte à moustache.
3. Écart absolu.
4. Écart type.
5. Paramètres de dispersion relative.
Ⅲ. Paramètres de dispersion
Introduction
Deux séries statistiques peuvent avoir les
mêmes paramètres de tendance centrale
mais pas la même « dispersion ».
Exemple :
Notes de Mick : 7 , 8 , 11 , 12 , 13 , 13 et 13. ➢
Notes de Keith : 4 , 7 , 9 , 12 , 13 , 13 et 19. ➢
1. Étendue
Définition
L’étendue d’une série statistique est la
différence entre la plus grande valeur de la
série et la plus petite.
Remarque
Paramètre très simple à calculer et à interpréter.
Par nature très sensible aux valeurs extrêmes.
Ⅱ. Paramètres de tendance centrale
2. Espace interquartile.
Définition
Si F désigne la fonction des fréquences
cumulées, le premier (resp. troisième) quartile
d’une série statistique sera la plus petite valeur
x telle que F(x) ≥ 0,25 (resp. 0,75) . On le note
Q1 (resp. Q3).
2. Espace interquartile.
2. Espace interquartile.
quartiles : détermination graphique
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ⅲ. Paramètres de dispersion
2. Espace interquartile.
Détermination pratique : caractère continu
On commence par déterminer dans quels
intervalles se situent Q1 et Q3.
On procède ensuite par interpolation linéaire.
Pour l’exemple de la partie Ⅰ, cela donne :
25 −12,77
Q1 = 15 + (16 −15) = 15,96
25,53 −12,77
75 − 56,38
Q3 = 18 + (20 −18) = 19,75
77,66 − 56,38
Ⅲ. Paramètres de dispersion
2. Espace interquartile.
quartiles : détermination graphique
100
90
80
70
60
50
40
30
20
10
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Ⅲ. Paramètres de dispersion
2. Espace interquartile.
Définition
L’intervalle interquartile est l’intervalle [Q1;Q3].
L’écart interquartile est la différence Q 3 - Q1.
Interprétation :
L’intervalle interquartile contient au moins 50%
des valeurs de la série.
L’écart interquartile mesure la dispersion sans
tenir compte des valeurs extrêmes.
Ⅲ. Paramètres de dispersion
2. Espace interquartile.
Après les quartiles, on peut définir de la même
façon les déciles (voire les centiles) d’une
série statistique.
.
Pour visualiser la dispersion d’une série
statistique, on peut alors représenter une
« boîte à moustache ».
2. Espace interquartile.
boîte à moustache
max min
3. Écart absolu
Définition
Écart absolu moyen : moyenne des valeurs
absolues des écarts à la moyenne.
1
e = ni x i − x
n i
3. Écart absolu
Intérêts
Inconvénient
4. Écart type
Définition ⚫
Écart type : x = Vx
Ⅲ. Paramètres de dispersion
4. Écart type
Propriétés calculatoires
Formule de Koenig :
1
() =x
Vx = n i (x i ) − x
2 2 2
2
−x
n i
Invariance par translation et conséquence d’un
changement d’échelle : = a
ax +b x
Ⅲ. Paramètres de dispersion
4. Écart type
Intérêts
1. Bonnes propriétés calculatoires. Prend en
compte l’ensemble des valeurs de la série.
2. Paramètre de dispersion le plus utilisé en
statistiques. Calculé par tous les logiciels et
calculatrices.
4. Écart type
Inconvénients
4. Écart type
Exemples
Si l’on reprend les exemples de la partie Ⅰ, on
obtient :
Pour le premier exemple (caractère discret) :
e = 1,375, Vx = 3,489, σx = 1,868.
Pour le second exemple (caractère continu) :
e = 2,308, Vx = 8,023, σx = 2,832.
Ⅲ. Paramètres de dispersion
5. Paramètres de dispersion
relative
La dispersion mesurée par les paramètres présentés
précédemment est qualifiée d’absolue : ils
s’expriment dans l’unité de mesure du caractère.
Pour comparer la dispersion de deux séries
statistiques ayant des unités différentes (ou même
des ordres de grandeur différents), il faut
considérer des paramètres de dispersion relative.
Un paramètre de dispersion relative sera un rapport
du type :
paramètre de dispersion absolue
paramètre de dispersion relative =
paramètre de tendance centrale
Ⅲ. Paramètres de dispersion
5. Paramètres de dispersion
relative
Coefficient de variation : x
CVx =
x
Q3 − Q1
Me
Coefficient interquartile relatif :
5. Paramètres de dispersion
relative
Exemples
Pour les exemples de la partie Ⅰ, on obtient
pour coefficient de variation, coefficient
interquartile relatif et écart moyen relatif :
Pour le premier exemple : 26,60%, 33,33% et
19,59%.
Pour le second exemple : 15,70%, 21,53% et
12,79%.
La seconde série apparaît donc moins
dispersée que la première.