Vous êtes sur la page 1sur 68

Statistiques descriptives

à une variable
Statistiques descriptives à une variable
Objectifs de ce module

1. Savoir décrire et représenter une série statistique


par un tableau et un ou plusieurs graphiques
adaptés.

2. Pouvoir résumer une série de données par un ou


plusieurs paramètres représentatifs (moyenne,
médiane…)
3. Indiquer comment les valeurs de la série se
répartissent « autour » de ces paramètres.
Statistiques descriptives à une variable

Plan du module
Voici les parties que nous allons aborder :

I. Représentations tabulaires et graphiques.


II. Paramètres de tendance centrale.
III. Paramètres de dispersion.
Statistiques descriptives à une variable

Représentations tabulaires
et graphiques
Ⅰ. Représentations tabulaires et graphiques

Plan de la partie

Voici les chapitres que nous allons aborder :

1. Caractères qualitatifs.
2. Caractères quantitatifs discrets.
3. Caractères quantitatifs continus.
Ⅰ. Représentations tabulaires et graphiques

Introduction

1. La représentation tabulaire est préalable à toute


analyse statistique. Elle fait suite au travail
préliminaire de collecte des données.

1. La représentation graphique d’un seul caractère


repose sur une règle de proportionnalité des
hauteurs ou aires des graphiques aux effectifs (ou
fréquences).
1. Tout graphique devra être lisible et fidèle
aux données.

2. Le choix d’un type de graphique dépendra


de la nature du caractère étudié.
Ⅰ. Représentations tabulaires et graphiques

1. Caractères qualitatifs
Représentation tabulaire
1. Tableau à simple entrée, sans hiérarchie (sauf
si le caractère est ordinal).

2. La première colonne renseigne les modalités et


les deux suivantes les effectifs et fréquences.

3. Si le caractère est ordinal, on pourra rajouter


une dernière colonne avec les fréquences
cumulées.
Ⅰ. Représentations tabulaires et graphiques

1. Caractères qualitatifs

Débouchés ni fi

SSII 149 28%


➢ Exemple : débouchés Editeurs
de 532 anciens élèves 101 19%
logiciels
Banque,financ
85 16%
e
➢ Les modalités sont ici
les natures de ces Télécoms 75 14%
débouchés.
Industrie 69 13%

Autres 53 10%
Ⅰ. Représentations tabulaires et graphiques

1. Caractères qualitatifs
Diagramme à bandes
1. Aussi appelé représentation par « tuyaux
d’orgue ».

2. Les modalités sont placées sur un axe horizontal.

3. Les effectifs (ou fréquences) sont placés sur un


axe vertical.
4. La hauteur de chaque tuyau est proportionnelle à
l’effectif correspondant.
5. Permet de comparer d’un « coup d’œil » les
différentes modalités.
Ⅰ. Représentations tabulaires et graphiques

1. Caractères qualitatifs
Anciens élèves par secteurs d'activités
160

140

120

100

80

60

40

20

0
SSII Editeurs banque, Télécoms Industrie Autres
logiciels finance,
assurance
Ⅰ. Représentations tabulaires et graphiques

1. Caractères qualitatifs

Diagramme circulaire

1. L’aire, et donc l’angle au centre d’un


secteur, est proportionnelle à la fréquence
(ou l’effectif) de la modalité considérée (d’où
un angle de fi x 360° pour la modalité i).

2. Permet de bien visualiser la part relative de


chaque modalité.
Ⅰ. Représentations tabulaires et graphiques

1. Caractères qualitatifs
Anciens élèves par secteurs
d'activités

10%

28%
13%

SSII
Editeurs logiciels
banque, finance, assurance
Télécoms
Industrie
14% Autres

19%

16%
Ⅰ. Représentations tabulaires et graphiques

2. Caractères quantitatifs discrets

Représentation tabulaire

Tableau à simple entrée, où les données sont


classées par ordre croissant.

La première colonne renseigne les différentes


valeurs du caractère, et les trois suivantes les
effectifs, fréquences et fréquences cumulées.
Ⅰ. Représentations tabulaires et graphiques

2. Caractères quantitatifs discrets


nomb ni fi Fi
Exemple : 4 3 6,12 6,12
1. nombre de lettres du 5 2 4,08 10,20
prénom des étudiants
6 20 40,82 51,02

2. Ce caractère est discret : 7 9 18,37 69,39


il ne peut prendre qu’un 8 5 10,20 79,59
nombre fini de valeurs.
9 7 14,29 93,88

10 1 2,04 95,92

12 1 2,04 97,96
14 1 2,04 100
Ⅰ. Représentations tabulaires et graphiques

2. Caractères quantitatifs discrets

Diagramme bâton des effectifs

A chaque valeur du caractère portée en


abscisse, on associe un « bâton » vertical
dont la hauteur est proportionnelle à l’effectif.

Cette représentation permet de comparer les


effectifs de chaque valeur du caractère.
Ⅰ. Représentations tabulaires et graphiques

2. Caractères quantitatifs discrets


Diagramme bâton des effectifs
25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ⅰ. Représentations tabulaires et graphiques

2. Caractères quantitatifs discrets


Courbe des fréquences cumulées
1. Représente l’évolution des fréquences
cumulées.
2. Le caractère étant discret, la courbe est en
« escalier ».
3. En effet, les valeurs étant séparées, entre
chacune d’elle la fréquence cumulée est
inchangée, d’où ces paliers.
Ⅰ. Représentations tabulaires et graphiques

2. Caractères quantitatifs discrets


Courbe des fréquences cumulées

100

90

80

70

60

50

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs
continus
Représentation tabulaire

Tableau à simple entrée, où les classes de


données sont triées par ordre croissant.
1. La première colonne renseigne les
différentes classes de valeurs du caractère,
et les trois suivantes les effectifs,
fréquences et fréquences cumulées.
2. Si les classes ne sont pas toutes de même
amplitude, on rajoute une colonne
contenant les densités de fréquence, i.e. la
fréquence de la classe divisée par son
amplitude.
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs continus

Classes ni fi Fi di

1. Exemple : salaire ]13;15] 12 12,77 12,77 6,38


annuels en ]15;16] 12 12,76 25,53 12,76
milliers d’euros
des employés ]16;17] 14 14,89 40,42 14,89
d’une entreprise. ]17;18] 15 15,96 56,38 15,96

]18;20] 20 21,28 77,66 10,64


2. Ce caractère est
continu : il peut ]20;22] 12 12,77 90,43 6,38
prendre toute ]22;26] 9 9,57 100 3,19
valeur entre 13 et
26.
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs
continus
Histogramme des densités de fréquence
Ensemble de rectangles contigus.
Pour chaque classe on trace un rectangle :
de base B proportionnelle à l’amplitude de la
classede hauteur h proportionnelle à la densité de
fréquence de la classe
L’aire du rectangle sera alors proportionnelle à
la fréquence de la classe.
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs
continus
Double interprétation :

1. On comparera les densités de fréquence


des classes en comparant les hauteurs des
rectangles.
2. On comparera les fréquences des classes
en comparant les aires des rectangles.
On se servira pour ce faire du rectangle « témoin »,
dont l’aire représente 1%.
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs
continus Histogramme des densités de
fréquences
16

14
représente
12 1%

10

0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs continus


Courbe des fréquences cumulées

1. Représente l’évolution des fréquences


cumulées.
2. Le caractère étant continu, la courbe l’est
également.

3. Pour la construire, on joint les points de


coordonnées (bi,Fi) où bi désigne l’extrémité
supérieure de la ième classe.
Ⅰ. Représentations tabulaires et graphiques

3. Caractères quantitatifs
continusCourbe des fréquences cumulées
100

90

80

70

60

50

40

30

20

10

0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Statistiques descriptives à une variable

Paramètres de tendance
centrale
Ⅱ. Paramètres de tendance centrale

Plan de la partie

1. Mode.
2. Moyennes.
3. Médiane.
Ⅱ. Paramètres de tendance centrale

Introduction
1. Les tableaux et graphiques contiennent la
totalité des données : ils sont parfois durs à
interpréter.

2. On va chercher à résumer les données par


quelques valeurs numériques.
3. Dans cette partie, on s’intéresse aux
paramètres de tendance centrale, i.e. aux
paramètres mesurant le « centre » des séries
statistiques.
Ⅱ. Paramètres de tendance centrale

1. Mode
Définition
Pour un caractère discret, le mode est la valeur
la plus fréquente.
Pour un caractère continu, la classe modale est
la classe ayant la plus forte densité de
fréquence.
Exemple
6 est le mode pour le nombre de lettres du
prénom.
]17,18] est la classe modale pour les salaires
Ⅱ. Paramètres de tendance centrale

1. Mode
Remarques
1. On peut définir de même le mode pour un
caractère qualitatif.
2. L’exemple des salaires montre que la classe
modale n’est pas nécessairement la classe de
plus grand effectif.
3. On peut définir le mode pour un caractère
quantitatif continu, en prenant le milieu de la
classe modale.
Ⅱ. Paramètres de tendance centrale

1. Mode
Si la série n’a qu’un seul mode, elle est dite
unimodale.
Dans le cas contraire, on la qualifie de
plurimodale.
On peut alors se poser la question de savoir si
notre population n’est pas un mélange de
groupes hétérogènes.

Exemple : étude des pointures de chaussures


dans la population française. La série est
bimodale car est un mélange de deux
groupes hétérogènes : les hommes et les
femmes.
Ⅱ. Paramètres de tendance centrale

2. Moyennes
Moyenne arithmétique

1. Si xi désigne les valeurs du caractère, ni les


effectifs correspondants et n l’effectif total alors :
1
x =  ni x i
n i
est la moyenne arithmétique de la série statistique.


1. Si l’on ne dispose que d’un regroupement en
classes, on prendra pour xi le centre de la ième
classe.
Ⅱ. Paramètres de tendance centrale

2. Moyennes

Exemples

La moyenne du nombre de lettres des prénoms


des étudiants est de 7.

Le salaire moyen des employés de l’entreprise


est de 18,04 milliers d’euros.
Ⅱ. Paramètres de tendance centrale

2. Moyennes

Avantages

Elle a de bonnes propriétés calculatoires


comme la linéarité : ax + b = ax + b

Elle prend en compte



l’ensemble des valeurs
(contrairement au mode).
Ⅱ. Paramètres de tendance centrale

2. Moyennes
Inconvénient

Elle est très sensible aux valeurs « extrêmes ».

Exemple : si dans votre entreprise les 10 salariés


(dont vous faites partie) gagnent chacun 1500€
par mois et que le patron gagne lui 7000€ par
mois, le salaire moyen mensuel est de 2000€…
Ⅱ. Paramètres de tendance centrale

3. Médiane
Définition
Si F désigne la fonction des fréquences cumulées,
la médiane d’une série statistique sera la plus
petite valeur x telle que
F(x) ≥ 0,5. On la note Me.

Interprétation : plus de 50 % des valeurs de la


série seront inférieures à Me et plus de 50 % lui
seront supérieures.
Ⅱ. Paramètres de tendance centrale

3. Médiane
Avantages
Contrairement à la moyenne, la médiane n’est
pas sensible aux valeurs extrêmes.
dans l’exemple de l’entreprise où les 10 salariés
gagnent chacun 1500€ par mois et le patron
7000€ par mois, le salaire médian mensuel est de
1500€.
La médiane a une signification concrète, c.f.
interprétation de la diapositive précédente.
Ⅱ. Paramètres de tendance centrale

3. Médiane

Inconvénients
La détermination de la médiane ne prend pas
en compte toutes les données.

La médiane n’a pas de bonnes propriétés


calculatoires. En particulier, elle n’est pas
linéaire.
Ⅱ. Paramètres de tendance centrale

3. Médiane
Détermination pratique : caractère discret

1. Si l’effectif total n est impair, i.e. n = 2k + 1, la


médiane sera le k+1ème terme de la série.
2. Si n est pair, i.e. n = 2k, la médiane sera le kème
terme de la série.
3. Dans l’exemple de la partie Ⅰ on trouve ainsi Me
= 6.
4. La médiane peut également se déterminer
graphiquement Avec ce même exemple cela
donne
Ⅱ. Paramètres de tendance centrale

3. Médiane
médiane : détermination graphique

100

90

80

70

60

50

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ⅱ. Paramètres de tendance centrale

3. Médiane
Détermination pratique : caractère
continu
On commence par déterminer la classe
médiane, i.e. la première classe où la
fréquence cumulée dépasse 0,5.
Ensuite, on calcule Me par interpolation linéaire.
Dans l’exemple de la partie Ⅰ, la classe
médiane est ]17;18]. On a alors :
50 − 40,42
M e = 17 + (18 −17)  = 17,6
56,38 − 40,42
Ⅱ. Paramètres de tendance centrale

3. Médiane
Médiane : détermination graphique

100

90

80

70

60

50

40

30

20

10

0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Statistiques descriptives à une variable

Paramètres de
dispersion
Ⅲ. Paramètres de dispersion

Plan de la partie

Voici les chapitres que nous allons aborder :

1. Étendue.
2. Écart interquartile. Boîte à moustache.
3. Écart absolu.
4. Écart type.
5. Paramètres de dispersion relative.
Ⅲ. Paramètres de dispersion

Introduction
Deux séries statistiques peuvent avoir les
mêmes paramètres de tendance centrale
mais pas la même « dispersion ».
Exemple :
Notes de Mick : 7 , 8 , 11 , 12 , 13 , 13 et 13. ➢
Notes de Keith : 4 , 7 , 9 , 12 , 13 , 13 et 19. ➢

Il est donc nécessaire d’adjoindre à un


paramètre de tendance centrale, un ou des
paramètres mesurant l’écartement des
valeurs entres elles.
Ⅲ. Paramètres de dispersion

1. Étendue
Définition
L’étendue d’une série statistique est la
différence entre la plus grande valeur de la
série et la plus petite.
Remarque
Paramètre très simple à calculer et à interpréter.
Par nature très sensible aux valeurs extrêmes.
Ⅱ. Paramètres de tendance centrale

2. Espace interquartile.
Définition
Si F désigne la fonction des fréquences
cumulées, le premier (resp. troisième) quartile
d’une série statistique sera la plus petite valeur
x telle que F(x) ≥ 0,25 (resp. 0,75) . On le note
Q1 (resp. Q3).

Interprétation : plus de 25 % des valeurs de la


série seront inférieures à Q1 et plus de 75 % lui
seront supérieures. De même plus de 75 %
des valeurs de la série seront inférieures à Q 3
et plus de 25 % lui seront supérieures.
Ⅲ. Paramètres de dispersion

2. Espace interquartile.

Détermination pratique : caractère discret


Si n désigne l’effectif total, Q1 sera égal à xi, où i
est le plus petit entier supérieur ou égal à n/4.
Q3 sera égal à x i, où i est le plus petit entier
supérieur ou égal à 3n/4.

Dans l’exemple de la partie Ⅰ on trouve Q1 = 6 et


Q3 = 8.
La détermination graphique se fait comme pour la
médiane :
Ⅲ. Paramètres de dispersion

2. Espace interquartile.
quartiles : détermination graphique

100

90

80

70

60

50

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ⅲ. Paramètres de dispersion

2. Espace interquartile.
Détermination pratique : caractère continu
On commence par déterminer dans quels
intervalles se situent Q1 et Q3.
On procède ensuite par interpolation linéaire.
Pour l’exemple de la partie Ⅰ, cela donne :
25 −12,77
Q1 = 15 + (16 −15)  = 15,96
25,53 −12,77
75 − 56,38
Q3 = 18 + (20 −18)  = 19,75
77,66 − 56,38


Ⅲ. Paramètres de dispersion

2. Espace interquartile.
quartiles : détermination graphique

100

90

80

70

60

50

40

30

20

10

0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Ⅲ. Paramètres de dispersion

2. Espace interquartile.
Définition
L’intervalle interquartile est l’intervalle [Q1;Q3].
L’écart interquartile est la différence Q 3 - Q1.

Interprétation :
L’intervalle interquartile contient au moins 50%
des valeurs de la série.
L’écart interquartile mesure la dispersion sans
tenir compte des valeurs extrêmes.
Ⅲ. Paramètres de dispersion

2. Espace interquartile.
Après les quartiles, on peut définir de la même
façon les déciles (voire les centiles) d’une
série statistique.

Il s’agit de regarder les valeurs de la série


correspondant à des fréquences cumulées
de 0,1 ; 0,2 … 0,9.

.
Pour visualiser la dispersion d’une série
statistique, on peut alors représenter une
« boîte à moustache ».

Le graphique suivant se suffit à lui même pour


la compréhension.
Ⅲ. Paramètres de dispersion

2. Espace interquartile.
boîte à moustache

1er décile 9éme décile

max min

1er quartile médiane 3éme quartile


Ⅲ. Paramètres de dispersion

3. Écart absolu

Définition
Écart absolu moyen : moyenne des valeurs
absolues des écarts à la moyenne.
1
e =  ni x i − x
n i

Écart absolu médian : moyenne des valeurs


absolues des écarts à la médiane.
1
e'=  n i x i − M e
n i
Ⅲ. Paramètres de dispersion

3. Écart absolu
Intérêts

Paramètres simples à calculer, prenant en


compte l’ensemble des données.
Très facile d’interprétation.

Inconvénient

Mauvaises propriétés calculatoires (non linéaire).


Peu utilisés par les logiciels de statistiques.
Ⅲ. Paramètres de dispersion

4. Écart type

Définition ⚫

Écart quadratique moyen : moyenne des carrés


des écarts à la moyenne. Souvent appelé
variance. 1
 n (x )
2
Vx = i i −x
n i

Écart type :  x = Vx

Ⅲ. Paramètres de dispersion

4. Écart type

Propriétés calculatoires

Formule de Koenig :
1
() =x
Vx =  n i (x i ) − x
2 2 2
2
−x
n i
Invariance par translation et conséquence d’un
changement d’échelle :  = a
 ax +b x
Ⅲ. Paramètres de dispersion

4. Écart type
Intérêts
1. Bonnes propriétés calculatoires. Prend en
compte l’ensemble des valeurs de la série.
2. Paramètre de dispersion le plus utilisé en
statistiques. Calculé par tous les logiciels et
calculatrices.

3. Sous certaines hypothèses, il permet de


construire des intervalles de confiance autour de
la moyenne
4. Très utile pour effectuer des« tests statistiques ».
Ⅲ. Paramètres de dispersion

4. Écart type
Inconvénients

➢ La définition de l’écart type est moins


naturelle que celle de l’écart absolu.

➢ Sa signification et son interprétation ne sont


donc pas évidente.
Ⅲ. Paramètres de dispersion

4. Écart type

Exemples
Si l’on reprend les exemples de la partie Ⅰ, on
obtient :
Pour le premier exemple (caractère discret) :
e = 1,375, Vx = 3,489, σx = 1,868.
Pour le second exemple (caractère continu) :
e = 2,308, Vx = 8,023, σx = 2,832.
Ⅲ. Paramètres de dispersion
5. Paramètres de dispersion
relative
La dispersion mesurée par les paramètres présentés
précédemment est qualifiée d’absolue : ils
s’expriment dans l’unité de mesure du caractère.
Pour comparer la dispersion de deux séries
statistiques ayant des unités différentes (ou même
des ordres de grandeur différents), il faut
considérer des paramètres de dispersion relative.
Un paramètre de dispersion relative sera un rapport
du type :
paramètre de dispersion absolue
paramètre de dispersion relative =
paramètre de tendance centrale
Ⅲ. Paramètres de dispersion

5. Paramètres de dispersion
relative
Coefficient de variation : x
CVx =
x

 Q3 − Q1
Me
Coefficient interquartile relatif :

écart absolu moyen



x
Écart moyen relatif :
Ⅲ. Paramètres de dispersion

5. Paramètres de dispersion
relative
Exemples
Pour les exemples de la partie Ⅰ, on obtient
pour coefficient de variation, coefficient
interquartile relatif et écart moyen relatif :
Pour le premier exemple : 26,60%, 33,33% et
19,59%.
Pour le second exemple : 15,70%, 21,53% et
12,79%.
La seconde série apparaît donc moins
dispersée que la première.

Vous aimerez peut-être aussi