Vous êtes sur la page 1sur 27

Chapitre 1

Statistique descriptive

adrien.mazoyer@math.univ-toulouse.fr
Un peu de vocabulaire

Dénition (Population)
La population est un ensemble d'individus sur lequel porte notre étude.
Les individus peuvent être des humains, mais également d'autres êtres vivants ou
des objets inanimés (jours de l'année, mots d'un texte, etc.)

On notera parfois Ω = {ω1 , . . . , ωN } la population, les ωi étant donc les individus.

Adrien Mazoyer Introduction à la Statistique 2 / 26


Un peu de vocabulaire
Une étude d'une population porte sur un ou plusieurs caractères statistiques
mesurés sur les individus.

Dénition (Type de caractères statistiques)


Quantitatif : le caractère prend des valeurs numériques. Il peut être
continu (température en un point donné dans une région)

discret (nombre d'enfants dans un foyer)


Qualitatif : le caractère prend ses valeur dans un ensemble de modalités
non-numériques (météo, candidats à une élection,...). Il peut être
nominal/catégoriel : pas d'ordre entre les modalités (couleur : rouge, bleu,...)
ordinal : ordre entre les modalités (avis : pas d'accord, plutôt pas d'accord,
plutôt d'accord, d'accord).

Pour une population Ω = {ω1 , . . . , ωN } et un caractère statistique X, on notera

ΩX = {m1 , . . . , mr } l'ensemble des modalités possibles de X


xi la valeur du caractère X sur l'individu ωi (càd xi = X(ωi )).

Adrien Mazoyer Introduction à la Statistique 3 / 26


Plan

1 Caractère statistique discret

2 Représentations graphiques

3 Indicateurs classiques

Adrien Mazoyer Introduction à la Statistique 4 / 26


Caractère statistique discret

Remarque
Un caractère discret est un caractère dont on peut dénombrer/distinguer les
diérentes modalités possibles.

Ils s'agit donc des caractères quantitatifs discrets et des caractères qualitatifs.

Exemple
On considère une petite ville où on compte 1000 familles avec enfants, et on
relève le nombre d'enfants pour chacun de ces foyers.

Population Ω considérée : les familles avec enfants de la ville considérée.


Caractère X considéré : nombre d'enfants par individu de la population.
Table d'eectifs associée
Nb. d'enfants 1 2 3 4 5 6 7
Nb. de familles 438 366 142 21 18 12 3

Adrien Mazoyer Introduction à la Statistique 5 / 26


Table d'eectifs
Dénition (Table d'eectifs)
La table d'eectif renseigne pour chaque valeur/modalité du caractère considéré,
le nombre de fois où est observée la modalité.
De manière équivalente, on peut en tirer la fréquence de chaque modalité.
Dans le cas d'un caractère quantitatif, on indique souvent la fréquence
cumulée.
Sur l'exemple de la diapo précédente :

Nb. d'enfants
1 2 3 4 5 6 7
( Modalités)
Nb. de familles
438 366 142 21 18 12 3
( Eectifs)
% de familles
43.8 36.6 14.2 2.1 1.8 1.2 0.3
( Fréquences)
Fréquences 43.8 80.4 94.6 96.7 98.5 99.7 100
cumulées
Adrien Mazoyer Introduction à la Statistique 6 / 26
Table d'eectifs

Plus formellement
Soit un caractère d'intérêt X a r modalités m1 , . . . , mr , et qu'on a N individus
dans la population considérée.

L'eectif de la j ème modalité mj du caractère X est noté nX (mj ). On a


d'ailleurs que

N = nX (m1 ) + nX (m2 ) + . . . + nX (mr )

La fréquence de la j ème modalité mj est dénie par

nX (mj )
fX (mj ) = ∈ [0 ; 1] (qu'on ramène en %)
N

Les fréquences cumulées sont dénies par FX (m1 ) = fX (m1 ) et pour j>1

FX (mj ) = fX (m1 ) + . . . + fX (mj )

Adrien Mazoyer Introduction à la Statistique 7 / 26


Plan

1 Caractère statistique discret

2 Représentations graphiques

3 Indicateurs classiques

Adrien Mazoyer Introduction à la Statistique 8 / 26


Pourquoi faire ?

Donne une vision globale de nos données

On peut comparer visuellement 2 jeux de données

Graphique diérents selon le type de caractère considéré

Attention : un graphique n'est qu'un résumé et reste donc trop imprécis pour
être considéré seul.

Adrien Mazoyer Introduction à la Statistique 9 / 26


Caractères qualitatifs
Chaque modalité est représentée par une surface proportionnelle à son eectif.
Représentation classique : le diagramme en bâtons. Tous les rectangles ont
même longueur de base, c'est la hauteur qui représente la fréquence (ou l'eectif ).

Fréquences

0.30
CSP
(%)
Ouvriers 25

0.25
Employés 30

0.20
Cadres 12 Fréquences
Autres 33 0.15
0.10
0.05
0.00

Autres Cadres Employés Ouvriers


CSP
Adrien Mazoyer Introduction à la Statistique 10 / 26
Caractères quantitatifs discrets
On peut également utiliser les diagrammes en bâtons

Nb. % de

0.4
d'enfants familles
1 43.8
2 36.6

0.3
3 14.2

Fréquences
4 2.1

0.2
5 1.8
6 1.2
7 0.3
0.1
0.0

1 2 3 4 5 6 7
Nb d'enfants

Adrien Mazoyer Introduction à la Statistique 11 / 26


Caractères quantitatifs discrets
On va souvent considérer un diagramme de fréquences cumulées

Fréquences
Nb. 1.0
cumulées
d'enfants
(%)

Fréquences cumulées
1 43.8 0.8
2 80.4
3 94.6
4 96.7 0.6
5 98.5
6 99.7
0.4
7 100

0.2

0.0
0 1 2 3 4 5 6 7
Nombre d'enfants
Adrien Mazoyer Introduction à la Statistique 12 / 26
Caractères continus

An de pouvoir représenter graphiquement des données d'un caractère continu, on


doit séparer les données en diérentes classes.
Prenons par exemple des données correspondant à la taille de 10 personnes

x1 = 1.65 , x2 = 1.77 , x3 = 1.63 , x4 = 1.72 , x5 = 1.78 , x6 = 1.63 ,


x7 = 1.79 , x8 = 1.78 , x9 = 1.82 , x10 = 1.73

Contrairement au cas discret, le caractère dont sont issues les données n'a pas un
nombre dénombrable de modalité possible. Pour remédier à cela, on regroupe les
valeurs en classes (de même taille) :

Taille Eectifs
[1.60 ; 1.70[ 3
[1.70 ; 1.80[ 6
[1.80 ; 1.90[ 1

Adrien Mazoyer Introduction à la Statistique 13 / 26


Caractère quantitatifs continus

Même principe que pour les diagrammes en bâtons : la base des rectangles
correspond à la largeur de l'intervalle considéré et la hauteur est proportionnel à
l'eectif de la classe.

8
6
Eectifs
Taille Eectifs
normalisés

4
[1.60 ; 1.65] 3 6
]1.65 ; 1.70] 0 0

2
]1.70 ; 1.75] 2 4
]1.75 ; 1.80] 4 8

0
]1.80 ; 1.85] 1 2 1.60 1.65 1.70 1.75 1.80 1.85
Taille

Ce diagramme en bâton est appelé un histogramme.


Lorsque l'aire totale des rectangle vaut 1, on dit que l'histogramme est normalisé.

Adrien Mazoyer Introduction à la Statistique 14 / 26


Caractère quantitatifs continus

On peut également tracer un diagramme de fréquences cumulées :

Fréquence 1.0
Tailles Eectifs
cumulées

Fréquences cumulées
1.63 2 0.2 0.8
1.65 1 0.3
1.72 1 0.4 0.6
1.73 1 0.5
1.77 1 0.6 0.4
1.78 2 0.8
1.79 1 0.9 0.2
1.82 1 1
0.0
1.5 1.6 1.7 1.8 1.9 2.0
Taille

Adrien Mazoyer Introduction à la Statistique 15 / 26


Plan

1 Caractère statistique discret

2 Représentations graphiques

3 Indicateurs classiques

Adrien Mazoyer Introduction à la Statistique 16 / 26


Indicateurs statistiques

Les indicateurs statistiques sont des grandeurs quantitatives résumant des


informations sur la population.

On distinguera ici 2 catégories d'indicateurs

Indicateurs de position : moyenne, médiane.

Indicateurs de dispersions : écart-type, quantiles.

Remarque
Ces notions n'ont de sens que pour des caractères quantitatifs !

Adrien Mazoyer Introduction à la Statistique 17 / 26


Moyenne
Dénition (Moyenne)
Soit une population Ω = {ω1 , . . . , ωN }, la moyenne X d'un caractère d'intérêt X
est alors
1
X= (x1 + . . . + xN )
N
avec xi = X(ωi ), càd la mesure de X sur le ième individu. Si X est un caractère
discret à r modalités m1 , . . . , mr la moyenne s'écrit aussi

X = m1 fX (m1 ) + . . . + mr fX (mr )

Nb. d'enfants 1 2 3 4 5 6 7
Nb. de familles 438 366 142 21 18 12 3

Quel est le nombre moyen d'enfants par familles ?

438 × 1 + 2 × 366 + 3 × 142 + 4 × 21 + 5 × 18 + 6 × 12 + 7 × 3


= 1.863
1000
Adrien Mazoyer Introduction à la Statistique 18 / 26
Médiane

Exemple classique
Le salaire médian en France en 2020 était de 2000 ¿net par mois dans le secteur
privé.
Traduction : la moitié des salariés du secteur privé gagnaient moins de 2000 ¿net
par mois.

Dénition (Médiane)
La médiane de valeurs x1 , . . . , xN issues d'un caractère X est une valeur M eX
telle que la moitié des xi est inférieur à M eX .

Attention !
À ne pas confondre avec la moyenne !

Adrien Mazoyer Introduction à la Statistique 19 / 26


Identication graphique de la médiane

On peut lire directement sur le diagramme des fréquences cumulées la valeur de la


médiane. Reprenons l'exemple de la diapo 12 et identions la médiane.

1.0

Fréquences cumulées
1 On trace la ligne horizontale à 0.8
l'ordonnée 0.5 ;
0.6
2 On repère le premier point
0.5
au-dessus de cette ligne, cela
0.4
nous donne la médiane ;

→ la moitié des foyers ont moins 0.2


de 2 enfants.
0.0
0 1 2 3 4 5 6 7
Nombre d'enfants

Adrien Mazoyer Introduction à la Statistique 20 / 26


Quantiles
Exemple classique
Le quantile d'ordre 10% des salaires du secteur privé en 2020 était de 1340 ¿ net
par mois.
Traduction : 10% des salariés du secteur privé en 2020 gagnaient moins de
1340 ¿ net par mois.
Dénition (Quantile)
Le quantile d'ordre α de valeurs x1 , . . . , xN issues d'un caractère X est une valeur
qX (α) telle qu'une proportion α des xi est inférieure à qX (α).

Les quartiles sont les quantiles d'ordre α = 0.25 (1er quartile), 0.50 (médiane) ou
0.75 (3ème quartile).

Les déciles sont les quantiles d'ordre α = 0.1 (1er décile), α = 0.2 (2ème
décile),. . ., α = 0.9 (9ème décile).

On peut observer l' écart inter-quartile (diérence entre le 3ème et le 1er


quartile) pour quantier la dispersion des données.
Adrien Mazoyer Introduction à la Statistique 21 / 26
Identication graphique d'un quantile

On peut lire la valeur d'un quantile sur le diagramme des fréquences cumulées,
comme pour la médiane.

Adrien Mazoyer Introduction à la Statistique 22 / 26


Identication graphique d'un quantile

On peut lire la valeur d'un quantile sur le diagramme des fréquences cumulées,
comme pour la médiane. Cherchons par exemple le quantile d'ordre 0.85.

1.00

0.85

Fréquences cumulées
1 On trace la ligne horizontale à 0.80
l'ordonnée 0.85 ;
0.60
2 On repère le premier point
au-dessus de cette ligne, cela
0.40
nous donne le quantile d'ordre
0.85 ;
0.20
→ 85% des foyers ont moins de 3
enfants. 0.00
0 1 2 3 4 5 6 7
Nombre d'enfants

Adrien Mazoyer Introduction à la Statistique 22 / 26


Identication graphique d'un quantile

Cas particulier : on cherche le quantile d'ordre 0.804.

1.000

Fréquences cumulées
1 On trace la ligne horizontale à
0.804

l'ordonnée 0.804 ;
0.600
2 On tombe cette fois exactement
sur un point du diagramme ;
0.400
→ toute valeur comprise entre 2 et
3 ferait l'aaire ! 0.200

0.000
0 1 2 3 4 5 6 7
Nombre d'enfants

Adrien Mazoyer Introduction à la Statistique 23 / 26


Résumé graphique
Dans le cas d'un caractère continu, on peut résumer les diérents indicateurs
graphiquement avec un boxplot.

Boxplot

4
D9
Aussi appelé boîtes à moustache,

3
diagramme de Tukey. Q3

2
Visualisation des caractéristiques principales.

Me

1
Ligne centrale : médiane.
Q1

0
Arêtes de la boîtes : quartiles Q1 et Q3 .

−1
D1
Moustaches : seuil pour délimiter les valeurs
extrêmes (◦).

−2
→ convention : on prend le 1er et 9ème décile.

Adrien Mazoyer Introduction à la Statistique 24 / 26


Variance et écart-type

Dénition (Variance)
Étant donnée une population de N xi la valeur obtenue
individus, on note pour le
ième individu d'un caractère d'intérêt X.
v(X) de X est alors
La variance

 
1  2 2  2
v(X) = x1 − X + . . . + xN − X = X −X
N

Pour un caractère discret à r modalités m1 , . . . , m r la variance s'écrit aussi

2 2
v(X) = m1 − X fX (m1 ) + . . . + mr − X fX (mr )

Dénition (Écart-type)
p
L'écart-type s(X) correspond alors à la racine de la variance : s(X) = v(X).

Adrien Mazoyer Introduction à la Statistique 25 / 26


Variance et écart-type

Remarques
La variance correspond donc à la moyenne des carrés des écarts entre chaque
xi et la moyenne X.
On peut en faire montrer que la variance s'écrit aussi comme

1 2
x21 + . . . + x2N − X

v(X) =
N
= moyenne des carrés − carré de la moyenne

On dénit l'écart-type par souci d'homogénéité : si les xi expriment par


exemple des masses en kg, alors leur variance s'exprimera en kg2 . Appliquer
la racine permet d'avoir une grandeur exprimée en kg.

Adrien Mazoyer Introduction à la Statistique 26 / 26

Vous aimerez peut-être aussi