Académique Documents
Professionnel Documents
Culture Documents
Statistique descriptive
adrien.mazoyer@math.univ-toulouse.fr
Un peu de vocabulaire
Dénition (Population)
La population est un ensemble d'individus sur lequel porte notre étude.
Les individus peuvent être des humains, mais également d'autres êtres vivants ou
des objets inanimés (jours de l'année, mots d'un texte, etc.)
2 Représentations graphiques
3 Indicateurs classiques
Remarque
Un caractère discret est un caractère dont on peut dénombrer/distinguer les
diérentes modalités possibles.
Ils s'agit donc des caractères quantitatifs discrets et des caractères qualitatifs.
Exemple
On considère une petite ville où on compte 1000 familles avec enfants, et on
relève le nombre d'enfants pour chacun de ces foyers.
Nb. d'enfants
1 2 3 4 5 6 7
( Modalités)
Nb. de familles
438 366 142 21 18 12 3
( Eectifs)
% de familles
43.8 36.6 14.2 2.1 1.8 1.2 0.3
( Fréquences)
Fréquences 43.8 80.4 94.6 96.7 98.5 99.7 100
cumulées
Adrien Mazoyer Introduction à la Statistique 6 / 26
Table d'eectifs
Plus formellement
Soit un caractère d'intérêt X a r modalités m1 , . . . , mr , et qu'on a N individus
dans la population considérée.
nX (mj )
fX (mj ) = ∈ [0 ; 1] (qu'on ramène en %)
N
Les fréquences cumulées sont dénies par FX (m1 ) = fX (m1 ) et pour j>1
2 Représentations graphiques
3 Indicateurs classiques
Attention : un graphique n'est qu'un résumé et reste donc trop imprécis pour
être considéré seul.
Fréquences
0.30
CSP
(%)
Ouvriers 25
0.25
Employés 30
0.20
Cadres 12 Fréquences
Autres 33 0.15
0.10
0.05
0.00
Nb. % de
0.4
d'enfants familles
1 43.8
2 36.6
0.3
3 14.2
Fréquences
4 2.1
0.2
5 1.8
6 1.2
7 0.3
0.1
0.0
1 2 3 4 5 6 7
Nb d'enfants
Fréquences
Nb. 1.0
cumulées
d'enfants
(%)
Fréquences cumulées
1 43.8 0.8
2 80.4
3 94.6
4 96.7 0.6
5 98.5
6 99.7
0.4
7 100
0.2
0.0
0 1 2 3 4 5 6 7
Nombre d'enfants
Adrien Mazoyer Introduction à la Statistique 12 / 26
Caractères continus
Contrairement au cas discret, le caractère dont sont issues les données n'a pas un
nombre dénombrable de modalité possible. Pour remédier à cela, on regroupe les
valeurs en classes (de même taille) :
Taille Eectifs
[1.60 ; 1.70[ 3
[1.70 ; 1.80[ 6
[1.80 ; 1.90[ 1
Même principe que pour les diagrammes en bâtons : la base des rectangles
correspond à la largeur de l'intervalle considéré et la hauteur est proportionnel à
l'eectif de la classe.
8
6
Eectifs
Taille Eectifs
normalisés
4
[1.60 ; 1.65] 3 6
]1.65 ; 1.70] 0 0
2
]1.70 ; 1.75] 2 4
]1.75 ; 1.80] 4 8
0
]1.80 ; 1.85] 1 2 1.60 1.65 1.70 1.75 1.80 1.85
Taille
Fréquence 1.0
Tailles Eectifs
cumulées
Fréquences cumulées
1.63 2 0.2 0.8
1.65 1 0.3
1.72 1 0.4 0.6
1.73 1 0.5
1.77 1 0.6 0.4
1.78 2 0.8
1.79 1 0.9 0.2
1.82 1 1
0.0
1.5 1.6 1.7 1.8 1.9 2.0
Taille
2 Représentations graphiques
3 Indicateurs classiques
Remarque
Ces notions n'ont de sens que pour des caractères quantitatifs !
X = m1 fX (m1 ) + . . . + mr fX (mr )
Nb. d'enfants 1 2 3 4 5 6 7
Nb. de familles 438 366 142 21 18 12 3
Exemple classique
Le salaire médian en France en 2020 était de 2000 ¿net par mois dans le secteur
privé.
Traduction : la moitié des salariés du secteur privé gagnaient moins de 2000 ¿net
par mois.
Dénition (Médiane)
La médiane de valeurs x1 , . . . , xN issues d'un caractère X est une valeur M eX
telle que la moitié des xi est inférieur à M eX .
Attention !
À ne pas confondre avec la moyenne !
1.0
Fréquences cumulées
1 On trace la ligne horizontale à 0.8
l'ordonnée 0.5 ;
0.6
2 On repère le premier point
0.5
au-dessus de cette ligne, cela
0.4
nous donne la médiane ;
Les quartiles sont les quantiles d'ordre α = 0.25 (1er quartile), 0.50 (médiane) ou
0.75 (3ème quartile).
Les déciles sont les quantiles d'ordre α = 0.1 (1er décile), α = 0.2 (2ème
décile),. . ., α = 0.9 (9ème décile).
On peut lire la valeur d'un quantile sur le diagramme des fréquences cumulées,
comme pour la médiane.
On peut lire la valeur d'un quantile sur le diagramme des fréquences cumulées,
comme pour la médiane. Cherchons par exemple le quantile d'ordre 0.85.
1.00
0.85
Fréquences cumulées
1 On trace la ligne horizontale à 0.80
l'ordonnée 0.85 ;
0.60
2 On repère le premier point
au-dessus de cette ligne, cela
0.40
nous donne le quantile d'ordre
0.85 ;
0.20
→ 85% des foyers ont moins de 3
enfants. 0.00
0 1 2 3 4 5 6 7
Nombre d'enfants
1.000
Fréquences cumulées
1 On trace la ligne horizontale à
0.804
l'ordonnée 0.804 ;
0.600
2 On tombe cette fois exactement
sur un point du diagramme ;
0.400
→ toute valeur comprise entre 2 et
3 ferait l'aaire ! 0.200
0.000
0 1 2 3 4 5 6 7
Nombre d'enfants
Boxplot
4
D9
Aussi appelé boîtes à moustache,
3
diagramme de Tukey. Q3
2
Visualisation des caractéristiques principales.
Me
1
Ligne centrale : médiane.
Q1
0
Arêtes de la boîtes : quartiles Q1 et Q3 .
−1
D1
Moustaches : seuil pour délimiter les valeurs
extrêmes (◦).
−2
→ convention : on prend le 1er et 9ème décile.
Dénition (Variance)
Étant donnée une population de N xi la valeur obtenue
individus, on note pour le
ième individu d'un caractère d'intérêt X.
v(X) de X est alors
La variance
1 2 2 2
v(X) = x1 − X + . . . + xN − X = X −X
N
2 2
v(X) = m1 − X fX (m1 ) + . . . + mr − X fX (mr )
Dénition (Écart-type)
p
L'écart-type s(X) correspond alors à la racine de la variance : s(X) = v(X).
Remarques
La variance correspond donc à la moyenne des carrés des écarts entre chaque
xi et la moyenne X.
On peut en faire montrer que la variance s'écrit aussi comme
1 2
x21 + . . . + x2N − X
v(X) =
N
= moyenne des carrés − carré de la moyenne