Académique Documents
Professionnel Documents
Culture Documents
La statistique descriptive
Méthodes de reduction et de représentation des
données dans le cas univarié
M. L. Delignette-Muller
VetAgro Sup
5 octobre 2020
Objectifs pédagogiques
Plan
1 Représentations graphiques
Variable qualitative
Variable quantitative discrète
Variable quantitative continue
30
20
10
0
passable AB B TB
ni
Table des fréquences fi = N pour chacune des classes :
1 2 3 4 5 6 7 8
0.03908 0.06613 0.08016 0.11924 0.11824 0.12224 0.13126 0.10822
9 10 11 12 13 14 15 16
0.08617 0.05210 0.03307 0.02104 0.01703 0.00301 0.00100 0.00000
17
0.00200
Cas très similaire à celui d’une variable qualitative ordinale.
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0 2 4 6 8
8
6
4
2
0
femme homme
sexe
0.4
Probabilité d’une valeur donnée
=0 0.3
Définition d’une fonction de
probabilité f : 0.2
f
Rb
Pr (a ≤ x ≤ b) = a f (t)dt
On lit sur le graphe une aire 0.1
sous la courbe = probabilité
a b
d’un intervalle 0.0
L’aire globale = 1. −3 −2 −1 0 1 2 3
300
200
100
0
50 60 70 80
50
0
50 60 70 80
50
0
50 60 70 80
4
2
0
50 60 70 80
0.15
0.10
0.05
0.00
50 60 70 80
100
50
0
45 50 55 60 65 70 75 80
50
0
46 50 53 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 75 77 82
0.4
f
−∞ f (t)dt
Fonction de répartition en
0.1
x = aire sous la courbe à
gauche de x x
0.0
−3 −2 −1 0 1 2 3
1.0
F
Fonction de répartition en 0.4
x = aire sous la courbe à
0.2
gauche de x
Représentation de la fonc- 0.0
tion x → F (x)
−3 −2 −1 0 1 2 3
F(xi) = i/N
F(xi) = (i − 1)/N
F
0.4
F(xi) = (i − 0.5)/N
0.2
0.0
50 60 70 80
0.4
0.2
0.0
50 60 70 80
Q0.75
62
Q0.5
Q0.25
60
58
56
54
min
75
70
59 60 61 62 63 64 65 66
durée de gestation en jours
F (xi ) = i−0.5
N .
On regarde quelle valeur de ui dans la loi normale centrée réduite
N(0, 1) possède la même valeur de F :
F(x3)
u3
0.0
−2 −1 0 1 2
M.L. Delignette-Muller La statistique descriptive
Variable qualitative
Représentations graphiques
Variable quantitative discrète
Réduction des données (variable quantitative continue)
Variable quantitative continue
64
62
60
58
70
65
60
55
50
45
−3 −2 −1 0 1 2 3
Histogramme de fréquences
Vision fine de la densité de probabilité - grand nombre de
points et définition appropriée de classes nécessaires.
Diagramme des fréquences cumulées
Visualisation de la fonction de répartition.
Diagramme en boı̂te (“boxplot”)
Visualisation synthétique de la densité de probabilité - possible
même avec un nombre de points modéré (si nombre trop
faible, représentation directe des points)
Diagramme Quantile-Quantile (“QQ-plot”)
Vérification de la normalité d’une distribution.
Plan
1 Représentations graphiques
Variable qualitative
Variable quantitative discrète
Variable quantitative continue
Paramètres de position
Localisation du centre de la distribution
Moyenne
sous-entendu moyenne arithmétique classique pouvant être
notée de diverses façons
P :
x = E (x) = mx = N1 N k=1 xi
Médiane
Deuxième quartile Q0.5 (tel que F (Q0.5 ) = 0.5).
Paramètre robuste (peu sensible aux valeurs extrêmes).
Mode
Pic de la distribution pouvant être visualisé sur un
histogramme comme la valeur centrale de la classe la plus
représentée (dépend de la définition des classes).
moyenne
100 150 200 250 300
médiane
mode
effectifs
50
0
50 60 70 80
Paramètres de dispersion
Etalement des observations autour de la valeur centrale
moyenne
moyenne ± SD
moyenne ± 2SD
0.15
densité de probabilité
0.10
0.05
0.00
50 60 70 80
moyenne
16% 68% 16%
moyenne ± SD
0.15
densité de probabilité
0.10
0.05
0.00
50 60 70 80
moyenne
2.5% 95% 2.5%
moyenne ± 2SD
0.15
densité de probabilité
0.10
0.05
0.00
50 60 70 80
0.10
0.05
0.00
50 60 70 80
moyenne ± 2SD
Q0.025 et Q0.975
0.15
densité de probabilité
0.10
0.05
0.00
50 60 70 80
moyenne
médiane
mode
moyenne ± 2SD
150
effectifs
100
50
0
0 2 4 6 8 10
moyenne
médiane
30
mode
moyenne ± 2SD
effectifs
20
10
5
0
0 5 10 15 20
15
F
10
5
−2 −1 0 1 2 5 10 15 20
20
15
15
note sur 20
note sur 20
10
10
5
moyenne
médiane
mode
moyenne ± 2SD
effectifs
coût maximum
M.L. Delignette-Muller acceptable des
La statistique soins
descriptive
Paramètres de position
Représentations graphiques
Paramètres de dispersion et intervalle de fluctuation
Réduction des données (variable quantitative continue)
Limites des paramètres classiques
Conclusion