Académique Documents
Professionnel Documents
Culture Documents
StatDes Important
StatDes Important
La statistique descriptive
DOYEN
1. Introduction et définitions
Statistique descriptive:
Analyse et synthèse, NUMERIQUE et GRAPHIQUE,
d’un ensemble de données
DOYEN
1. Introduction et définitions
Statistique descriptive:
Analyse et synthèse, NUMERIQUE et GRAPHIQUE,
d’un ensemble de données
Attention:
Attention:
2 types de caractères:
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues:
•Par nature:
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues: Taille:
•Par nature: 1m 2m
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues: Taille:
•Par nature: 1m 2m
•Par nécessité:
DOYEN
2 types de caractères:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables d’activité
Quantitatifs: mesurables Age, taille , PIB, taux
de chômage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues: Taille:
•Par nature: 1m 2m
EXHAUSTIFS et INCOMPATIBLES
DOYEN
EXHAUSTIFS et INCOMPATIBLES
EXHAUSTIFS et INCOMPATIBLES
EXHAUSTIFS et INCOMPATIBLES
EXHAUSTIFS et INCOMPATIBLES
N= Effectif total de la
2.2 Pourcentage et fréquence: population
ni= Effectif de la modalité
p i f i
considérée
n n
f=N
p = 100
i
i
N i
i
DOYEN
N= Effectif total de la
2.2 Pourcentage et fréquence: population
ni= Effectif de la modalité
p i f i
considérée
n n
f=N
p = 100
i N
i
i
i
Propriété: ∑ p =100
i
i
∑f
i
=1
i
DOYEN
N= Effectif total de la
2.2 Pourcentage et fréquence: population
ni= Effectif de la modalité
p i f i
considérée
n n
f=N
p = 100
i N
i
i
i
Propriété: ∑ p =100
i
i
∑f
i
=1
i
Agri. Exploi.
Artisans, …
Cadres …
Prof. Int.
Employés
Ouvriers
Retraités
Inactifs
DOYEN
5 pers. 1182235 5
6 ou plus 109189 2
Total 22434621 100
DOYEN
4 pers. 3057674 14 93
32+32=64
5 pers. 1182235 5 98
30
20
10
Nbe de pers.
0
par ménage
1 2 3 4 5 6 et +
DOYEN
30
32% des ménages
sont composés de
20 2 personnes
10
Nbe de pers.
0
par ménage
1 2 3 4 5 6 et +
DOYEN
b. Diagramme cumulatif:
Représente les fréquences cumulées en fonction des valeurs du
caractère
Fréquence en %
100
75
50
25
0 Nbe pers.
0 1 2 3 4 5 6 7 par ménage
DOYEN
b. Diagramme cumulatif:
Représente les fréquences cumulées en fonction des valeurs du
caractère
Fréquence en %
100
75
0 Nbe pers.
0 1 2 3 4 5 6 7 par ménage
DOYEN
a. Caractéristiques centrales:
La moyenne notée x
Moyenne arithmétique des valeurs du caractère pour les n
individus de la population
x = ∑ni xi = ∑ f
1
x
n i i
i i
DOYEN
a. Caractéristiques centrales:
Représente le barycentre
des valeurs prises par le
La moyenne notée x caractère
x = ∑ni xi = ∑ f
1
x
n i i
i i
x = ∑ni xi = ∑ f
DOYEN
1
n i i
i x i
1
n i i
i x i
Le(s) mode(s)
Le(s) mode(s)
30
Le mode vaut: 2 personnes
20
10
Nbe de pers.
0
par ménage
1 2 3 4 5 6 et +
DOYEN
Le mode
Le mode
Cette distribution a
2 modes!
Elle est BIMODALE
La médiane
Valeur du caractère qui partage la série statistique en
2 groupes de même fréquence (0.5).
On la détermine à l’aide des fréquences cumulées ou
du diagramme cumulatif
DOYEN
La médiane
Valeur du caractère qui partage la série statistique en
2 groupes de même fréquence (0.5).
On la détermine à l’aide des fréquences cumulées ou
du diagramme cumulatif
Fréquence en %
100 La médiane
est entre 1 et 2
75
personnes par
ménage
50
25
0 Nbe pers.
0 1 2 3 4 5 6 7 par ménage
DOYEN
La médiane
Valeur du caractère qui partage la série statistique en
2 groupes de même fréquence (0.5).
On la détermine à l’aide des fréquences cumulées ou
du diagramme cumulatif
Fréquence en %
100 La médiane
est entre 1 et 2
75
personnes par
62% 2 pers. ou moins
ménage
50
25
32% 1 pers. ou moins
0 Nbe pers.
0 1 2 3 4 5 6 7 par ménage
DOYEN
x=12
6 14 16
médiane
DOYEN
x=12
3 6 x=9 14 16
médiane
b. Caractéristiques de dispersion:
Exemple:
Notes des devoirs à la maison en 2001 à l’IUP com et
vente
•Semaine 1: 9, 10, 10, 11
•Semaine 2: 0, 10, 10, 20
DOYEN
b. Caractéristiques de dispersion:
Exemple:
Notes des devoirs à la maison en 2001 à l’IUP com et
vente
•Semaine 1: 9, 10, 10, 11 Toutes les caractéristiques
centrales valent 10!
•Semaine 2: 0, 10, 10, 20
DOYEN
b. Caractéristiques de dispersion:
Exemple:
Notes des devoirs à la maison en 2001 à l’IUP com et
vente
•Semaine 1: 9, 10, 10, 11 Toutes les caractéristiques
centrales valent 10!
•Semaine 2: 0, 10, 10, 20
ex n ∑i ni
= 1
xi ∑ f
− x =
i
i xi− x
DOYEN
La variance et l’écart-type:
La variance est la moyenne des carrés des écarts à la
moyenne
σ
2
= ∑ni
1
n i (xi−x ) = ∑ f (xi−x)
2
i
i
2
DOYEN
La variance et l’écart-type:
La variance est la moyenne des carrés des écarts à la
moyenne Si x a pour unité la personne, alors
σ a pour unité personne
2 2
σ
2
= ∑ni
1
n i (xi−x ) = ∑ f (xi−x)
2
i
i
2
DOYEN
La variance et l’écart-type:
La variance est la moyenne des carrés des écarts à la
moyenne Si x a pour unité la personne, alors
σ a pour unité personne
2 2
σ
2
= ∑ni
1
n i (xi−x ) = ∑ f (xi−x)
2
i
i
2
σ= σ
2
DOYEN
La variance et l’écart-type:
La variance est la moyenne des carrés des écarts à la
moyenne Si x a pour unité la personne, alors
σ a pour unité personne
2 2
σ
2
= ∑ni
1
n i (xi−x ) = ∑ f (xi−x)
2
i
i
2
σ= σ
Même unité que le 2
caractère
DOYEN
La variance et l’écart-type:
La variance est la moyenne des carrés des écarts à la
moyenne Si x a pour unité la personne, alors
σ a pour unité personne
2 2
σ
2
= ∑ni
1
n i (xi−x ) = ∑ f (xi−x)
2
i
i
2
σ= σ
Même unité que le 2
caractère
σ ≈ 1.5≈1.2 (personne)
En 1999, au moins 75% des ménages français ont
un effectif entre 0 et 4.8 personnes.
DOYEN
f i
a est l’amplitude de la classe
i
a i
DOYEN
.f relatives
à 5 ans
16
14
12
10
8
6
4
2
Age en
0
0 10 20 30 40 50 60 années
DOYEN
.f relatives
à 5 ans
16
14
12
10
8
6
4
2
Age en
0
0 10 20 30 40 50 60 années
.f cumulées
100
80
60
40
20
0 Age en années
0 10 20 30 40 50 60
DOYEN
a. Caractéristiques centrales:
La moyenne notée x
Moyenne arithmétique des valeurs du caractère pour les n
individus de la population
x = ∑ni ci = ∑ f
1
c
n i i
i i
DOYEN
a. Caractéristiques centrales:
La moyenne notée x
Moyenne arithmétique des valeurs du caractère pour les n
individus de la population
x = ∑ni ci = ∑ f
1
c
n i i
i i
a. Caractéristiques centrales:
Représente le barycentre
des valeurs prises par le
La moyenne notée x caractère
x = ∑ni ci = ∑ f
1
c
n i i
i i
x=∑f c i
i
i
Classe(s) modale(s)
CLASSES en lesquelles l’histogramme des
fréquences présente un maximum RELATIF
Classes en laquelle la fréquence RELATIVE
présente un maximum RELATIF
DOYEN
Classe(s) modale(s)
CLASSES en lesquelles l’histogramme des
fréquences présente un maximum RELATIF
Classes en laquelle la fréquence RELATIVE
présente un maximum RELATIF
La classe modale est
.f relatives à 5 ans celle des 35-39 ans
16
14
12
10
8
6
4
2
0
0 10 20 30 40 50 60 Age en années
DOYEN
La médiane
Valeur du caractère qui partage la série statistique en
2 groupes de même fréquence (0.5).
C’est la valeur correspondant à un effectif cumulé de
50% sur le polygone des fréquences cumulées
DOYEN
La médiane
Valeur du caractère qui partage la série statistique en
2 groupes de même fréquence (0.5).
C’est la valeur correspondant à un effectif cumulé de
50% sur le polygone des fréquences cumulées
.f cumulées Graphiquement, on lit
100
que la médiane vaut
80 un peu moins de 40
ans
60
40
20
0 Age en années
0 10 20 30 40 50 60
DOYEN
La médiane
Valeur du caractère qui partage la série statistique en
2 groupes de même fréquence (0.5).
C’est la valeur correspondant à un effectif cumulé de
50% sur le polygone des fréquences cumulées
.f cumulées Graphiquement, on lit
100
que la médiane vaut
80 un peu moins de 40
ans
60
40 Peut on avoir
une expression
20
exacte de la
0 Age en années médiane?
0 10 20 30 40 50 60
DOYEN
80
60
40
20
0 Age en années
0 10 20 30 40 50 60
DOYEN
b. Caractéristiques de dispersion:
Écart absolue, variance, écart-type
Idem caractère discret mais on prend le centre des
classes comme valeur représentative
DOYEN
b. Caractéristiques de dispersion:
Écart absolue, variance, écart-type
Idem caractère discret mais on prend le centre des
classes comme valeur représentative
.ci Age Effectif .fi
x ≈ 40 (ans)
20 15-24 2279542 0.086
27 25-29 3628502 0.137
33 30-34 3771554 0.142
37 35-39 3865252 0.146
43 40-44 3770300 0.142
47 45-49 3696642 0.139
53 50-54 3305278 0.125
60 55 et + 2225411 0.084
Total 26542481 1
DOYEN
b. Caractéristiques de dispersion:
Écart absolue, variance, écart-type
Idem caractère discret mais on prend le centre des
classes comme valeur représentative
.ci Age Effectif .fi
x ≈ 40 (ans)
20 15-24 2279542 0.086 0.086 * |20-40| 0.086 * 202
27 25-29 3628502 0.137 +0.137 * |27-40| +0.137 * 272
33 30-34 3771554 0.142 +0.142 * |33-40| +0.142 * 332
37 35-39 3865252 0.146 +0.146 * |37-40| +0.146 * 372
43 40-44 3770300 0.142 +0.142 * |43-40| +0.142 * 432
47 45-49 3696642 0.139 +0.139 * |47-40| +0.139 * 472
50-54 3305278 0.125 +0.125 * |53-40| +0.125 * 532
53
+0.084 * |60-40| +0.084 * 602
σ
60 55 et + 2225411 0.084
=1712−40
2 2
σ ≈ 112≈10.6 (ans)
DOYEN
Le coefficient de variation
V= σ
x
DOYEN
Le coefficient de variation
Le coefficient de variation
Le coefficient de variation
1E 3E 5E
x1 ≈3 (E); σ 2≈1.63 (E)
DOYEN
Le coefficient de variation
V2 ≈0.54 1E 3E 5E
x1 ≈3 (E); σ 2≈1.63 (E)
DOYEN
L’intervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs égaux.
Ce sont les 3 valeurs du caractère correspondant à
des effectifs cumulés de 25%, 50% et 75%
DOYEN
L’intervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs égaux.
Ce sont les 3 valeurs du caractère correspondant à
des effectifs cumulés de 25%, 50% et 75%
.f cumulées
100
80
60
40
20
0 Age en années
0 10 20 30 40 50 60
DOYEN
L’intervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs égaux.
Ce sont les 3 valeurs du caractère correspondant à
des effectifs cumulés de 25%, 50% et 75%
.f cumulées
100
Graphiquement:
80
Q ≈30 (ans)
1
60
Q ≈40 (ans)
2
40
20 Q ≈50 (ans)
3
0 Q1 Q2 Q3 Age en années
0 10 20 30 40 50 60
DOYEN
Pour k=1,2,3:
x −x
Q = x + ( P −F ) −
i k i
j i
Effectifs cumulés
k
F F j i
F j
P =25%
1
P
P =50%
k
2
F i
P =75%
3
x i Q k
x j
DOYEN
= + − 35−30
Age Effectif .fi Cumul
Q1 30 ( 25 22.3)
36.5−22.3
15-24 2279542 0.086 8.6
≈ 31 (ans)
25-29 3628502 0.137 22.3
30-34 3771554 0.142 36.5
35-39 3865252 0.146 51.0 Q = Me ≈ 39.5 (ans)
2
40-44 3770300 0.142 65.2
45-49 3696642 0.139 79.2
50−45
50-54 3305278 0.125 91.6 Q = 45 + (75−65.2)
3 79.2−65.2
55 et + 2225411 0.084 100
Total 26542481 1 100
≈ 48.5 (ans)
DOYEN
Exemple:
Qs =48.5-31=17.5 (ans)
DOYEN
Propriété: ∑∑ f
i j
i, j =1
DOYEN
Propriété: ∑f
i
i ,. =1 ∑fj
., j =1
DOYEN
Propriété: ∑f
i
i ,. =1 ∑fj
., j =1
DOYEN
Propriété:
∑f j
i,j = f i,.
DOYEN
Propriété:
∑f j
i,j = f i,. ∑fi
i, j = f ., j
DOYEN
0,8
0,6
0,4
0,2
âges
0
20 22 24 26 28
DOYEN
ni , j ni , j
f xi y j = f yj xi =
∑ni , j
i
∑ni , j
j
DOYEN
0,6
0,4
0,2
0 Salaires en euros
170 200 230 260
DOYEN
5.3 Indépendance
5.3 Indépendance
5.3 Indépendance
5.3 Indépendance
Propriété:
Propriété:
Propriété:
Propriété:
Dans le cas ou il y a indépendance entre X et Y, alors dans
le tableau de contingence les valeurs des lignes sont
proportionnelles et les valeurs des colonnes le sont aussi.
DOYEN
Exemple:
1 27 5
2 32 6
3 31 9
4 40 12
5 65 18
DOYEN
Exemple:
Y
X
DOYEN
Exemple:
Y
Il n’y a pas de
bonne
approximation,
X et Y semblent
indépendants
X
DOYEN
Y
X
DOYEN
Y
X
DOYEN
Y
X
DOYEN
Y
Kboite
70
60
50
40
30
20 Keuro
4 8 12 16 20
DOYEN
Kboite
70
60
50
40
30
20 Keuro
4 8 12 16 20
Y ≈ a*X + b
DOYEN
Kboite
70
60
50
40
40
30
16
20 Keuro
4 8 12 16 20
Y ≈ a*X + b
a ≈ 40 = 2.5 ( Kboite )
16 Keuro
DOYEN
Kboite
70
60
50
40
40
30
16
20 Keuro
4 8 12 16 20
Y ≈ a*X + b
b≈20−4*2.5=10 (Kboite)
a ≈ 40 = 2.5 ( Kboite )
16 Keuro
DOYEN
Kboite
70
60
50
40
40
30
16
20 Keuro
4 8 12 16 20
Y ≈ a*X + b
b≈20−4*2.5=10 (Kboite)
a ≈ 40 = 2.5 ( Kboite )
16 Keuro
C’est très approximatif!
DOYEN
∑ei
2
Y i
e3
ei: Écart entre la droite de
e2 régression et la ième
observation
e1
X
DOYEN
On note: x = 1 ∑ xi y = 1 ∑ yi
n i n i
V ( X ) = ∑( xi −x) = ∑xi −x
2
1 1 2 2
n i n i
Cov ( X ) = 1 ∑( xi −x )( yi − y ) = 1 ∑xi *yi −x*y
n i n i
DOYEN
On note: x = 1 ∑ xi y = 1 ∑ yi
n i n i
V ( X ) = ∑( xi −x) = ∑xi −x
2
1 1 2 2
n i n i
Cov ( X ) = 1 ∑( xi −x )( yi − y ) = 1 ∑xi *yi −x*y
n i n i
On a:
Cov ( X ,Y )
a=
V (X )
b = y−a*x
DOYEN
1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
DOYEN
1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
x=50 =10 (Keuro)
5 610 2
V ( X )= −10 =22 (Keuro)
2
y=195=39 (Kboite) 5
5
Cov ( X ,Y )= 2256 −10*39=61.2 (Keuro*Kboite)
5
DOYEN
1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
x=50 =10 (Keuro)
5 610 2
V ( X )= −10 =22 (Keuro)
2
y=195=39 (Kboite) 5
5
Cov ( X ,Y )= 2256 −10*39=61.2 (Keuro*Kboite)
5
a= 61.2 ≈2.78 ( Kboite ) b≈39−2.78*10=11.2 (Kboite)
22 Keuro
DOYEN
Kboite
70
60
50
40
30
20 Keuro
4 8 12 16 20
Y ≈2.78*X +11.2
DOYEN
Le coefficient de corrélation:
Cov ( X ,Y )
r=
V ( X ) V (Y )
DOYEN
Le coefficient de corrélation:
Cov ( X ,Y )
r=
V ( X ) V (Y )
Propriétés:
• −1 ≤ r ≤ 1
(
• r proche de 1: corrélation linéaire possible r >0.86 )
• r proche de 0: pas de corrélation linéaire
DOYEN
1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
DOYEN
1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
2
50
x= =10 (Keuro) V ( X )= 610 −10 =22 (Keuro)
2
5 5
2
195
y= =39 (Kboite) V (Y )= 8539 −39 =186.8 (Kboite)
2
5 5
Cov ( X ,Y )= 2256 −10*39=61.2 (Keuro*Kboite)
5
DOYEN
1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
2
50
x= =10 (Keuro) V ( X )= 610 −10 =22 (Keuro)
2
5 5
2
195
y= =39 (Kboite) V (Y )= 8539 −39 =186.8 (Kboite)
2
5 5
Cov ( X ,Y )= 2256 −10*39=61.2 (Keuro*Kboite)
5
r≈ 61 . 2 ≈0.96
22*186.8
DOYEN
Kboite
70
60
50
40
30
20 Keuro
4 8 12 16 20
Kboite
70
60
50
40
30
20 Keuro
4 8 12 16 20
60
50
40
30
20 Keuro
4 8 12 16 20
DOYEN
60
50
40
30
20 Keuro
4 8 12 16 20
55=2.78*X +11.2 ⇔X =
55−11 . 2 ≈15.8 (Keuro)
2.78
DOYEN
60
50
40
30
20 Keuro
4 8 12 16 20
55=2.78*X +11.2 ⇔X =
55−11 . 2 ≈15.8 (Keuro)
2.78