Vous êtes sur la page 1sur 56

STAT0002 - Statistique descriptive

Transparents
Philippe Lambert
http : //www.statsoc.ulg.ac.be/statdescr.html

Institut des Sciences Humaines et Sociales


Universite de Li`ege

Avertissement - Droits dauteur


Les supports de cours mis sur Internet ont pour seule
vocation detre utilises par les etudiants dans le cadre
de leur cursus au sein de lUniversite de Li`ege. Aucun
autre usage ni diffusion ne sont autorises, sous peine
de constituer une violation de la Loi du 30 juin 1994
relative aux droits dauteurs.
Les supports de cours mis sur Internet ne representent
pas lenti`erete de la mati`ere, mais constituent les
notes de base indispensables et minimales `a la bonne
connaissance de celle-ci.
c - Institut des sciences humaines et sociales
P. Lambert

References
Statistique descriptive:
Nimporte quel livre introductif `a la statistique peut convenir.
Quelques references en francais:
. Wonnacott T.H. et Wonnacott R.J. (1991, 4`eme edition) Statistique. Economica. ISBN 2-7178-2072-8. Prix: 40 euros.
. Howell, D.C. (2008) Methodes statistiques en sciences humaines. De Boeck.
ISBN 978-2804156855. Prix: 55 euros.

Theorie statistique des sondages:


. Ardilly P. (2006) Les techniques de sondage. Editions Technip. ISBN 2-71080847-1. Prix: 65 euros.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 1

Objectifs du cours
Montrer comment on peut resumer linformation disponible dans un ensemble de
donnees `a laide de quelques nombres et graphiques.
Presenter quelques concepts de la theorie des probabilites.
Proposer, sur base des concepts precedents, une introduction aux aspects statistiques de la theorie des sondages.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 2

Chapitre 1: Statistique descriptive


Objectif de la statistique descriptive: resumer les donnees.
Nous allons organiser les donnees pour savoir quelles sont les valeurs observees
pour la (les) variable(s) et les frequences qui y sont attachees.
Outils utilises: tables, diagrammes et mesures numeriques.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 3

Types de variables
Une variable est une mesure qui peut prendre des valeurs differentes dun individu
`a un autre, dun groupe dindividus `a un autre.
Ex taille et poids dun individu, nombre denfants par couple, nombre dannees
detudes, salaires, QI, nombre daccidents de la route durant un WE. . .
On appelle donnees brutes lensemble des valeurs mesurees pour toutes les entites
considerees.
Ces variables sont de deux types possibles:

Variable qualitative / cat


egorielle
La variable indique `a quelle categorie lentite (sur laquelle la mesure est effectuee)
appartient.
Ex couleur des yeux, genre (homme ou femme), qualite de vie, humeur dune
personne, etc.
c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 4

Types de variables (2)


Ces donnees sont souvents resumee sous forme de tableaux (frequences, proportions ou pourcentages).
On distingue deux types de variable categorielle:
. Les variables nominales:
categories distinctes non ordonnees auxquelles on peut assigner un nom.
Ex couleur des yeux, genre (homme ou femme).
. Les variables ordinales:
categories distinctes presentant un ordre. On ne peut pas quantifier la distance les separant.
Ex qualite de vie, humeur dune personne.
Souvent, on associe aux categories un nombre entier indiquant lordre dans
lequel elles doivent etre considerees.
c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 5

Types de variables (3)


Variable quantitative
La variable prend des valeurs numeriques.
On distingue deux types de variable quantitative:
. les variables discr`
etes ne peuvent prendre que des valeurs enti`eres.
Ex Nombre denfants par couple, nombre dannees detudes, nombre daccidents
de la route durant un WE.
. les variables continues peuvent prendre nimporte quelle valeur dans un
intervalle donne.
Ex taille, poids, age, salaires.
En principe, le nombre de valeurs possibles quune variable continue peut
prendre est infini. En pratique, ce nombre est fini car les mesures se font
avec une precision finie dans un intervalle borne.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 6

Distribution empirique des frequences


La Distribution empirique dune variable donne les frequences (relatives)
avec lesquelles on observe les differentes valeurs possibles dans lensemble de
donnees.
La methode de construction dune distribution de frequences (relatives) depend
du type (qualitatif ou quantitatif) de la variable consideree:

Variable qualitative
La distribution empirique des frequences (relatives) reprend les frequences (relatives) associees `a chacune des valeurs observees pour la variable consideree.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 7

Distribution empirique . . . (2)


Ex Les donnees suivantes, issues dune enquete, reprennent les dix races de chiens
preferees de 2000 Quebecois.
Frequence
Race
Frequence Pourc. Race
1. Berger allemand
272 13.6% 6. Caniche
66
52
2. Colley
196 9.8% 7. Rottweiller
34
3. Labrador
192 9.6% 8. Dalmatien
32
4. Golden Retreiver
152 7.6% 9. Cocker
5. Epagneul
68 3.4% 10. Saint-Bernard
32
11. Autre
904

Pourc.
3.3 %
2.6 %
1.7 %
1.6 %
1.6 %
45.2%

Deux methodes peuvent etre utilisees pour representer graphiquement ces donnees:
. le diagramme en barre (ou en baton),
. le graphique en secteurs (ou camembert).

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 8

Diagramme en barre

Pourcentage

12
10
8
6
4
2

c - Institut des sciences humaines et sociales


P. Lambert

SaintBernard

Cocker

Dalmatien

Rottweiller

Caniche

Epagneul

Golden Retreiver

Labrador

Colley

Berger allemand

Statistique descriptive - 9

Graphique en secteurs
Voici comment les races retenues (c`ad Autre exclue) dans la table se repartissent:

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 10

Distribution empirique . . . (3)


Variable quantitative
Lorsque la variable est discr`ete et que le nombre de valeurs differentes observees
pour cette variable reste raisonnable, on peut utiliser les memes outils quavec les
variables qualitatives.
Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes:
5
4
6
6
8
5
7
7
6
10
6
4

6
8
7
6
6
4
8
2
9
8
6
3

3 3
0 5
5 3
7 4
8 5
0 5
4 10
4 4
0 8
0 2
5 3
7 3

1 6 0 5
5 9 10 5
3 10 3 5
3 3 3 1
2 4 4 7
6 10 5 3
5 1 4 13
4 4 7 3
6 4 6 6
2 8 0 7
3 7 6 0
6

7
5
7
3
4
6
4
9
6
4
7

5 6 5
0 0 2
5 4 5
2 10 0
8 3 5
4 3 11
5 12 3
2 8 4
6 6 4
5 5 6
4 3 6

1
1
4
6
7
7
4
6
5
5
5

7
7
3
3
8
4
3
2
4
4
5

4
5
2
3
8
6
3
2
2
3
4

6 3 10 3 3
4 1 5 10 6
6 2 0 0 5
7 5 10 8 4
4 3 6 8 5
2 10 8 7 8
2 6 4 11 11
3 4 6 3 8
7 7 6 4 4
5 6 3 4 2
5 4 7 2 5

c - Institut des sciences humaines et sociales


P. Lambert

7
5
9
6
5
6
7
6
5
5
8

5 7
6 7
4 1
5 12
2 5
6 5
6 6
6 6
2 3
7 3
6 4

6 5
7 6
8 9
2 9
9 1
7 6
6 3
5 2
5 7
4 7
5 10

Statistique descriptive - 11

Distribution empirique . . . (4)


Ces donnees brutes peuvent etre organisees selon leur distribution empirique des frequences:
0 1 2
3
4
5
6
7
8 9 10 11 12 13
Absences
12 8 20 35 40 46 47 30 18 7 11 3 2 1
Frequences
Freq. relatives 4% 3% 7% 12% 14% 16% 17% 11% 6% 3% 4% 1% 1% 0%

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 12

Distribution empirique . . . (5)


Plus generalement, lorsque la variable est discr`ete ou continue, on construit habituellement entre 5 et 15 sous-intervalles reprenant lensemble des valeurs observables
pour la variable consideree.
La distribution empirique des frequences (relatives) reprend alors les frequences
(relatives) observees pour chacun de ces intervalles.
Lhistogramme est loutil graphique utilise pour representer une distribution
des frequences (relatives).

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 13

Distribution empirique . . . (6)


Ex Variable continue
Les donnees qui suivent donnent la taille (au centim`etre pr`es) de 500 hommes:
183
175
180
188
174
182
162
174
188
179
171
171
176
179
189
172
182
170
174
182
184

188
183
174
193
174
179
173
174
185
169
181
177
165
175
167
176
181
181
174
177
173

177
171
184
179
179
171
175
181
173
176
184
185
179
183
189
166
173
183
170
175
175

174
172
177
181
179
177
184
172
172
174
183
179
169
179
175
175
173
172
173
186
176

171
173
175
168
171
169
171
186
178
173
184
183
178
174
174
164
174
173
180
189
178

183
171
180
175
167
183
183
172
178
185
176
174
178
165
176
169
179
178
175
171
178

172
172
168
175
178
179
180
169
182
165
172
173
181
184
180
181
178
177
178
176
184

173
171
176
179
175
182
165
185
179
183
162
190
176
173
173
174
167
176
177
174
194

163
176
185
173
180
171
182
175
188
179
185
171
171
176
176
181
168
178
180
179
179

175
170
185
186
169
182
170
185
176
174
182
183
169
171
178
165
176
178
184
179
177

191
173
181
169
167
170
185
181
181
187
185
168
190
181
176
184
181
178
180
187
170

169
174
173
170
179
182
175
169
185
180
184
163
180
173
175
171
179
179
168
176
167

171
180
180
173
175
185
174
168
187
167
166
173
184
185
181
182
170
183
167
178
180

176
176
169
170
174
174
176
172
186
174
173
177
180
187
174
176
174
166
164
178
172

178
179
181
185
170
166
184
182
181
169
173
171
183
184
182
190
193
162
177
176
170

c - Institut des sciences humaines et sociales


P. Lambert

175
180
168
174
159
182
170
196
178
178
177
171
178
159
180
189
182
173
172
179
183

182
176
186
186
166
174
177
179
178
175
173
177
172
181
180
187
171
177
170
180
171

188
179
174
180
177
189
175
168
186
172
161
176
187
177
173
187
189
180
186
174
178

175
183
173
182
195
187
174
183
190
161
166
191
186
184
158
181
178
173
166
171
174

170
175
184
177
174
190
173
175
160
176
179
177
170
173
179
173
178
184
178
185
173

183
162
173
175
184
174
180
177
179
194
171
179
177
181
182
187
181
172
174
188

187
170
185
172
181
175
160
175
179
181
178
179
172
179
177
169
172
161
169
176

184
172
181
174
168
183
171
193
184
168
169
179
163
185
177
177
180
179
174
165

167
174
182
186
175
170
182
173
183
179
186
173
177
179
185
177
175
177
175
182

Statistique descriptive - 14

Distribution empirique . . . (7)


Un choix possible pour la limite des categories est
155 160 165 170 175 180 185 190 195 200
La distribution empirique des frequences et des frequences relatives est
Taille
Frequence
Freq. relative

[155,160[
5
1%

[160,165[
16
3%

[165,170[
48
10%

[170,175[
139
28%

[175,180[
137
27%

[180,185[
98
20%

[185,190[
45
9%

[190,195[
11
2%

[195,200[
1
0%

Caract
eristiques de lhistogramme:
. En abscisse: limites des categories considerees.
. Base des rectangles = categorie
. Hauteur des rectangles = frequence observee pour la categorie.
Note: lorsque les bases des rectangles nont pas la meme dimension, cest laire
des rectangles qui represente les frequences (relatives).

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 15

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 16

Distribution empirique . . . (8)


La bote `a moustaches
Le boxplot (diagramme en bote ou bote `a moustaches) est une alternative
pour representer la distribution dune variable continue.
Lechelle utilisee est habituellement presentee verticalement.
La bote contient les 50% dobservations centrales:
. Les limites inferieure et superieure correspondent aux quantiles 25% (=1er
quartie Q1) et 75% (=3`eme quartile Q3).
Leur difference est lecart inter-quartile (EIQ).
. La barre centrale correspond au quantile 50% (=mediane = 2`eme quartile
Q2).

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 17

La patte inferieure est habituellement


max{min{yi : i = 1, . . . , n}, Q1 1.5 EIQ}
La patte superieure est habituellement
min{max{yi : i = 1, . . . , n}, Q3 + 1.5 EIQ}

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 18

Representation du lien entre deux variables


Les donnees dinteret reprennent le poids (en kg), la taille (en cm) et lage (en annees)
de 260 femmes et 247 hommes.

Deux variables quantitatives


Relations entre la taille et le poids et entre lage et le poids
sexe
homme
homme
homme
homme
homme
homme
homme
homme
homme
homme
...

age
21
23
28
23
22
21
26
27
23
21
...

taille
174.0
175.3
193.5
186.5
187.2
181.5
184.0
184.5
175.0
184.0
...

poids
65.6
71.8
80.7
72.6
78.8
74.8
86.4
78.4
62.0
81.6
...

sexe
femme
femme
femme
femme
femme
femme
femme
femme
femme
femme
...

c - Institut des sciences humaines et sociales


P. Lambert

age
26
20
20
26
21
21
38
23
37
19
...

taille
163.2
152.4
157.5
168.3
180.3
165.5
165.0
164.5
156.0
160.0
...

poids
55.9
46.5
54.3
54.8
60.7
60.0
62.0
60.3
52.7
74.3
...

Statistique descriptive - 19

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 20

Graphique de dispersion (scatterplot)

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 21

Variable qualitative - variable continue

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 22

Lien entre 2 variables continues pour une valeur donnee dune variable qualitative (ici:
Sexe):

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 23

Graphique de dispersion conditionnel

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 24

Mesures numeriques
Les outils presentes jusquici sont essentiellement graphiques.
En pratique, on utilise aussi des mesures numeriques pour decrire un ensemble de
donnees.
Ces deux approches sont evidemment complementaires.
Parmi ces mesures, on trouve:
.
.
.
.
.

des
des
des
des
des

mesures
mesures
mesures
mesures
mesures

de localisation,
de dispersion,
dasymetrie,
de kurtosis,
dassociation.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 25

Mesures de localisation
Ce sont des mesures de tendance centrale.

La moyenne (arithmetique)
Cette mesure nest utilisable que lorsque les observations considerees {y1, . . . , yn}
sont relatives `a une variable quantitative.
Par definition, il sagit de la somme des mesures realisees ( ni=1 yi = y1 + . . . + yn)
divisee par le nombre n dobservations:
P
i yi
y =
n
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):
9 + 8 + ... + 6 + 5
y =
= 8.2
10
P

Ex Moyenne de taille, poids et age par sexe:


c - Institut des sciences humaines et sociales
P. Lambert

age taille poids


Homme 31.7 177.7 78.1
Femme 28.8 164.9 60.6
Statistique descriptive - 26

Mesures de localisation (2)


Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes: on
a y = 5.1.
Lorsque la distribution empirique des frequences est disponible sous la forme
{(yk , nk ) : k = 1, . . . , K} o`u nk est la frequence associee `a la k`eme valeur
yk , on a
K
K
1 X
X
nk yk =
wk yk avec wk = nk /n = frequence relative
y =
n k=1
k=1
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10): on a
y = (1 5 + 2 6 + 1 8 + 4 9 + 1 10 + 1 11)/10 = 8.2.
Remarques concernant la moyenne
La moyenne est tr`es sensible `a la presence de valeurs extremes.
La moyenne est attiree vers la droite (gauche) lorsque la distribution presente une
asymetrie positive (negative).
c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 27

Mesures de localisation (3)


La mediane
La mediane divise lechantillon ordonne en 2 ensembles disjoints de meme effectif.
Si y1 y2 . . . yn, alors la mediane est:
y n+1 si n est impair, la moyenne de y n2 et y n2 +1 si n est pair.
2

Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10): la serie


ordonnee est 5 6 6 8 9 9 9 9 10 11. La mediane vaut donc
y5 +y6
= 9+9
echantillon en 2 sous-echantillons 5 6 6 8 9
2
2 = 9. Elle coupe l
et 9 9 9 10 11 de meme taille.
y = 5.1):
Ex Nombre de jours dabsence dans une entreprise comptant 280 personnes (
de la distribution empirique des frequences cumul
ees,
Absences
0 1 2 3 4
5
6
7
8
9 10 11 12 13
12 8 20 35 40 46 47 30 18 7 11 3
2
1
Frequences
Freq. cumulees 12 20 40 75 115 161 208 238 256 263 274 277 279 280
on conclut que la mediane est

y140 +y141
2

5+5
2

= 5.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 28

Mesures de localisation (4)


Ex Mediane de taille, poids et age par sexe:

age taille poids


Homme 29.0 177.8 77.3
Femme 26.0 164.5 59.0

Remarques concernant la mediane


Mediane et moyenne sont proches lorsque la distribution est symetrique.
La mediane est insensible aux valeurs extremes.
On parle de classe mediane avec des donnees ordinales.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 29

Mesures de localisation (5)


Le mode
Le mode est la valeur la plus souvent observee dans les donnees.
Il sagit donc de la donnee associee `a la plus grande frequence.
Lorsque les donnees sont relatives `a une variable aleatoire continue, la frequence
associee `a chaque valeur est souvent 1. On a alors autant de modes que de
donnees.
Dans ce cas (comme lors de la construction dun histogramme), on construit
entre 5 et 15 sous-intervalles reprenant lensemble des valeurs observables pour la
variable consideree.
Le (les) sous-intervalle(s) presentant la frequence la plus elevee est appelee classe
modale.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 30

Mesures de dispersion
Letendue
Letendue est la difference entre la plus grande et la plus petite observation. Les
mesures doivent etre relatives `a une variable quantitative.
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6,
letendue vaut 11 5 = 6.
age
Ex Etendue de taille, poids et age par sexe: Homme 47.0
Femme 49.0

5} (n = 10):
taille poids
40.9 62.5
35.7 63.2

Remarques concernant letendue


Letendue est (par definition) tr`es sensible aux valeurs extremes.
Letendue tend `a augmenter avec le nombre dobservations dans lechantillon.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 31

Mesures de dispersion (2)


Lecart inter-quartile
Les quartiles Q1, Q2 et Q3 sont par definition les quantiles 25%, 50% et 75%, c`ad des
nombres presentant en-dessous deux respectivement, 25%, 50% et 75% des donnees:
. Q1 est la mediane des observations inferieures `a la mediane.
. Q3 est la mediane des observations superieures `a la mediane.
Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10). Pour rappel,
la mediane vaut 9 et coupe lechantillon en 2 sous-echantillons 5 6 6 8 9 et
9 9 9 10 11 de meme taille.
Q1 est la mediane du 1er sous-echantillon 5 6 6 8 9 de taille n1 = 5.
Comme n1 est impair, cest la n12+1 = 3e donnee de ce sous-echantillon ordonne: 6.
Q3 est la mediane du 2`eme sous-echantillon 9 9 9 10 11 de taille n2 = 5:
comme n2 est impair, cest la n22+1 = 3`eme donnee de ce sous-echantillon ordonne (et
donc la 8`eme de lechantillon ordonne de depart), soit 9.
Lecart inter-quartile vaut donc Q3 Q1 = 9 6 = 3.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 32

Mesures de dispersion (3)


Ex Nombre de jours dabsence dans une entreprise comptant = 280 personnes. La
distribution empirique des frequences cumul
ees est
0 1 2 3 4
5
6
7
8
9 10 11 12 13
Absences
Freq. cumulees 12 20 40 75 115 161 208 238 256 263 274 277 279 280
Nous savons dej`a que la mediane vaut 5: elle coupe lechantillon en 2 sous-echantillons
de meme taille n1 = n2 = 140.
Q1 est la mediane du 1er sous-echantillon de taille n1 = 140: comme n1 est pair,
cest la moyenne de la 70`eme et 71`eme donnee de ce sous-echantillon ordonne, soit 3.
Q3 est la mediane du 2`eme sous-echantillon de taille n2 = 140: comme n2 est pair,
cest la moyenne de la 70`eme et 71`eme donnee de ce sous-echantillon ordonne (et
donc la moyenne de la 210`eme et 211`eme donnee de lechantillon ordonne de depart),
soit 7.
Lecart inter-quartile vaut donc Q3 Q1 = 7 3 = 4.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 33

Mesures de dispersion (4)


Ex Ecart inter-quartile de taille, poids et age par sexe:

age taille poids


Homme 13.0 9.8 14.5
Femme 12.0 9.5 11.1

Remarques concernant lecart inter-quartile


Lecart inter-quartile est Q3 Q1, c`ad letendue des 50% de donnees centrales.
Lecart inter-quartile est insensible `a la presence de valeurs extremes.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 34

Mesures de dispersion (5)


La variance
La variance est par definition la moyenne des carres des ecarts par rapport `a la
moyenne. Elle est estimee par
n
1 X
2
=
(yi y)2 = . . . =
n i=1

2
i=1 yi

Pn

y2

Il arrive quon divise par n 1 au lieu de n: le resultat est note par s2. On a
n
s2 =
2
n1
Lorsque la distribution empirique des frequences est disponible sous la forme
{(yk , nk ) : k = 1, . . . , K} o`u nk est la frequence associee `a la k`eme valeur
yk , on a
K
K
K
1 X
X
X
2
2
=
nk (yk y) =
wk (yk y) = . . . =
wk yk2 y2
n k=1
k=1
k=1
2

o`u wk = nk /n est la frequence relative.


c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 35

Mesures de dispersion (6)


Ex Soit la serie dobservations {9, 8, 9, 9, 6, 9, 10, 11, 6, 5} (n = 10):
yi yi y (yi y)2 yi2
9
0.8
0.64 81
8
-0.2
0.04 64
9
0.8
0.64 81
9
0.8
0.64 81
6
-2.2
4.84 36
9
0.8
0.64 81
10
1.8
3.24 100
11
2.8
7.84 121
6
-2.2
4.84 36
5
-3.2
10.24 25
82
0
33.6 706

` partir de la distribution empirique des frequences:


A
yk
5
6
8
9
10
11 Total
nk
1
2
1
4
1
1
10
wk
0.1
0.2
0.1
0.4
0.1
0.1
1
w k yk
0.5
1.2
0.8
3.6
1.0
1.1
8.2
2
2.5
7.2
6.4
32.4 10.0 12.1 70.6
w k yk
2
wk (yk y) 1.024 0.968 0.004 0.256 0.324 0.784 3.36

y =

wk yk = 8.2.

2 = k wk (yk y)2 = 3.36


P
ou 2 = k wk yk2 y2 = 70.6 8.22 = 3.36.

y = 82/10 = 8.2.
s2 =
33.6
706
2
2
= 10 = 10 8.2 = 3.36.

10 2

= 3.73.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 36

Mesures de dispersion (7)


Ex Variance de taille, poids et age par sexe:

age taille poids


Homme 103.1 51.6 110.5
Femme 78.4 42.8 92.5

Remarques concernant la variance


La variance est sensible `a la presence de valeurs extremes.
Lunite de la variance est le carre de lunite utilisee pour les observations.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 37

Mesures de dispersion (8)


Lecart-type
Lecart-type s est la racine carree de la variance s2.

Ex Serie dobservations: s = 3.73 = 1.93.


Ex Ecart-type de taille, poids et age par sexe:

age taille poids


Homme 10.2 7.2 10.5
Femme 8.9 6.5 9.6

Remarques concernant lecart-type


Lecart- type est sensible `a la presence de valeurs extremes.
Lunite de lecart-type est la meme que celle des observations.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 38

Mesures de dispersion (9)


Lorsque la distribution (des frequences) dune variable `a la forme dune cloche,
environ 95% (99%) des observations se trouvent `a moins de deux (trois) ecart-types
de la moyenne.
Ex Ecart-type des poids des 247 hommes:

Lintervalle y 2s = 78.1 2 10.5 =


(57.1, 99.1) devrait approximativement
contenir 95% des donnees.
Ici, il en contient 95.1%.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 39

Mesures de dispersion (10)


Le coefficient de variation
Il est defini par CV = s(y)/
y.
Cette mesure est souvent utilisee car elle est depourvue dunite et insensible aux
changements dechelle.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 40

Mesures dassociation
Coefficient de correlation lineaire de Pearson
Cest une mesure dassociation (lineaire) entre deux variables quantitatives:
n xi x
yi y
1 X
1
1 r(x, y) =
y
n i=1 x

r > 0: de grandes (petites)


valeurs pour x sont associees `a de
grandes (petites) valeurs pour y.
r < 0: de grandes (petites)
valeurs pour x sont associees `a de
petites (grandes) valeurs pour y.
La force de cette association est
dautant plus grande que |r| est
proche de 1.
c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 41

Ex Correlation entre la taille et le poids de 247 hommes: r = 0.53


Ex Correlation entre lage et le poids de 247 hommes: r = 0.14

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 42

35

40

45

50

Calcul du coefficient de correlation de Pearson


n xi x
yi y
1 X
r(x, y) =
y
n i=1 x

30

35

40

45
x

50

55

i
1
2
3
4
5
6

yi2 (xi x) (yi y) (xi x)(yi y)


xi
yi
x2i
30 35
900 1225
-12.50
-7.83
97.92
35 40 1225 1600
-7.50
-2.83
21.25
40 38 1600 1444
-2.50
-4.83
12.08
45 46 2025 2116
2.50
3.17
7.92
47 45 2209 2025
4.50
2.17
9.75
58 53 3364 2809
15.50
10.17
157.58
255 257 11323 11219
306.50

Moyennes: x = 255/6 = 42.5 ; y = 257/6 = 42.83


Variances: x2 = 11323/6 x2 = 80.92 ; y2 = 11219/6 y2 = 35.42
306.5

Correlation: r(x, y) = 16 80.92


= 0.95
35.42

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 43

Association entre 2 variables categorielles


European Social Survey: enquete financee par lEC realisee tous les 2 ans depuis
2002 dans plus de 30 pays europeens (dont la Belgique).
Les questions portent sur differents aspects de la vie des personnes questionnees
(utilisation des medias, confiance, sante, exclusion. . . ).
Les personnes questionnees sont selectionnees `a laide dun sondage probabiliste `a
plusieurs degres (voir chap. 3 & 4) ; interview face-`a-face.
Ex Quel interet avez-vous pour la politique? (ESS 2008, Belgique).
Interet pour la politique
Genre Tr`es interesse Assez interesse Peu interesse Pas du tout interesse
Masculin
91
369
269
135
Feminin
55
337
301
203
Cette table de contingence reprend les frequences associees `a chacune des modalites
proposees pour les 1760 personnes qui ont apporte une reponse `a cette question.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 44

Variable reponse et variable explicative


Dans lexemple precedent, linteret pour la politique apparat clairement comme
la variable dinteret: cest la variable reponse.
Certains aspects de la distribution de la variable reponse seront compares dans les
groupes definis par lautre variable, ici le genre.
Cest une variable explicative (. . . des valeurs prises par la variable reponse).

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 45

Calcul de pourcentages
Les frequences brutes apparaissant dans la table de contingence ne permettent pas
de visualiser rapidement comment la reponse apportee se distribue et change avec
le genre.
Pour y parvenir, il est conseille de calculer la distribution empirique des frequences
relatives (= pourcentages) de la variable reponse pour chaque modalite de la
variable explicative.
Genre
Masculin
Feminin
Total

Interet pour la politique


Tr`es interesse Assez interesse Peu interesse Pas du tout interesse
Total
91 (10.5%)
369 (42.7%) 269 (31.1%)
135 (15.6%)
864 (100%)
55 (6.1%)
337 (37.6%) 301 (33.6%)
203 (22.7%)
896 (100%)
146 (8.3%)
706 (40.1%) 570 (32.4%)
338 (19.2%)
1760 (100%)

On voit desormais relativement clairement que les femmes tendent `a presenter un


interet moins marque que les hommes pour la politique.
Une absence de lien entre les 2 variables se manifesterait par des pourcentages
semblables dans les 2 lignes du tableau.
c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 46

Representation graphique du lien entre 2 categorielles


Intrt pour la politique et genre

60

70

80

90

100

Pas du tout intress


Peu intress
Assez intress
Trs intress

Chaque barre correspond `a une


modalite de la variable explicative
avec un rappel des effectifs pour chacune.

10

20

30

40

50

Le partage de chaque barre entre


les modalites de la reponse se fait
proportionnellement aux frequences
relatives correspondantes.

Masc (n=864)

Fem (n=896)

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 47

Autre exemple
Lien entre le niveau deducation du repondant (dau moins 30 ans) et celui de ses
parents [ESS 2002, Belgique].
La variable reponse est de toute evidence le niveau de formation du repondant.
La variable explicative est le niveau de formation dun des parents.
Diplome P`ere
Primaire
Secondaire
Superieur
Total

Diplome du repondant
Primaire
Secondaire
Superieur
148 (29.0%) 301 (58.9%) 62 (12.1%) 511
15 (3.7%) 232 (56.7%) 162 (39.6%) 409
2 (1.3%) 45 (29.4%) 106 (69.3%) 153
165 (15.4%) 578 (53.9%) 330 (30.7%) 1073

Total
(100%)
(100%)
(100%)
(100%)

Diplome M`ere
Primaire
Secondaire
Superieur
Total

Diplome du repondant
Primaire
Secondaire
Superieur
152 (25.2%) 365 (60.5%) 86 (14.3%) 603
11 (2.8%) 195 (49.2%) 190 (48.0%) 396
2 (2.7%) 18 (24.3%) 54 (73.0%)
74
165 (15.4%) 578 (53.9%) 330 (30.7%) 1073

Total
(100%)
(100%)
(100%)
(100%)

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 48

Representation graphique du lien avec le P`ere


Niveau de formation du rpondant et de son Pre

Suprieur
Secondaire
<= Primaire

La distribution des valeurs prises par


la variable reponse change nettement
avec le niveau de formation du P`ere.

70

80

90

100

Arreter ses etudes avec un diplome primaire est tr`es rare lorsque le P`ere a un
niveau de formation plus important.

10

20

30

40

50

60

Pr`es de 6 (resp. 4) fois sur 10, un


Papa diplome du secondaire a un enfant avec un diplome de niveau identique (resp. superieur).

<= Primaire (n=511)

Secondaire (n=409)

Suprieur (n=153)

c - Institut des sciences humaines et sociales


P. Lambert

Pr`es de 7 (resp. 3) fois sur 10, un


Papa diplome du superieur a un enfant avec un diplome de niveau identique (resp. secondaire).
Statistique descriptive - 49

Representation graphique du lien avec la M`ere


Niveau de formation du rpondant et de sa Mre

Suprieur
Secondaire
<= Primaire

La distribution des valeurs prises par


la variable reponse change nettement
avec le niveau de formation de la M`ere.

70

80

90

100

Arreter ses etudes avec un diplome primaire est tr`es rare lorsque la M`ere a un
niveau de formation plus important.

10

20

30

40

50

60

La comparaison avec le graphe


precedent sugg`ere que la qualite du
niveau de formation de la M`ere a un
impact encore plus benefique.

<= Primaire (n=603)

Secondaire (n=396)

Suprieur (n=74)

c - Institut des sciences humaines et sociales


P. Lambert

Pr`es de 5 (resp. 5) fois sur 10, une


M`ere diplomee du secondaire a un enfant avec un diplome de niveau identique (resp. superieur).
Statistique descriptive - 50

Les variables en presence peuvent avoir le meme statut . . .


Dans lexemple precedent, on pourrait sinteresser au lien eventuel entre les niveaux
de formation des parents du repondant.
Pour resituer le contexte, rappelez-vous que le repondant avait au moins 30 ans
en 2002. Il sagit donc dans la plupart des cas de couples qui se sont maries au
plus tard debut des annees 70 !
Diplome P`ere
Diplome M`ere Primaire Secondaire Superieur
Primaire
443
144
16
Secondaire
62
250
84
Superieur
6
15
53
A priori, aucune de ces variables ne simpose comme la reponse.
Tout depend du point de vue de lanalyste. . .

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 51

Point de vue 1: cest lepouse qui choisit son conjoint. . .


Dans ce cas
. la variable explicative est le diplome de la M`ere ;
. la variable reponse est le diplome du P`ere.
Diplome P`ere
Diplome M`ere Primaire Secondaire Superieur Total
Primaire
443 (73%) 144 (24%) 16 (3%) 603 (100%)
Secondaire
62 (16%) 250 (63%) 84 (21%) 396 (100%)
Superieur
6 (8%) 15 (20%) 53 (72%)
74 (100%)
Total
511 (48%) 409 (38%) 153 (14%) 1073 (100%)
Lamour nest pas aveugle. . . :
. Plus de 6 (voir 7) fois sur 10, la M`ere choisit un conjoint avec le meme
niveau de formation quelle: qui se ressemble sassemble !
. Dans les autres cas, elle tend `a choisir un conjoint avec un niveau de formation pas trop eloigne ou superieur au sien.

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 52

Point de vue 2: cest lepoux qui choisit sa conjointe. . .


Dans ce cas
. la variable explicative est le diplome du P`ere ;
. la variable reponse est le diplome de la M`ere.
Diplome M`ere Primaire
Primaire
443 (87%)
Secondaire
62 (12%)
Superieur
6 (1%)
Total
511 (100%)

Diplome P`ere
Secondaire
144 (35%)
250 (61%)
15 (4%)
409 (100%)

Superieur
Total
16 (10%) 603 (56%)
84 (55%) 396 (37%)
53 (35%)
74 (7%)
153 (100%) 1073 (100%)

Le constat nest pas le meme:


. Pr`es de 9 fois sur 10, le P`ere choisit une partenaire avec niveau de formation
au plus egal au sien.
. Alors quune femme avec un diplome superieur choisissait un conjoint avec
un meme niveau de formation dans 72% des cas, ce pourcentage nest que
de 35% chez les hommes.
c - Institut des sciences humaines et sociales
P. Lambert

Statistique descriptive - 53

Point de vue 3: comment les diplomes se combinent-ils?


Il peut etre interessant de calculer le pourcentage associe `a chacune des 9 combinaisons possibles de diplomes.
Diplome M`ere Primaire
Primaire
443 (41.3%)
Secondaire
62 (5.8%)
Superieur
6 (0.6%)

Diplome P`ere
Secondaire
144 (13.4%)
250 (23.3%)
15 (1.4%)

Superieur
16 (1.5%)
84 (7.8%)
53 (4.9%)

. 4 fois sur 10 (41.3%), les parents ont tous les 2 un diplome primaire.
. Pr`es d1 fois sur 4 (23.3%), les parents ont tous les 2 un diplome secondaire.
. Les couples primaire-superieur sont rares (0.6%+1.5%).

c - Institut des sciences humaines et sociales


P. Lambert

Statistique descriptive - 54