Vous êtes sur la page 1sur 73

STATISTIQUE

Statistique descriptive

Cours de statistique - DM 2009/2010 1


Introduction
• Faire parler les séries de données
  statistique descriptive
• Dégager les caractéristiques :
– Tendance centrale
– Dispersion
– Distribution
– Valeurs extrêmes
– Temps

 statistique inférentielle
• Utilisation de tests ou de lois
Statistique descriptive
• 1 - Distribution de fréquences
• 2 - Méthodes graphiques
• 3 - Mesures de tendance centrale
• 4 - Mesures de dispersion
• 5 - Mesures de positionnement
• 6 - Analyse exploratoire des données
1 – Distribution de fréquences
• Dans un tableau de données, les fréquences
représentent le nombre de fois où chaque
valeur apparaît
• Critères à définir :
– Nombre de classes
– Largeur des classes
• Fréquences relatives
• Fréquences cumulées
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28
• Détermination du nombre de classes (k) pour n valeurs,
par la règle de Sturges :

données triées K = 1 + 3,322 log n


soit 5,52366, arrondi à 6
16
• Détermination de la larguer des classes :
(35 – 16)/6 = 3,16666
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28
Classes 16
données triées

de fréquence
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28
Classes16
données triées

de fréquence
7 30%

6 25%

Nombre d'individus

Nombre d'individus
20%
4
15%
3
10%
2

5%
1

0 0%
17 20 23 26 29 32 35 17 20 23 26 29 32 35
Classes de fréquences Classes de fréquences
Histogramme des fréquences Histogramme des fréquences relatives

25

20
nombre d'individus

15

10

0
17 20 23 26 29 32 35
Classes de fréquences
Histogramme des fréquences cumulées
Importance du choix du nombre de classes

Nombre de côte

n
Exercice 2 – Hauteurs des
peupliers

Application à la mise en évidence de


différences dans les résultats
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence

Classes
de fréquence
Exercice 2 – Hauteurs des
peupliers
• 3 traitements :
– Nombre de classes avec n = 30
K = 1 + 3,322 log n
soit 5.907, arrondi à 6
- Largeur des classes :
6,8/6 = 1,1333
Choix de classes de 1 unité
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence

Classes
de fréquence
Exercice 2 – Hauteurs des
peupliers

50%
45%
40%
fréquence relative

35%
30% Contrôle
25% Irrigation
20% Irrigation et fertilisatio
15%
10%
5%
0%
1,9 2,9 3,9 4,9 5,9 6,9 7,9 8,9
Classes de hauteur (limites supérieures des classes)
Hauteur des plants de Peupliers en mètre ; distribution en fréquences relatives
en fonction du traitement.
2 – Méthodes graphiques
• Histogrammes des fréquences
• Polygones des fréquences
• Le Dotplot
• Le Tracé en tige et feuilles
• Le diagramme de bâtons
• Le diagramme circulaire
• Les séries chronologiques
Le polygone des fréquences
14

12

10

0
1 2 3 4 5 6 7 8 9 10
Courbe cumulative
60

50

40

30

20

10

0
1 2 3 4 5 6 7 8
Courbe cumulative (2)

I = point d’inflexion
Courbe cumulative (3)
25 60

50
20

40
15

i1 30
i
10
20
i2
5
10

0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8

Deux points d’inflexion  deux modes Un point d’inflexion  un mode


7 14

6 12

5 10

4 8

3 6

2 4

1 2

0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10
Le diagramme circulaire

4% 2% 6%
10%
1
15%
2
3
17% 4
5
6
7
25% 8
21%
Le diagramme en bâton

900
Le diagramme de dispersion
14

12

10
valeurs de y

0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14

12

10
valeurs de y

4
Graphique en courbe
2

0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14

12

10
valeurs de y

y = 0,4659x + 5,2198
8

4
Courbe de tendance
2 Corrélation

0
0 5 10 15
valeurs des x
La série chronologique
500
450
400
valeur marchande

350
300
250
200
150
100
50
0
1950 1960 1970 1980 1990 2000 2010
décades
Le Dotplot
Contrôle

1 2 3 4 5 6 7 8

Irrigation

1 2 3 4 5 6 7 8

Irrigation & fertilisation

1 2 3 4 5 6 7 8
Le tracé tige et feuilles

Contrôle Irrigation Irrigation & fertilisation

19
29
Exercice 3
sexe 76,0
M M
poids enfant 74,0

72,0 62,5 64,6


poids mère 66 58
70,0
Poids de l'enfant

68,0

66,0

64,0

62,0

60,0
55 60 65 70 75
P o id s d e la m è re

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3 (2)
80,0

70,0

60,0

50,0

40,0 ATTENTION AUX ECHELLES

30,0 DES X et DES Y

20,0

10,0

0,0
55 60 65 70 75

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3
sexe 76,0
M M
poids enfant 74,0
72,0

70,0
62,5 64,6
Poids de l'enfant

poids mère 68,0

66,0
66
y = 0,3941x + 42,48
58
64,0

62,0
60,0
55 60 65 70 75
P o id s d e la m è re

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 4
35.5 35.7 39.2 39.6
41.1 Classe de f
41.2 41.3 41.4

34-35,9
70%

60%

50%
fréquence %

40%

36-37,9
30%
Histogramme
20%
des périmètres
10% crâniens des
0% enfants de deux
35 37 39 41 43
mois
classes de périmètre (cm)
Exercice 4 (2)

35 5,7
36
35 36 37
37
38 39 40 41 42 43
3 – Mesures de tendance centrale
• a) La moyenne

moyenne =
∑ x
n
• Ex : teneur en plomb dans l’atmosphère (norme = 1,5 µ g/m3)

5,40 1,10 0,42 0,73 0,48 1,10 µ g/m3

x = 9,23 / 6 = 1,538
3 – Mesures de tendance centrale (2)
moyenne d’un échantillon

x=
∑ x
n
moyenne d’une population

µ=
∑ x
N
3 – Mesures de tendance centrale (3)
• b) La médiane : valeur du milieu

– Si nb d’individus impair, médiane = valeur de


l’individu moyen ou central
• Ex 15 valeurs triées ; médiane = 8ème valeur en
partant de la plus basse

– Si nb d’individus pair, médiane = moyenne


des deux individus moyens
• Ex 6 valeurs de plomb :
médiane = (1,10 + 0,73)/2 = 0,915
3 – Mesures de tendance centrale (4)
• c) Le mode

= valeur qui est présente le plus grand nombre


de fois
Ex : périmètre crânien
– unimodal 70%

60%

fréquence % 50%

– multimodal 40%

30%

20%

10%

0%
35 37 39 41 43
classes de périmètre (cm)
3 – Mesures de tendance centrale (5)
• c) Le midrange

= moyenne arithmétique des deux valeurs


extrêmes

midrange = (min + max)/2

Ex Plomb (5,40 + 0,42)/2 = 2,91


Exercice 6

CONTRÔLE
IRRIGATION
moyenne
IRRIGAT & F
médiane
moyenne
3 – Mesures de tendance centrale (6)
• c) La moyenne pondérée

moyenne pondérée x=
∑ (ω.x)

∑ω
ω = coefficient
∑ ω = somme des coefficients
Exercice 7
Moyenne pondérée

(85 x 20) + (90 x30) + (75 x50)


= 81,5
100

Moyenne arithmétique
85 + 90 + 75
= 83,33
3
Exercice 8

Moyenne de fréquence

(50 x50) + (150 x30) + (250 x35) + (350 x3) + (450 x5)
=179,50
100
Avantages et i
Meure de Util
tendance
centrale
4 – Mesures de dispersion
• Ex : temps de file d’attente dans deux
cliniques : une ou 3 files d’attente

Une seule file


• Moyenne = 6 mn

Trois files d’
• Variation ?
4 – Mesures de dispersion (2)
• 4.1 – L’étendue

Etendue = valeur max imale − valeur min imale

• Premier cas : 7 – 4 = 3 mn
• Deuxième cas : 14 – 1 = 13 mn

Facilité d’utilisation
mais ne tient compte que des valeurs extrêmes
4 – Mesures de dispersion (3)
• 4.2 – L’écart type

∑ (x − x) 2
s=
n ∑ ( x) 2 − ( ∑ x) 2
s= ou n(n − 1)
n −1
• Premier cas

3(4 2 + 7 2 + 7 2 ) − (18) 2
342 − 324 18
s= s= = = 3 = 1,732
6 6
• Deuxième cas3 * 2

3(12 + 3 2 + 14 2 ) − (18) 2 618 − 324 294


s= = = 49 = 7
s= 6 6
3* 2
4 – Mesures de dispersion (4)
• Pourquoi diviser par n – 1 ?
– Seulement n – 1 valeurs indépendantes
– n – 1 = nombre de degré de liberté

• Cas d’une population

σ=
∑ (x − x) 2

N
4 – Mesures de dispersion (5)
• La variance
– Cas d’un échantillon : s2
– Cas d’une population : σ 2

• Le coefficient de variation CV
s σ
– Échantillon CV = 100%
Population
CV = 100%
x µ
4 – Mesures de dispersion (6)
• Interprétation de l’écart type :
– 1) valeur de s et dispersion

S1 > S2

s1 s2

Grande dispersion Faible dispersion


4 – Mesures de dispersion (7)
• Interprétation de l’écart type :
– 2) 95 % des observations sont à moins de 2 s

s s

95 % des observations
4 – Mesures de dispersion (8)
• Interprétation de l’écart type :
– 3) estimation rapide de s

étendue
" s" =
4
– 4) minimum « usuel » et maximum « usuel »

Minimum « usuel » = moyenne – 2 x écart type


Maximum « usuel » = moyenne + 2 x écart type
4 – Mesures de dispersion (9)
• Ex 1

IRRIGATIO
3,2 4,4
3,9 5,3
Exercice 17

A%
Lf%
Lg%
Exercice 10

IMC 19,
2
x 384,
moyenne 25,
2
4 – Mesures de dispersion (10)
• Ex 2 : périmètre crânien
70%

moye
60%

50%
fréquence %

40%

30%

20%

10%

0%
35 37 39 41 43
classes de périmètre (cm)

Périmètres de 35,5 et 35,7 considérés plus petits que la normale


4 – Mesures de dispersion (11)
• - 5) règle des 68 – 95 – 99,7

99,7 % à moins de 3 s

95 % à moins de 2 s

68 % à moins d’un s

µ −3 µ −2 µ −σ µ + µ +2 µ +3
σ σ σ σ σ
Exercice 12
• Ex

taille des fem


145 et 181 cor
moyenne de 16
Exercice 13

Tailles
Conclusion : la variation du poids est plus importante que celle de la taille
5 – Mesures de positionnement
relatif

Ex : Jordan m
• 5.1 - Le score-z : à combien d’écart type la
valeur se trouve-t-elle de la moyenne ?

Lobo mesure
z=
x−x
s
ou z=
x−µ
σ
5 – Mesures de positionnement
relatif (2)
x − µ 1,98 − 1,75
z= = = 3,23
σ 0,0711

Jordan
• La taille de Jordan se trouve à + 3,23 fois l’écart type de
la moyenne des hommes
x − µ 1,93 − 1,61
z= = = 5,04
σ 0,0635
• La taille de Lobo se trouve à 5,04 fois l’écart type de la
moyenne des femmes

 Lobo est relativement plus grande parmi les


femmes que Jordan parmi les hommes
5 – Mesures de positionnement
relatif (3)
• Valeurs ordinaires et valeurs inhabituelles

Valeurs inhabituelles Valeurs ordinaires Valeurs inhabituelles


inférieures supérieures

-3 -2 -1 0 +1 +2 +3
5 – Mesures de positionnement
relatif (4)
• 5.2 – Quartiles et percentiles
– QUARTLIES

Q1 = premier q
%. 25 % des d
5 – Mesures de positionnement
relatif (5)
• 5.2 – Quartiles et percentiles

– Les PERCENTILES séparent les données en


100 parties égales avec 1 % des données dans
chaque groupe.
5 – Mesures de positionnement
relatif (6)
• 5.2 – Quartiles et percentiles
– Comment trouver le percentile qui correspond à une
valeur particulière ?

nombre de valeurs inf érieures à x


percentile de valeur x = 100
nombre total des valeurs

12
percentile de112 = 100 = 30
40
5 – Mesures de positionnement
relatif (7)
• 5.2 – Quartiles et percentiles
– Comment trouver la valeur qui correspond à un
percentile particulier k ? On cherche le localisateur L
d’une valeur particulière parmi n valeurs.
k
L= n
100

si L est une va
5 – Mesures de positionnement
relatif (8)
• 5.2 – Quartiles et percentiles

Ex : cotinine :
L=
68
100
40 = 27,2
5 – Mesures de positionnement
relatif (9)
• 5.2 – Quartiles et percentiles

– Q1 = P25 ; Q2 = P50 ; Q3 = P 75

– Distance interquartile : DIQ = Q3 – Q1

– Étendue 10 – 90 % : = P90 - P10


Exercice 14
20
L= 40 = 8
100

75
L= 40 = 30
100

P20
1
L= 40 = 0,4
100

Distance Inte
25
L= 40 =10
100
Exercice 14 (suite)

Etendue 10 – 9
10
L= 40 = 4
100

90
L= 40 = 36
100
6 – Analyse exploratoire des
données
• 6.1 – Valeurs extrêmes

• Valeurs extrêmes = valeurs aberrantes


6 – Analyse exploratoire des
données (2)
• 6.2 – Boîtes à moustaches (Boxplot)
médiane

Q1 Q3
maximum
minimum
6 – Analyse exploratoire des
données (3)
• 6.3 - Boîtes à moustaches de Tukey
Valeurs Valeurs
anomaliques Valeurs normales anomaliques
inférieures supérieures
= =
outliers médiane outliers

Q1 Q3
maximum
minimum

1,5 DIQ 1,5 DIQ


DIQ
Q3 - 1,5 DIQ Q3 + 1,5 DIQ
= vibrisse inférieure = vibrisse supérieure
6 – Analyse exploratoire des
données (4)
• 6.3 - Boîtes à moustaches de Tukey
Application aux teneurs en Cd des sols français