Vous êtes sur la page 1sur 136

STATISTIQUE

Statistique descriptive

Cours de statistique - DM 2009/2 1


010
Introduction
• Faire parler les séries de données
  statistique descriptive
• Dégager les caractéristiques :
– Tendance centrale
– Dispersion
– Distribution
– Valeurs extrêmes
– Temps

  statistique inférentielle
• Utilisation de tests ou de lois
Statistique descriptive
• 1 - Distribution de fréquences
• 2 - Méthodes graphiques
• 3 - Mesures de tendance centrale
• 4 - Mesures de dispersion
• 5 - Mesures de positionnement
• 6 - Analyse exploratoire des données
1 – Distribution de fréquences
• Dans un tableau de données, les
fréquences représentent le nombre de fois
où chaque valeur apparaît
• Critères à définir :
– Nombre de classes
– Largeur des classes
• Fréquences relatives
• Fréquences cumulées
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données

données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35

• Détermination du nombre de classes (k) pour n valeurs,


par la règle de Sturges :
K = 1 + 3,322 log n
soit 5,52366, arrondi à 6

• Détermination de la larguer des classes :


(35 – 16)/6 = 3,16666
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35

Classes Centre Fréquence Fréquence Fréquence


de fréquences des classes f relative cumulée

Total 23
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35

Classes Centre Fréquence Fréquence Fréquence


de fréquences des classes f relative cumulée
16-18 17 3 13% 3
19-21 20 4 17% 7
22-24 23 2 9% 9
25-27 26 6 26% 15
28-30 29 5 22% 20
31-33 32 1 4% 21
34 et plus 35 2 9% 23
Total 23 100%
7 30%

6 25%

Nombre d'individus

Nombre d'individus
20%
4
15%
3
10%
2

5%
1

0 0%
17 20 23 26 29 32 35 17 20 23 26 29 32 35
Classes de fréquences Classes de fréquences

Histogramme des fréquences Histogramme des fréquences relatives

25

20
nombre d'individus

15

10

0
17 20 23 26 29 32 35
Classes de fréquences

Histogramme des fréquences cumulées


Importance du choix du nombre de classes
Nombre de côtes Fréquence Nombre de côtes Fréquence

n f n f

16-20 6 16-17 1

21-25 6 18-19 3

26-30 8 20-21 3

31-35 3 22-23 0

24-25 5

26-27 3

28-29 3

30-31 3

32-33 1

34-35 1

Total 23 Total 23
Exercice 2 – Hauteurs des
peupliers

Application à la mise en évidence de


différences dans les résultats
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence
Classes Contrôle Irrigation Irrigation et fertilisation
de fréquence Fréquence F% Fréquence F% Fréquence F%

Total
Exercice 2 – Hauteurs des
peupliers
• 3 traitements :
– Nombre de classes avec n = 30
K = 1 + 3,322 log n
soit 5.907, arrondi à 6
- Largeur des classes :
6,8/6 = 1,1333
Choix de classes de 1 unité
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence
Classes Contrôle Irrigation Irrigation et fertilisation
de fréquence Fréquence F% Fréquence F% Fréquence F%
1 - 1,9 1 5% 2 10% 0 0%
2 - 2,9 1 5% 4 20% 0 0%
3 - 3,9 3 15% 2 10% 2 10%
4 - 4,9 5 25% 2 10% 1 5%
5 - 5,9 4 20% 4 20% 1 5%
6 - 6,9 6 30% 6 30% 9 45%
7 - 7,9 0 0% 0 0% 6 30%
8 - 8,9 0 0% 0 0% 1 5%
Total 20 100% 20 100% 20 100%
Exercice 2 – Hauteurs des
peupliers

50%
45%
40%
fréquence relative

35%
30% Contrôle
25% Irrigation
20% Irrigation et fertilisation
15%
10%
5%
0%
1,9 2,9 3,9 4,9 5,9 6,9 7,9 8,9
Classes de hauteur (limites supérieures des classes)

Hauteur des plants de Peupliers en mètre ; distribution en fréquences relatives


en fonction du traitement.
2 – Méthodes graphiques
• Histogrammes des fréquences
• Polygones des fréquences
• Le Dotplot
• Le Tracé en tige et feuilles
• Le diagramme de bâtons
• Le diagramme circulaire
• Les séries chronologiques
Le polygone des fréquences
14

12

10

0
1 2 3 4 5 6 7 8 9 10
Courbe cumulative
60

50

40

30

20

10

0
1 2 3 4 5 6 7 8
Courbe cumulative (2)

I = point d’inflexion
Courbe cumulative (3)
25 60

50
20

40
15
30
10
i1 i
20

5
i2
10

0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8

Deux points d’inflexion  deux modes Un point d’inflexion  un mode


7 14

6 12

5 10

4 8

3 6

2 4

1 2

0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10
Le diagramme circulaire

4% 2% 6%
10%
1
15%
2
3
17% 4
5
6
7
25% 8
21%
Le diagramme en bâton
Fig. 3 - Biomasse aérienne en fonction des carences minérales (Cresson alénois)

900

800

700

600
biomasse en g.

500

400

300

200

100

0
Milieu complet Carence N Carence P Carence Ca Car Oligo-Fe
Le diagramme de dispersion
14

12

10
valeurs de y

0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14

12

10
valeurs de y

4
Graphique en courbe
2

0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14

12

10
valeurs de y

y = 0,4659x + 5,2198
8

4
Courbe de tendance
2
Corrélation
0
0 5 10 15
valeurs des x
La série chronologique
500
450
400
valeur marchande

350
300
250
200
150
100
50
0
1950 1960 1970 1980 1990 2000 2010
décades
Le Dotplot
Contrôle

1 2 3 4 5 6 7 8

Irrigation

1 2 3 4 5 6 7 8

Irrigation & fertilisation

1 2 3 4 5 6 7 8
Le tracé tige et feuilles

Contrôle Irrigation Irrigation & fertilisation

1 9 1 2, 6 1
2 9 2 5, 8, 9, 9 2
3 2, 6, 9 3 3, 6 3 2, 9
4 1, 1, 6, 8 4 1, 5 4 4
5 1, 5, 5, 5 5 1, 1, 5, 8 5 3
6 0, 3, 5, 8, 9, 9 6 1, 1, 4, 5, 8, 8 6 2, 2, 3, 6, 7, 7, 8, 8, 8
7 1, 3, 3, 3, 6, 7
8 0
Exercice 3
sexe M M M M M M M M M M M M M M M M M M M M
poids enfant 62,5 64,6 69,1 73,9 67,1 64,4 71,1 71,0 67,4 69,3 64,9 68,1 66,5 67,5 66,5 70,3 67,5 68,5 71,9 67,8
poids mère 66 58 66 68 64 62 66 63 64 65 64 64 62 69 62 67 63 66 65 71

76,0

74,0

72,0

70,0
Poids de l'enfant

68,0

66,0

64,0

62,0

60,0
55 60 65 70 75
Poids de la mère

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3 (2)
80,0

70,0

60,0

50,0

40,0 ATTENTION AUX ECHELLES


30,0 DES X et DES Y
20,0

10,0

0,0
55 60 65 70 75

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3
sexe M M M M M M M M M M M M M M M M M M M M
poids enfant 62,5 64,6 69,1 73,9 67,1 64,4 71,1 71,0 67,4 69,3 64,9 68,1 66,5 67,5 66,5 70,3 67,5 68,5 71,9 67,8
poids mère 66 58 66 68 64 62 66 63 64 65 64 64 62 69 62 67 63 66 65 71

76,0

74,0

72,0

70,0
Poids de l'enfant

68,0

66,0
y = 0,3941x + 42,48
64,0

62,0
60,0
55 60 65 70 75
Poids de la mère

Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 4
35.5 35.7 39.2 39.6 39.7 39.8 39.9 40.1 40.2 40.2 40.2 40.4 40.4 40.7 40.9 40.9 40.9 40.9 40.9 41.0 41.0 41.0 41.0 41.0 41.1
41.1 41.2 41.3 41.4 41.7 41.7 41.7 41.7 41.8 41.9 41.9 42.0 42.0 42.2 42.2 42.3 42.3 42.4 42.5 42.6 42.8 42.8 42.8 43.2 43.2

Classe de fréquences Fréquences F %


34-35,9 2 4%
36-37,9 0 0%
38-39,9 5 10%
40-41,9 29 58%
42-43,9 14 28%
Total 50 100%

70%

60%

50%
fréquence %

40%

30%

20%
Histogramme
10%
des périmètres
0%
crâniens des
35 37 39 41 43 enfants de deux
classes de périmètre (cm) mois
Exercice 4 (2)
35 5,7
36
37
38
39 2,6,7,9
40 1,2,2,4,4,7,9,9,9,9,9
41 0,0,0,0,0,1,1,2,3,4,7,7,7,7,8,9
42 0,0,2,2,3,3,4,6,8,8,8
43 2,2

35 36 37 38 39 40 41 42 43
3 – Mesures de tendance centrale
• a) La moyenne

moyenne 
 x
n
• Ex : teneur en plomb dans l’atmosphère (norme = 1,5 g/m3)

5,40 1,10 0,42 0,73 0,48 1,10 g/m3

x  9,23 / 6  1,538
3 – Mesures de tendance centrale (2)
moyenne d’un échantillon

x
 x
n
moyenne d’une population


 x
N
3 – Mesures de tendance centrale (3)
• b) La médiane : valeur du milieu

– Si nb d’individus impair, médiane = valeur de


l’individu moyen ou central
• Ex 15 valeurs triées ; médiane = 8ème valeur en
partant de la plus basse

– Si nb d’individus pair, médiane = moyenne


des deux individus moyens
• Ex 6 valeurs de plomb :
médiane = (1,10 + 0,73)/2 = 0,915
3 – Mesures de tendance centrale (4)
• c) Le mode

= valeur qui est présente le plus grand nombre


de fois
Ex : périmètre crânien
– unimodal
70%

60%

fréquence % 50%

40%

– multimodal 30%

20%

10%

0%
35 37 39 41 43
classes de périmètre (cm)
3 – Mesures de tendance centrale (5)
• c) Le midrange

= moyenne arithmétique des deux valeurs


extrêmes

midrange = (min + max)/2

Ex Plomb (5,40 + 0,42)/2 = 2,91


Exercice 6
CONTRÔLE
moyenne 4,95
médiane 5
mode 5,5
midrange 4,4

IRRIGATION
moyenne 4,48
médiane 4,8
mode 2,9 - 5,1 - 6,1 - 6,8
midrange 4

IRRIGAT & FERTIL


moyenne 6,41
médiane 6,75
mode 6,8 - 7,3
midrange 5,6
3 – Mesures de tendance centrale (6)
• c) La moyenne pondérée

moyenne pondérée x
 (.x)


  coefficient
   somme des coefficients
Exercice 7
Moyenne pondérée

(85 x 20)  (90 x30)  (75 x50)


 81,5
100

Moyenne arithmétique
85  90  75
 83,33
3
Exercice 8

Moyenne de fréquence

(50 x50)  (150 x30)  (250 x35)  (350 x3)  (450 x5)
179,50
100
Avantages et inconvénients des différentes mesures centrales.
Meure de Utilisation Existence Prend en Affectée par Avantages et inconvénients
tendance compte les valeurs
centrale toutes les extrêmes
valeurs
Moyenne Familière Toujours Oui Oui + utilisée partout ; fonctionne
avec beaucoup de méthodes
statistiques

- influencée par les valeurs


extrêmes
Médiane Souvent Toujours Non Non + quand valeurs extrêmes ou
peu de valeurs

- fonctionne mal avec tests


statistiques
Mode De temps Parfois Non Non Adaptée au niveau nominal
en temps n’existe pas
Midrange Rarement Toujours Non Oui Très (trop) sensible aux valeurs
extrêmes
Symétrique

Mode = Moyenne = Médiane

Asymétrie gauche Asymétrie droite

Mode
Moyenne Mode Moyenne
Médiane
Médiane
4 – Mesures de dispersion
• Ex : temps de file d’attente dans deux
cliniques : une ou 3 files d’attente
Une seule file d’attente 4 7 7
Trois files d’attente 1 3 14

• Moyenne = 6 mn
• Variation ?
4 – Mesures de dispersion (2)
• 4.1 – L’étendue

Etendue  valeur max imale  valeur min imale

• Premier cas : 7 – 4 = 3 mn
• Deuxième cas : 14 – 1 = 13 mn

Facilité d’utilisation
mais ne tient compte que des valeurs extrêmes
4 – Mesures de dispersion (3)
• 4.2 – L’écart type
 (x  x) 2
s
n  ( x) 2  (  x) 2
s ou n(n  1)
n 1

• Premier cas
3(4 2  7 2  7 2 )  (18) 2
342  324 18
s s   3  1,732
3* 2 6 6

• Deuxième cas
3(12  3 2  14 2 )  (18) 2 618  324 294
s   49  7
s 6 6
3* 2
4 – Mesures de dispersion (4)
• Pourquoi diviser par n – 1 ?
– Seulement n – 1 valeurs indépendantes
– n – 1 = nombre de degré de liberté

• Cas d’une population


 (x  x) 2

N
4 – Mesures de dispersion (5)
• La variance
– Cas d’un échantillon : s2
– Cas d’une population : 2

• Le coefficient des variation CV 


CV  100% CV  100%
– Échantillon x Population 
4 – Mesures de dispersion (6)
• Interprétation de l’écart type :
– 1) valeur de s et dispersion

S1 > S2

s1 s2

a b
Grande dispersion Faible dispersion
4 – Mesures de dispersion (7)
• Interprétation de l’écart type :
– 2) 95 % des observations sont à moins de 2 s

s s

95 % des observations
4 – Mesures de dispersion (8)
• Interprétation de l’écart type :
– 3) estimation rapide de s

étendue
" s" 
4
– 4) minimum « usuel » et maximum « usuel »

Minimum « usuel » = moyenne – 2 x écart type


Maximum « usuel » = moyenne + 2 x écart type
4 – Mesures de dispersion (9)
• Ex 1 IRRIGATION et FERTILISATION
3,2 4,4 6,2 6,3 6,7 6,8 7,3 7,3 7,7 6,8
3,9 5,3 6,2 6,6 6,7 7,1 7,3 7,6 8 6,8

moyenne 6,41
écart type 1,28
minimum 3,20
maximum 8,00
minimum usuel 3,85
maximum usuel 8,97

minimum 3,20
maximum 8,00
étendue 4,80
"s" 1,20
minimum usuel 4,01
maximum usuel 8,81
Exercice 17

A% moyenne écart type E CV "s"


Lf% 29,17 2,51 2,54 9% 1,82
Lg% 15,43 4,36 4,40 28% 2,78
Sf% 10,02 4,68 4,73 47% 3,19
Sg% 16,35 4,52 4,57 28% 3,33
16,64 7,09 7,17 43% 4,84
Exercice 10

IMC 19,60 23,8 19,6 29,1 25,2 21,4 22,0 27,5 33,5 20,6 29,9 17,7 24,0 28,9 37,7
2
x 384,16 566,4 384,2 846,8 635 458 484 756,3 1122 424,4 894 313,3 576 835,2 1421
moyenne 25,37
2
S (x ) 10101,23
2
(Sx) 144780,25
écart type 5,66

minimum usuel 14,04


maximum usuel 36,7 Conclusion : un IMC de 34 n'apparaît pas comme étant une valeur
"inhabituelle".
Les deux méthodes conduisent à la même conclusion. La recette de l'étendue
permet d'obtenir un résultat rapide.
Avec règle de l'étendue :
"s" 5
minimum usuel 15,37
maximum usuel 35,37
4 – Mesures de dispersion (10)
• Ex 2 : périmètre crânien
70%

60%
moyenne 41,098
50%
étendue 7,7
fréquence %

40%

30% "s" 1,925


20%

10%
mini "usuel" 37,248
0%
35 37 39 41 43
maxi "usuel" 44,948
classes de périmètre (cm)

Périmètres de 35,5 et 35,7 considérés plus petits que la normale


4 – Mesures de dispersion (11)
• - 5) règle des 68 – 95 – 99,7

99,7 % à moins de 3 s

95 % à moins de 2 s

68 % à moins d’un s

     


Exercice 12
• Ex
taille des femmes : La taille des femmes a une distribution normale avec une
moyenne de 163 cm et un écart type de 6 cm. Quel est le pourcentage de femmes
compris entre 145 cm et 181 cm ?

145 et 181 correspondent respectivement à – ou + 3 écart types de la moyenne :


163 - (3 x 6) = 145 et 163 + (3 x 6) = 181 ; donc, 99,7 % des femmes ont des tailles
comprises entre 145 cm et 181 cm.
Exercice 13

Moyenne Ecart type CV


Tailles 173,58 cm 7,67 cm 4,42%
Poids 78,32 kg 11,95 kg 15,26%

Conclusion : la variation du poids est plus importante que celle de la taille


5 – Mesures de positionnement
relatif
Ex : Jordan mesure 1,98 m (moyenne des hommes 1,75 m ; écart type 7,11 cm) ;
Lobo mesure 1,93 m (moyenne des femmes 1,61 m ; écart type 6,35 cm)
Qui est relativement plus grand ou plus petit ?

• 5.1 - Le score-z : à combien d’écart type la


valeur se trouve-t-elle de la moyenne ?

xx x
z ou z
s 
5 – Mesures de positionnement
relatif (2)
x   1,98  1,75
Jordan : z   3,23
 0,0711
• La taille de Jordan se trouve à + 3,23 fois l’écart type de
la moyenne des hommes
x   1,93  1,61
Lobo : z   5,04
 0,0635
• La taille de Lobo se trouve à 5,04 fois l’écart type de la
moyenne des femmes

 Lobo est relativement plus grande parmi les


femmes que Jordan parmi les hommes
5 – Mesures de positionnement
relatif (3)
• Valeurs ordinaires et valeurs inhabituelles

Valeurs inhabituelles Valeurs ordinaires Valeurs inhabituelles


inférieures supérieures

-3 -2 -1 0 +1 +2 +3
5 – Mesures de positionnement
relatif (4)
• 5.2 – Quartiles et percentiles
– QUARTLIES

Q1 = premier quartile : sépare les premiers 25 % des données triées des autres 75
%. 25 % des données triées sont inférieures ou égales à Q1 et 75 % des données
sont supérieures ou égales à Q1

Q2 = deuxième quartile : même chose que la médiane ; sépare les premiers 50 % des
données triées des autres 50 %.

Q3 = troisième quartile : sépare les premiers 75 % des données triées des autres
25 %. 75 % des données triées sont inférieures ou égales à Q3 et 25 % des
données triées sont supérieures ou égales à Q3
5 – Mesures de positionnement
relatif (5)
• 5.2 – Quartiles et percentiles

– Les PERCENTILES séparent les données en


100 parties égales avec 1 % des données
dans chaque groupe.
5 – Mesures de positionnement
relatif (6)
• 5.2 – Quartiles et percentiles
– Comment trouver le percentile qui correspond à une
valeur particulière ?

nombre de valeurs inf érieures à x


percentile de valeur x  100
nombre total des valeurs

12
percentile de112  100  30
40

la valeur 112 (cotinine) est la 13ème valeur des données triées, donc 12 valeurs
inférieures, parmi 40 valeurs totales ; le percentile de 112 est 30, c'est-à-dire que
112 est la 30ème valeur sur 100 dans la distribution des valeurs de cotinine.
5 – Mesures de positionnement
relatif (7)
• 5.2 – Quartiles et percentiles
– Comment trouver la valeur qui correspond à un
percentile particulier k ? On cherche le localisateur L
d’une valeur particulière parmi n valeurs.
k
L n
100
si L est une valeur entière, la valeur du k-ième percentile est à mi chemin entre la L-
ième valeur dans le tableau et la suivante ; on trouve Pk en prenant la demi-somme de
la L-ième valeur et de la suivante ;
si L est une valeur décimale, on arrondit à la valeur supérieure.
5 – Mesures de positionnement
relatif (8)
• 5.2 – Quartiles et percentiles

Ex : cotinine : trouver la du 68ème percentile (P68) :

68
L 40  27,2
100 on arrondit à 28 ; donc le percentile 68 (P68) est la 28ème valeur

en partant de la plus basse, donc 234 dans le tableau.


5 – Mesures de positionnement
relatif (9)
• 5.2 – Quartiles et percentiles

– Q1 = P25 ; Q2 = P50 ; Q3 = P 75

– Distance interquartile : DIQ = Q3 – Q1

– Étendue 10 – 90 % : = P90 - P10


Exercice 14
20
L 40  8
P20 100 ; le percentile 20 est entre la 8 et la 9 ème valeur, soit : 46

75
L 40  30
P75 100 ; le percentile 75 est entre la 30 et la 31 ème valeur, soit : 251,5

1
L 40  0,4
P1 100 ; le percentile 1 est la valeur 1, soit 0

Distance InterQuartile
25
L 40 10
Q1 = P25 ; 100 donc entre la 10 et 11ème valeur, soit 86,5

Q3 = P75, soit 251,5

DIQ = 251,5 – 86,5 = 165


Exercice 14 (suite)

Etendue 10 – 90 %
10
L 40  4
P10 100 donc entre la 4 et 5ème valeur, soit 10

90
L 40  36
P90 100 donc entre la 36 et 37ème valeur, soit 289,5

Etendue = 289,5 – 10 = 279,5


6 – Analyse exploratoire des
données
• 6.1 – Valeurs extrêmes

• Valeurs extrêmes = valeurs aberrantes


6 – Analyse exploratoire des
données (2)
• 6.2 – Boîtes à moustaches (Boxplot)
médiane

Q1 Q3
maximum
minimum
6 – Analyse exploratoire des
données (3)
• 6.3 - Boîtes à moustaches de Tukey
Valeurs Valeurs
anomaliques Valeurs normales anomaliques
inférieures supérieures
= =
outliers médiane outliers

Q1 Q3
maximum
minimum

1,5 DIQ 1,5 DIQ


DIQ
Q3 - 1,5 DIQ Q3 + 1,5 DIQ
= vibrisse inférieure = vibrisse supérieure
6 – Analyse exploratoire des
données (4)
• 6.3 - Boîtes à moustaches de Tukey
Application aux teneurs en Cd des sols français
Aspitet Ademe
n 1253 10650
Q3 0,49 0,44
Q1 0,08 0,2
DIQ 0,41 0,24
1,5 DIQ 0,615 0,36
Vibrisse sup 1,105 0,8
Vibrisse inf <0 <0
9ème décile 1,18 0,69
Nb d'outliers 144 738
Statistique inférentielle
• 1 – Introduction

• 2 - Estimation et tailles d’échantillons avec


un échantillon

• 3 – Test d’hypothèses sur les moyennes

• 4 – Tests d’hypothèses sur les fréquences


1 – Introduction

Utilisation des données d’échantillon pour


faire des inférences sur les paramètres de
la population :
– pour estimer la valeur d’un paramètre d’une
population

– pour tester une hypothèse sur la population


2 - Estimation et tailles
d’échantillons avec un échantillon
2.1 - Estimation de la proportion d’une
population

• Estimation de la proportion p de la population


 soit p’ la proportion de l’échantillon
et q’=1-p’ la proportion complémentaire.

• Ex : soit un échantillon de 50 nouveaux nés :


86 % ont un périmètre crânien du 40 cm au
moins p’ = 0,86 ; q’ = 1 – 0,86 = 0,14 (14 %)
ont un périmètre crânien inférieur à 40 cm.
Peut-on estimer la proportion de la population.
2.1 - Estimation de la proportion
d’une population (2)
Deux manières d’estimer la proportion de la
population :

 Estimation ponctuelle
Une estimation ponctuelle est une valeur unique utilisée pour
approximer le paramètre d’une population.
Ici la meilleure estimation de p est p’, soit 0,86

 Estimation avec intervalle de confiance


Estimation avec intervalle de
confiance

Un intervalle de confiance (IC) est un intervalle de


valeurs utilisé pour estimer la vraie valeur d’un
paramètre d’une population.

Le niveau de confiance est la probabilité 1 –  qui est la


proportion du nombre de fois où l’intervalle de
confiance contient le paramètre de la population si on
répète l’estimation un grand nombre de fois.

Ex : pour un niveau de confiance de 95 %, soit 0,95, 1- =


0,95,  = 0,05
• Dans le cas de l’échantillon de 50 nouveaux nés avec 86 % de
périmètre crânien de 41 cm et plus, l’estimation par intervalle de
confiance à 95 % de la proportion p de la population est :
0,764 < p < 0,956, soit 76,4 % à 95,6 %.

• On dira que l’on a confiance à 95% que


l’intervalle [76,4% ; 95,6%] contient la vraie
valeur de périmètre crânien de plus de 41 cm
au niveau de la population. C'est-à-dire que
si l’on répétait un grand nombre de fois
l’expérience en mesurant le périmètre
crânien de 50 nouveaux nés et que l’on
construise les IC, 95% d’entre eux
contiendrait la vraie valeur de la population.
IC à 95 %

95,6 %

La vraie valeur
(inconnue)
76,4 %

95 IC sur 100 contiennent 5 IC sur 100 ne


la vraie valeur contiennent la vraie
valeur
Estimation avec intervalle de
confiance (2)
• Pour construire les IC, on s’appuie sur la loi normale qui
permet de mesurer pour une aire donnée (quantité
d’observations). Les limites entre les valeurs contenues
dans l’aire choisie et celles qui ne le sont pas sont
appelées « valeurs critiques ».

• Une valeur critique est un nombre sur la frontière qui


sépare les statistiques d’échantillon qui peuvent
vraisemblablement survenir de celles qui ne le peuvent
pas.

• Valeur critique notée z/2


intervalle de confiance et valeurs
critiques

Intervalle de confiance

1-
/2
/2

- Z /2 Z =0 Z /2
Les niveaux de confiance habituels
• Les choix les plus courants pour le niveau
de confiance :
– 90 % ( = 0,10) ;
– 95 % ( = 0,05) ;
– 99 % ( = 0,01) ;
– 99,9 % ( = 0,001)
Lecture de
table de
distribution
normale
Lecture de table de distribution
normale

….. la valeur critique


est de 1,645 Pour un niveau de
confiance de 90%,
soit 0,90,  = 0,10 et
/2 = 0,05, (1-/2) =
(1-0,05) = 0,95, …..
Lecture de table de distribution
normale

….. la valeur critique


est de 1,96 Pour un niveau de
confiance de 95%,
soit 0,95,  = 0,05 et
/2 = 0,025, (1-/2) =
(1-0,025) = 0,975,
…..
• Lecture d’une table de distribution normale
pour trouver les valeurs critiques qui
correspondent à 90 %, 95 %, 98, 99 % et
99,9 %.
Niveau de confiance  /2 1 – /2 Valeur critique za/2
90 % 0,10 0,05 0,95 1,645
95 % 0,05 0,025 0,975 1,96
98 % 0,02 0,01 0,99 2,33
99 % 0,01 0,005 0,995 2,575
99,9 % 0,001 0,0005 0,9995 3,3
Exemple : intervalle de confiance avec
niveau de confiance à 95 % : valeurs
critique = 1,96

Intervalle de confiance à 95 %

/2 = 0,025
/2 = 0,025

- Z /2 = - 1,96 Z =0 Z /2 = 1,96


Marge d’erreur
• la marge d’erreur (E), est la différence maximale
probable entre la proportion de l’échantillon p’ et la vraie
valeur de la proportion p de la population.

p '. q '
E  z / 2
n
• IC s’exprime de la manière suivante :

p'  E  p  p'  E ou  p'  E ; p'  E  ou p'  E


Exercice
• Mendel croise des pois à gousses vertes et des
pois à gousses jaunes et obtient 580 graines
dont 428 vertes et 152 jaunes. Mendel
s’attendait à trouver 25 % de jaunes. Le résultat
obtenu est-il différent du résultat théorique ?

• Solution : rechercher l’IC à 95 % et voir si cette


IC contient la vraie valeur 25 %.
• Solution
Résultat observé : 152/580 = 0,262, soit 26,2 %
p’ = 0,262 ; q’ = 0,738 ; p théorique = 0,25

• Recherche de l’IC à 95 %

p'. q ' 0,262 x 0,738'


E  z / 2 E 1,96  0,035787
n 580
p'  E  p  p'  E 0,262  0,035787  p  0,262  0,035787
0,226 < p < 0,298 ou 0,262 ± 0,036

• Nous sommes sûrs à 95 % que les limites 22,6 % et 29,8 %


contiennent le vrai pourcentage de pois à gousses jaunes.
Donc la valeur de Mendel, 25 % est plausible.
Exercice 2
• Exprimez l’IC 0,220 < p < 0,280 sous
forme p '  E
• Solution :

lim ite sup érieure  lim ite inf érieure 0,280  0,220
p'    0,250
2 2

lim ite sup érieure  lim ite inf érieure 0,280  0,220
E    0,030
2 2

p '  E  0,250  0,030


Exercice 3
Exprimez l’IC [0,604 ; 0,704] sous forme p'  E

Solution :
lim ite sup érieure  lim ite inf érieure 0,704  0,604
E   0,05
2 2

lim ite sup érieure  lim ite inf érieure 0,704  0,604
p'    0,654
2 2

p'  E  0,654  0,050


Exercice 4
Construire l’IC à partir des données suivantes :
• n = 400 ; x = 300 ; 95 %

• Solution :
300
p'   0,75, soit 75% ; donc q '  25%
400

p '. q ' 0,75x0,25


E  z / 2  1,96  0,0424328
n 400

• Soit 0,75 ± 0,0424  [0,708 ; 0,792]


2.2 – Estimation de la moyenne
d’une population
• 2.2.1 -  connu
 Cas théorique puisque  ne peut être connu
que si la moyenne est connue. Mais on
considère que  est connu car la population est
de grande taille et parfaitement normale.

 Comme précédemment, la meilleure


estimation de la moyenne de la population est
celle de l’échantillon (estimation ponctuelle)
 On peut construire un IC avec une marge
d’erreur E.
IC et marge d’erreur

E  z / 2
n

x Ex E

 x  E ; x  E ou xE
Exercice
• Température du corps humain : soit un échantillon n = 106, x = 36,78°C,
 = 0,34°C ; estimer la moyenne de la population, trouver la marge
d’erreur et l’IC

• Solution :
a) la meilleure estimation de la moyenne de la population est l’estimation
ponctuelle, soit 36,78°C.

b) la marge d’erreur :
Soit 36,78°C ± 0,065°C
 0,34
E  z / 2  1,96  0,06472649
n
c) IC : 36,78 – 0,06472649 < m < 36,78 + 0,06472649 106
Soit 36,72 < m < 36,84
Nous sommes sûrs à 95 % que ……
2.2 – Estimation de la moyenne
d’une population (2)
• 2.2.1 -  inconnu

 correspond à la pratique :
• on estime la moyenne de la population à partir d’un échantillon
• on estime la variance de la population à partir de l’échantillon

 caractéristique de l’échantillon
– échantillon aléatoire simple ;
– n > 30, sinon vérifier la normalité de la distribution (par
construction de l’histogramme des fréquences).

 meilleure estimation de la moyenne de la population est celle de


l’échantillon (estimation ponctuelle) ; idem variance

 construction d’un IC avec une marge d’erreur E.


2.2 – Estimation de la moyenne
d’une population (3)

 Estimation de  à partir de s = source de non


fiabilité liée à la taille de l’échantillon : plus n petit,
plus on s’éloigne de la loi normale et plus les
valeurs critiques sont grandes
Loi normale standard

Loi t pour n = 15

Loi t pour n = 5

Valeur critique t/2

Afin de garder l’IC à un certain niveau de confiance, on l’élargit en


utilisant des valeurs critiques plus grandes au fur et à mesure que le
nombre n diminue. 
Pour n petit, utilisation de la loi de distribution t de Student.
Lecture de
la table de
distribution t
Pour n = 15,
soit ddl = 14
et pour un IC …., la valeur
à 95 %, soit  critique est de
= 0,05, …. 2,145, au lieu de
1,96 dans le cas de
la distribution
normale
Lecture de la table de distribution t
• Pour n = 15,
• n-1 = 14 ;
• pour  = 0,05, soit IC à 95 %
• t/2 = 2,145 (au lieu de 1,96 pour la table z)
Exercice
La moyenne du périmètre crânien des nouveaux nés
garçons est de 40,10 cm avec un écart type de 1,5 ;
celle des nouveaux nés filles est de 40,16 avec un écart
type de 1,44.

n = 50 ; ddl = 49 ; ta/2 = 2,010


s 1,5
Pour les garçons : E  t / 2  2,01  0,4263853
n 50
xExE soit : 40,10  0,4263853    40,10  0,4263853

Soit 39,67 <  < 40,53 On est sûr à 95 % que l’intervalle [39,67 ; 40,53]
contient la vraie moyenne du périmètre crânien
des nouveaux nés garçons.
s 1,44
Pour les filles : E  t / 2  2,01  0,4093299
n 50
x Ex E soit : 40,16  0,4093299    40,16  0,4093299

On est sûr à 95 % que l’intervalle [39,75 ; 40,57]


Soit : 39,75 <  < 40,57 contient la vraie moyenne du périmètre crânien
des nouveaux nés filles.

Comparaison des deux IC :

Garçons : 39,67 <  < 40,53


Filles : 39,75 <  < 40,57

Les deux IC se chevauchent largement, donc il n’y a pas


de différence entre les deux populations.
Exercice
Le rendement d’épis de maïs en kg/ha est estimé à partir d’un
échantillon de 11 placettes. Les valeurs correspondant à des
graines séchées au four sont les suivantes :
2134 ; 2170 ; 2142 ; 2799 ; 2364 ; 2199 ; 2310 ; 1620 ; 1808 ; 1476 ; 1695
– a) Vérifier que la distribution est normalement distribuée
– b) Construire un intervalle de confiance à 95%
– c) Comparer les résultats à l’IC trouvé pour des graines qui ne sont pas
séchées au four (séchage à l’air) : 1611,3 <  < 2071,17
• Vérification de la normalité

n = 11 5

4 classes : [1476 ; 1807] ; 4


[1808 ; 2138] ; [2139 ;
3
2469] ; [2470 ; 2800]
Distribution presque 2
normale
1
Pas de valeurs extrêmes

1476 2800
• Construction de l’IC à 95 %

Moyenne = 2065,18
Ecart type = 384,15
s 384,15
E  t / 2  2,228  258,062495
n 11

  E  2065,2  258,062
1807,12 < m < 2323,24
 On est sûr à 95 % que les limites 1807,1 et
2323,2 contiennent effectivement la moyenne
de la population
• Comparaison des deux IC :

Séchage au four

1807,1 2323,2

Séchage à l’air

1611,3 2071,2

Les intervalles se chevauchent ; donc il n’y a pas de


différence entre les deux résultats et les deux
traitements.
3 – Tests d’hypothèses sur les
moyennes
3.1 – Principes sur les test d’hypothèses

• Expérience de Mendel : 26,2 % est-il plus


grand que 25 % ?
• Notion de signification ou de différence
significative
• Test d’hypothèses :
– Définition de l’hypothèse à infirmer
– Mesure de la signification
• Hypothèse nulle = H0 est l’affirmation que la
valeur d’un paramètre est égale à une
certaine valeur supposée :
– Ex :  = 37°C :  = 25 %
• Tester l’hypothèse : soit la rejeter = infirmer
H0, soit ne pas la rejeter, donc ne pas
infirmer H0 mais ne pas la confirmer non
plus (raisonnement dissymétrique de la
statistique)
• Hypothèse alternative est l’affirmation que
la paramètre a une valeur qui diffère de
celle de H0
• Seuil de signification :
– 95 % des observations dans [ ± 1,96 ]
– 99 % des observations dans [ ± 2,575 ]
– 99,9 % des observations dans [ ± 3,3 ]
Ou bien que :
– la probabilité que E = (x – )/ soit supérieur
à 1,96 est de 0,05
– la probabilité que E = (x – )/ soit supérieur
à 2,575 est de 0,01
– la probabilité que E = (x – )/ soit supérieur
à 3,3 est de 0,001
  = 0,05 ; 0,01 ; 0,001 sont appelés seuils
de signification
• Pratiquement, on calcule l’écart réduit

Xobs.  
k

Et on le compare aux valeurs seuils :
• Quand k < 1,96, l’écart est « non significatif » = NS
• Quand 1,96 < k < 2,575, l’écart est « significatif à 5 %
mais non signification à 1 % » ou « significatif » = *
• Quand 2,575 < k < 3,3, l’écart est « significatif à 1%
mais non significatif à 0,1%» ou « hautement
significatif » = **
• Quand k >3,3, l’écart est « significatif à 0,1%» ou
« très hautement significatif » = ***
3.2 Comparaison d’une moyenne
d’échantillon à une moyenne de population
dont on connait la variance

• L’écart réduit est donné par la formule :

x
k

n
3.3 - Comparaison d’une moyenne
d’échantillon à une moyenne de population
de variance inconnue = test de Student

• L’écart réduit est donné par la formule :

x
t
s
n
et on compare la valeur calculée à celles de
la table de Student (valeurs qui dépendent du
nombre de ddl)
3.4 - Test de Student appliqué à la
comparaison de deux moyennes
d’échantillons indépendants
• L’écart réduit est donné par la formule :

X1 X 2
t
2 2
s1 s2

n1 n2

et on compare la valeur calculée à celles de


la table de Student
Exercice
• Test de croissance racinaire
Exercice
• Comparaison taille truites élevage et
truites sauvage
TRUITE ELEVAGE TRUITE SAUVAGE
MOYENNE 158,86 134,46
variance 37,18 25,92
Effectif 50 67
ddl = n-1 49 66
t 22,94886108

t de la table 0,05 0,01 0,001


t115 1,982 2,622 3,381
3.5 – Comparaison de deux
moyennes d’échantillons appariés
3.6 – Généralisation du test t à la
comparaison de plus de deux
moyennes = Analyse de variance

• Le test t de comparaison des moyennes de


deux échantillons peut être généralisé à la
comparaison des moyennes de n
échantillons.

• Dans ce cas, H0 : X 1  X 2  X 3  X 4  .....  X n


Les trois sources de variation
VARIATION
TOTALE

échant. 1 échant. 2 échant. 3 échant…. échant. N


1 x11 x21 x31 xn1
2 x12 x22 x32
3 x13 x23
4 x14 x24
5 x15 x25
. . .
. . .
. . .
. . .
n x 1n x 2n x3 n xnn
moyennes X1 X2 X3 Xn XT

VARIATION VARIATION
RESIDUELLE INTERGROUPE
3.6 – Généralisation du test t à la
comparaison de plus de deux
moyennes = Analyse de variance
• 3 types de variation :
  xi  X 
2
– Variation totale SCT  T

– Variation entre classes = inter groupe


SCg  nA( X A  X T ) 2  nB ( X B  X T ) 2  ........  nZ ( X Z  X T ) 2

– Variation résiduelle = intra groupe


SCr   ( XA  X A) 2   ( XB  X B ) 2  ........   ( XZ  X Z ) 2
• Décomposition de la variance :

SCT
– Variance totale : CMT 
NT  1

SCg
– Variance inter groupe : CMg 
k 1

SCr
– Variance intra groupe : CMr 
N k
• Analyse de la variance : test F
CMg
F
CMr
• Si CMg > CMr, alors F est grand ; la variation entre
groupe est plus élevée que celle à l’intérieur des
traitements et il est possible qu’au moins un
traitement n’appartienne pas à la même population
de résultats que les autres traitements ; en d’autres
termes, l’H0 est rejetée et on conclura à un effet du
traitement expérimenté.
CMg
F
CMr
• Si CMg < CMr, alors F est petit ; il est moins probable qu’au
moins un des traitements n’appartienne pas à la même
population de résultats que les autres ; l’H0 ne peut pas être
rejetée et l’on n’aura pas mis en évidence un effet du
traitement. Cela ne veut pas dire qu’il n’y a pas d’effet, mais dans les
conditions de l’expérience, nous n’avons pas mis en évidence de
différence.

• La valeur F est lue dans la table de Snedecor avec les


degrés de liberté (k-1) = ddl inter et (N-k) ddl intra.
• Si F calculé < F lu, alors on ne peut pas rejeter H0 ; on n’a
pas mis en évidence d’effet du traitement.
• Si F calculé > F lu, alors on rejette H0 ; le traitement peut
expliquer les différences observées entre deux ou plusieurs
niveaux de traitement.
• Tableau d’analyse de variance

Source de Somme des carrés des écarts Nb Variances F


variation de
ddl
Inter- SCg  nA( X A  X T ) 2  nB ( X B  X T ) 2  ...  nZ ( X Z  X T ) 2 k-1 SCg CMg
groupe
CMg  F
k 1 CMr
Résiduelle SCr   ( XA  X A) 2   ( XB  X B ) 2  ..   ( XZ  X Z ) 2 N-k
CMr 
SCr
N k

Totale
  xi  X  N-1
2
SCT  T
• application au test racinaire (Zn)
Source Somme des carrés des écarts Nb de Variances F
de ddl
variation
Inter- 28310,5807 k-1 = 9 CMg  31,4562008 2,4283
groupe
résiduelle 345870,11 N-k = CMr  195,39368
267
Totale 374180,692 275

• F à 5% = 1,97
• F à 1% = 2,59
• F à 0,1% = 3,44

• On rejette H0 à 5% ; donc il y n’y a pas égalité des


moyennes des différents traitements ; il y a au moins
une différence significative et on est autorisé à tester
deux à deux les moyennes.
• Test de comparaison deux à deux des
moyennes = test a posteriori
test a posteriori traitement 0 6,25 12,5 25 50 100 200 400 600 800
moyenne 121,887 104,833 126,026 126,386 142,500 136,737 136,556 111,481 124,360 134,042
écart type 32,663 33,322 22,740 29,153 35,982 31,731 36,433 43,004 47,012 42,538
n 71 18 19 22 24 19 27 27 25 24
variance 1066,851 1110,382 517,124 849,903 1294,696 1006,871 1327,333 1849,336 2210,157 1809,520

test a posteriori traitement 0 6,25 12,5 25 50 100 200 400 600 800
moyenne 121,887 104,833 126,026 126,386 142,500 136,737 136,556 111,481 124,360 134,042
écart type 32,663 33,322 22,740 29,153 35,982 31,731 36,433 43,004 47,012 42,538
n 71 18 19 22 24 19 27 27 25 24
variance 1066,851 1110,382 517,124 849,903 1294,696 1006,871 1327,333 1849,336 2210,157 1809,520
t 1,947 0,637 0,614 2,482 1,801 1,831 1,139 0,243 1,278
t 0,5 1,986 NS NS NS * NS NS NS NS NS
t 0,1 2,626
t 0,01 3,402
Exercice
• Six milieux de culture d’une bactérien pathogène
ont été préparés avec 6 pH différents. Pour
tester l’influence du pH, 3 microgouttes d’une
suspension de cette bactérie ont été déposées
séparément sur chacun des milieux, et les
colonies formées après incubation ont été
dénombrées.
• D’après les résultats, déduire si l’effet du pH est
significatif. Dans l’affirmative, déterminer quelles
valeurs de pH sont responsables des différences
significatives.
Tab. 1 - Tableau de valeurs du nombre de colonies bactérienne en fonction du pH du milieu de culture

pH 5,3 5,8 6,3 7 7,5 8,1


0 20 85 75 33 64
Nombres de 0 22 101 73 52 66
colonies
0 16 88 60 51 54
Tab. 1 - Tableau de valeurs du nombre de colonies bactérienne en fonction du pH du milieu de culture

pH 5,3 5,8 6,3 7 7,5 8,1


0 20 85 75 33 64
Nombres de 0 22 101 73 52 66
colonies
0 16 88 60 51 54 moyenne
totale ddl CM

moyenne
SCE r
SCE g
écart type
variance

Tab. 2 - Analyse de variance


Source de variation Somme des carrés des écarts nb de ddl Variances F (5;12)
Inter-groupe SCEg CMg CMg/CMr
Résiduelle SCEr CMr
Totale SCET

F 5%
F 1%
F 0,1%
Tab. 1 - Tableau de valeurs du nombre de colonies bactérienne en fonction du pH du milieu de culture

pH 5,3 5,8 6,3 7 7,5 8,1


0 20 85 75 33 64
Nombres de 0 22 101 73 52 66
colonies
0 16 88 60 51 54 moyenne
totale ddl CM
moyenne 0,00 19,33 91,33 69,33 45,33 61,33 47,78
SCE r 0,00 18,67 144,67 132,67 228,67 82,67 607,33 12 50,61
SCE g 6848,15 2427,26 5691,26 1393,93 17,93 551,26 16 929,78 5 3 385,96
écart type 0,00 3,06 8,50 8,14 10,69 6,43
variance 0,00 9,33 72,33 66,33 114,33 41,33
Tab. 2 - Analyse de variance

Source de variation Somme des carrés des écarts nb de ddl Variances F (5;12)
Inter-groupe SCEg 16929,78 5 CMg 3385,96 CMg/CMr 66,90
Résiduelle SCEr 607,33 12 CMr 50,61
Totale SCET 17537,11 17

F 5% 3,16 F calculé est supérieur au F de la table ; donc on rejette H0, il y a au


moins une valeur de pH qui explique les différences constatées dans le
F 1% 5,21 nombre de colonies.
F 0,1% 9,33
Tab. 3 - Test a posteriori de recherche des différences entre moyennes

5,80 6,3 7 7,5 8,1 valeurs de la table (t 4)


5,3 10,961 18,600 14,745 7,343 16,524 t 0,05 2,776
5,8 13,800 9,956 4,050 10,220 t 0,01 4,604
6,3 3,236 5,832 4,874 t 0,001 8,61
7 3,093 1,335
7,5 2,221

5,80 6,3 7 7,5 8,1


5,3 *** *** *** ** ***
5,8 *** *** * ***
6,3 * ** **
7 * NS
7,5 NS

L'effet du pH sur le développement du nombre de colonies est le suisvant :


5,3 < 5,8 < 7,5 = 8,1 = 7 < 6,3 et 7,5 < 7

Vous aimerez peut-être aussi