Diaporama Cours Stats Ds 2

STATISTIQUE
Statistique descriptive
Cours de statistique - DM 2009/2 1

010
Introduction
• Faire parler les séries de données
  statistique descriptive
• Dégager les caractéristiques :
– Tendance centrale
– Dispersion
– Distribution
– Valeurs extrêmes
– Temps
  statistique inférentielle
• Utilisation de tests ou de lois
Statistique descriptive
• 1 - Distribution de fréquences
• 2 - Méthodes graphiques
• 3 - Mesures de tendance centrale
• 4 - Mesures de dispersion
• 5 - Mesures de positionnement
• 6 - Analyse exploratoire des données
1 – Distribution de fréquences
• Dans un tableau de données, les
fréquences représentent le nombre de fois
où chaque valeur apparaît
• Critères à définir :
– Nombre de classes
– Largeur des classes
• Fréquences relatives
• Fréquences cumulées
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35
• Détermination du nombre de classes (k) pour n valeurs,

par la règle de Sturges :
K = 1 + 3,322 log n
soit 5,52366, arrondi à 6
• Détermination de la larguer des classes :

(35 – 16)/6 = 3,16666
d’Ammonites
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35
Classes Centre Fréquence Fréquence Fréquence

de fréquences des classes f relative cumulée
Total 23
d’Ammonites
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35
Classes Centre Fréquence Fréquence Fréquence

de fréquences des classes f relative cumulée
16-18 17 3 13% 3
19-21 20 4 17% 7
22-24 23 2 9% 9
25-27 26 6 26% 15
28-30 29 5 22% 20
31-33 32 1 4% 21
34 et plus 35 2 9% 23
Total 23 100%
7 30%
6 25%
Nombre d'individus
Nombre d'individus
20%
4
15%
3
10%
2
5%
1
0 0%
17 20 23 26 29 32 35 17 20 23 26 29 32 35
Classes de fréquences Classes de fréquences
Histogramme des fréquences Histogramme des fréquences relatives
25
20
nombre d'individus
15
10
0
17 20 23 26 29 32 35
Classes de fréquences
Histogramme des fréquences cumulées

Importance du choix du nombre de classes
Nombre de côtes Fréquence Nombre de côtes Fréquence
n f n f
16-20 6 16-17 1
21-25 6 18-19 3
26-30 8 20-21 3
31-35 3 22-23 0
24-25 5
26-27 3
28-29 3
30-31 3
32-33 1
34-35 1
Total 23 Total 23
Exercice 2 – Hauteurs des
peupliers
Application à la mise en évidence de

différences dans les résultats
peupliers
Tableau de fréquence
Classes Contrôle Irrigation Irrigation et fertilisation
de fréquence Fréquence F% Fréquence F% Fréquence F%
Total
peupliers
• 3 traitements :
– Nombre de classes avec n = 30
K = 1 + 3,322 log n
soit 5.907, arrondi à 6
- Largeur des classes :
6,8/6 = 1,1333
Choix de classes de 1 unité
peupliers
Tableau de fréquence
Classes Contrôle Irrigation Irrigation et fertilisation
de fréquence Fréquence F% Fréquence F% Fréquence F%
1 - 1,9 1 5% 2 10% 0 0%
2 - 2,9 1 5% 4 20% 0 0%
3 - 3,9 3 15% 2 10% 2 10%
4 - 4,9 5 25% 2 10% 1 5%
5 - 5,9 4 20% 4 20% 1 5%
6 - 6,9 6 30% 6 30% 9 45%
7 - 7,9 0 0% 0 0% 6 30%
8 - 8,9 0 0% 0 0% 1 5%
Total 20 100% 20 100% 20 100%
peupliers
50%
45%
40%
fréquence relative
35%
30% Contrôle
25% Irrigation
20% Irrigation et fertilisation
15%
10%
5%
0%
1,9 2,9 3,9 4,9 5,9 6,9 7,9 8,9
Classes de hauteur (limites supérieures des classes)
Hauteur des plants de Peupliers en mètre ; distribution en fréquences relatives

en fonction du traitement.
2 – Méthodes graphiques
• Histogrammes des fréquences
• Polygones des fréquences
• Le Dotplot
• Le Tracé en tige et feuilles
• Le diagramme de bâtons
• Le diagramme circulaire
• Les séries chronologiques
Le polygone des fréquences
14
12
10
0
1 2 3 4 5 6 7 8 9 10
Courbe cumulative
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8
Courbe cumulative (2)
I = point d’inflexion
Courbe cumulative (3)
25 60
50
20
40
15
30
10
i1 i
20
5
i2
10
0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8
Deux points d’inflexion  deux modes Un point d’inflexion  un mode

7 14
6 12
5 10
4 8
3 6
2 4
1 2
0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10
Le diagramme circulaire
4% 2% 6%
10%
1
15%
2
3
17% 4
5
6
7
25% 8
21%
Le diagramme en bâton
Fig. 3 - Biomasse aérienne en fonction des carences minérales (Cresson alénois)
900
800
700
600
biomasse en g.
500
400
300
200
100
0
Milieu complet Carence N Carence P Carence Ca Car Oligo-Fe
Le diagramme de dispersion
14
12
10
valeurs de y
0
0 5 10 15
valeurs des x
14
12
10
valeurs de y
4
Graphique en courbe
2
0
0 5 10 15
valeurs des x
14
12
10
valeurs de y
y = 0,4659x + 5,2198
8
4
Courbe de tendance
2
Corrélation
0
0 5 10 15
valeurs des x
La série chronologique
500
450
400
valeur marchande
350
300
250
200
150
100
50
0
1950 1960 1970 1980 1990 2000 2010
décades
Le Dotplot
Contrôle
1 2 3 4 5 6 7 8
Irrigation
1 2 3 4 5 6 7 8
Irrigation & fertilisation
1 2 3 4 5 6 7 8
Le tracé tige et feuilles
Contrôle Irrigation Irrigation & fertilisation
1 9 1 2, 6 1
2 9 2 5, 8, 9, 9 2
3 2, 6, 9 3 3, 6 3 2, 9
4 1, 1, 6, 8 4 1, 5 4 4
5 1, 5, 5, 5 5 1, 1, 5, 8 5 3
6 0, 3, 5, 8, 9, 9 6 1, 1, 4, 5, 8, 8 6 2, 2, 3, 6, 7, 7, 8, 8, 8
7 1, 3, 3, 3, 6, 7
8 0
Exercice 3
sexe M M M M M M M M M M M M M M M M M M M M
poids enfant 62,5 64,6 69,1 73,9 67,1 64,4 71,1 71,0 67,4 69,3 64,9 68,1 66,5 67,5 66,5 70,3 67,5 68,5 71,9 67,8
poids mère 66 58 66 68 64 62 66 63 64 65 64 64 62 69 62 67 63 66 65 71
76,0
74,0
72,0
70,0
Poids de l'enfant
68,0
66,0
64,0
62,0
60,0
55 60 65 70 75
Poids de la mère
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3 (2)
80,0
70,0
60,0
50,0
40,0 ATTENTION AUX ECHELLES

30,0 DES X et DES Y
20,0
10,0
0,0
55 60 65 70 75
Exercice 3
sexe M M M M M M M M M M M M M M M M M M M M
poids enfant 62,5 64,6 69,1 73,9 67,1 64,4 71,1 71,0 67,4 69,3 64,9 68,1 66,5 67,5 66,5 70,3 67,5 68,5 71,9 67,8
poids mère 66 58 66 68 64 62 66 63 64 65 64 64 62 69 62 67 63 66 65 71
76,0
74,0
72,0
70,0
Poids de l'enfant
68,0
66,0
y = 0,3941x + 42,48
64,0
62,0
60,0
55 60 65 70 75
Poids de la mère
Exercice 4
35.5 35.7 39.2 39.6 39.7 39.8 39.9 40.1 40.2 40.2 40.2 40.4 40.4 40.7 40.9 40.9 40.9 40.9 40.9 41.0 41.0 41.0 41.0 41.0 41.1
41.1 41.2 41.3 41.4 41.7 41.7 41.7 41.7 41.8 41.9 41.9 42.0 42.0 42.2 42.2 42.3 42.3 42.4 42.5 42.6 42.8 42.8 42.8 43.2 43.2
Classe de fréquences Fréquences F %

34-35,9 2 4%
36-37,9 0 0%
38-39,9 5 10%
40-41,9 29 58%
42-43,9 14 28%
Total 50 100%
70%
60%
50%
fréquence %
40%
30%
20%
Histogramme
10%
des périmètres
0%
crâniens des
35 37 39 41 43 enfants de deux
classes de périmètre (cm) mois
Exercice 4 (2)
35 5,7
36
37
38
39 2,6,7,9
40 1,2,2,4,4,7,9,9,9,9,9
41 0,0,0,0,0,1,1,2,3,4,7,7,7,7,8,9
42 0,0,2,2,3,3,4,6,8,8,8
43 2,2
35 36 37 38 39 40 41 42 43
3 – Mesures de tendance centrale
• a) La moyenne
moyenne 
 x
n
• Ex : teneur en plomb dans l’atmosphère (norme = 1,5 g/m3)
5,40 1,10 0,42 0,73 0,48 1,10 g/m3
x  9,23 / 6  1,538
3 – Mesures de tendance centrale (2)
moyenne d’un échantillon
x
 x
n
moyenne d’une population

 x
N
• b) La médiane : valeur du milieu
– Si nb d’individus impair, médiane = valeur de

l’individu moyen ou central
• Ex 15 valeurs triées ; médiane = 8ème valeur en
partant de la plus basse
– Si nb d’individus pair, médiane = moyenne

des deux individus moyens
• Ex 6 valeurs de plomb :
médiane = (1,10 + 0,73)/2 = 0,915
• c) Le mode
= valeur qui est présente le plus grand nombre

de fois
Ex : périmètre crânien
– unimodal
70%
60%
fréquence % 50%
40%
– multimodal 30%
20%
10%
0%
35 37 39 41 43
classes de périmètre (cm)
• c) Le midrange
= moyenne arithmétique des deux valeurs

extrêmes
midrange = (min + max)/2
Ex Plomb (5,40 + 0,42)/2 = 2,91

Exercice 6
CONTRÔLE
moyenne 4,95
médiane 5
mode 5,5
midrange 4,4
IRRIGATION
moyenne 4,48
médiane 4,8
mode 2,9 - 5,1 - 6,1 - 6,8
midrange 4
IRRIGAT & FERTIL

moyenne 6,41
médiane 6,75
mode 6,8 - 7,3
midrange 5,6
• c) La moyenne pondérée
moyenne pondérée x
 (.x)

  coefficient
   somme des coefficients
Exercice 7
Moyenne pondérée
(85 x 20)  (90 x30)  (75 x50)

 81,5
100
Moyenne arithmétique
85  90  75
 83,33
3
Exercice 8
Moyenne de fréquence
(50 x50)  (150 x30)  (250 x35)  (350 x3)  (450 x5)
179,50
100
Avantages et inconvénients des différentes mesures centrales.
Meure de Utilisation Existence Prend en Affectée par Avantages et inconvénients
tendance compte les valeurs
centrale toutes les extrêmes
valeurs
Moyenne Familière Toujours Oui Oui + utilisée partout ; fonctionne
avec beaucoup de méthodes
statistiques
- influencée par les valeurs

extrêmes
Médiane Souvent Toujours Non Non + quand valeurs extrêmes ou
peu de valeurs
- fonctionne mal avec tests

statistiques
Mode De temps Parfois Non Non Adaptée au niveau nominal
en temps n’existe pas
Midrange Rarement Toujours Non Oui Très (trop) sensible aux valeurs
extrêmes
Symétrique
Mode = Moyenne = Médiane
Asymétrie gauche Asymétrie droite
Mode
Moyenne Mode Moyenne
Médiane
Médiane
4 – Mesures de dispersion
• Ex : temps de file d’attente dans deux
cliniques : une ou 3 files d’attente
Une seule file d’attente 4 7 7
Trois files d’attente 1 3 14
• Moyenne = 6 mn
• Variation ?
4 – Mesures de dispersion (2)
• 4.1 – L’étendue
Etendue  valeur max imale  valeur min imale
• Premier cas : 7 – 4 = 3 mn
• Deuxième cas : 14 – 1 = 13 mn
Facilité d’utilisation
mais ne tient compte que des valeurs extrêmes
• 4.2 – L’écart type
 (x  x) 2
s
n  ( x) 2  (  x) 2
s ou n(n  1)
n 1
• Premier cas
3(4 2  7 2  7 2 )  (18) 2
342  324 18
s s   3  1,732
3* 2 6 6
• Deuxième cas
3(12  3 2  14 2 )  (18) 2 618  324 294
s   49  7
s 6 6
3* 2
• Pourquoi diviser par n – 1 ?
– Seulement n – 1 valeurs indépendantes
– n – 1 = nombre de degré de liberté
• Cas d’une population

 (x  x) 2
N
• La variance
– Cas d’un échantillon : s2
– Cas d’une population : 2
• Le coefficient des variation CV 

CV  100% CV  100%
– Échantillon x Population 
• Interprétation de l’écart type :
– 1) valeur de s et dispersion
S1 > S2
s1 s2
a b
Grande dispersion Faible dispersion
– 2) 95 % des observations sont à moins de 2 s
s s
95 % des observations
– 3) estimation rapide de s
étendue
" s" 
4
– 4) minimum « usuel » et maximum « usuel »
Minimum « usuel » = moyenne – 2 x écart type

Maximum « usuel » = moyenne + 2 x écart type
• Ex 1 IRRIGATION et FERTILISATION
3,2 4,4 6,2 6,3 6,7 6,8 7,3 7,3 7,7 6,8
3,9 5,3 6,2 6,6 6,7 7,1 7,3 7,6 8 6,8
moyenne 6,41
écart type 1,28
minimum 3,20
maximum 8,00
minimum usuel 3,85
maximum usuel 8,97
minimum 3,20
maximum 8,00
étendue 4,80
"s" 1,20
minimum usuel 4,01
maximum usuel 8,81
Exercice 17
A% moyenne écart type E CV "s"

Lf% 29,17 2,51 2,54 9% 1,82
Lg% 15,43 4,36 4,40 28% 2,78
Sf% 10,02 4,68 4,73 47% 3,19
Sg% 16,35 4,52 4,57 28% 3,33
16,64 7,09 7,17 43% 4,84
Exercice 10
IMC 19,60 23,8 19,6 29,1 25,2 21,4 22,0 27,5 33,5 20,6 29,9 17,7 24,0 28,9 37,7
2
x 384,16 566,4 384,2 846,8 635 458 484 756,3 1122 424,4 894 313,3 576 835,2 1421
moyenne 25,37
2
S (x ) 10101,23
2
(Sx) 144780,25
écart type 5,66
minimum usuel 14,04

maximum usuel 36,7 Conclusion : un IMC de 34 n'apparaît pas comme étant une valeur
"inhabituelle".
Les deux méthodes conduisent à la même conclusion. La recette de l'étendue
permet d'obtenir un résultat rapide.
Avec règle de l'étendue :
"s" 5
minimum usuel 15,37
maximum usuel 35,37
• Ex 2 : périmètre crânien
70%
60%
moyenne 41,098
50%
étendue 7,7
fréquence %
40%
30% "s" 1,925

20%
10%
mini "usuel" 37,248
0%
35 37 39 41 43
maxi "usuel" 44,948
classes de périmètre (cm)
Périmètres de 35,5 et 35,7 considérés plus petits que la normale

• - 5) règle des 68 – 95 – 99,7
99,7 % à moins de 3 s
95 % à moins de 2 s
68 % à moins d’un s
     

Exercice 12
• Ex
taille des femmes : La taille des femmes a une distribution normale avec une
moyenne de 163 cm et un écart type de 6 cm. Quel est le pourcentage de femmes
compris entre 145 cm et 181 cm ?
145 et 181 correspondent respectivement à – ou + 3 écart types de la moyenne :

163 - (3 x 6) = 145 et 163 + (3 x 6) = 181 ; donc, 99,7 % des femmes ont des tailles
comprises entre 145 cm et 181 cm.
Exercice 13
Moyenne Ecart type CV

Tailles 173,58 cm 7,67 cm 4,42%
Poids 78,32 kg 11,95 kg 15,26%
Conclusion : la variation du poids est plus importante que celle de la taille

5 – Mesures de positionnement
relatif
Ex : Jordan mesure 1,98 m (moyenne des hommes 1,75 m ; écart type 7,11 cm) ;
Lobo mesure 1,93 m (moyenne des femmes 1,61 m ; écart type 6,35 cm)
Qui est relativement plus grand ou plus petit ?
• 5.1 - Le score-z : à combien d’écart type la

valeur se trouve-t-elle de la moyenne ?
xx x
z ou z
s 
relatif (2)
x   1,98  1,75
Jordan : z   3,23
 0,0711
• La taille de Jordan se trouve à + 3,23 fois l’écart type de
la moyenne des hommes
x   1,93  1,61
Lobo : z   5,04
 0,0635
• La taille de Lobo se trouve à 5,04 fois l’écart type de la
moyenne des femmes
 Lobo est relativement plus grande parmi les

femmes que Jordan parmi les hommes
relatif (3)
• Valeurs ordinaires et valeurs inhabituelles
Valeurs inhabituelles Valeurs ordinaires Valeurs inhabituelles

inférieures supérieures
-3 -2 -1 0 +1 +2 +3
relatif (4)
• 5.2 – Quartiles et percentiles
– QUARTLIES
Q1 = premier quartile : sépare les premiers 25 % des données triées des autres 75
%. 25 % des données triées sont inférieures ou égales à Q1 et 75 % des données
sont supérieures ou égales à Q1
Q2 = deuxième quartile : même chose que la médiane ; sépare les premiers 50 % des
données triées des autres 50 %.
Q3 = troisième quartile : sépare les premiers 75 % des données triées des autres
25 %. 75 % des données triées sont inférieures ou égales à Q3 et 25 % des
données triées sont supérieures ou égales à Q3
relatif (5)
– Les PERCENTILES séparent les données en

100 parties égales avec 1 % des données
dans chaque groupe.
relatif (6)
– Comment trouver le percentile qui correspond à une
valeur particulière ?
nombre de valeurs inf érieures à x

percentile de valeur x  100
nombre total des valeurs
12
percentile de112  100  30
40
la valeur 112 (cotinine) est la 13ème valeur des données triées, donc 12 valeurs
inférieures, parmi 40 valeurs totales ; le percentile de 112 est 30, c'est-à-dire que
112 est la 30ème valeur sur 100 dans la distribution des valeurs de cotinine.
relatif (7)
– Comment trouver la valeur qui correspond à un
percentile particulier k ? On cherche le localisateur L
d’une valeur particulière parmi n valeurs.
k
L n
100
si L est une valeur entière, la valeur du k-ième percentile est à mi chemin entre la L-
ième valeur dans le tableau et la suivante ; on trouve Pk en prenant la demi-somme de
la L-ième valeur et de la suivante ;
si L est une valeur décimale, on arrondit à la valeur supérieure.
relatif (8)
Ex : cotinine : trouver la du 68ème percentile (P68) :
68
L 40  27,2
100 on arrondit à 28 ; donc le percentile 68 (P68) est la 28ème valeur
en partant de la plus basse, donc 234 dans le tableau.

relatif (9)
– Q1 = P25 ; Q2 = P50 ; Q3 = P 75
– Distance interquartile : DIQ = Q3 – Q1
– Étendue 10 – 90 % : = P90 - P10

Exercice 14
20
L 40  8
P20 100 ; le percentile 20 est entre la 8 et la 9 ème valeur, soit : 46
75
L 40  30
P75 100 ; le percentile 75 est entre la 30 et la 31 ème valeur, soit : 251,5
1
L 40  0,4
P1 100 ; le percentile 1 est la valeur 1, soit 0
Distance InterQuartile
25
L 40 10
Q1 = P25 ; 100 donc entre la 10 et 11ème valeur, soit 86,5
Q3 = P75, soit 251,5
DIQ = 251,5 – 86,5 = 165

Exercice 14 (suite)
Etendue 10 – 90 %
10
L 40  4
P10 100 donc entre la 4 et 5ème valeur, soit 10
90
L 40  36
P90 100 donc entre la 36 et 37ème valeur, soit 289,5
Etendue = 289,5 – 10 = 279,5

6 – Analyse exploratoire des
données
• 6.1 – Valeurs extrêmes
• Valeurs extrêmes = valeurs aberrantes

données (2)
• 6.2 – Boîtes à moustaches (Boxplot)
médiane
Q1 Q3
maximum
minimum
données (3)
• 6.3 - Boîtes à moustaches de Tukey
Valeurs Valeurs
anomaliques Valeurs normales anomaliques
inférieures supérieures
= =
outliers médiane outliers
Q1 Q3
maximum
minimum
1,5 DIQ 1,5 DIQ

DIQ
Q3 - 1,5 DIQ Q3 + 1,5 DIQ
= vibrisse inférieure = vibrisse supérieure
données (4)
• 6.3 - Boîtes à moustaches de Tukey
Application aux teneurs en Cd des sols français
Aspitet Ademe
n 1253 10650
Q3 0,49 0,44
Q1 0,08 0,2
DIQ 0,41 0,24
1,5 DIQ 0,615 0,36
Vibrisse sup 1,105 0,8
Vibrisse inf <0 <0
9ème décile 1,18 0,69
Nb d'outliers 144 738
Statistique inférentielle
• 1 – Introduction
• 2 - Estimation et tailles d’échantillons avec

un échantillon
• 3 – Test d’hypothèses sur les moyennes
• 4 – Tests d’hypothèses sur les fréquences

1 – Introduction
Utilisation des données d’échantillon pour

faire des inférences sur les paramètres de
la population :
– pour estimer la valeur d’un paramètre d’une
population
– pour tester une hypothèse sur la population

2 - Estimation et tailles
d’échantillons avec un échantillon
2.1 - Estimation de la proportion d’une
population
• Estimation de la proportion p de la population

 soit p’ la proportion de l’échantillon
et q’=1-p’ la proportion complémentaire.
• Ex : soit un échantillon de 50 nouveaux nés :

86 % ont un périmètre crânien du 40 cm au
moins p’ = 0,86 ; q’ = 1 – 0,86 = 0,14 (14 %)
ont un périmètre crânien inférieur à 40 cm.
Peut-on estimer la proportion de la population.
2.1 - Estimation de la proportion
d’une population (2)
Deux manières d’estimer la proportion de la
population :
 Estimation ponctuelle
Une estimation ponctuelle est une valeur unique utilisée pour
approximer le paramètre d’une population.
Ici la meilleure estimation de p est p’, soit 0,86
 Estimation avec intervalle de confiance

Estimation avec intervalle de
confiance
Un intervalle de confiance (IC) est un intervalle de

valeurs utilisé pour estimer la vraie valeur d’un
paramètre d’une population.
Le niveau de confiance est la probabilité 1 –  qui est la

proportion du nombre de fois où l’intervalle de
confiance contient le paramètre de la population si on
répète l’estimation un grand nombre de fois.
Ex : pour un niveau de confiance de 95 %, soit 0,95, 1- =

0,95,  = 0,05
• Dans le cas de l’échantillon de 50 nouveaux nés avec 86 % de
périmètre crânien de 41 cm et plus, l’estimation par intervalle de
confiance à 95 % de la proportion p de la population est :
0,764 < p < 0,956, soit 76,4 % à 95,6 %.
• On dira que l’on a confiance à 95% que

l’intervalle [76,4% ; 95,6%] contient la vraie
valeur de périmètre crânien de plus de 41 cm
au niveau de la population. C'est-à-dire que
si l’on répétait un grand nombre de fois
l’expérience en mesurant le périmètre
crânien de 50 nouveaux nés et que l’on
construise les IC, 95% d’entre eux
contiendrait la vraie valeur de la population.
IC à 95 %
95,6 %
La vraie valeur
(inconnue)
76,4 %
95 IC sur 100 contiennent 5 IC sur 100 ne

la vraie valeur contiennent la vraie
valeur
Estimation avec intervalle de
confiance (2)
• Pour construire les IC, on s’appuie sur la loi normale qui
permet de mesurer pour une aire donnée (quantité
d’observations). Les limites entre les valeurs contenues
dans l’aire choisie et celles qui ne le sont pas sont
appelées « valeurs critiques ».
• Une valeur critique est un nombre sur la frontière qui

sépare les statistiques d’échantillon qui peuvent
vraisemblablement survenir de celles qui ne le peuvent
pas.
• Valeur critique notée z/2

intervalle de confiance et valeurs
critiques
Intervalle de confiance
1-
/2
/2
- Z /2 Z =0 Z /2
Les niveaux de confiance habituels
• Les choix les plus courants pour le niveau
de confiance :
– 90 % ( = 0,10) ;
– 95 % ( = 0,05) ;
– 99 % ( = 0,01) ;
– 99,9 % ( = 0,001)
Lecture de
table de
distribution
normale
Lecture de table de distribution
normale
….. la valeur critique

est de 1,645 Pour un niveau de
confiance de 90%,
soit 0,90,  = 0,10 et
/2 = 0,05, (1-/2) =
(1-0,05) = 0,95, …..
Lecture de table de distribution
normale
….. la valeur critique

est de 1,96 Pour un niveau de
confiance de 95%,
soit 0,95,  = 0,05 et
/2 = 0,025, (1-/2) =
(1-0,025) = 0,975,
…..
• Lecture d’une table de distribution normale
pour trouver les valeurs critiques qui
correspondent à 90 %, 95 %, 98, 99 % et
99,9 %.
Niveau de confiance  /2 1 – /2 Valeur critique za/2
90 % 0,10 0,05 0,95 1,645
95 % 0,05 0,025 0,975 1,96
98 % 0,02 0,01 0,99 2,33
99 % 0,01 0,005 0,995 2,575
99,9 % 0,001 0,0005 0,9995 3,3
Exemple : intervalle de confiance avec
niveau de confiance à 95 % : valeurs
critique = 1,96
Intervalle de confiance à 95 %
/2 = 0,025
/2 = 0,025
- Z /2 = - 1,96 Z =0 Z /2 = 1,96

Marge d’erreur
• la marge d’erreur (E), est la différence maximale
probable entre la proportion de l’échantillon p’ et la vraie
valeur de la proportion p de la population.
p '. q '
E  z / 2
n
• IC s’exprime de la manière suivante :
p'  E  p  p'  E ou  p'  E ; p'  E  ou p'  E

Exercice
• Mendel croise des pois à gousses vertes et des
pois à gousses jaunes et obtient 580 graines
dont 428 vertes et 152 jaunes. Mendel
s’attendait à trouver 25 % de jaunes. Le résultat
obtenu est-il différent du résultat théorique ?
• Solution : rechercher l’IC à 95 % et voir si cette

IC contient la vraie valeur 25 %.
• Solution
Résultat observé : 152/580 = 0,262, soit 26,2 %
p’ = 0,262 ; q’ = 0,738 ; p théorique = 0,25
• Recherche de l’IC à 95 %
p'. q ' 0,262 x 0,738'

E  z / 2 E 1,96  0,035787
n 580
p'  E  p  p'  E 0,262  0,035787  p  0,262  0,035787
0,226 < p < 0,298 ou 0,262 ± 0,036
• Nous sommes sûrs à 95 % que les limites 22,6 % et 29,8 %

contiennent le vrai pourcentage de pois à gousses jaunes.
Donc la valeur de Mendel, 25 % est plausible.
Exercice 2
• Exprimez l’IC 0,220 < p < 0,280 sous
forme p '  E
• Solution :
lim ite sup érieure  lim ite inf érieure 0,280  0,220
p'    0,250
2 2
lim ite sup érieure  lim ite inf érieure 0,280  0,220
E    0,030
2 2
p '  E  0,250  0,030

Exercice 3
Exprimez l’IC [0,604 ; 0,704] sous forme p'  E
Solution :
lim ite sup érieure  lim ite inf érieure 0,704  0,604
E   0,05
2 2
lim ite sup érieure  lim ite inf érieure 0,704  0,604
p'    0,654
2 2
p'  E  0,654  0,050

Exercice 4
Construire l’IC à partir des données suivantes :
• n = 400 ; x = 300 ; 95 %
• Solution :
300
p'   0,75, soit 75% ; donc q '  25%
400
p '. q ' 0,75x0,25

E  z / 2  1,96  0,0424328
n 400
• Soit 0,75 ± 0,0424  [0,708 ; 0,792]

2.2 – Estimation de la moyenne
d’une population
• 2.2.1 -  connu
 Cas théorique puisque  ne peut être connu
que si la moyenne est connue. Mais on
considère que  est connu car la population est
de grande taille et parfaitement normale.
 Comme précédemment, la meilleure

estimation de la moyenne de la population est
celle de l’échantillon (estimation ponctuelle)
 On peut construire un IC avec une marge
d’erreur E.
IC et marge d’erreur

E  z / 2
n
x Ex E
 x  E ; x  E ou xE
Exercice
• Température du corps humain : soit un échantillon n = 106, x = 36,78°C,
 = 0,34°C ; estimer la moyenne de la population, trouver la marge
d’erreur et l’IC
• Solution :
a) la meilleure estimation de la moyenne de la population est l’estimation
ponctuelle, soit 36,78°C.
b) la marge d’erreur :
Soit 36,78°C ± 0,065°C
 0,34
E  z / 2  1,96  0,06472649
n
c) IC : 36,78 – 0,06472649 < m < 36,78 + 0,06472649 106
Soit 36,72 < m < 36,84
Nous sommes sûrs à 95 % que ……
• 2.2.1 -  inconnu
 correspond à la pratique :
• on estime la moyenne de la population à partir d’un échantillon
• on estime la variance de la population à partir de l’échantillon
 caractéristique de l’échantillon
– échantillon aléatoire simple ;
– n > 30, sinon vérifier la normalité de la distribution (par
construction de l’histogramme des fréquences).
 meilleure estimation de la moyenne de la population est celle de

l’échantillon (estimation ponctuelle) ; idem variance
 construction d’un IC avec une marge d’erreur E.

 Estimation de  à partir de s = source de non

fiabilité liée à la taille de l’échantillon : plus n petit,
plus on s’éloigne de la loi normale et plus les
valeurs critiques sont grandes
Loi normale standard
Loi t pour n = 15
Loi t pour n = 5
Valeur critique t/2
Afin de garder l’IC à un certain niveau de confiance, on l’élargit en

utilisant des valeurs critiques plus grandes au fur et à mesure que le
nombre n diminue.
Pour n petit, utilisation de la loi de distribution t de Student.
Lecture de
la table de
distribution t
Pour n = 15,
soit ddl = 14
et pour un IC …., la valeur
à 95 %, soit  critique est de
= 0,05, …. 2,145, au lieu de
1,96 dans le cas de
la distribution
normale
Lecture de la table de distribution t
• Pour n = 15,
• n-1 = 14 ;
• pour  = 0,05, soit IC à 95 %
• t/2 = 2,145 (au lieu de 1,96 pour la table z)
Exercice
La moyenne du périmètre crânien des nouveaux nés
garçons est de 40,10 cm avec un écart type de 1,5 ;
celle des nouveaux nés filles est de 40,16 avec un écart
type de 1,44.
n = 50 ; ddl = 49 ; ta/2 = 2,010

s 1,5
Pour les garçons : E  t / 2  2,01  0,4263853
n 50
xExE soit : 40,10  0,4263853    40,10  0,4263853
Soit 39,67 <  < 40,53 On est sûr à 95 % que l’intervalle [39,67 ; 40,53]
contient la vraie moyenne du périmètre crânien
des nouveaux nés garçons.
s 1,44
Pour les filles : E  t / 2  2,01  0,4093299
n 50
x Ex E soit : 40,16  0,4093299    40,16  0,4093299
On est sûr à 95 % que l’intervalle [39,75 ; 40,57]

Soit : 39,75 <  < 40,57 contient la vraie moyenne du périmètre crânien
des nouveaux nés filles.
Comparaison des deux IC :
Garçons : 39,67 <  < 40,53

Filles : 39,75 <  < 40,57
Les deux IC se chevauchent largement, donc il n’y a pas

de différence entre les deux populations.
Exercice
Le rendement d’épis de maïs en kg/ha est estimé à partir d’un
échantillon de 11 placettes. Les valeurs correspondant à des
graines séchées au four sont les suivantes :
2134 ; 2170 ; 2142 ; 2799 ; 2364 ; 2199 ; 2310 ; 1620 ; 1808 ; 1476 ; 1695
– a) Vérifier que la distribution est normalement distribuée
– b) Construire un intervalle de confiance à 95%
– c) Comparer les résultats à l’IC trouvé pour des graines qui ne sont pas
séchées au four (séchage à l’air) : 1611,3 <  < 2071,17
• Vérification de la normalité
n = 11 5
4 classes : [1476 ; 1807] ; 4

[1808 ; 2138] ; [2139 ;
3
2469] ; [2470 ; 2800]
Distribution presque 2
normale
1
Pas de valeurs extrêmes
1476 2800
• Construction de l’IC à 95 %
Moyenne = 2065,18
Ecart type = 384,15
s 384,15
E  t / 2  2,228  258,062495
n 11
  E  2065,2  258,062
1807,12 < m < 2323,24
 On est sûr à 95 % que les limites 1807,1 et
2323,2 contiennent effectivement la moyenne
de la population
• Comparaison des deux IC :
Séchage au four
1807,1 2323,2
Séchage à l’air
1611,3 2071,2
Les intervalles se chevauchent ; donc il n’y a pas de

différence entre les deux résultats et les deux
traitements.
3 – Tests d’hypothèses sur les
moyennes
3.1 – Principes sur les test d’hypothèses
• Expérience de Mendel : 26,2 % est-il plus

grand que 25 % ?
• Notion de signification ou de différence
significative
• Test d’hypothèses :
– Définition de l’hypothèse à infirmer
– Mesure de la signification
• Hypothèse nulle = H0 est l’affirmation que la
valeur d’un paramètre est égale à une
certaine valeur supposée :
– Ex :  = 37°C :  = 25 %
• Tester l’hypothèse : soit la rejeter = infirmer
H0, soit ne pas la rejeter, donc ne pas
infirmer H0 mais ne pas la confirmer non
plus (raisonnement dissymétrique de la
statistique)
• Hypothèse alternative est l’affirmation que
la paramètre a une valeur qui diffère de
celle de H0
• Seuil de signification :
– 95 % des observations dans [ ± 1,96 ]
– 99 % des observations dans [ ± 2,575 ]
– 99,9 % des observations dans [ ± 3,3 ]
Ou bien que :
– la probabilité que E = (x – )/ soit supérieur
à 1,96 est de 0,05
à 2,575 est de 0,01
à 3,3 est de 0,001
  = 0,05 ; 0,01 ; 0,001 sont appelés seuils
de signification
• Pratiquement, on calcule l’écart réduit
Xobs.  
k

Et on le compare aux valeurs seuils :
• Quand k < 1,96, l’écart est « non significatif » = NS
• Quand 1,96 < k < 2,575, l’écart est « significatif à 5 %
mais non signification à 1 % » ou « significatif » = *
• Quand 2,575 < k < 3,3, l’écart est « significatif à 1%
mais non significatif à 0,1%» ou « hautement
significatif » = **
• Quand k >3,3, l’écart est « significatif à 0,1%» ou
« très hautement significatif » = ***
3.2 Comparaison d’une moyenne
d’échantillon à une moyenne de population
dont on connait la variance
• L’écart réduit est donné par la formule :
x
k

n
3.3 - Comparaison d’une moyenne
d’échantillon à une moyenne de population
de variance inconnue = test de Student
x
t
s
n
et on compare la valeur calculée à celles de
la table de Student (valeurs qui dépendent du
nombre de ddl)
3.4 - Test de Student appliqué à la
comparaison de deux moyennes
d’échantillons indépendants
X1 X 2
t
2 2
s1 s2

n1 n2
et on compare la valeur calculée à celles de

la table de Student
Exercice
• Test de croissance racinaire
Exercice
• Comparaison taille truites élevage et
truites sauvage
TRUITE ELEVAGE TRUITE SAUVAGE
MOYENNE 158,86 134,46
variance 37,18 25,92
Effectif 50 67
ddl = n-1 49 66
t 22,94886108
t de la table 0,05 0,01 0,001

t115 1,982 2,622 3,381
3.5 – Comparaison de deux
moyennes d’échantillons appariés
3.6 – Généralisation du test t à la
comparaison de plus de deux
moyennes = Analyse de variance
• Le test t de comparaison des moyennes de

deux échantillons peut être généralisé à la
comparaison des moyennes de n
échantillons.
• Dans ce cas, H0 : X 1  X 2  X 3  X 4  .....  X n

Les trois sources de variation
VARIATION
TOTALE
échant. 1 échant. 2 échant. 3 échant…. échant. N

1 x11 x21 x31 xn1
2 x12 x22 x32
3 x13 x23
4 x14 x24
5 x15 x25
. . .
. . .
. . .
. . .
n x 1n x 2n x3 n xnn
moyennes X1 X2 X3 Xn XT
VARIATION VARIATION
RESIDUELLE INTERGROUPE
3.6 – Généralisation du test t à la
comparaison de plus de deux
moyennes = Analyse de variance
• 3 types de variation :
  xi  X 
2
– Variation totale SCT  T
– Variation entre classes = inter groupe

SCg  nA( X A  X T ) 2  nB ( X B  X T ) 2  ........  nZ ( X Z  X T ) 2
– Variation résiduelle = intra groupe

SCr   ( XA  X A) 2   ( XB  X B ) 2  ........   ( XZ  X Z ) 2
• Décomposition de la variance :
SCT
– Variance totale : CMT 
NT  1
SCg
– Variance inter groupe : CMg 
k 1
SCr
– Variance intra groupe : CMr 
N k
• Analyse de la variance : test F
CMg
F
CMr
• Si CMg > CMr, alors F est grand ; la variation entre
groupe est plus élevée que celle à l’intérieur des
traitements et il est possible qu’au moins un
traitement n’appartienne pas à la même population
de résultats que les autres traitements ; en d’autres
termes, l’H0 est rejetée et on conclura à un effet du
traitement expérimenté.
CMg
F
CMr
• Si CMg < CMr, alors F est petit ; il est moins probable qu’au
moins un des traitements n’appartienne pas à la même
population de résultats que les autres ; l’H0 ne peut pas être
rejetée et l’on n’aura pas mis en évidence un effet du
traitement. Cela ne veut pas dire qu’il n’y a pas d’effet, mais dans les
conditions de l’expérience, nous n’avons pas mis en évidence de
différence.
• La valeur F est lue dans la table de Snedecor avec les

degrés de liberté (k-1) = ddl inter et (N-k) ddl intra.
• Si F calculé < F lu, alors on ne peut pas rejeter H0 ; on n’a
pas mis en évidence d’effet du traitement.
• Si F calculé > F lu, alors on rejette H0 ; le traitement peut
expliquer les différences observées entre deux ou plusieurs
niveaux de traitement.
• Tableau d’analyse de variance
Source de Somme des carrés des écarts Nb Variances F

variation de
ddl
Inter- SCg  nA( X A  X T ) 2  nB ( X B  X T ) 2  ...  nZ ( X Z  X T ) 2 k-1 SCg CMg
groupe
CMg  F
k 1 CMr
Résiduelle SCr   ( XA  X A) 2   ( XB  X B ) 2  ..   ( XZ  X Z ) 2 N-k
CMr 
SCr
N k
Totale
  xi  X  N-1
2
SCT  T
• application au test racinaire (Zn)
Source Somme des carrés des écarts Nb de Variances F
de ddl
variation
Inter- 28310,5807 k-1 = 9 CMg  31,4562008 2,4283
groupe
résiduelle 345870,11 N-k = CMr  195,39368
267
Totale 374180,692 275
• F à 5% = 1,97
• F à 1% = 2,59
• F à 0,1% = 3,44
• On rejette H0 à 5% ; donc il y n’y a pas égalité des

moyennes des différents traitements ; il y a au moins
une différence significative et on est autorisé à tester
deux à deux les moyennes.
• Test de comparaison deux à deux des
moyennes = test a posteriori
test a posteriori traitement 0 6,25 12,5 25 50 100 200 400 600 800
moyenne 121,887 104,833 126,026 126,386 142,500 136,737 136,556 111,481 124,360 134,042
écart type 32,663 33,322 22,740 29,153 35,982 31,731 36,433 43,004 47,012 42,538
n 71 18 19 22 24 19 27 27 25 24
variance 1066,851 1110,382 517,124 849,903 1294,696 1006,871 1327,333 1849,336 2210,157 1809,520
test a posteriori traitement 0 6,25 12,5 25 50 100 200 400 600 800
moyenne 121,887 104,833 126,026 126,386 142,500 136,737 136,556 111,481 124,360 134,042
écart type 32,663 33,322 22,740 29,153 35,982 31,731 36,433 43,004 47,012 42,538
n 71 18 19 22 24 19 27 27 25 24
variance 1066,851 1110,382 517,124 849,903 1294,696 1006,871 1327,333 1849,336 2210,157 1809,520
t 1,947 0,637 0,614 2,482 1,801 1,831 1,139 0,243 1,278
t 0,5 1,986 NS NS NS * NS NS NS NS NS
t 0,1 2,626
t 0,01 3,402
Exercice
• Six milieux de culture d’une bactérien pathogène
ont été préparés avec 6 pH différents. Pour
tester l’influence du pH, 3 microgouttes d’une
suspension de cette bactérie ont été déposées
séparément sur chacun des milieux, et les
colonies formées après incubation ont été
dénombrées.
• D’après les résultats, déduire si l’effet du pH est
significatif. Dans l’affirmative, déterminer quelles
valeurs de pH sont responsables des différences
significatives.
Tab. 1 - Tableau de valeurs du nombre de colonies bactérienne en fonction du pH du milieu de culture
pH 5,3 5,8 6,3 7 7,5 8,1

0 20 85 75 33 64
Nombres de 0 22 101 73 52 66
colonies
0 16 88 60 51 54
pH 5,3 5,8 6,3 7 7,5 8,1

0 20 85 75 33 64
Nombres de 0 22 101 73 52 66
colonies
0 16 88 60 51 54 moyenne
totale ddl CM
moyenne
SCE r
SCE g
écart type
variance
Tab. 2 - Analyse de variance

Source de variation Somme des carrés des écarts nb de ddl Variances F (5;12)
Inter-groupe SCEg CMg CMg/CMr
Résiduelle SCEr CMr
Totale SCET
F 5%
F 1%
F 0,1%
pH 5,3 5,8 6,3 7 7,5 8,1

0 20 85 75 33 64
Nombres de 0 22 101 73 52 66
colonies
0 16 88 60 51 54 moyenne
totale ddl CM
moyenne 0,00 19,33 91,33 69,33 45,33 61,33 47,78
SCE r 0,00 18,67 144,67 132,67 228,67 82,67 607,33 12 50,61
SCE g 6848,15 2427,26 5691,26 1393,93 17,93 551,26 16 929,78 5 3 385,96
écart type 0,00 3,06 8,50 8,14 10,69 6,43
variance 0,00 9,33 72,33 66,33 114,33 41,33
Tab. 2 - Analyse de variance
Source de variation Somme des carrés des écarts nb de ddl Variances F (5;12)
Inter-groupe SCEg 16929,78 5 CMg 3385,96 CMg/CMr 66,90
Résiduelle SCEr 607,33 12 CMr 50,61
Totale SCET 17537,11 17
F 5% 3,16 F calculé est supérieur au F de la table ; donc on rejette H0, il y a au

moins une valeur de pH qui explique les différences constatées dans le
F 1% 5,21 nombre de colonies.
F 0,1% 9,33
Tab. 3 - Test a posteriori de recherche des différences entre moyennes
5,80 6,3 7 7,5 8,1 valeurs de la table (t 4)

5,3 10,961 18,600 14,745 7,343 16,524 t 0,05 2,776
5,8 13,800 9,956 4,050 10,220 t 0,01 4,604
6,3 3,236 5,832 4,874 t 0,001 8,61
7 3,093 1,335
7,5 2,221
5,80 6,3 7 7,5 8,1

5,3 *** *** *** ** ***
5,8 *** *** * ***
6,3 * ** **
7 * NS
7,5 NS
L'effet du pH sur le développement du nombre de colonies est le suisvant :

5,3 < 5,8 < 7,5 = 8,1 = 7 < 6,3 et 7,5 < 7

Diaporama Cours Stats Ds 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Diaporama Cours Stats Ds 2

Transféré par

Droits d'auteur :

Formats disponibles

STATISTIQUE

Cours de statistique - DM 2009/2 1

• Détermination du nombre de classes (k) pour n valeurs,

• Détermination de la larguer des classes :

Classes Centre Fréquence Fréquence Fréquence

Classes Centre Fréquence Fréquence Fréquence

Histogramme des fréquences Histogramme des fréquences relatives

Histogramme des fréquences cumulées

Application à la mise en évidence de

Hauteur des plants de Peupliers en mètre ; distribution en fréquences relatives

Deux points d’inflexion  deux modes Un point d’inflexion  un mode

Irrigation & fertilisation

Contrôle Irrigation Irrigation & fertilisation

40,0 ATTENTION AUX ECHELLES

Classe de fréquences Fréquences F %

5,40 1,10 0,42 0,73 0,48 1,10 g/m3

– Si nb d’individus impair, médiane = valeur de

– Si nb d’individus pair, médiane = moyenne

= valeur qui est présente le plus grand nombre

= moyenne arithmétique des deux valeurs

midrange = (min + max)/2

Ex Plomb (5,40 + 0,42)/2 = 2,91

IRRIGAT & FERTIL

(85 x 20)  (90 x30)  (75 x50)

- influencée par les valeurs

- fonctionne mal avec tests

Mode = Moyenne = Médiane

Asymétrie gauche Asymétrie droite

Etendue  valeur max imale  valeur min imale

• Cas d’une population

• Le coefficient des variation CV 

Minimum « usuel » = moyenne – 2 x écart type

A% moyenne écart type E CV "s"

minimum usuel 14,04

30% "s" 1,925

Périmètres de 35,5 et 35,7 considérés plus petits que la normale

     

145 et 181 correspondent respectivement à – ou + 3 écart types de la moyenne :

Moyenne Ecart type CV

Conclusion : la variation du poids est plus importante que celle de la taille

• 5.1 - Le score-z : à combien d’écart type la

 Lobo est relativement plus grande parmi les

Valeurs inhabituelles Valeurs ordinaires Valeurs inhabituelles

– Les PERCENTILES séparent les données en

nombre de valeurs inf érieures à x

Ex : cotinine : trouver la du 68ème percentile (P68) :

en partant de la plus basse, donc 234 dans le tableau.

– Distance interquartile : DIQ = Q3 – Q1

– Étendue 10 – 90 % : = P90 - P10

Q3 = P75, soit 251,5

DIQ = 251,5 – 86,5 = 165

Etendue = 289,5 – 10 = 279,5

• Valeurs extrêmes = valeurs aberrantes

1,5 DIQ 1,5 DIQ

• 2 - Estimation et tailles d’échantillons avec

• 3 – Test d’hypothèses sur les moyennes

• 4 – Tests d’hypothèses sur les fréquences

Utilisation des données d’échantillon pour

– pour tester une hypothèse sur la population

• Estimation de la proportion p de la population

• Ex : soit un échantillon de 50 nouveaux nés :

 Estimation avec intervalle de confiance

Un intervalle de confiance (IC) est un intervalle de