Académique Documents
Professionnel Documents
Culture Documents
Statistique descriptive
statistique inférentielle
• Utilisation de tests ou de lois
Statistique descriptive
• 1 - Distribution de fréquences
• 2 - Méthodes graphiques
• 3 - Mesures de tendance centrale
• 4 - Mesures de dispersion
• 5 - Mesures de positionnement
• 6 - Analyse exploratoire des données
1 – Distribution de fréquences
• Dans un tableau de données, les
fréquences représentent le nombre de fois
où chaque valeur apparaît
• Critères à définir :
– Nombre de classes
– Largeur des classes
• Fréquences relatives
• Fréquences cumulées
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35
Total 23
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28 30 18 19 21 24 20 27 25 35 16 24 26 20 25 28 30 26 25 28 33 18 31
données triées 16 18 18 19 20 20 21 24 24 25 25 25 26 26 27 28 28 28 30 30 31 33 35
6 25%
Nombre d'individus
Nombre d'individus
20%
4
15%
3
10%
2
5%
1
0 0%
17 20 23 26 29 32 35 17 20 23 26 29 32 35
Classes de fréquences Classes de fréquences
25
20
nombre d'individus
15
10
0
17 20 23 26 29 32 35
Classes de fréquences
n f n f
16-20 6 16-17 1
21-25 6 18-19 3
26-30 8 20-21 3
31-35 3 22-23 0
24-25 5
26-27 3
28-29 3
30-31 3
32-33 1
34-35 1
Total 23 Total 23
Exercice 2 – Hauteurs des
peupliers
Total
Exercice 2 – Hauteurs des
peupliers
• 3 traitements :
– Nombre de classes avec n = 30
K = 1 + 3,322 log n
soit 5.907, arrondi à 6
- Largeur des classes :
6,8/6 = 1,1333
Choix de classes de 1 unité
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence
Classes Contrôle Irrigation Irrigation et fertilisation
de fréquence Fréquence F% Fréquence F% Fréquence F%
1 - 1,9 1 5% 2 10% 0 0%
2 - 2,9 1 5% 4 20% 0 0%
3 - 3,9 3 15% 2 10% 2 10%
4 - 4,9 5 25% 2 10% 1 5%
5 - 5,9 4 20% 4 20% 1 5%
6 - 6,9 6 30% 6 30% 9 45%
7 - 7,9 0 0% 0 0% 6 30%
8 - 8,9 0 0% 0 0% 1 5%
Total 20 100% 20 100% 20 100%
Exercice 2 – Hauteurs des
peupliers
50%
45%
40%
fréquence relative
35%
30% Contrôle
25% Irrigation
20% Irrigation et fertilisation
15%
10%
5%
0%
1,9 2,9 3,9 4,9 5,9 6,9 7,9 8,9
Classes de hauteur (limites supérieures des classes)
12
10
0
1 2 3 4 5 6 7 8 9 10
Courbe cumulative
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8
Courbe cumulative (2)
I = point d’inflexion
Courbe cumulative (3)
25 60
50
20
40
15
30
10
i1 i
20
5
i2
10
0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8
6 12
5 10
4 8
3 6
2 4
1 2
0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10
Le diagramme circulaire
4% 2% 6%
10%
1
15%
2
3
17% 4
5
6
7
25% 8
21%
Le diagramme en bâton
Fig. 3 - Biomasse aérienne en fonction des carences minérales (Cresson alénois)
900
800
700
600
biomasse en g.
500
400
300
200
100
0
Milieu complet Carence N Carence P Carence Ca Car Oligo-Fe
Le diagramme de dispersion
14
12
10
valeurs de y
0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14
12
10
valeurs de y
4
Graphique en courbe
2
0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14
12
10
valeurs de y
y = 0,4659x + 5,2198
8
4
Courbe de tendance
2
Corrélation
0
0 5 10 15
valeurs des x
La série chronologique
500
450
400
valeur marchande
350
300
250
200
150
100
50
0
1950 1960 1970 1980 1990 2000 2010
décades
Le Dotplot
Contrôle
1 2 3 4 5 6 7 8
Irrigation
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8
Le tracé tige et feuilles
1 9 1 2, 6 1
2 9 2 5, 8, 9, 9 2
3 2, 6, 9 3 3, 6 3 2, 9
4 1, 1, 6, 8 4 1, 5 4 4
5 1, 5, 5, 5 5 1, 1, 5, 8 5 3
6 0, 3, 5, 8, 9, 9 6 1, 1, 4, 5, 8, 8 6 2, 2, 3, 6, 7, 7, 8, 8, 8
7 1, 3, 3, 3, 6, 7
8 0
Exercice 3
sexe M M M M M M M M M M M M M M M M M M M M
poids enfant 62,5 64,6 69,1 73,9 67,1 64,4 71,1 71,0 67,4 69,3 64,9 68,1 66,5 67,5 66,5 70,3 67,5 68,5 71,9 67,8
poids mère 66 58 66 68 64 62 66 63 64 65 64 64 62 69 62 67 63 66 65 71
76,0
74,0
72,0
70,0
Poids de l'enfant
68,0
66,0
64,0
62,0
60,0
55 60 65 70 75
Poids de la mère
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3 (2)
80,0
70,0
60,0
50,0
10,0
0,0
55 60 65 70 75
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3
sexe M M M M M M M M M M M M M M M M M M M M
poids enfant 62,5 64,6 69,1 73,9 67,1 64,4 71,1 71,0 67,4 69,3 64,9 68,1 66,5 67,5 66,5 70,3 67,5 68,5 71,9 67,8
poids mère 66 58 66 68 64 62 66 63 64 65 64 64 62 69 62 67 63 66 65 71
76,0
74,0
72,0
70,0
Poids de l'enfant
68,0
66,0
y = 0,3941x + 42,48
64,0
62,0
60,0
55 60 65 70 75
Poids de la mère
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 4
35.5 35.7 39.2 39.6 39.7 39.8 39.9 40.1 40.2 40.2 40.2 40.4 40.4 40.7 40.9 40.9 40.9 40.9 40.9 41.0 41.0 41.0 41.0 41.0 41.1
41.1 41.2 41.3 41.4 41.7 41.7 41.7 41.7 41.8 41.9 41.9 42.0 42.0 42.2 42.2 42.3 42.3 42.4 42.5 42.6 42.8 42.8 42.8 43.2 43.2
70%
60%
50%
fréquence %
40%
30%
20%
Histogramme
10%
des périmètres
0%
crâniens des
35 37 39 41 43 enfants de deux
classes de périmètre (cm) mois
Exercice 4 (2)
35 5,7
36
37
38
39 2,6,7,9
40 1,2,2,4,4,7,9,9,9,9,9
41 0,0,0,0,0,1,1,2,3,4,7,7,7,7,8,9
42 0,0,2,2,3,3,4,6,8,8,8
43 2,2
35 36 37 38 39 40 41 42 43
3 – Mesures de tendance centrale
• a) La moyenne
moyenne
x
n
• Ex : teneur en plomb dans l’atmosphère (norme = 1,5 g/m3)
x 9,23 / 6 1,538
3 – Mesures de tendance centrale (2)
moyenne d’un échantillon
x
x
n
moyenne d’une population
x
N
3 – Mesures de tendance centrale (3)
• b) La médiane : valeur du milieu
60%
fréquence % 50%
40%
– multimodal 30%
20%
10%
0%
35 37 39 41 43
classes de périmètre (cm)
3 – Mesures de tendance centrale (5)
• c) Le midrange
IRRIGATION
moyenne 4,48
médiane 4,8
mode 2,9 - 5,1 - 6,1 - 6,8
midrange 4
moyenne pondérée x
(.x)
coefficient
somme des coefficients
Exercice 7
Moyenne pondérée
Moyenne arithmétique
85 90 75
83,33
3
Exercice 8
Moyenne de fréquence
(50 x50) (150 x30) (250 x35) (350 x3) (450 x5)
179,50
100
Avantages et inconvénients des différentes mesures centrales.
Meure de Utilisation Existence Prend en Affectée par Avantages et inconvénients
tendance compte les valeurs
centrale toutes les extrêmes
valeurs
Moyenne Familière Toujours Oui Oui + utilisée partout ; fonctionne
avec beaucoup de méthodes
statistiques
Mode
Moyenne Mode Moyenne
Médiane
Médiane
4 – Mesures de dispersion
• Ex : temps de file d’attente dans deux
cliniques : une ou 3 files d’attente
Une seule file d’attente 4 7 7
Trois files d’attente 1 3 14
• Moyenne = 6 mn
• Variation ?
4 – Mesures de dispersion (2)
• 4.1 – L’étendue
• Premier cas : 7 – 4 = 3 mn
• Deuxième cas : 14 – 1 = 13 mn
Facilité d’utilisation
mais ne tient compte que des valeurs extrêmes
4 – Mesures de dispersion (3)
• 4.2 – L’écart type
(x x) 2
s
n ( x) 2 ( x) 2
s ou n(n 1)
n 1
• Premier cas
3(4 2 7 2 7 2 ) (18) 2
342 324 18
s s 3 1,732
3* 2 6 6
• Deuxième cas
3(12 3 2 14 2 ) (18) 2 618 324 294
s 49 7
s 6 6
3* 2
4 – Mesures de dispersion (4)
• Pourquoi diviser par n – 1 ?
– Seulement n – 1 valeurs indépendantes
– n – 1 = nombre de degré de liberté
(x x) 2
N
4 – Mesures de dispersion (5)
• La variance
– Cas d’un échantillon : s2
– Cas d’une population : 2
S1 > S2
s1 s2
a b
Grande dispersion Faible dispersion
4 – Mesures de dispersion (7)
• Interprétation de l’écart type :
– 2) 95 % des observations sont à moins de 2 s
s s
95 % des observations
4 – Mesures de dispersion (8)
• Interprétation de l’écart type :
– 3) estimation rapide de s
étendue
" s"
4
– 4) minimum « usuel » et maximum « usuel »
moyenne 6,41
écart type 1,28
minimum 3,20
maximum 8,00
minimum usuel 3,85
maximum usuel 8,97
minimum 3,20
maximum 8,00
étendue 4,80
"s" 1,20
minimum usuel 4,01
maximum usuel 8,81
Exercice 17
IMC 19,60 23,8 19,6 29,1 25,2 21,4 22,0 27,5 33,5 20,6 29,9 17,7 24,0 28,9 37,7
2
x 384,16 566,4 384,2 846,8 635 458 484 756,3 1122 424,4 894 313,3 576 835,2 1421
moyenne 25,37
2
S (x ) 10101,23
2
(Sx) 144780,25
écart type 5,66
60%
moyenne 41,098
50%
étendue 7,7
fréquence %
40%
10%
mini "usuel" 37,248
0%
35 37 39 41 43
maxi "usuel" 44,948
classes de périmètre (cm)
99,7 % à moins de 3 s
95 % à moins de 2 s
68 % à moins d’un s
xx x
z ou z
s
5 – Mesures de positionnement
relatif (2)
x 1,98 1,75
Jordan : z 3,23
0,0711
• La taille de Jordan se trouve à + 3,23 fois l’écart type de
la moyenne des hommes
x 1,93 1,61
Lobo : z 5,04
0,0635
• La taille de Lobo se trouve à 5,04 fois l’écart type de la
moyenne des femmes
-3 -2 -1 0 +1 +2 +3
5 – Mesures de positionnement
relatif (4)
• 5.2 – Quartiles et percentiles
– QUARTLIES
Q1 = premier quartile : sépare les premiers 25 % des données triées des autres 75
%. 25 % des données triées sont inférieures ou égales à Q1 et 75 % des données
sont supérieures ou égales à Q1
Q2 = deuxième quartile : même chose que la médiane ; sépare les premiers 50 % des
données triées des autres 50 %.
Q3 = troisième quartile : sépare les premiers 75 % des données triées des autres
25 %. 75 % des données triées sont inférieures ou égales à Q3 et 25 % des
données triées sont supérieures ou égales à Q3
5 – Mesures de positionnement
relatif (5)
• 5.2 – Quartiles et percentiles
12
percentile de112 100 30
40
la valeur 112 (cotinine) est la 13ème valeur des données triées, donc 12 valeurs
inférieures, parmi 40 valeurs totales ; le percentile de 112 est 30, c'est-à-dire que
112 est la 30ème valeur sur 100 dans la distribution des valeurs de cotinine.
5 – Mesures de positionnement
relatif (7)
• 5.2 – Quartiles et percentiles
– Comment trouver la valeur qui correspond à un
percentile particulier k ? On cherche le localisateur L
d’une valeur particulière parmi n valeurs.
k
L n
100
si L est une valeur entière, la valeur du k-ième percentile est à mi chemin entre la L-
ième valeur dans le tableau et la suivante ; on trouve Pk en prenant la demi-somme de
la L-ième valeur et de la suivante ;
si L est une valeur décimale, on arrondit à la valeur supérieure.
5 – Mesures de positionnement
relatif (8)
• 5.2 – Quartiles et percentiles
68
L 40 27,2
100 on arrondit à 28 ; donc le percentile 68 (P68) est la 28ème valeur
– Q1 = P25 ; Q2 = P50 ; Q3 = P 75
75
L 40 30
P75 100 ; le percentile 75 est entre la 30 et la 31 ème valeur, soit : 251,5
1
L 40 0,4
P1 100 ; le percentile 1 est la valeur 1, soit 0
Distance InterQuartile
25
L 40 10
Q1 = P25 ; 100 donc entre la 10 et 11ème valeur, soit 86,5
Etendue 10 – 90 %
10
L 40 4
P10 100 donc entre la 4 et 5ème valeur, soit 10
90
L 40 36
P90 100 donc entre la 36 et 37ème valeur, soit 289,5
Q1 Q3
maximum
minimum
6 – Analyse exploratoire des
données (3)
• 6.3 - Boîtes à moustaches de Tukey
Valeurs Valeurs
anomaliques Valeurs normales anomaliques
inférieures supérieures
= =
outliers médiane outliers
Q1 Q3
maximum
minimum
Estimation ponctuelle
Une estimation ponctuelle est une valeur unique utilisée pour
approximer le paramètre d’une population.
Ici la meilleure estimation de p est p’, soit 0,86
95,6 %
La vraie valeur
(inconnue)
76,4 %
Intervalle de confiance
1-
/2
/2
- Z /2 Z =0 Z /2
Les niveaux de confiance habituels
• Les choix les plus courants pour le niveau
de confiance :
– 90 % ( = 0,10) ;
– 95 % ( = 0,05) ;
– 99 % ( = 0,01) ;
– 99,9 % ( = 0,001)
Lecture de
table de
distribution
normale
Lecture de table de distribution
normale
Intervalle de confiance à 95 %
/2 = 0,025
/2 = 0,025
p '. q '
E z / 2
n
• IC s’exprime de la manière suivante :
• Recherche de l’IC à 95 %
lim ite sup érieure lim ite inf érieure 0,280 0,220
p' 0,250
2 2
lim ite sup érieure lim ite inf érieure 0,280 0,220
E 0,030
2 2
Solution :
lim ite sup érieure lim ite inf érieure 0,704 0,604
E 0,05
2 2
lim ite sup érieure lim ite inf érieure 0,704 0,604
p' 0,654
2 2
• Solution :
300
p' 0,75, soit 75% ; donc q ' 25%
400
x Ex E
x E ; x E ou xE
Exercice
• Température du corps humain : soit un échantillon n = 106, x = 36,78°C,
= 0,34°C ; estimer la moyenne de la population, trouver la marge
d’erreur et l’IC
• Solution :
a) la meilleure estimation de la moyenne de la population est l’estimation
ponctuelle, soit 36,78°C.
b) la marge d’erreur :
Soit 36,78°C ± 0,065°C
0,34
E z / 2 1,96 0,06472649
n
c) IC : 36,78 – 0,06472649 < m < 36,78 + 0,06472649 106
Soit 36,72 < m < 36,84
Nous sommes sûrs à 95 % que ……
2.2 – Estimation de la moyenne
d’une population (2)
• 2.2.1 - inconnu
correspond à la pratique :
• on estime la moyenne de la population à partir d’un échantillon
• on estime la variance de la population à partir de l’échantillon
caractéristique de l’échantillon
– échantillon aléatoire simple ;
– n > 30, sinon vérifier la normalité de la distribution (par
construction de l’histogramme des fréquences).
Loi t pour n = 15
Loi t pour n = 5
Soit 39,67 < < 40,53 On est sûr à 95 % que l’intervalle [39,67 ; 40,53]
contient la vraie moyenne du périmètre crânien
des nouveaux nés garçons.
s 1,44
Pour les filles : E t / 2 2,01 0,4093299
n 50
x Ex E soit : 40,16 0,4093299 40,16 0,4093299
n = 11 5
1476 2800
• Construction de l’IC à 95 %
Moyenne = 2065,18
Ecart type = 384,15
s 384,15
E t / 2 2,228 258,062495
n 11
E 2065,2 258,062
1807,12 < m < 2323,24
On est sûr à 95 % que les limites 1807,1 et
2323,2 contiennent effectivement la moyenne
de la population
• Comparaison des deux IC :
Séchage au four
1807,1 2323,2
Séchage à l’air
1611,3 2071,2
Xobs.
k
Et on le compare aux valeurs seuils :
• Quand k < 1,96, l’écart est « non significatif » = NS
• Quand 1,96 < k < 2,575, l’écart est « significatif à 5 %
mais non signification à 1 % » ou « significatif » = *
• Quand 2,575 < k < 3,3, l’écart est « significatif à 1%
mais non significatif à 0,1%» ou « hautement
significatif » = **
• Quand k >3,3, l’écart est « significatif à 0,1%» ou
« très hautement significatif » = ***
3.2 Comparaison d’une moyenne
d’échantillon à une moyenne de population
dont on connait la variance
x
k
n
3.3 - Comparaison d’une moyenne
d’échantillon à une moyenne de population
de variance inconnue = test de Student
x
t
s
n
et on compare la valeur calculée à celles de
la table de Student (valeurs qui dépendent du
nombre de ddl)
3.4 - Test de Student appliqué à la
comparaison de deux moyennes
d’échantillons indépendants
• L’écart réduit est donné par la formule :
X1 X 2
t
2 2
s1 s2
n1 n2
VARIATION VARIATION
RESIDUELLE INTERGROUPE
3.6 – Généralisation du test t à la
comparaison de plus de deux
moyennes = Analyse de variance
• 3 types de variation :
xi X
2
– Variation totale SCT T
SCT
– Variance totale : CMT
NT 1
SCg
– Variance inter groupe : CMg
k 1
SCr
– Variance intra groupe : CMr
N k
• Analyse de la variance : test F
CMg
F
CMr
• Si CMg > CMr, alors F est grand ; la variation entre
groupe est plus élevée que celle à l’intérieur des
traitements et il est possible qu’au moins un
traitement n’appartienne pas à la même population
de résultats que les autres traitements ; en d’autres
termes, l’H0 est rejetée et on conclura à un effet du
traitement expérimenté.
CMg
F
CMr
• Si CMg < CMr, alors F est petit ; il est moins probable qu’au
moins un des traitements n’appartienne pas à la même
population de résultats que les autres ; l’H0 ne peut pas être
rejetée et l’on n’aura pas mis en évidence un effet du
traitement. Cela ne veut pas dire qu’il n’y a pas d’effet, mais dans les
conditions de l’expérience, nous n’avons pas mis en évidence de
différence.
Totale
xi X N-1
2
SCT T
• application au test racinaire (Zn)
Source Somme des carrés des écarts Nb de Variances F
de ddl
variation
Inter- 28310,5807 k-1 = 9 CMg 31,4562008 2,4283
groupe
résiduelle 345870,11 N-k = CMr 195,39368
267
Totale 374180,692 275
• F à 5% = 1,97
• F à 1% = 2,59
• F à 0,1% = 3,44
test a posteriori traitement 0 6,25 12,5 25 50 100 200 400 600 800
moyenne 121,887 104,833 126,026 126,386 142,500 136,737 136,556 111,481 124,360 134,042
écart type 32,663 33,322 22,740 29,153 35,982 31,731 36,433 43,004 47,012 42,538
n 71 18 19 22 24 19 27 27 25 24
variance 1066,851 1110,382 517,124 849,903 1294,696 1006,871 1327,333 1849,336 2210,157 1809,520
t 1,947 0,637 0,614 2,482 1,801 1,831 1,139 0,243 1,278
t 0,5 1,986 NS NS NS * NS NS NS NS NS
t 0,1 2,626
t 0,01 3,402
Exercice
• Six milieux de culture d’une bactérien pathogène
ont été préparés avec 6 pH différents. Pour
tester l’influence du pH, 3 microgouttes d’une
suspension de cette bactérie ont été déposées
séparément sur chacun des milieux, et les
colonies formées après incubation ont été
dénombrées.
• D’après les résultats, déduire si l’effet du pH est
significatif. Dans l’affirmative, déterminer quelles
valeurs de pH sont responsables des différences
significatives.
Tab. 1 - Tableau de valeurs du nombre de colonies bactérienne en fonction du pH du milieu de culture
moyenne
SCE r
SCE g
écart type
variance
F 5%
F 1%
F 0,1%
Tab. 1 - Tableau de valeurs du nombre de colonies bactérienne en fonction du pH du milieu de culture
Source de variation Somme des carrés des écarts nb de ddl Variances F (5;12)
Inter-groupe SCEg 16929,78 5 CMg 3385,96 CMg/CMr 66,90
Résiduelle SCEr 607,33 12 CMr 50,61
Totale SCET 17537,11 17