Académique Documents
Professionnel Documents
Culture Documents
1
CHAPITRE 1 : LES ECHANTILLONS
INTRODUCTION
2
CHAPITRE 1 : LES ECHANTILLONS
Les objectifs
• Premier objectif : Connaître les propriétés de la population dont est extrait l’ échantillon.
• Troisième objectif : comparer deux (ou plus) traitements différents : en ressources humaines, peut-on
affirmer que depuis la création de la crèche d’ entreprise, le taux d’ absentéisme a baissé ; en marketing,
les ventes réalisées sont-elles différentes avec ce nouvel emballage ?
Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est
possible de trouver un échantillon de poids moyen 249 grammes
Si dans un échantillon de 1 000 personnes, 200 votent pour A alors est-on vraiment certain que
A réalisera un score de 20 % lors de l’ élection ?
3
CHAPITRE 1 : LES ECHANTILLONS
Incertain et Aléatoire
• Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est possible de
trouver un échantillon de poids moyen 249 grammes mais avec quelle probabilité ?
• Autre exemple : si dans un échantillon de 1 000 personnes, 200 votent pour A alors est-on vraiment
certain que A réalisera un score de 20 % lors de l’ élection ? Avec quelle certitude ?
• On peut penser que, si le sondage est bien fait, A réalisera un score «autour» de 20 % mais la
question devient alors :
entre 19 % et 21 % ?
entre 17 % et 23 % ?
entre 10 % et 30 % ?
Si je connais cette probabilité, j’adapte mon comportement et je prends ou pas mon parapluie
4
CHAPITRE 1 : LES ECHANTILLONS
Echantillon Gaussien
• Parmi ces trois échantillons qui suivent, y en a-t-il qui sont manifestement
gaussiens ?
5
CHAPITRE 1 : LES ECHANTILLONS
Gaussien ? Oui !
6
CHAPITRE 1 : LES ECHANTILLONS
Gaussien ? Non !
7
CHAPITRE 1 : LES ECHANTILLONS
Gaussien ? ?? ?
8
CHAPITRE 1 : LES ECHANTILLONS
1°) Exemple 1 :
Dans une PME, durant les 25 derniers jours
ouvrés, on a relevé chaque jour le nombre de
salariés en arrêt de travail :
Nombre de
personnes 0 1 2 3 4 5 6 7 8 9
en arrêt
Nombre de
3 4 3 5 3 2 3 1 0 1
jours
x
n .x i i
3 0 4 1 .........1 9
3,24
n i 3 4 ......9
V (x)
i i
n .x 2
x
2 3 0 2
4 12
.......9 12
3,24
2 397
3,24 2 5, 3824
n i 25 25
la variable est numérique est il est bien difficile de savoir si la représentation est proche d’une courbe en
cloche
9
CHAPITRE 1 : LES ECHANTILLONS
2°) Exemple 2 :
Une entreprise a étudié son chiffre d’ affaires sur les derniers jours:
Chiffre
[0,1[ [1,2[ [2,3[ [3,4[ [4,5[ [5,6[ [6,7[ [7,8[
d’affaires
Nombre de
2 12 40 88 65 35 5 3
journées
On rappelle que dans le cas d’une série continue, les xi représentent alors les centres de classe
x
n .x 2 0,5 12 1,5 .........3 7,5
i
i
3,868
n i 2 12 ....3
V (x)
n .x
x
i
2
2 0,5 12 1,5 .......3 7,5
i 2
2 2 2
3,868
4110,5
2
3,868 2 1, 486
n i 2 12 ....3 250
1
CHAPITRE 1 : LES ECHANTILLONS
1
CHAPITRE 1 : LES ECHANTILLONS
3°) Exemple 3 :
Dans ce groupe de 135 étudiants, il y a 80 filles : 51 de moins de 21 ans et 29 de plus de
21 ans et 55 garçons : 25 de moins de 21 ans et 30 de plus de 21 ans.
1
CHAPITRE 1 : LES ECHANTILLONS
Urne :
180 blanches et 20 noires
On en tire 10 .
1
CHAPITRE 1 : LES ECHANTILLONS
On en tire 15
1
CHAPITRE 1 : LES ECHANTILLONS
1
CHAPITRE 1 : LES ECHANTILLONS
1
CHAPITRE 1 : LES ECHANTILLONS
2°) Exemple :
On considère les 5 notes obtenues par un étudiant : 7 ; 8 ; 10 ; 11 ; 14
7 8 10 11 14
a) la moyenne : m 10
5
7 2 8 2 10 2 112 14 2
la variance :
2
10 2 6
5
l’écart-type : 6
1
et parmi ces 5 notes la proportion p de notes supérieure à 12pest
5
Attention
Si on considère que ces 5 notes constituent la population, les indicateurs de la population sont notés :
m, , p
On va prélever dans cette population de 5 notes des échantillons de taille 2
1
CHAPITRE 1 : LES ECHANTILLONS
12,2 0
5 7 14 10,5 3,5 0,5 proportion f1
5 2
6 8 7 7,5 0,25 0,5 0
7 8 8 8 0 0 0
8 8 10 9 1 1 0 pour le cinquième échantillon :
9 8 11 9,5 2,25 1,5 0 7 14
x5 10,5
10 8 14 11 9 3 0,5
moyenne 2
11 10 7 8,5 2,25 1,5 0
variance 7 14 2
2
12 10 8 9 1 1 0 s5
2
10,5 2 12,25
13 10 10 10 0 0 0 2
1
f5
14 10 11 10,5 0,25 0,5 0
proportion
15
16
10
11
14
7
12
9
4
4
2
2
0,5
0
2
17 11 8 9,5 2,25 1,5 0
18 11 10 10,5 0,25 0,5 0
19 11 11 11 0 0 0
Attention
20 11 14 12,5 2,25 1,5 0,5 Si on considère que ces 2 notes constituent
21 14 7 10,5 12,25 3,5 0,5
22 14 8 11 9 3 0,5 un des échantillons, les indicateurs de cet
23 14 10 12 4 2 0,5 échantillon sont notés :
24 14 11 12,5 2,25 1,5 0,5
25 14 14 14 0 0 1 x, s, f
Remarque : si la population était de N=7 notes et que l'on s'intéressait aux échantillons de taille 3, on aurait obtenu 7 3 échantillons !
1
CHAPITRE 1 : LES ECHANTILLONS
pi 0,04 0,08 0,04 0,08 0,16 0,08 0,04 0,16 0,12 0,08 0,08 0,04 1
nombre d’ observations 1 2 1 2 4 2 1 4 3 2 2 1 25
L’ espérance
E X pi xi 0,04 7 0,08 8 ..... 0,04 14 10
est
On retrouve une propriété bien pratique pour la suite : la moyenne observée dans un échantillon est une
variable aléatoire.
cette variable aléatoire a pour espérance la moyenne de la population
m E X
le même travail fait pour la variance de l’échantillon montre que la variance est aussi aléatoire mais son espérance
n’est pas la variance de la population : il faut y apporter une correction qui dépend de la taille de l’échantillon :
n
2
n 1
E S2
1
CHAPITRE 1 : LES ECHANTILLONS
Les sondages par strates : chaque catégorie de la clientèle est considérée comme une population : on étudiera
par exemple la population classée suivant son âge ou bien la population classée suivant son sexe.
En cette période post-électorale, on pourra se demander quelles sont les variables (ou critères) utilisées pour les
sondages politiques et pourquoi celles-là. On pourrait aussi faire une enquête sur la taille des échantillons utilisés.
2
CHAPITRE 1 : LES ECHANTILLONS
Mises en garde :
2°) Les sondages ne peuvent s’ appliquer que sur des processus stabilisés : certains voulaient
estimer une moyenne à venir alors que l’ on connaissait les ventes des 4 mois précédents.
Oui, pourquoi pas ?
Quand j'ai su que l’ on comptait lancer une campagne promotionnelle sur ce produit, tout était fortement
déstabilisé.
Quand de plus j'ai appris que ce produit était le CD d'un groupe de musique régional (et donc soumis
aux effets de mode) j'ai renoncé!
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Corollaire : La somme de lois normales indépendantes de mêmes moyennes et de mêmes écarts-type est une loi
normale dont la moyenne est la somme des moyennes et la variance est la somme des variances.
Exemple : Les ventes quotidiennes pour un certain produit sont indépendantes et peuvent être approchées par une loi
normale de paramètre 120 et 30. On dispose d’ un stock de 2500 objets.
Les ventes totales en 20 jours est bien une variable aléatoire notée VT.
VT est la somme de 20 lois normales de même moyenne (120) , de même écart-type (30) et indépendantes.
D’après le théorème :
VT NOR 20 120, 20 30 NOR(2 400; 134)
2500 2400
p VT 2500 1 1 (0, 75) 1 0, 7737 0, 2263
134
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
b) Si on ne tolère la rupture de stock qu’avec une probabilité inférieure à 1 %, au bout de combien de jours doit-
on réapprovisionner ce stock ?
On cherche le stock inconnu (que l’on va noter x) tel que la probabilité que les ventes soient supérieures aux stocks
soit inférieure à 1%.
ou par événement contraire tel que la probabilité que les ventes soient inférieures aux stocks soit supérieure à 99 %
x 2400 x 2400
(2, 330)
134 134
2, 330 et x 2400 134 2, 330 2712,2 On prévoira un stock de 2713 objets
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
VANOR(100; 30)
VBNOR(120; 40)
2
alors D NOR 100120 ; 30 40 NOR 20 ; 50
2
VA et VB indépendantes
Si DVAVB
0 (20)
p D 0 1 1 0, 4 0, 3446
50
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
b) Exercice de référence : Sur un site internet, on sait que le nombre de visites par minute
a pour moyenne 20 et pour écart-type 30.
1°) Quelle est la loi suivie par le nombre de visites sur une journée de 24 heures soit 1440 minutes ?
On peut considérer que les minutes sont indépendantes alors le théorème central limite donne :
VT NOR 1440 20 ; 1440 30 NOR(28 800 ; 1138)
2
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
• La moyenne observée dépend de l’échantillon (qui est pris au hasard), elle est donc aléatoire
et se note avec une majuscule.
• Pour calculer une moyenne, il suffit de tout additionner et de diviser par le nombre d’observations
donc : VT 1 1
V VT NOR(28 800 ; 1138)
1440 1440 1440
28800 1138
V NOR ; NOR 20 ; 0, 79
1440 1440
• Si on cherche un intervalle centré sur la moyenne qui contient un pourcentage ß de la population alors
cet intervalle sera du type I=[m-a.s ; m+a.s] avec 2∏(a)-1=ß
Ici ß=0,90 donc 2∏(a)-1=0,9 et ∏(a)=0,95.
La table donne a=1,65
L’intervalle sera donc I= [20-1,65.0,79 ; 20+1,65.0,79]
• L’interprétation est intéressante : dans 90 % des échantillons d’une durée d’une journée, le nombre
moyen de visiteurs par minute sera compris entre 18,70 et 21,30.
3
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Exemple : dans une région de 100 000 habitants, 20 % des personnes votent pour A.
On prend un échantillon de 852 personnes et X est la variable aléatoire qui prend pour valeurs le nombre de personnes
qui votent pour A.
• X est une loi hypergéométrique : X HYP 100 000 ; 852 ; 0,20
• Première approximation de X :
Comme la taille de la population est au moins 10 fois supérieure à la taille de l’échantillon ( N≥10n), on peut
approcher X par une loi binomiale :
X BIN(852;0,20)
• Deuxième approximation de X :
Comme n=852 est supérieur ou égal à 30 et np=852*0,20=170,4 est supérieur ou égal à 5, cette loi binomiale peut
être approchée par une loi normale :
X NOR 852 0,20; 852 0,20 (1 0,20) NOR 170, 4;11,68
3
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Soit F la variable aléatoire qui prend pour valeurs le pourcentage observé de personnes qui votent pour A dans l’
échantillon. Quelle est la loi de F ?
• F est la proportion observée donc c’est bien le rapport entre le nombre de cas favorables dans l’échantillon (X) et
le nombre de personnes dans l’échantillon donc
X 1
F NOR 170, 4;11, 7 NOR (0,20;0,0137
852 852
0,22 0,20
p F 0,22 1 1 1, 46 0,0721
0,0137
• On a donc environ 7,2 % de chances de trouver un échantillon de 852 personnes qui contiendra plus de 22 %
pour A alors que ce pourcentage n’est que de 20 % dans la population.
3
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
B. Loi suivie par la moyenne d’ un échantillon prélevé dans une population d’écart-type σ connu.
Théorème : Si n≥30 ou si l’ échantillon est gaussien, la moyenne de cet échantillon de taille n prélevé dans une
population de moyenne m et d’ écart-type σ suit une loi normale de paramètres m et n
Démonstration :
X1 X 2 ....... X n 1
X X1 X 2 ....... X n
n n
• En utilisant le théorème central limite, si n≥30,
nm n
1
n
1
n
X X1 X2 ....... X n NOR n.m; n . NOR
n
;
n
NOR
m;
n
• Remarque : si l’échantillon est de taille inférieure à 30 mais chacune des lois est normale, alors le corollaire sur
la somme de lois normales s’applique
Attention :
3
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Exercice 1 : Dans une population de moyenne 85 et d’ écart-type 12, on prélève un échantillon de taille 50.
Quelle est la probabilité d’observer un échantillon de moyenne inférieure à 82 ?
• D’après le théorème précédent, l’échantillon est de taille supérieure à 30, la population est d’écart-type
connu donc :
12
X NOR m; NOR 85;
n 50
82 85
p X 82 1, 77 1 1, 77 0,038
12
50
Déterminer un intervalle de centre 85 qui contienne 95 % des moyennes des échantillons de taille 50.
• On cherche un intervalle centré sur la moyenne qui contienne un pourcentage α=95 % alors
2∏(a)-1=0,95 et ∏(a)=0,975 donc a=1,96.
• Cet intervalle sera :
12 12
I 85 1,96 ;85 1,96 81,67;88, 33
50 50
Déterminer un intervalle du type ]-∞; a] qui contienne 95 % des moyennes des échantillons de taille 50.
• On a alors ∏(a)=0,95 et la table donne a=1,65
• Cet intervalle sera :
12
I ;85 1,65 ;87,80
50
3
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Théorème : La fréquence dans un grand échantillon prélevé dans une population de proportion p suit une loi
p(1 p)
normale de paramètres p et n
Démonstration :
La fréquence observée (dans l’échantillon) est bien le nombre de cas favorables divisé par la taille de
l’échantillon.
Appelons X la variable aléatoire qui prend pour valeurs le nombre de cas favorables observé dans
l’échantillon.
Exercice 1: Dans une population, 20 % des individus sont de type B. On prélève un échantillon de taille 210.
Est-il possible d’ observer un échantillon où la fréquence observée d’ individus de type B est inférieure à 15 % ?
• Pourquoi pas !
Si oui, avec quelle probabilité?
p(1 p) 0,20 0,80
F NOR p; NOR 0, 20; NOR 0,20;0,0276
n 210
0,15 0,20
p F 0,15 1, 81 1 1, 81 0, 035
0, 0276
Déterminer un intervalle de centre 20 % qui contienne 95 % des fréquences observées dans des
échantillons de taille 210.
• Nous avons vu précédemment que l’intervalle centré sur la moyenne qui contient 95 % de la
population pour une loi normale était obtenu avec 1,96 écart-type donc
0,20 0,80 0, 20 0,80
I 0,20 1,96 ;0,20 1,96 0,146;0,254
210 210
• Interprétation : nous savons (avant de prélever l’échantillon) que, dans 95 % des échantillons, le
pourcentage observé sera compris entre 14,5 % et 25,5 %
Déterminer un intervalle du type ]-∞ ; a] qui contienne 95 % des fréquences observées dans des
échantillons de taille 210.
0,20 0,80
• Comme précédemment, l’intervalle sera : I ;0,20 1,65 ;0,246
210
3
CHAPITRE 3 : L’ESTIMATION
PRESENTATION DU PROBLEME :
Bien entendu, on ne pourra pas donner des probabilités sur ces valeurs car ce ne sont pas des variables aléatoires,
elles sont fixes et dépendent de la population.
On définira alors des intervalles de confiance.
Population
Taille N ?
Moyenne m ?
Ecart-type σ ?
Proportion p ?
Echantillon
Taille n
Moyennex
Ecart-type s
Proportion f
3
CHAPITRE 3 : L’ESTIMATION
A. Estimations ponctuelles
Quelques exemples de «biais statistiques» :
Un premier biais statistique est connu par les sondeurs politiques : l’expérience a montré que lors de
sondages, certains électeurs n’osent pas «avouer» leur préférence.
Ainsi, à l’aide de l’expérience, les sondeurs corrigent ce biais en ajoutant environ 3 % à ce parti politique :
Si dans l’échantillon, ce parti est à 11 % alors les instituts de sondage l’affichent à 14 % !.
D’autres biais statistiques apparaissent dans les sondages, ces biais statistiques peuvent être corrigés de
deux façons : à la louche comme au dessus ou bien à l’aide de définitions mathématiques
1°) Usage : si g est un indicateur que l’ on veut connaître par sondage, on note ĝ la meilleure estimation de g.
Cette estimation s’ appuie sur la valeur observée dans l’ échantillon.
m̂ x
Pour p : On sait, d’ après le chapitre 1, que E(F) l’ on notera p̂ )
p alors la meilleure estimation de p ( que
est p̂ f
n 1 2
alors la meilleure estimation de σ (que l’ on notera ̂ )
E(S 2 )
Pour σ : On sait, d’ après le chapitre 1, que n
n
est
ˆ . s
n 1
3
CHAPITRE 3 : L’ESTIMATION
A. Estimations ponctuelles
Exemple :
Dans une production de paquets de café, on prélève un échantillon de taille 50. Dans cet échantillon de taille 50,
la moyenne observée est 248 grammes, l’écart-type observé est de1,2 gramme et un paquets sur les 50 pèsent
moins de 245 grammes.
Donner des estimations ponctuelles de la masse moyenne d’un paquet de café, de l’écart-type de la masse d’un
paquet de café et de la proportion de paquets de café pesant moins de 245 grammes
3
CHAPITRE 3 : L’ESTIMATION
A. Estimations ponctuelles
Problème de fiabilité :
Illustration : Supposons que dans la production, la proportion de paquets de café défectueux soit de 4 %. Prenons
un lot de 50 paquets de café et X est la variable aléatoire qui prend pour valeurs le nombre de défectueux dans le
lot.
• X suit une loi hypergéométrique : X=HYP(N ; 50 ; 0,04)
• X peut être approchée par une loi binomiale : X=BIN(50 ; 0,04)
• X peut être approchée par une loi de Poisson : X=POI(2) en effet n est grand ( ≥30) et np est petit (≤5)
A l’aide de la table de la loi de Poisson de paramètre 2, comparons les probabilités d’avoir dans ce lot 1 défectueux,
puis 2. k 0 1 2 3 4 5
p(X=k) 0,1353 0,2707 0,2707 0,1804 0,0902 0,0361
p(X=1)=0,2707
p(X=2)=0,2707
Conclusion : il y avait autant de chances d’avoir 1 paquet défectueux que d’avoir 2 paquets défectueux.
Réciproquement, supposons que la proportion dans la population n’est pas connue ( c’est bien le principe de
l’estimation) et que le sondeur ait la même probabilité d’avoir 1 défectueux que 2 alors l’estimation ponctuelle peut
prendre plusieurs valeurs :
dans le premier cas j’aurais dit que la proportion estimée est de 1 sur 50 soit 2 %
dans le deuxième cas, j’aurais dit que la proportion estimée est de 2 sur 50 soit 4 %
Enfin p(X=5)=0,0361
Enfin, il était possible d’avoir 5 paquets défectueux (probabilité de 0,036) et dans ce cas , j’aurai déclaré que la
proportion estimée est 5 sur 50 soit 10 %.
4
CHAPITRE 3 : L’ESTIMATION
Stratégie :
On a vu dans le chapitre précédent, les indicateurs statistiques des échantillons sont aléatoires (ils
dépendent de l’ échantillon pris au hasard) et suivent les lois d’ échantillonnage.
Appelons l’ indicateur Ge de l’ échantillon correspondant à l’ indicateur gp de la population. On sait que
Ge est une variable aléatoire.
Si gp est connu, alors il y a une probabilité α que l’ indicateur Ge soit dans un intervalle de centre gp
c’est à dire :
P g p Ge g p
C’est à dire que la distance entre gp et Ge est inférieure à ∆ avec une probabilité α.
La stratégie de l'estimation par intervalle de confiance est de remplacer la variable aléatoire Ge par la valeur
observée dans l'échantillon notée ge.
α n’ est plus une probabilité car gp n’est pas aléatoire, α est appelé niveau de confiance
4
CHAPITRE 3 : L’ESTIMATION
B) Estimation par intervalle de confiance d’ un indicateur statistique :
Comment faire en pratique ? L’ énoncé donne les caractéristiques de l’ échantillon : sa taille, sa moyenne,
son écart-type et la proportion observée
Dans une population normale d’écart-type 9, on a prélevé un échantillon de taille 51 et de moyenne observée
30 . Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 82 %
Première étape : On donne les estimations ponctuelles. m̂ x 30
Deuxième étape : On construit l’intervalle de confiance
9
X NOR m;
a) On donne la loi suivie par l’indicateur de l’échantillon. NOR m; m est inconnue
n 50
b) On donne, sous forme d’ encadrement, un intervalle centré qui contienne un pourcentage α= 82 % des
indicateurs de l’ échantillon.
2∏(a)-1=0,82
2∏(a)=1,82 9 9
m 1, 340 X m 1340
∏(a)=0,91 50 50
a=1,340
On permute dans cet encadrement l’indicateur de la population et celui de l’échantillon avec les propriétés des
encadrements
9 9
X 1, 340 m X 1, 340
50 50
c) Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée.
9 9
30 1, 340 m 30 1, 340 IC(m; 82%) 28, 29 ; 31, 71
50 50
Interprétation : la valeur de m cherchée est comprise entre 28,29 et 31,71 avec une méthode fiable à 82 %
4
CHAPITRE 3 : L’ESTIMATION
Estimation ponctuelle : m̂ x 30
Intervalle de confiance de m au niveau de confiance 98 % :
38
a) Loi suivie par X : X NOR m; NOR m; m est inconnue
n 15
b) 2∏(a)-1=0,98 38 38
m 2, 33 X m 2, 33
2∏(a)=1,98 15 15
∏(a)=0,99 38 38
X 2, 33 m X 2, 33
a=2,33 15 15
c) Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée.
38 38
30 2, 33 m 30 2, 33 IC(m; 98%) 7,14 ; 52,86
15 15
Commentaires : pourquoi un intervalle aussi large :
• A cause de l’écart-type de la population (grand)
• A cause du niveau de confiance élevé
• A cause de la taille de l’échantillon ( petite)
4
CHAPITRE 3 : L’ESTIMATION
Exercice 2 : Dans une population, on a prélevé un échantillon de taille 200, et parmi ces 200 individus, 48 possède
une caractéristique notée C. Donner un intervalle de confiance de la proportion d’ individus présentant la
caractéristique C dans la population au niveau de confiance 94 %.
• Estimation ponctuelle : p̂ f
48
0, 24
200
• Intervalle de confiance de p au niveau de confiance 94 % :
p(1 p) p(1 p)
a) Loi suivie par F : F NOR p ; NOR p;
n 200
b) Intervalle de centre p qui contient 94 % des valeurs de F :
2∏(a)-1=0,94
p(1 p) p(1 p)
2∏(a)=1,94 p 1, 88 F p 1, 88
200 200
∏(a)=0,97
a=1,88
p(1 p) p(1 p)
Par permutation : F 1, 88 p F 1, 88
200 200
On sait que l’on remplacera F par la valeur observée dans l’échantillon mais p est inconnue. Deux stratégies s’opposent :
- la première, très rigoureuse, utilise le fait que p(1 p) 0, 5 pour toute valeur de p entre 0 et 1 et on a alors :
0, 5 0, 5
F 1, 88 p F 1, 88
200 200
- la deuxième remplace la valeur de p par son estimation ponctuelle : c'est la méthode fréquemment utilisée
p̂(1 p̂) p̂(1 p̂)
F 1, 88 p F 1, 88
200 200
c) Intervalle de confiance de p :
0, 5 0, 5
- Premier cas : IC p;94% 0, 24 1, 88 ;0, 24 1, 88 0,175;0, 305
200 200
0, 24 0, 76 0, 24 0, 76
- Deuxième cas : IC ( p;94%) 0, 24 1,88 ; 0, 24 1,88 0,184; 0, 296
200 200
4
CHAPITRE 3 : L’ESTIMATION
Exercice 3 où il y danger : Dans une population normale, on a prélevé un échantillon de taille 300, de moyenne 51 et
d’ écart-type 9. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 95 %.
Estimation ponctuelle : m̂ x 51
Si l’échantillon est grand et si l’écart-type de la population est inconnu, on démontre que l’ on peut
utiliser l’estimation ponctuelle de cet écart-type.
̂ ̂ n 300
51 1, 96 m 51 1, 96 ̂ s 9 9, 015
300 300 n 1 299
9, 015 9, 015
51 1, 96 m 51 1, 96 IC (m;95%) 49,98;52, 02
300 300
4
CHAPITRE 3 : L’ESTIMATION
f (1 f ) f (1 f )
Calculer les bornes de l'intervalle f 1,65 ; f 1,65
100 100
Attention aux parenthèses !
J'affirme alors que 90 % des étudiants ont la valeur 0,5 dans cet intervalle et donc que 10 % n'ont pas la valeur 0,5 dans cet
intervalle.
Je demande aux 14 attendus (soit 10 % de 140) de lever la main.
Je constate que je ne suis pas loin des 14.
Remarques : je n'ai pas travaillé avec les 2100 échantillons mais avec seulement 140 (mais statistiquement, ces deux nombres sont
grands).
Définition : Je constate que 90 % des intervalles construits de cette façon contiennent la vraie valeur de p : j'ai construit un intervalle
de confiance de p avec un niveau de confiance de 90 %.
Enfin, on peut recommencer avec les 50 premiers lancers (on divise par 50) et constater que les résultats restent vrais mais
l'amplitude de l'intervalle est plus large.
L'expérience a montré que cela reste valable avec des effectifs plus petits ( on peut même descendre à 20 étudiants, en prenant un
peu de marge : entre 1 et 3 n'auront pas la vraie valeur de p dans leur intervalle).
4
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
4
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
4
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
En fait, ce médecin ne sait pas que pour un malade, ce taux suit une loi normale de paramètre 2,5 et 0,4.
Question 2 : Un patient malade se présente. quelle est alors la probabilité que le médecin le déclare non malade ?
2,2 2,5
T ' NOR 2,5;0, 4 p T ' 2,2 0, 75 1 0, 75 0,23
0, 4
En rendant sa décision, le médecin a commis une erreur dite erreur de 2° espèce notée ß : c’est la probabilité de le
déclarer pas malade alors qu’il l’est.
La puissance du test est 1-ß=77 %
4
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
H 0 : t 1,5 ; H 1 : t 2,5
En fait, si l’information initiale pour un patient non malade est correcte, l’affirmation pour un malade est sujette à
caution et d’autres affirment que pour un malade, ce taux suit alors une loi normale de paramètres 2,8 et 0,3.
Quelle est alors le risque de 2° espèce ? Quelle est la puissance du test ?
H 0 : t 1,5 ; H 1 : t 2,8
2,2 2,8
T ' NOR 2,8;0, 3 p T ' 2,2 2 1 2 0,02
0, 3
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
La personne qui m’ a donnée cette pièce sait que en fait la probabilité qu’elle tombe sur pile est 1/3.
Y est la variable aléatoire qui prend pour valeurs le nombre de fois où pile apparait sur les 100 lancers.
Quelle est la loi de Y ?
1
Y BIN 100;
3
55 33, 3 45 33, 3
p 45 Y 55 4,61 2, 48 1 0, 993 0, 007
4, 71
4, 71
Etat de la pièce
Pas truquée OK α=0,32
Truquée ß=0,007 OK
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Généralisation :
• Le risque de 1° espèce est donné par énoncé : en général 10 %, 5% ou 1%.
• L’hypothèse nulle notée H0 est celle qui permet de faire les calculs et de construire un intervalle de
décision I.
La phrase-type associée est alors : « Si H0 est vraie alors dans 90 % (ou 95 % ou 99%) des
échantillons l'indicateur statistique observé est dans I »
• Je décide :
Soit la valeur observée dans l’échantillon est dans I et j’accepte H0 ( avec un risque ....
Soit la valeur observée dans l’échantillon n’est pas dans I et je rejette H0 (avec un risque α)
En réalité, nous n'avons qu'une seule envie : celle de rejeter H0 mais parfois l'échantillon ne me permet
pas de la rejetter alors, contraint et forcé, j'accepte H0
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Ce qui est écrit n’est pas la valeur exacte: c’est une valeur promise pour la moyenne par le fabricant,
cependant, si à des fins de contrôle, un échantillon affiche une moyenne de 800 g, je ne vais pas me fâcher !
• On se souviendra que l’égalité doit se trouver dans l’hypothèse nulle.
• On se souviendra aussi que si on veut tester l’affirmation «l’écart-type est inférieur à 8», il faut entendre
«l’écart-type est significativement inférieur à 8 (au risque de ...%)»
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Cependant :
On sait qu'une moyenne est souvent un outil insuffisant et qu'il faut lui associer l'écart-type.
On travaille sur un échantillon de 30 jours et les clients n'étaient peut être pas d'humeur et un autre échantillon
aurait pu donner une autre moyenne observée que 52.
On sait que le comportement des indicateurs des échantillons est aléatoire, que l'on peut y associer des lois et
donc calculer des probabilités ( et des risques)
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
2°) Exercice 1 : Une étude a été réalisée auprès de quelques stations-services sur des pleins de 30 litres et dans l’ une d’elle, on a
réalisé 10 pleins de 30 litres et on a relevé sur ces pleins une moyenne de 29,95 litres. On sait que l’écart-type est de 0,1 litre. On sait
que le volume distribué suit une loi normale. On veut tester différentes affirmations au risque de 5%
a) Le gérant de la station service affirme que la moyenne est de 30 litres. Sur quel indicateur statistique est posée la question ?
• La question est posée sur la moyenne des pleins.
Ecrire les deux hypothèses H0 et H1.
• H0 : m=30 ; H1 : m≠30
Donner la loi suivie par cet indicateur statistique en rappelant les conditions d’application.
Le risque est 5 % et l’hypothèse alternative contient le signe ≠ donc l’intervalle est bilatéral
2∏(a)-1=0,95 donc 2∏(a)=1,95 donc ∏(a)=0,975 et a=1,96
Dans 95 % des échantillons, la moyenne observée vérifie
0,1 0,1
30 1, 96 X 30 1,96 donc 29,938 X 30,062
10 10
L’intervalle de décision est donc I=[29,938 ; 30,062]
Décision : la moyenne observée (de 29,95 l) est dans I et j’accepte H 0 avec un certain risque ß que H0 soit fausse. En fait j'accepte
H0 parce que je ne peux pas la rejetter ! 5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
2°) Exercice 1 :
b) Une association de consommateurs affirme que la moyenne est inférieure à 30 litres.
Ecrire les deux hypothèses H0 et H1.
• H0 : m<30 ; H1 : m≥30
Une difficulté apparait ici : le signe = doit se trouver dans H0
On est obligé de permuter les hypothèses :
• H0 : m≥30 ; H1 : m<30
• H0 : m=30 (et m>30) ; H1 : m<30
Le risque est 95 % et l’hypothèse alternative contient le signe < donc l’intervalle est unilatéral : il contient une borne
infinie.
Laquelle ? +∞ ou -∞
Ici, c’est +∞ car on accepte ≥
∏(a)=0,95 donc a=1,65
Dans 95 % des échantillons, la moyenne observée vérifie
0,1
30 1,65 X donc 29,947 X
10
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
d) Pour conclure
On constate que le choix de l'hypothèse nulle n'est pas sans conséquence et l' association de consommateurs pourraient
émettre l'hypothèse H0: m ≤ 29,9 et le calcul montre que H0 est acceptée (ou plus exactement, je ne peux pas la rejeter)
Le cas le plus classique est donné par l'usine de traitement de déchets radioactifs de la Hague :
Pendant de nombreuses années, cette usine a rejeté de l'eau en bas de la falaise et les riverains et les écologistes l'ont
soupçonné
de favoriser le développement de certains types de cancers (il y en avait plus dans la région que dans d'autre régions)
mais au sens statistique, la différence n'était pas significative (au risque de 1 % souvent utilisé en médecine).
Depuis, cette usine a construit un long tuyau de plus d'un kilomètre lui permettant de rejeter ses effluents beaucoup plus
loin en mer ... 5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
3°) Exercice 2 : « Ce nouveau procédé de fabrication va nous permettre de modifier la proportion d’ objets
défectueux qui est aujourd’hui de 3 % »
Sur 300 nouveaux objets testés, 10 sont défectueux. Décider au risque de 5% suivant les 3 points de vue
•le point de vue de l’installateur de la machine qui prévoit une diminution.
•le point de vue du sceptique : gestionnaire de l’entreprise qui prévoit une augmentation
•le point de vue de l’indifférent.
Sur quel indicateur statistique est posée la question ?
La question est bien posée sur une proportion de pièces défectueuses
p(1 p) 0, 03 0,97
F NOR p ; NOR 0, 03 ;
n 300
5
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
3°) Exercice 2 :
Là encore, l'écritue de l'hypothèse nulle n'est pas sans effet car tout le monde a raison (ou plus exactement, je ne
sais pas prouver que quelqu'un à tort).
Mais :
a) l'installateur connait-il vraiment les tests statistiques et qui lui permettraient de sortir de l'épineuse situation ?
Une phrase du type : «on va refaire une série car l'échantillon est vraiment mauvais» serait du plus mauvais goût
b) le gestionnaire fera-t-il confiance si l'échantillon affiche plus que promis ?
6
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
2
De même, la moyenne du deuxième échantillon suit X 2 NOR m2 ;
n2
c) Théorème 3 : la différence de 2 lois normales indépendantes est une loi normale dont la moyenne est la
différence des moyennes et la variance est la somme des variances.
Si X1 NOR(m1; 1 )
Si X2 NOR(m2 ; 2 ) 2 2
alors Y NOR m1m2 ; 1 2
Si X1 et X2 indépendantes
Si Y X1 X2
6
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
X1 X2 NOR m1 m2 ;
n1 n2
Mais on a supposé que m1-m2=0 et par simplification :
12 22
X1 X 2 NOR 0;
n 1 n2
L’intervalle est bilatéral, le risque est de 5% donc la valeur de a est 1,96 et l’intervalle de
décision est
12 22 12 22
I 0 1,96 ; 0 1,96
n 1 n2 n 1 n2
52 82 52 82
I 0 1,96 ; 0 1,96 [2,24 ; 2,24]
50 80 50 80
Interprétation : si H0 est vraie alors dans 95 % des cas, la différence des moyennes observées
dans les échantillons se trouve dans l’ intervalle de décision.
Décision : ici la différence des moyennes observées est 261-248=13 qui n’appartient pas à I.
Je rejette H0 et j’accepte H1 avec un risque inférieur à 5 % que H0 soit vraie.
6
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
n° de la copie 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
note A 13 12 10 11 10 9 8 6 8 5 3 10 9 6 10 12
note B 14 11 10 12 12 8 7 5 9 4 2 12 10 6 11 12
n° de la copie 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
note A 15 16 9 3 5 11 4 10 9 8 10 11 13 15 16 11
note B 16 18 8 4 5 10 5 8 11 11 9 12 13 15 17 12
n° de la copie 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
note A 13 12 10 11 10 9 8 6 8 5 3 10 9 6 10 12
note B 14 11 10 12 12 8 7 5 9 4 2 12 10 6 11 12
différence -1 1 0 -1 -2 1 1 1 -1 1 1 -2 -1 0 -1 0
n° de la copie 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
note A 15 16 9 3 5 11 4 10 9 8 10 11 13 15 16 11
note B 16 18 8 4 5 10 5 8 11 11 9 12 13 15 17 12
différence -1 -2 1 -1 0 1 -1 2 -2 -3 1 -1 0 0 -1 -1
6
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
∆=note A-note B -4 -3 -2 -1 0 1 2 3 4
effectifs 0 1 4 11 6 9 1 0 0