Académique Documents
Professionnel Documents
Culture Documents
Section 7 : Estimation
Table des matières page(s)
7.1 – Estimation ponctuelle 7.2 – 7.6
7.2 – Introduction au concept d’intervalle de confiance 7.7
7.3 – Intervalle de confiance bilatéral pour une moyenne µ, 7.8 – 7.10
(écart-type σ connu et échantillon prélevé avec remise)
7.4 – Intervalle de confiance bilatéral pour une moyenne µ, 7.11 – 7.12
(écart-type σ inconnu et échantillon prélevé avec remise)
7.5 – Intervalle de confiance bilatéral pour une moyenne µ lorsque 7.13 – 7.14
l’échantillon est prélevé sans remise
7.6 – Intervalle de Wald : intervalle de confiance bilatéral pour une 7.15 – 7.16
proportion π (échantillon prélevé avec remise)
7.7 – Intervalle de confiance bilatéral pour une proportion π 7.17
lorsque l’échantillon est prélevé sans remise
7.8 – Détermination d’une taille d'échantillon permettant de fixer la 7.18 – 7.20
précision d’un intervalle de confiance bilatéral et symétrique
7.9 – Intervalle de confiance unilatéral 7.21
7.10 – Exemples de calculs dans Minitab 7.22 – 7.28
Rubriques supplémentaires
7.11 – Intervalle de Clopper-Pearson pour une proportion π 7.29 – 7.32
(échantillon prélevé avec remise)
7.12 – Niveau de confiance réel d’un intervalle sur une proportion π 7.33 – 7.35
7.13 – Estimation ponctuelle d’une variance σ2 7.36 – 7.37
7.14 – Intervalle de confiance bilatéral pour une variance σ2 7.38 – 7.39
7.15 – Généralisation sur les qualités d’un «bon» estimateur 7.40
Problèmes
7.16 – Problèmes 7.41 – 7.45
7.17 – Solutions des problèmes 7.46 – 7.55
Exemple 7.1.1 :
On prélève un échantillon aléatoire simple avec remise de taille 30 et on note la
valeur que prend une certaine variable quantitative X chez chacun des 30 individus
composant l'échantillon. Soit x la valeur observée de X , la moyenne de X dans
l'échantillon, et soit µ le paramètre défini comme la moyenne de X dans la population
à partir de laquelle l'échantillon a été prélevé. Une estimation ponctuelle de µ est
donnée par x . Si, par exemple, x = 52 dans l'échantillon prélevé, alors une
estimation ponctuelle de µ est donnée par µ̂ = 52. Il s'agit là d'une approximation.
Une statistique est une fonction des n variables aléatoires X1, X2, ... , Xn
qu'engendre l'expérience aléatoire qui consiste à prélever un échantillon aléatoire de
taille n. Nous avons approfondi dans la section 6 les propriétés de ces variables
aléatoires. Un exemple de statistique peut être donné par la variable aléatoire
définie par la somme des n variables aléatoires X1+...+Xn. D'autres exemples sont
donnés par leur moyenne X , leur médiane, leur écart-type, le nombre et la
proportion de variables (parmi les n étudiées) qui prendront certaines valeurs
spécifiées, etc.
L'identification des qualités d'un «bon» estimateur est un sujet complexe dont nous
généralisons certains éléments dans la rubrique 7.15.
n E( X) = µ X est un estimateur
∑ Xi sans biais et
i =1
µ X= σ convergent de µ.
n σ( X) =
n
(voir section 6)
S2 est un estimateur
∑ (X i − X )
n 2 E(S 2 ) = σ 2
sans biais et
i =1
σ2 S2 = convergent de σ2
n −1 (voir rubrique 7.13)
n E( X) = µ X est un estimateur
∑ Xi
i =1 sans biais de µ . Il est
µ X= convergent en ce sens
n σ N − n
σ( X) = que σ( X) décroît
n N − 1
lorsque n augmente et
égale 0, lorsque n = N.
(voir section 6)
S2 est un estimateur
( ) N 2
n 2
∑ Xi − X E(S 2 ) = σ biaisé de σ2, mais le
i =1 N − 1
σ2 S =
2
biais est négligeable,
n −1
(voir rubrique 7.13). lorsque N est très
grand. Un estimateur
toujours sans biais est
N − 1 2
De plus, σ(S 2 ) = w(n) , S .
où w(n) est une fonction N
décroissante en n et telle Ce dernier estimateur
que w(n) = 0, lorsque n = N. est convergent en ce
sens que son écart-
type décroît lorsque n
augmente et égale 0,
lorsque n = N.
X1 + ... + X n Y
Dans ce contexte, X = = = proportion de «succès» dans l’échantillon.
n n
L’espérance et l’écart-type de X se déduisent de l’espérance et l’écart-type de Y :
1 1
E( X) = E( Y ) et σ( X) = σ( Y ) .
n n
E(Y) = n π σ( Y ) = n π (1 − π) N−n
σ( Y ) = n π (1 − π)
N −1
E( X ) = π π (1 − π π (1 − π) N − n
σ( X) = σ( X) =
(tirage avec remise ou n n N −1
tirage sans remise) (tirage avec remise) (tirage sans remise)
On peut donc conclure que X = Y/n est un estimateur sans biais et convergent de π.
(
Dans un contexte où X ∼ N µ X = µ ; σ X = σ )
n , les 1er et 99e centiles de X sont :
Un intervalle bilatéral de valeurs plausible pour la moyenne µ est alors donné par
l’intervalle [µ1 ; µ2] où µ1 est telle que la valeur observée x correspond au 99e
centile de X , c’est-à-dire x = µ1 + ( z 0,01 σ X ) , et µ2 est telle que x correspond au 1er
Visualisation du problème :
(
Dans un contexte permettant de poser X ∼ N µ X = µ ; σ X = σ )
n , on cherche un
σ σ
N µ1 ; N µ 2 ;
n < ∆ >< ∆ > n
α/2 α/2
µ
µ1 x µ2
Contexte d’utilisation:
1) L’échantillon examiné est un échantillon aléatoire simple prélevé avec remise.
2) La variable étudiée, notée X, se distribue selon une loi normale dans la
population de référence ou la taille n de l'échantillon est suffisamment grande
pour que le théorème central limite s'applique.
σ
Dans un tel contexte, la distribution de X est donnée par la loi N µ X = µ ; σ X = .
n
Forme de l'intervalle :
[µ1 ; µ2] = [ x − ∆ ; x + ∆], où x = valeur observée de la moyenne de l'échantillon (ou
σ
moyenne expérimentale) utilisée pour estimer µ et ∆ = z α / 2 .
n
Précision ou marge d’erreur
Lorsque l’intervalle bilatéral est symétrique, comme c’est le cas ici par rapport à
l’estimation x , la quantité ∆ se nomme souvent précision ou marge d'erreur de
l'estimation. Sa valeur dépend de la taille n de l'échantillon, de l'écart-type σ de la
variable X (la variable étudiée) dans la population de référence et du niveau de
confiance 1−α qui est utilisé.
−α:
Signification du niveau de confiance 1−
De façon générale, le niveau de confiance d'un intervalle représente la proportion
des échantillons possibles pour lesquels le paramètre à estimer appartient à
l'intervalle de confiance. Les valeurs usuelles de α sont 0,10 ; 0,05 ou 0,01. En
d'autres mots, les niveaux de confiance sont habituellement 90%, 95% ou 99%.
L'interprétation usuelle d'un niveau de confiance, par exemple 95%, est que «la
technique utilisée définit un intervalle contenant le paramètre à estimer dans 95%
des cas».
Lorsqu'une enquête permet d'estimer µ par un intervalle de la forme [ x − ∆ ; x + ∆],
l'interprétation du niveau de confiance 95%, qui est souvent formulée dans les
journaux, est : «la marge d'erreur d'une enquête de ce type est ∆, 19 fois sur 20».
( ) (
On cherche ∆ tel que 1 − α = P | X − µ | ≤ ∆ = P µ − ∆ ≤ X ≤ µ + ∆ . )
σ
On obtient ∆ = z α / 2 . (voir la rubrique sur les quantiles d'une loi normale)
n
loi de X
f(x)
1−α
α/2 α/2
x
µ−∆ µ µ+∆
σ
∆ = z α / 2 σ X = z α / 2
n
Présentation du problème :
σ
La mise en pratique de l'intervalle de confiance [ x − ∆ ; x + ∆], où ∆ = z α / 2 , est
n
problématique car elle exige la connaissance de la valeur de σ.
Comment estimer σ ?
Une façon de contourner le problème est de trouver un estimateur de σ.
Pour cela, on peut utiliser le résultat démontré dans la rubrique 7.13 à l'effet que
∑ (X i − X)
n 2
i =1
S2 = est un estimateur sans biais de σ2 .
n −1
Voilà pourquoi, lorsque σ est inconnu, on peut estimer ponctuellement σ X par
X . Dans Minitab, cette quantité est nommée «standard error» et notée «S. E.».
s
σˆ X = s n , on obtient un nouvel intervalle [ x − ∆ ; x + ∆], où ∆ = z α / 2 . Rien
n
toutefois ne nous garantit qu'il s'agit d'un intervalle valide. C'est à ce problème que
s'est attaqué au début du siècle le statisticien anglais Gosset qui publiait sous le
pseudonyme de "Student". Plus spécifiquement, Gosset identifia un contexte pour
X−µ
lequel il est possible de déterminer la distribution exacte de et les propriétés
S n
de cette distribution qui fut baptisée la loi de "Student".
Résultat de Gosset :
Soit X1, X2, ... , Xn, les n variables aléatoires indépendantes et identiquement
distribuées qu'engendre l'expérience aléatoire qui consiste à prélever avec remise un
échantillon aléatoire simple de n valeurs d'une variable quantitative X.
X−µ
Si X ∼ N(µ; σ) dans la population de référence, la distribution de est donnée
S n
Rappel :
Nous avons vu dans la section 6 que, lorsqu'on prélève un échantillon aléatoire
simple sans remise de n valeurs d'une variable quantitative X dont la moyenne et
l'écart-type dans la population de référence sont respectivement µ et σ,
σ N−n
σ( X) = .
n N −1
C'est donc dire que l'écart-type de l'estimateur X est plus petit et que, par
conséquent, on pourrait, pour un même niveau de confiance, obtenir une estimation
de µ par un intervalle plus précis (plus court) que lorsqu'on prélève l'échantillon avec
remise.
Très souvent, la taille N de la population peut être considérée comme infinie. Dans
un tel cas, σ( X ) → σ / n . On peut alors considérer qu'il n'est pas nécessaire de
distinguer le cas sans remise du cas avec remise et on peut utiliser directement les
techniques d'estimation présentées précédemment pour le cas avec remise.
σ N−n
Si σ est connu, l'intervalle [ x − ∆ ; x + ∆], où ∆ = z α / 2 , peut être utilisé.
n N −1
Si σ n'est pas connu, il faut l'estimer ponctuellement. Pour ce faire, il faut considérer
N − 1 2
que, dans le cas sans remise, un estimateur sans biais de σ2 est S .
N
S2 N − n
On en déduit qu'un estimateur sans biais de Var( X ) est donné par : et
n N
s N−n
on obtient un intervalle de la forme [ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 .
n N
Il est à noter que la différence entre cet intervalle et celui utilisé avec un prélèvement
avec remise tient essentiellement à la valeur de (N − n) / N = 1 − (n / N) . En théorie
Remarques additionnelles:
1) Tout comme dans le cas avec remise, l'utilisation pour des échantillons de petite
taille des intervalles de confiance qui précèdent ne peut se faire qu'à condition
que la distribution de la variable étudiée dans la population de référence puisse
être approchée par une loi normale.
Description de la problématique
Soit Y = X1 + ... + Xn, la variable aléatoire qui représente le nombre total de «succès»
dans un échantillon aléatoire simple prélevé avec remise. La variable aléatoire
X = Y/n représente la «proportion de succès» dans l’échantillon.
La loi de Y est connue : Y obéit à la loi B(n; π). Dans la section 6, nous avons vu que
pour n suffisamment grand et π ni trop petit, ni trop grand, on peut approcher la loi
B(n; π) par la loi N(µY = nπ; σY = n π(1 − π) ) . Dans un tel contexte, la distribution de
conditions sont ainsi réunies pour que l'approximation par la loi normale de la
distribution de X soit performante, on peut considérer que le problème de la
construction d'un intervalle de confiance pour π est un cas particulier de celui de la
construction d’un intervalle de confiance pour une moyenne µ. Il suffit d’utiliser
π(1 − π)
On obtient ainsi l’intervalle [ x − ∆ ; x + ∆] , où ∆ = z α / 2 .
n
Le hic avec la formule qui précède est que ∆ fait intervenir le paramètre π qui
est à estimer. La solution présentée dans cette rubrique consiste à tout simplement
remplacer π(1 − π) n par x (1 − x ) n.
Description de l’intervalle
x (1 − x )
[ x − ∆ ; x + ∆], où ∆ = z α / 2 .
n
Limites de la méthode
L’intervalle qui précède résultant d'une succession d'approximations, il est peu
probable que son niveau de confiance réel soit égal à 1−α. Il est donc préférable de
considérer qu'il ne vaut qu’approximativement 1−α.
Nous présentons dans la rubrique 7.11, une méthode qui n'utilise pas l'approximation
par la loi normale. Elle se base plutôt sur la loi exacte de Y, c'est-à-dire la loi B(n; π).
Elle induit habituellement un intervalle de confiance bilatéral un peu plus long que
celui obtenu par la méthode qui précède et son niveau de confiance réel est toujours
≥ 1 − α . Cette deuxième méthode a l'avantage de pouvoir s'appliquer peu importe
les valeurs de n et de π. Elle est toutefois beaucoup plus complexe et difficile
d'usage sans l'outil informatique.
Discussion
Considérons un échantillon aléatoire simple de taille n prélevé sans remise dans une
population de taille N. L’écart-type de la proportion X de «succès» dans l’échantillon
est alors plus petit que si l’échantillon est prélevé avec remise :
π (1 − π) N − n π(1 − π)
N −1 ≤ .
n n
Lorsque la taille N de la population est tellement grande qu'elle peut être considérée
comme tendant vers l'infini, il n'est pas vraiment nécessaire de distinguer entre les 2
types de prélèvements et on peut raisonner avec le modèle mathématique qui est le
plus simple soit celui qui correspond au prélèvement avec remise.
Lorsque la taille N de la population est très grande et que le taux de sondage n/N est
faible, c'est-à-dire lorsque n <<< N,
π (1 − π) N − n π(1 − π)
(N − n) (N − 1) → 1 et σ( X) =
N −1 ≅ .
n n
Voilà pourquoi, on peut utiliser l’intervalle présenté dans la rubrique qui précède pour
estimer π. Une autre justification est que cet intervalle de confiance construit à partir
du modèle avec remise est sans doute plus long que l'intervalle plus exact qui
tiendrait compte que le prélèvement se fait sans remise.
Lorsqu'une telle approche n'est pas satisfaisante parce que trop imprécise, ce qui
peut se produire lorsque le taux de sondage est important ou lorsque la taille de la
population est petite, il faut recourir à d'autres méthodes que nous n'aborderons pas
dans ce texte d'introduction.
Présentation du problème :
Une question souvent posée est: comment fixer la taille de l'échantillon à prélever? Il
s'agit là d'une question fort complexe dont la réponse, quand elle existe, dépend de
l'objectif poursuivi. Nous présentons dans cette rubrique des situations pour
lesquelles il est possible de déterminer la taille d'échantillon nécessaire afin de
pouvoir estimer une moyenne µ, ou une proportion π de «succès», à l'aide d'un
intervalle de confiance bilatéral et symétrique de la forme [ x − ∆ ; x + ∆] , de niveau
de confiance 1−α , dont la précision ∆ est inférieure ou égale à un maximum fixé.
Remarque :
Souvent on ne connaît pas la valeur exacte de σ, mais on est capable d’identifier une
valeur que cet écart-type ne peut pas dépasser, c’est-à-dire une quantité σ* telle que
σ ≤ σ*. Dans une telle situation, on peut obtenir une approximation de la taille
minimale d’échantillon nécessaire en remplaçant σ par σ* dans la formule qui
précède.
Exemple 7.8.1:
Supposons que l’écart-type σ du revenu annuel dans une certaine population est
égale à 12 000$. Déterminons la taille d’échantillon qu’il faut prélever afin de pouvoir
estimer le revenu annuel moyen avec une précision de 1 000$ (ou moins) au niveau
de confiance 95%.
En supposant que la valeur de n que nous calculerons est suffisamment grande pour
que le théorème central limite s’applique, il suffit de résoudre
zα / 2 σ z 0,025 12 000
n≥ ⇔ n≥ .
e 1 000
Une limite des techniques d'estimation par intervalles de confiance d’une proportion
π est qu'elles exigent l'examen de très grands échantillons pour donner des résultats
précis. Il n'y a malheureusement pas de façons de contourner cette difficulté.
Le problème peut se poser comme suit : à partir de quelle taille d'échantillon, peut-on
être assuré qu'un intervalle de niveau de confiance 1−α de la forme [ x − ∆ ; x + ∆]
soit tel que ∆ ≤ e, où e est la marge d'erreur maximale désirée?
π(1 − π)
On cherche donc n tel que ∆ = z α / 2 ≤ e.
n
Or : π(1−π) ≤ 0,25 ; ce que le lecteur peut vérifier avec diverses valeurs de π.
0,25
D'où : si n est tel que z α / 2 ≤ e , alors ∆ ≤ e.
n
2
z z
On obtient : n ≥ α / 2 et n ≥ α / 2 .
2e 2e
Exemple 7.8.2:
Lors d'un sondage sur les intentions de vote, combien d'électeurs doit-on sonder
pour pouvoir estimer à ± 3% la proportion de l'électorat qui a l'intention de voter pour
le parti au pouvoir, au niveau de confiance 95%?
2 2
z 1,96
On obtient : n ≥ α / 2 = = 1067,1 . Il faut interroger au moins 1068
2e 0,06
électeurs.
Exemple 7.8.3:
Les journaux publient souvent des résultats de sondage mené auprès d'environ 1000
personnes. Au niveau de confiance 95%, la marge d'erreur maximale pour estimer
Les contextes d’utilisation sont les mêmes que pour les intervalles de confiance
bilatéraux décrits aux rubriques 7.3 et 7.4.
Fichier utilisé :
Dans les exemples qui suivent, la variable étudiée est la variable «Price» contenue
dans la colonne c1 du fichier «Homes.MTW» que nous avons exploré maintes fois
dans le cours de Statistique descriptive [voir, entre autres, le chapitre un du manuel
Statistique descriptive, par Bélisle(1999)]. Pour que les calculs qui suivent aient un
sens, nous supposons que l'échantillon de 150 maisons qui est examiné est un
échantillon aléatoire simple qui a été prélevé à partir d'une population très vaste. De
cette façon, les formules déduites du cas avec remise s'appliquent à cet échantillon
qui a sans doute été prélevé sans remise.
n x s s n
Data Display
Remarque :
Étant donné que z0,025 = 1,9600 et t149; 0,025 = 1,9760 . L'intervalle utilisant
s
∆ = zα / 2 , est un peu plus court que celui qui précède. On peut l'obtenir par le
n
σ
menu «Stat >Basic Statistics > 1-Sample Z...», qui utilise ∆ = z α / 2 pour la valeur
n
de σ que l'utilisateur précise dans la fenêtre «sigma». Il suffit d’inscrire la valeur de
s, c’est-à-dire 41 611, dans la fenêtre «Sigma». La même opération peut être faite
en utilisant la commande : MTB > ZInterval 95 41611 c1.
Z Confidence Intervals
Sum of C6 = 54,000
MTB > mean c6 Column Mean
Mean of C6 = 0,36000
Remarque
Si, dans les options du menu «Stat >Basic Statistics >1 Proportion...», on ne
sélectionne pas le choix «Use test and interval based on normal distribution»,ou si,
dans la fenêtre de session, on n’inscrit pas la sous-commande «Use Z»; l’intervalle
de confiance ne se construit pas selon la méthode de Wald. Il s’agit plutôt d’un
intervalle de Clopper-Pearson (voir la rubrique supplémentaire 7.11).
Introduction
Contrairement à l'intervalle de Wald, l'intervalle de Clopper-Pearson peut être utilisé
pour toute valeur de n et de π. Plusieurs le qualifient d'exact mais cela n'est pas
vraiment le cas car son niveau de confiance réel est toujours plus grand ou égal à la
valeur 1−α utilisée pour le construire1, ce que nous illustrons dans la rubrique 7.12.
L’appelation «exacte» provient du fait que la construction de cet intervalle fait
intervenir la loi exacte de Y = n X = nombre de «succès» dans l’échantillon, c’est-à-
dire la loi binomiale.
Principe de construction de l’intervalle.
Procédons à une analogie. Dans la rubrique 7.3, nous avons expliqué que la
construction d’un intervalle de confiance [µ1 ; µ2] pour µ; de niveau de confiance
1 − α, revient à chercher la valeur µ1 de la moyenne de la population pour laquelle
P( X ≥ x ) = α/2, et la valeur µ2 de la moyenne de la population pour laquelle
P( X ≤ x ) = α/2, où x est la valeur prise par la variable X dans l’échantillon prélevé.
1
Voir, entre autres, l'article de Alan AGRESTI et Brent A. COULL, "Approximate is Better than
«Exact» for Interval Estimation of Binomial Proportions", The American Statistician, Mai 1998, Vol. 52,
No. 2, pp. 119-126.
Difficultés
1) Il est théoriquement possible d’observer aucun «succès» dans un échantillon, ce
qui complique la détermination de la valeur de π1 puisque P(Y ≥ 0) = 1, pour
toute valeur de π.
2) Il est théoriquement possible de n’observer que des «succès» dans l’échantillon,
ce qui complique la détermination de la valeur de π2 puisque P(Y ≤ n) = 1, pour
toute valeur de π.
Pour contourner ces difficultés, on peut raisonner comme suit. Étant donné que la
plus petite valeur de π est 0, on pose π1 = 0 lorsque Y prend la valeur y = 0 dans
l’échantillon. . Étant donné que la plus grande valeur de π est 1, on pose π2 = 1
lorsque Y prend la valeur y = n dans l’échantillon.
Exemple 7.11.1
Examinons l’intervalle de confiance de Clopper-Pearson que l’on obtient au niveau
de confiance 95%, lorsqu’on observe 34 «succès» dans un échantillon de taille n =
80.
Test and Confidence Interval for One Proportion
Test of p = 0,5 vs p not = 0,5
Exact
Sample X N Sample p 95,0 % CI P-Value
1 34 80 0,425000 (0,315110; 0,540611) 0,219
Le tableau qui suit contient des calculs effectués dans Minitab. Il permet de vérifier
que, lorsque Y ∼ B(n=80; π) et y = 34, il faut que π = 0,3151 pour que P(Y ≥ y) =
0,025 . De même, il faut que π = 0,5406 pour que P(Y≤ y) = 0,025.
Les formules qui suivent se déduisent de cette relation. Dans celles-ci, la quantité y
représente le nombre de «succès» observé dans l'échantillon et n est la taille de
celui-ci.
y f2 y,2(n − y +1); 1− α / 2 ( y + 1) f 2( y + 1),2(n − y ); α / 2
π1 = et π 2 = .
(n − y + 1) + y f 2 y, 2(n − y +1) ; 1− α / 2 (n − y ) + ( y + 1) f2( y +1), 2(n − y ) ; α / 2
Exemple 7.11.2:
Examinons de nouveau les données de l’exemple 7.11.1. Pour n =80 et y =34, les
bornes de l'intervalle de Clopper-Pearson, de niveau de confiance 95%, sont :
34 f 68, 94 ; 0,975 34 × 0,6360
π1 = = = 0,3151 et
47 + 34 f68, 94 ; 0,975 47 + (34 × 0,6360)
Illustrons les calculs du tableau précédent pour une valeur de π, par exemple 0,35.
L'examen du premier tableau révèle que ce n'est que pour Y = 1, 2, 3, 4, 5, 6, 7, que
l'intervalle contient la valeur π = 0,35. La probabilité P(1 ≤ Y ≤ 7) donne donc la
probabilité d’obtenir une valeur de Y ∼ B(n=10; π) telle que l’intervalle recouvre
π = 0,35. Cette probabilité correspond au niveau de confiance réel lorsque π =
0,35; ou encore à la proportion des échantillons (lorsque π = 0,35) pour lesquels le
paramètre étudié appartient à l'intervalle de confiance que détermine la méthode de
Clopper-Pearson.
Le tableau qui suit refait le même type de calculs dans le cas n =100. Il permet de
comparer les niveaux de confiance réels des intervalles obtenus selon les 2
techniques étudiées dans cette section. Il se base sur le tableau fourni en page
suivante. Nous nous contentons d'examiner des valeurs de π ≤ 0,5 étant donné que,
comme l'illustre bien le tableau qui précède, les niveaux de confiance réels pour des
valeurs de π > 0,5 peuvent se déduire de ceux obtenus pour des valeurs < 0,5 .
Introduction.
Dans cette rubrique, nous expliquons pourquoi l'estimateur usuel de la variance σ2
est
∑ (X i − X) ∑ (X i − X)
n 2 n 2
i =1 i =1
S2 = plutôt que . Comme nous l'avons vu en statistique
n −1 n
descriptive, on nomme souvent la valeur s2 prise par S2, la variance corrigée de
l'échantillon, pour bien signaler que le diviseur est (n−1) plutôt que n. Comme nous
le verrons dans les lignes qui suivent, c'est afin d'obtenir un estimateur sans biais de
σ2 que le diviseur est (n−1).
Résumé de la théorie.
Soient X1, X2, ... , Xn les n variables aléatoires engendrées par l'expérience aléatoire
qui consiste à prélever un échantillon aléatoire simple de taille n afin de caractériser
la distribution d'une variable quantitative X dans une population. Soit µ et σ2, la
moyenne et la variance de X dans cette population de référence.
n
∑ Xi
( )2 .
i =1 n
Soit X = et W = ∑ X i − X
n i =1
N 2
E(W) = (n − 1) σ , si le prélèvement se fait sans remise.
N − 1
On en déduit que :
W
E = σ2, si le prélèvement se fait avec remise, par contre
(n − 1)
W N 2
E = σ , si le prélèvement est sans remise.
(n − 1) N − 1
∑ (X i − X)
n 2
W i =1
S2 = = est donc un estimateur sans biais de σ2 lorsque
(n − 1) n −1
l'échantillon aléatoire simple est prélevé avec remise.
Lorsque l'échantillon aléatoire simple est prélevé sans remise, l'estimateur sans biais
N − 1 2
de σ2 est S .
N
( )2 .
n
W = ∑ Xi − X
i =1
( )2 ( )2
n n
1) Soit a un nombre réel quelconque. ∑ (X i − a )2 = ∑ X i − X + n X − a .
i =1 i =1
n
2) En posant a = µ, on obtient : W = ∑ (X i − µ )2 − n X − µ ( )2
i =1
n
( )2 = ∑ Var( Xi )
n
3) E(W) = ∑ E (X i − µ )2 − n E X − µ − n Var ( X) = n σ 2 − n Var ( X) .
i =1 i =1
4) Pour un prélèvement avec remise,
σ2
E(W) = n σ 2 − n = (n − 1) σ 2 .
n
5) Pour un prélèvement sans remise,
σ2 N − n n(N − 1) − (N − n) 2 N 2
E(W) = n σ 2 − n σ = (n − 1) σ .
n N − 1
=
(N − 1) N − 1
∑ (Xi − X)
n n 2
∑ Xi
i =1 i =1
Soit X = et S 2 = .
n n −1
Théorème 1 : X et S2 sont deux variables aléatoires indépendantes.
X−µ
Théorème 2 : ∼ N(0; 1) . (Résultat déjà présenté dans la section 6)
σ/ n
(n − 1) S 2
Théorème 3 : ∼ χ n−
2
1 .
σ 2
X−µ
Théorème 4: ∼ Tn-1 . (Résultat déjà présenté dans la rubrique 7.4)
S/ n
Exemple 7.14.1
Un échantillon aléatoire simple prélevé avec remise de taille n =20 est examiné. On
y calcule l'écart-type corrigé s d'une variable X et on obtient s = 8,32. Sachant que la
distribution de la variable X dans la population de référence peut être approchée par
une loi normale, estimons sa variance σ2 et son écart-type σ par un intervalle de
confiance, de niveau de confiance 90%.
quantiles d'ordre 0,05 et 0,95 sont respectivement 10,1170 et 30,1435 (nous avons
utilisé le menu «Calc >Probability Distributions >Chi Square...» pour obtenir ces
valeurs).
19 × (8,32) 2 19 × (8,32)2
σ2 ∈ ; = [ 43,6321 ;130,0015]
30,1435 10,1170
19 × (8,32) 2 19 × (8,32) 2
σ∈ ; = [ 6,61 ; 11,40 ]
30,1435 10,1170
Soient X1, X2, ... , Xn les n variables aléatoires engendrées par l'expérience aléatoire
qui consiste à prélever un échantillon aléatoire simple de taille n afin de caractériser
la distribution d'une variable quantitative X dans une population.
Soit θ̂ , l'estimateur de θ à étudier. θ̂ = h(X1, X2, ... , Xn) est une variable aléatoire.
lim σ(θˆ ) = 0 . (Dans le cas d'un prélèvement sans remise, σ(θˆ ) = 0 lorsque n = N)
n→∞
Si on a le choix entre deux estimateurs sans biais de θ, on devrait choisir celui ayant
le plus petit écart-type.
7.16 – PROBLÈMES
Dans quel contexte peut-on utiliser un tel intervalle et que vaut son niveau de
confiance?
276 personnes choisies au hasard dans la clientèle très importante d’un grand
magasin ont répondu à un questionnaire permettant de dresser leur profil. Une des
questions portait sur le montant total X des achats (avant taxes) que chacune des
personnes interrogées avaient effectués lors de leur dernière visite au magasin. Afin
de faciliter la collecte des données, les répondants devaient cocher une des classes
présentées dans le tableau ci-dessous.
Montant total des achats (en $) Nombre de
lors de la dernière visite réponses
0 40
(0, 50) 76
[50, 100) 57
[100, 150) 32
[150, 200) 21
[200, 300) 12
[300, 500) 17
[500, 1000) 7
[1000, 2000) 3
Nombre total de réponses obtenues 265
Nombre de données manquantes 11
Nombre de répondants 276
b) Utiliser l’ensemble des 279 données disponibles pour estimer le nombre moyen
de jours de travail perdus à cause de douleurs au bas du dos et le coût moyen
du traitement. Utiliser des intervalles de confiance bilatéraux, de niveau de
confiance 95%.
a) Estimer ponctuellement π.
b) Expliquer pourquoi on peut estimer π par un intervalle de confiance utilisant
l’approximation de la loi binomiale par la loi normale (intervalle de Wald).
c) Procéder à l’estimation décrite en b) en utilisant un intervalle bilatéral de niveau
de confiance 95%.
d) Comparer l’estimation obtenue en c) à celle donnée par un intervalle de Clopper-
Pearson de même niveau de confiance.
e) L’intervalle construit en d) est-il symétrique? Que signifie le fait qu’il soit plus long
et englobe celui construit en c)?
Fichier : Homes.mtw
MTB > TInterval 99 c2
T Confidence Intervals
s 0,180 × 15
∆ = 0,180 = 2,1448 ⇒s= = 0,325.
15 2,1448
La réponse est donc x = 8,740 et s = 0,325.
b) Même si la variable étudiée ne se distribue pas selon une loi normale dans la
population de référence, le nombre n = 265 de réponses obtenues est
suffisamment grand pour qu’on puisse utiliser un intervalle de Student :
s s
[ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 = t 264 ; 0,025 .
n 265
Calcul de t 264 ; 0,025 MTB > InvCDF 0,975 k3; Data Display
SUBC > T 264.
Calcul de ∆ MTB > let k4 = k3*k2/sqrt(265) K3 1,96899
Calcul de la borne inférieure MTB > let k5 = k1-k4 K4 25,1996
Calcul de la borne supérieure MTB > let k6 = k1+k4 K5 100,838
Impression des résultats MTB > print k3-k6 K6 151,237
c) Soit Y = le total des ventes (en $) pour une journée où 4 215 clients visitent le
magasin. Y = X1+...+X4215, où X i = total des achats du ième client.
µY = E(Y) = 4 215 µX, où X est la variable pour laquelle on a procédé à des
estimations en a) et b). La question posée revient donc à calculer un intervalle de
confiance unilatéral ne contenant qu’une borne inférieure pour µY = 4 215 µX . Il
suffit de résoudre ce problème pour µX et de multiplier ensuite la borne inférieure
obtenue par 4 215. Au niveau de confiance 95%, la borne inférieure de
s
l’intervalle unilatéral pour µX est : x − ∆*, où ∆* = t 264 ; 0,05 .
265
Calcul de t 264 ; 0,05 MTB > InvCDF 0,95 k7; Data Display
SUBC > T 264.
Calcul de ∆* MTB > let k8 = k7*k2/sqrt(265) K7 1,65065
Calcul de la borne inférieure MTB > let k9 = k1-k8 K8 21,1254
de l’intervalle unilatéral pour µX K9 104,912
Calcul de la borne inférieure MTB > let k10 = 4215*k9 K10 442206
de l’intervalle unilatéral pour µY
Impression des résultats MTB > print k7-k10
a) Population de référence : ensemble des personnes qui sont soignées pour des
douleurs au bas du dos. (Le fichier décrit certaines caractéristiques d’un
échantillon de 279 de ces personnes.)
Variables étudiées :
Gender = sexe de la personne;
Age = âge de la personne;
LostDays = nombre de journées de travail perdues à cause des douleurs;
Cost = coût du traitement.
T Confidence Intervals
c)
À partir de la ligne 165, il semble y avoir eu C1-T C2 C3 C4
↓ Gender Age LostDays Cost
une erreur dans la compilation des valeurs 160 Male 19 1 908
observées de la variable Cost. À partir de 161 Female 23 0 188
162 Male 43 0 132
cette ligne, Cost = LostDays, ce qui est 163 Male 49 7 941
évidemment erroné. Il vaut donc mieux se 164 Male 30 2 144
165 Female 45 1 1
restreindre aux 164 premières lignes, pour 166 Female 26 1 1
167 Female 74 1 1
étudier la variable Y = Cost. L’intervalle de
168 Male 42 4 4
confiance bilatéral à 95% pour µY est 169 Female 31 60 60
170 Male 52 1 1
[573,7 $; 743,2$] . 171 Male 32 1 1
172 Male 33 0 0
Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean
LostDays 279 3,939 1,000 1,896 14,113 0,845
Cost 279 388,4 166,0 321,5 530,6 31,8
X1 164 4,33 0,00 1,83 17,20 1,34
Y1 164 658,5 556,0 605,1 549,6 42,9
X2 115 3,383 1,000 2,049 7,899 0,737
Y2 115 3,383 1,000 2,049 7,899 0,737
T Confidence Intervals
Variable N Mean StDev SE Mean 95,0 % CI
LostDays 279 3,939 14,113 0,845 (2,276; 5,602)
Cost 279 388,4 530,6 31,8 (325,9; 451,0)
X1 164 4,33 17,20 1,34 ( 1,68; 6,98)
Y1 164 658,5 549,6 42,9 (573,7; 743,2)
X2 115 3,383 7,899 0,737 (1,923; 4,842)
Y2 115 3,383 7,899 0,737 (1,923; 4,842)
x (1 − x )
[ x − ∆ ; x + ∆], où ∆ = z 0,005 .
266
L’intervalle de confiance pour π est [0,4665; 0,6238] .
MTB > POne 266 145;
SUBC> Confidence 99;
SUBC> UseZ.
0,25 z 0,005
Si n est tel que z 0,005 ≤ 0,05 , c’est-à-dire si n ≥ , alors ∆ ≤ e.
n 2 × 0,05
Il faut obtenir au moins 664 réponses. Le taux maximal de non réponse étant 4%,
il faut que le nombre n* de répondants soit tel que n* ≥ 664/0,96 = 691,67. Il faut
donc recruter au moins 692 répondants.
Exact
Variable X N Sample p 95,0 % CI P-Value
Indic 90 150 0,600000 (0,516931; 0,679037) 0,018
e) Non, l’intervalle construit en d) n’est pas symétrique. Le fait qu’il soit plus long et
englobe celui construit en c) signifie que son niveau de confiance réel (qui est
plus grand ou égal à 95%) est plus élevé que celui de l’intervalle construit en c).
Tabulated Statistics
Rows: CodePrix Columns: Baths
1 24 4 4 0 0 0 0 32
75,00 12,50 12,50 -- -- -- -- 100,00
2 14 18 21 18 7 0 0 78
17,95 23,08 26,92 23,08 8,97 -- -- 100,00
3 0 4 4 25 3 3 1 40
-- 10,00 10,00 62,50 7,50 7,50 2,50 100,00
All 38 26 29 43 10 3 1 150
25,33 17,33 19,33 28,67 6,67 2,00 0,67 100,00
Cell Contents --
Count
% of Row
Le tableau ci-dessus révèle que, parmi les 150 maisons de l’échantillon total, il y en a
38 avec une seule salle de bain.
Parmi les 32 maisons dont le prix de vente est inférieur à 125 000$, il y en a 24 avec
une seule salle de bain; parmi les 78 dont le prix de vente est dans l’intervalle
[125 000$; 175 000$), il y en 14 avec une seule salle de bain; parmi les 40 dont le
prix de vente est supérieur ou égal à 175 000$, il n’y en a aucune avec une seule
salle de bain.
Des estimations ponctuelles de π, π1, π2 et π3 sont donc respectivement données
par : 38/150 = 0,2533; 24/32 = 0,7500; 14/78 = 0,1795 et 0/40 = 0,0000.
b) Les tailles des sous-échantillons (32, 78 et 40) n’étant pas très grandes et
certaines des proportions étudiées semblant très petites, il ne faut pas utiliser une
méthode utilisant une approximation de la loi binomiale par une loi normale. Il
vaut donc mieux procéder aux estimations demandées en utilisant des intervalles
de Clopper-Pearson.
Exact
Sample X N Sample p 90,0 % CI P-Value
1 21 98 0,214286 (0,148312; 0,293711) 0,000