Académique Documents
Professionnel Documents
Culture Documents
[ Estimation]
4 Estimation
Nous avons maintenant les bases théoriques pour aborder quelques techniques d’inférence sta-
tistique.
L’inférence statistique consiste à tirer des conclusions sur une population à partir de résultats
observés dans un échantillon représentatif de la population.
Les trois derniers chapitres sont consacrés à trois différents types d’inférence en statistique:
l’estimation,
la régression linéaire.
Paramètres d’une
population de taille N Mesures dans un
échantillon de taille n
µ x̄
σ2 s2
p p̂
Dans ce chapitre, nous présenterons comment, par exemple, on peut utiliser les informations
obtenues dans un échantillon : n, x̄ et s2 , pour avoir une meilleure connaissance de la vraie
moyenne inconnue dans la population, soit µ.
Il existe différentes méthodes d’échantillonnage qui chacune entraîne différentes méthodes d’esti-
mation. Dans le cadre du cours nous allons considérer deux contextes de sélection de l’échantillon,
basés sur le tirage aléatoire simple.
Dans ce contexte, la probabilité pour une unité statistique de la population de faire partie
de l’échantillon change à chaque fois qu’une unité statistique est sélectionnée. Il y a ici
dépendance entre chaque tirage. Un facteur de correction devra alors être appliqué.
4.1 · Estimation d’une moyenne 123
Dans la version du théorème limite central présentée au chapitre 3, les n variables aléatoires
X1 , X2 , . . . , Xn sont supposées indépendantes et sélectionnées avec remise. Sous ces condi-
tions le théorème stipule que
2 ‡2
X̄ ¥ N (µX̄ = µ, ‡X̄ = )
n
où µ est la moyenne des Xi et ‡ 2 leur variance, et ce si n est suffisamment grand (n Ø 30).
Lorsque l’on connaît la taille de la population N , et que les unités statistiques ont été sélectionnées
sans remise, le calcul de ‡X̄ 2 doit être ajusté en le multipliant par un facteur de correction:
N ≠n
.
N ≠1
2
2 = ‡ · N ≠n lorsque l’échantillon est sélectionné sans remise et que la taille
Autrement dit, ‡X̄ n N ≠1
de la population n’est pas assez grande.
Remarques:
1. Puisque N 2
N ≠1 Æ 1, appliquer le facteur de correction réduit la variance de X̄, (‡X̄ ). Ce qui
≠n
2. On peut se demander pourquoi le fait d’avoir une population infinie est équivalant à un
tirage avec remise:
i. Si la taille de la population est très grande par rapport à la taille de l’échantillon, les
probabilités d’être sélectionné sont très proches d’un tirage à l’autre, même si le tirage
est sans remise.
ii. Lorsque N est beaucoup plus grand que n, le facteur de correction tend vers 1. Il est
donc moins important d’appliquer celui-ci.
4.1 · Estimation d’une moyenne 124
Distribution de X̄
où
µX̄ = µ
et
Y 2
_
_
‡
si population infinie (si N Ø 20 · n)
_ n
_
] ou tirage avec remise
2
‡X̄ =
_
_ ‡2
_
[ n ·
_
N ≠n
N ≠1 si population finie (si N < 20 · n)
et tirage sans remise
Une entreprise produit des fils de cuivre pour lesquels le courant électrique moyen est µ = 4.5
mA avec un écart-type ‡ = 0.25 mA.
a. Nous pigeons avec remise un échantillon de 75 fils de cuivre. Quelle est la probabilité que
la moyenne des courants électriques des 75 fils soit supérieure à 4.55 mA ?
b. Si nous savons que l’inventaire actuel est composé de 1200 fils de cuivre, et que nous
pigeons sans remise un échantillon de 75 fils de cuivre. Quelle est la probabilité que la
moyenne des courants électriques des 75 fils soit supérieure à 4.55 mA ?
4.1 · Estimation d’une moyenne 125
Réponses:
Soi
Soit Xi = “Le courant mesuré dans le i-ème fil”
E(Xi) = μ = 4.5
Var(Xi) = 0.25²
a)
On cherche P(Xbar > 4.55)
Ici n = 75 > 30
Par le TLC, Xbar ≈ N(4.5, σxbar²)
b)
Le tirage est sans remise et nous connaissons la taille de la population.
Deux critères sont souvent utilisés pour comparer la performance de différents estimateurs:
1. On préfère habituellement qu’un estimateur soit sans biais pour estimer le paramètre qui
nous intéresse. On dit qu’un estimateur ◊ˆ est sans biais pour estimer un paramètre ◊ si:
ˆ =◊
E(◊)
2. Il est aussi souhaitable que plus la taille de l’échantillon augmente, plus la variabilité de
l’estimateur diminue. Autrement dit, on préfèrera un estimateur pour lequel:
ˆ æ 0 lorsque n æ Œ.
V ar(◊)
L’estimateur ponctuel usuel pour la moyenne théorique µ est X̄. Autrement dit:
µ̂ = X̄
Un estimateur ponctuel nous donne une idée de la valeur possible du paramètre qu’on veut
estimer, mais on ne sait pas à quel point on peut se fier à cette valeur.
ˆ
Plutôt que de simplement estimer un paramètre ◊ par un estimateur ponctuel ◊,
on cherche deux bornes d’un intervalle [C1 ,C2 ] entre lesquelles on estimera que le paramètre
se retrouve.
Les bornes d’un intervalle de confiance sont calculées à partir d’un échantillon sélectionné.
Un tel intervalle nous permet d’estimer µ tout en ajoutant une probabilité à notre estimation,
qui est une façon d’évaluer la qualité de ce que l’on fait. Une probabilité proche de 1 nous met
en confiance.
Voyons maintenant comment obtenir un tel intervalle. On va illustrer la démarche avec une
Ô
population de moyenne µ inconnue, d’écart-type ‡ = 21, connu, et n = 9, donc n = 3. On
sait que, dans ce cas:
A 3 42 B
2 21
X̄ ¥ N µμ ; ‡X̄ = (21²/9) ==7² 72
3
a. La règle des 68-95-99 4 dit que la probabilité est d’environ 95% que X̄ soit à une distance
de moins de 2‡X̄ unités (plus précisément à 1.96 écart-type) (ici 2◊7 = 14) de la moyenne
de la population µ, c’est-à-dire que X̄ soit compris entre µ ≠ 2 · ‡X̄ et µ + 2 · ‡X̄ . En
langage courant: il y a 95% des échantillons qui donnent une valeur x̄ se situant à ±2‡X̄
de la moyenne µ.
probabilité 0.95
b. Si x̄ est à une distance de moins de 14 unités de µ, alors µ est à une distance de moins de
14 unités de x̄; autrement dit:
µ ≠ 14 < x̄ < µ + 14
est équivalent à
x̄ ≠ 14 < µ < x̄ + 14 .
c. Donc 95% de tous les échantillons contiennent µ dans l’intervalle [x̄ ≠ 14; x̄ + 14] .
4 définie à la page 63
4.1 · Estimation d’une moyenne 128
C’est pourquoi on ne dit pas que: « la probabilité que µ soit dans l’intervalle [76; 104] est de
95% »!
Remarques:
Même si on perd en précision, il y a l’avantage de pouvoir nous assurer que 95% des
échantillons donnent la bonne réponse.
Afin de pouvoir présenter comment calculer les bornes d’un intervalle de confiance lorsqu’on veut
estimer une moyenne µ, on a d’abord besoin de définir une quantité particulière qui reviendra
très souvent pour la suite du cours: la valeur critique –/2 d’une normale.
4.1 · Estimation d’une moyenne 129
La valeur critique –/2 d’une variable aléatoire Z ≥ N (0,1), notée z–/2 est telle que
Autrement dit, on a
P (≠z–/2 Æ Z Æ z–/2 ) = 1 ≠ –
Calcul avec la TI: Les valeurs –/2 sont obtenues en faisant le calcul inverse à partir d’une
probabilité. On cherche la valeur z–/2 sur l’axe des Z, telle que l’aire à sa droite est de –/2.
Avec la TI, on obtient ces valeurs avec la fonction invnorm de la façon suivante:
P(-zα/2 * (σ/√n) ≤ (Xbar -μ) ≤ zα/2 * (σ/√n)) = P(-zα/2 * (σ/√n) - Xbar ≤ -μ ≤ zα/2 * (σ/√n) - Xbar)
= P(zα/2 * (σ/√n) + Xbar ≥ μ ≥ -zα/2 * (σ/√n) + Xbar) = P(Xbar - zα/2 * (σ/√n) ≤ μ ≤ zα/2 * (σ/√n) + Xbar)
4.1 · Estimation d’une moyenne 130
On s’intéresse au taux de mercure (Hg) présent dans le sang chez une population de pêcheurs
en Amazonie. Nous savons que le taux de mercure est normalement distribué et qu’il varie avec
un écart-type de ‡ = 9.3µg/g, mais le taux moyen, µ, est inconnu.
Solution:
Rée:
X = “Le taux de mercure dans le sang d’un pêcheur”
Population:
N inconnue
μ inconnue
σ = 9.3
Échantillon
n = 45
xbar = 23.9
X~N(μ, 9.3²)
Xbar~N(μ, σxbar²)
On veut un IC à 95%
1-α = 0.95
α/2 = 0.025 [
[
Zα/2 = invNorm(1-0.025, 0, 1) = 1.95996
L’intervale est donnné par la formule suivante: [Xbar ± Zα/2 * σxbar = 23.9 ± 1.95996 * 1.38636 = 23.9 ± 2.71772 (Marge d’erreur)
L
[21.1828, 26.6172] (Intervale de confiance)
Théorème 4.2
1. E(X) = 0 et V ar(X) = ‹
‹≠2 où ‹ > 2
Remarques:
L’intervalle de confiance obtenu lorsque ‡ 2 est inconnue est basé sur l’hypothèse de la
normalité des observations.
Cependant, les procédures statistiques basées sur la distribution de Student sont très ro-
bustes envers l’hypothèse de normalité.
Les seules situations problématiques pour des procédures basées sur T sont lorsqu’il y a
une grande asymétrie et que n est petit ou encore, s’il y a des valeurs aberrantes.
En pratique dès que n Ø 30, on considère qu’on peut utiliser les résultats présentés au
théorème 4.3, même si la loi n’est pas normale.
Reprenons l’exemple précédent, où l’on s’intéressait au taux de mercure moyen d’une population
de pêcheurs en Amazonie. Supposons de façon plus réaliste que l’écart-type théorique n’est pas
connu, et que nous ne pouvons supposer que les données sont normalement distribuées. Dans
notre échantillon de 45 pêcheurs, nous observons x̄ = 23.9 et s = 8.7.
On souhaite estimer le taux de mercure moyen, µ, à partir d’un intervalle de confiance à 95%.
Solution:
Bien que nous ne supposons pas que les données sont normalement distribuées, puisque n =
45 Ø 30, nous pouvons utiliser les résultats présentés au théorème 4.3.
R
Population
N inconnue
μ inconnue
σ inconnue
Échantillon
n = 45
xbar = 23.9
s = 8.7
IC = 95%
1 - α = 0.95
α/2 = 0.025
[
[
[
L
Nous pouvons aussi directement calculer cet intervalle sur la TI:
menu B [6:Statistique] B [6:Intervalles de confiance...] B[1:t-Intervalle...]
4.1.4 Détermination de la taille échantillonnale pour une marge d’erreur désirée pour
l’estimation d’une moyenne
Lorsque l’on souhaite procéder à une estimation par intervalle de confiance, il est judicieux de se
demander quelle taille d’échantillon serait nécessaire pour atteindre une certaine marge d’erreur,
avant de procéder à la cueillette de l’échantillon.
Si nous sommes dans le cas 1 (celui où ‡ est connu), et que le tirage se fait avec remise (pas
besoin de facteur de correction), nous avons vu que la marge d’erreur M E est:
‡
M E = z–/2 · Ô
n
Il est donc possible de déterminer la taille d’échantillon nécessaire pour obtenir une marge d’erreur
désirée, notée E, pour un certain niveau de confiance (1≠–) donnée, en isolant n dans l’équation
précédente, on obtient:
1z 2
–/2 · ‡ 2
nØ .
E
Dans une usine, la longueur, en millimètre, d’un boîtier en plastique moulé par injection est
distribuée selon une loi normale N (µ, 36). Combien de mesures devrait-on recueillir dans notre
échantillon si l’on désire estimer la longueur moyenne des boîtiers par un intervalle de confiance
de niveau 98%, avec une marge d’erreur n’excédant pas 1.5mm ?
Réponse:
4.1 · Estimation d’une moyenne 136
Remarques:
La valeur de n qui sera choisie sera toujours l’entier qui suit la valeur calculée.
Le tableau 4.2 résume la procédure à suivre selon le contexte pour déterminer n afin
d’estimer une moyenne avec un intervalle de confiance de niveau 1 ≠ – et une marge
d’erreur M E Æ E.
on isole n dans
Cas 2 on isole n dans l’équation l’équation
‡ inconnu tn≠1;–/2 · Ôsn = E
tn≠1;–/2 · Ôs
n
· 1≠ n
N =E
Remarques:
Rappelons que l’on cherche ici à déterminer n; or dans le cas 2, il y a un n dans l’indice de
la valeur critique tn≠1;–/2 . Par conséquent, on doit utiliser des méthodes numériques pour
trouver n (utiliser la fonction [solve] sur la TI-Nspire).
Dans le cas 2, les formules contiennent l’écart-type échantillonnale s, alors que nous n’avons
pas encore d’échantillon...
Par conséquent, nous allons devoir utiliser un échantillon préliminaire pour obtenir une
valeur pour s.
Plus l’échantillon préliminaire est représentatif de la population qui nous intéresse, meilleure
sera l’approximation de s et donc le calcul de n qui en suivra.
4.1 · Estimation d’une moyenne 137
Exemple 4.5
Un ingénieur civil souhaite évaluer la résistance à la compression moyenne d’un nouveau mélange
de béton. Il se demande combien de cylindres il devrait produire pour avoir une marge d’erreur
inférieure à 2.5 MPa dans l’estimation de la résistance moyenne à la compression avec un niveau
de confiance de 95%.
Réponse:
4.1 · Estimation d’une moyenne 138
Une compagnie produisant des boissons gazeuses affirme que la quantité moyenne de boisson de
toutes les bouteilles produites se situent entre 247 ml et 253 ml. Quel est le niveau de confiance
associé à cet intervalle ?
Nous avons à notre disposition un échantillon de 55 bouteilles pour lequel nous avons observé
s = 13.2.
Solution:
4.2 · Estimation d’une proportion 139
Les quantités p et p̂, présentées à la figure 4.1, représentent respectivement la proportion dans
la population et celle observée dans l’échantillon.
Dans la population, une proportion (ou proportion théorique) est un paramètre qui
indique le pourcentage d’unités statistiques de la population qui possède une certaine
caractéristique. On la note p.
4.2 · Estimation d’une proportion 140
Dans ce contexte:
p = 0.07
^p = 4/50
Remarques:
On utilise la notation en minuscule, p̂, lorsqu’il s’agit d’une proportion calculée pour un
échantillon en particulier, qui a été observée.
et
YÒ
_
_
_
p(1≠p)
Si population infinie (si N Ø 20 · n)
_ n
_
] ou tirage avec remise
‡P̂ = Ò Ò
_
_
_
_
_
p(1≠p)
· N ≠n
N ≠1 Si population finie (si N < 20 · n)
[ n
et tirage sans remise
Remarque: Vous pouvez trouver la distribution exacte de P̂ dans les notes de cours de Sylvie
Gervais à la section 4.2.
La méthode de Clopper-Pearson, basée sur la loi binomiale, qui est la distribution exacte
de P̂ . C’est la méthode utilisée par Statgraphics, et plusieurs autres logiciels statistiques.
L’approche de Wald qui est la méthode standard, basée sur l’approximation par la loi
normale de la distribution de P̂ . C’est cette approche que nous utiliserons dans le cadre
du cours, c’est aussi l’approche utilisée par la calculatrice TI.
√(p(1-p)/n) = σ[p]
^σ[^p] = √(^p(1-^p)/n)
4.2 · Estimation d’une proportion 143
Remarques:
L’intervalle de confiance pour estimer p est de la forme:
Ú
p(1 ≠ p)
P̂ ± z–/2 · ‡P̂ où ‡P̂ = .
n
Mais on ne connaît pas la valeur de p.
Par conséquent, nous allons utiliser son estimateur p̂, pour estimer ‡P̂ .
Ú
p̂(1 ≠ p̂)
ˆP̂ =
‡ .
n
L’intervalle de confiance est approximativement de niveau 1 ≠ –. Et ce pour deux raisons:
nous utilisons la distribution approximative de P̂ et on estime p par p̂ dans le calcul de ‡P̂ .
Il s’agit d’une bonne approximation si:
ù n Ø 30
ù np̂ Ø 5
ù n(1 ≠ p̂) Ø 5
Si ce n’est pas le cas, on devrait utiliser une autre approche que celle de Wald.
ˆP̂
P̂ ± z–/2 · ‡
où
Ú
p̂(1 ≠ p̂)
ˆP̂ =
‡
n
Ò
Notons que la quantité M E = z–/2 · p̂(1≠p̂)
n s’appelle la marge d’erreur de l’intervalle
de confiance.
4.2 · Estimation d’une proportion 144
Poste Canada souhaite vérifier l’efficacité d’une nouvelle machine de reconnaissance optique des
caractères permettant de lire le nom et l’adresse du destinataire à un premier centre de tri. Pour
ensuite imprimer un code-barre représentant le code postal.
Pour ce faire, un échantillon de 200 lettres est obtenu. Parmi celles-ci, seulement 6 ont été mal
interprétées par la machine. Estimez la proportion de toutes les lettres qui seront mal interprétées
par la machine à l’aide d’un intervalle de confiance à 98%.
Solution:
Soit p = “La proportion de toutes les lettres mal lues par la machine”
Population
- N inconnue
- p inconnue
Échantillon
- n = 200
- ^p = 6/200
Conditions
- n = 200 > 30
- n*^p = 6 > 5
- n(1 - ^p) = 194 > 5
1 - α = 0.98
α/2 = 0.01
TI Menu 665
Paramètres:
Succès, x = 6
n = 200
NivC = 0.98
4.2 · Estimation d’une proportion 145
Le tableau 4.3 résume comment construire un intervalle de confiance pour p pour les différents
cas possibles.
Remarque:
Lorsque la taille de la population N est connue, il est aussi possible d’obtenir un estimation
du nombre d’unités statistiques ayant la caractéristique d’intérêt au lieu de la proportion.
Un manufacturier d’écrans ACL teste un échantillon aléatoire de 500 écrans d’un lot de 4000 et
y retrouve 32 unités défectueuses.
d. Trouver un intervalle de confiance à 95% pour estimer le nombre total d’unités défectueuses
et indiquer la marge d’erreur de votre estimation.
Solutions
a)
p = “Proportion d’écrans défectueux parmi les 4000 écrans du lot”
^p = 32/500 = 0.064
a.
b)
Nc = “Nombre d’écrans défectueux parmi les 4000 écrans du lot”
^Nc = N * ^p = 4000 * 0.064 = 256
c)
On un cherche un IC à 95% pour p
Population
- N = 4000
- p inconnue
Échantillon
- n = 500
- ^p = 0.064
Conditions
n = 500 > 30
n*^p = 32 > 5
n(1-^p) = 468 > 5
20n = 10000 > 4000 = N, alors on doit utiliser le facteur de correction
1 - α = 0.95
α/2 = 0.025
Z[α/2] = invNorm(0.975) = 1.95996
^σ[^p] = √(0.064(1-0.064)/500) = 0.010239
d)
On cherche un IC a 95% pour Nc
[ N * 0.043932 , N * 0.084068 ] = [ 175.728 , 336.272]
L’intervale est [ 176 , 336 ] (Arrondir pour ne prendre que les valeurs qui appartiennent à l’intervale non arrondi)
4.2 · Estimation d’une proportion 147
4.2.4 Détermination de la taille échantillonnale pour une marge d’erreur désirée pour
l’estimation d’une proportion
Comme pour l’estimation d’une moyenne, si on veut estimer une proportion par un intervalle de
confiance de niveau 1 ≠ – et avec une marge d’erreur désirée E, il suffit d’isoler n dans l’équation
M E Æ E.
Lorsque les tirages sont faits sans remise et que la taille de la population est connue (N < 20 · n)
on doit ajouter le facteur de correction.
Le tableau 4.4 résume comment trouver n pour atteindre une marge d’erreur désirée lors de la
construction d’un intervalle de confiance.
Avec ces données nous avions obtenu l’intervalle de confiance à 98% suivant:
[0.001939; 0.058061]
Solutions
n ≥ Z[α/2]^2 * p* * (1 - p*)/E^2
1-α = 0.98
α/2 = 0.01
Z[α/2] = 2.32635
n ≥ 1315.4534
On prendra alors n = 1316
1316 - 200 = 1116 lettres supplémentaires seront nécessaires
Une entreprise de 200 employés souhaite leur offrir une nouvelle assurance dentaire. Un repré-
sentant syndical a interrogé 35 employés, et il affirme que la proportion d’employés en faveur de
la nouvelle assurance se situe dans l’intervalle [0.621; 0.751]. On peut se demander quel est le
niveau de confiance associé à cette affirmation.
Solutions:
R
p = “La proportion des 200 employés qui sont en faveur”
Population
- N = 200
- p inconnu
Échantillon
- n = 35
- ^p = (Bi +Bs)/2 = 0.686
Conditions
n = 35 > 30
n^p = 24.01 > 5
n(1-^p) = 10.99 > 5
IC : ^P ± Z[α/2] * ^σ[^p]