Vous êtes sur la page 1sur 32

4

[ Estimation]
4 Estimation

Tables des matières


4.1 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.1.1 Distribution d’échantillonnage de X̄ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.1.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.1.3 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.1.4 Détermination de la taille échantillonnale pour une marge d’erreur
désirée pour l’estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.1.5 Calcul du niveau de confiance associé à un intervalle de confiance donné 138
4.2 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2.1 Distribution d’échantillonnage de P̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4.2.2 Estimation ponctuelle de p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.2.3 Estimation d’une proportion par un intervalle de confiance . . . . . . . . . . . 142
4.2.4 Détermination de la taille échantillonnale pour une marge d’erreur
désirée pour l’estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.2.5 Calcul du niveau de confiance associé à un intervalle de confiance donné 149

Nous avons maintenant les bases théoriques pour aborder quelques techniques d’inférence sta-
tistique.

L’inférence statistique consiste à tirer des conclusions sur une population à partir de résultats
observés dans un échantillon représentatif de la population.

Les trois derniers chapitres sont consacrés à trois différents types d’inférence en statistique:

l’estimation,

les tests d’hypothèses et

la régression linéaire.

En réalité, les paramètres de la population sont souvent inconnus, et habituellement, on souhaite


avoir une idée de leurs valeurs, soit par:

une valeur ponctuelle ou

un intervalle de valeurs auquel on associe un certain niveau de confiance.


4.1 · Autres vérification importantes 122

Paramètres d’une
population de taille N Mesures dans un
échantillon de taille n

µ x̄
σ2 s2
p p̂

Figure 4.1 Lien entre un paramètre et une mesure échantillonnale

Dans ce chapitre, nous présenterons comment, par exemple, on peut utiliser les informations
obtenues dans un échantillon : n, x̄ et s2 , pour avoir une meilleure connaissance de la vraie
moyenne inconnue dans la population, soit µ.

Il existe différentes méthodes d’échantillonnage qui chacune entraîne différentes méthodes d’esti-
mation. Dans le cadre du cours nous allons considérer deux contextes de sélection de l’échantillon,
basés sur le tirage aléatoire simple.

Deux principaux contextes de sélection de l’échantillon

1. Population infinie OU tirage avec remise

Dans ce contexte, chaque unité statistique de la population a la même probabilité de faire


partie de l’échantillon. Il y a ici indépendance entre chaque tirage.

2. Population finie ET tirage sans remise

Dans ce contexte, la probabilité pour une unité statistique de la population de faire partie
de l’échantillon change à chaque fois qu’une unité statistique est sélectionnée. Il y a ici
dépendance entre chaque tirage. Un facteur de correction devra alors être appliqué.
4.1 · Estimation d’une moyenne 123

4.1 Estimation d’une moyenne


Afin de pouvoir présenter les résultats sur l’estimation du paramètre µ, on doit d’abord obtenir
la distribution d’échantillonnage de son estimateur X̄.

4.1.1 Distribution d’échantillonnage de X̄


Il est important de comprendre que si on a un échantillon de n variables aléatoires X1 , X2 , . . . , Xn ,
alors la variable représentant la moyenne de ces n variables, notée X̄, est aussi une variable aléa-
toire avec sa loi et ses paramètres.

Dans la version du théorème limite central présentée au chapitre 3, les n variables aléatoires
X1 , X2 , . . . , Xn sont supposées indépendantes et sélectionnées avec remise. Sous ces condi-
tions le théorème stipule que
2 ‡2
X̄ ¥ N (µX̄ = µ, ‡X̄ = )
n
où µ est la moyenne des Xi et ‡ 2 leur variance, et ce si n est suffisamment grand (n Ø 30).

Lorsque l’on connaît la taille de la population N , et que les unités statistiques ont été sélectionnées
sans remise, le calcul de ‡X̄ 2 doit être ajusté en le multipliant par un facteur de correction:

N ≠n
.
N ≠1
2
2 = ‡ · N ≠n lorsque l’échantillon est sélectionné sans remise et que la taille
Autrement dit, ‡X̄ n N ≠1
de la population n’est pas assez grande.

Remarques:

1. Puisque N 2
N ≠1 Æ 1, appliquer le facteur de correction réduit la variance de X̄, (‡X̄ ). Ce qui
≠n

permet de réduire la marge d’erreur.

2. On peut se demander pourquoi le fait d’avoir une population infinie est équivalant à un
tirage avec remise:

i. Si la taille de la population est très grande par rapport à la taille de l’échantillon, les
probabilités d’être sélectionné sont très proches d’un tirage à l’autre, même si le tirage
est sans remise.

ii. Lorsque N est beaucoup plus grand que n, le facteur de correction tend vers 1. Il est
donc moins important d’appliquer celui-ci.
4.1 · Estimation d’une moyenne 124

Dans la pratique, si le taux de sondage est supérieur à 5%, on applique le facteur de


correction. Le taux de sondage est le rapport N
n
.

3. On préfère présenter les résultats en fonction de l’écart-type de X̄, au lieu de la variance


de X̄, car celui-ci est plus facile à interpréter. L’écart-type de X̄, ‡X̄ est aussi appelé
l’erreur-type.

Distribution de X̄

Soit un échantillon aléatoire X1 , X2 , . . . , Xn constitué de n variables aléatoires provenant d’une


même population et ayant toutes une moyenne de µ et une variance de ‡ 2 . La distribution de la
1 qn
moyenne de ces variables, X̄ = n i=1 Xi est, si n est suffisamment grand (n Ø 30),
2
X̄ ¥ N (µX̄ , ‡X̄ )


µX̄ = µ

et
Y 2
_
_

si population infinie (si N Ø 20 · n)
_ n
_
] ou tirage avec remise
2
‡X̄ =
_
_ ‡2
_
[ n ·
_
N ≠n
N ≠1 si population finie (si N < 20 · n)
et tirage sans remise

Exemple 4.1 Distribution de X̄

Une entreprise produit des fils de cuivre pour lesquels le courant électrique moyen est µ = 4.5
mA avec un écart-type ‡ = 0.25 mA.

a. Nous pigeons avec remise un échantillon de 75 fils de cuivre. Quelle est la probabilité que
la moyenne des courants électriques des 75 fils soit supérieure à 4.55 mA ?

b. Si nous savons que l’inventaire actuel est composé de 1200 fils de cuivre, et que nous
pigeons sans remise un échantillon de 75 fils de cuivre. Quelle est la probabilité que la
moyenne des courants électriques des 75 fils soit supérieure à 4.55 mA ?
4.1 · Estimation d’une moyenne 125

Réponses:

Soi
Soit Xi = “Le courant mesuré dans le i-ème fil”

Xbar = ([75]∑Xi)/75 (Courant moyen dans 75 fils)

E(Xi) = μ = 4.5

Var(Xi) = 0.25²

a)
On cherche P(Xbar > 4.55)
Ici n = 75 > 30
Par le TLC, Xbar ≈ N(4.5, σxbar²)

Tirage avec remise, donc:


σxbar = σ/√n = 0.25/√75 = 0.028868

P(Xbar > 4.55) ≈ normCdf(4.55, ∞, 4.5, 0.028868)


P(Xbar > 4.55) ≈ 0.041632

b)
Le tirage est sans remise et nous connaissons la taille de la population.

20*n = 20*75 = 1500 > N = 1200

Xbar ≈ N(4.5, σxbar²)

σxbar = (σ/√n) * √((N-n)/(N-1)) = 0.027962

P(Xbar > 4.55) = 0.036879

4.1.2 Estimation ponctuelle

Définition 4.1 Estimateur

Un estimateur (ou statistique) est une fonction de l’échantillon. Autrement dit,


supposons ◊, un paramètre général dans la population et soit un échantillon aléa-
toire X1 ,X2 , . . . ,Xn issu de cette population. Toute fonction de cet échantillon,
ˆ un estimateur
T (X1 ,X2 , . . . ,Xn ) est un estimateur possible pour ◊. On désignera par ◊,
ponctuel de ◊.
4.1 · Estimation d’une moyenne 126

Critères de qualité pour un estimateur

Deux critères sont souvent utilisés pour comparer la performance de différents estimateurs:

1. On préfère habituellement qu’un estimateur soit sans biais pour estimer le paramètre qui
nous intéresse. On dit qu’un estimateur ◊ˆ est sans biais pour estimer un paramètre ◊ si:
ˆ =◊
E(◊)

2. Il est aussi souhaitable que plus la taille de l’échantillon augmente, plus la variabilité de
l’estimateur diminue. Autrement dit, on préfèrera un estimateur pour lequel:
ˆ æ 0 lorsque n æ Œ.
V ar(◊)

Estimateur ponctuel pour µ

L’estimateur ponctuel usuel pour la moyenne théorique µ est X̄. Autrement dit:

µ̂ = X̄

Un estimateur ponctuel nous donne une idée de la valeur possible du paramètre qu’on veut
estimer, mais on ne sait pas à quel point on peut se fier à cette valeur.

4.1.3 Estimation par intervalle de confiance

Estimation d’un paramètre par intervalle de confiance

ˆ
Plutôt que de simplement estimer un paramètre ◊ par un estimateur ponctuel ◊,

on cherche deux bornes d’un intervalle [C1 ,C2 ] entre lesquelles on estimera que le paramètre
se retrouve.

Les bornes d’un intervalle de confiance sont calculées à partir d’un échantillon sélectionné.

Ces bornes sont aléatoires, elles varient d’un échantillon à l’autre.

Le niveau de confiance (1 ≠ –) d’un intervalle de confiance est la proportion de tous ces


différents intervalles possibles qui contiennent le paramètre à estimer.
ˆ marge d’erreur.
Un intervalle de confiance se présente souvent sous la forme: ◊±

Notons que la marge d’erreur varie en fonction de la taille de l’échantillon, la dispersion


des données et le niveau de confiance (1 ≠ –) désiré.
4.1 · Estimation d’une moyenne 127

Un tel intervalle nous permet d’estimer µ tout en ajoutant une probabilité à notre estimation,
qui est une façon d’évaluer la qualité de ce que l’on fait. Une probabilité proche de 1 nous met
en confiance.

Voyons maintenant comment obtenir un tel intervalle. On va illustrer la démarche avec une
Ô
population de moyenne µ inconnue, d’écart-type ‡ = 21, connu, et n = 9, donc n = 3. On
sait que, dans ce cas:
A 3 42 B
2 21
X̄ ¥ N µμ ; ‡X̄ = (21²/9) ==7² 72
3

a. La règle des 68-95-99 4 dit que la probabilité est d’environ 95% que X̄ soit à une distance
de moins de 2‡X̄ unités (plus précisément à 1.96 écart-type) (ici 2◊7 = 14) de la moyenne
de la population µ, c’est-à-dire que X̄ soit compris entre µ ≠ 2 · ‡X̄ et µ + 2 · ‡X̄ . En
langage courant: il y a 95% des échantillons qui donnent une valeur x̄ se situant à ±2‡X̄
de la moyenne µ.

probabilité 0.95

b. Si x̄ est à une distance de moins de 14 unités de µ, alors µ est à une distance de moins de
14 unités de x̄; autrement dit:
µ ≠ 14 < x̄ < µ + 14

est équivalent à

x̄ ≠ 14 < µ < x̄ + 14 .

c. Donc 95% de tous les échantillons contiennent µ dans l’intervalle [x̄ ≠ 14; x̄ + 14] .

4 définie à la page 63
4.1 · Estimation d’une moyenne 128

Formulation et interprétation: « On est confiant à 95% que la moyenne de la population se


situe entre [x̄ ≠ 14; x̄ + 14] ». Si, par exemple x̄ = 90, l’intervalle est [76; 104] et il y a deux
possibilités:

a. L’intervalle [76; 104] contient la vraie valeur µ.


b. L’échantillon est l’un des quelques uns (5%) pour lesquels x̄ est à plus de 14 unités de µ.

C’est pourquoi on ne dit pas que: « la probabilité que µ soit dans l’intervalle [76; 104] est de
95% »!

Remarques:

Au lieu d’un seul estimé de µ, x̄ = 90, on a l’intervalle [76; 104],

toute valeur de µ à l’intérieur de cet intervalle est « plausible ».

Même si on perd en précision, il y a l’avantage de pouvoir nous assurer que 95% des
échantillons donnent la bonne réponse.

Tandis qu’on ne pouvait rien dire sur l’unique valeur x̄ = 90.

Afin de pouvoir présenter comment calculer les bornes d’un intervalle de confiance lorsqu’on veut
estimer une moyenne µ, on a d’abord besoin de définir une quantité particulière qui reviendra
très souvent pour la suite du cours: la valeur critique –/2 d’une normale.
4.1 · Estimation d’une moyenne 129

Définition 4.2 Valeur critique d’une normale

La valeur critique –/2 d’une variable aléatoire Z ≥ N (0,1), notée z–/2 est telle que

P (Z > z–/2 ) = –/2

Autrement dit, on a

On peut ainsi écrire de façon équivalente

P (≠z–/2 Æ Z Æ z–/2 ) = 1 ≠ –

Calcul avec la TI: Les valeurs –/2 sont obtenues en faisant le calcul inverse à partir d’une
probabilité. On cherche la valeur z–/2 sur l’axe des Z, telle que l’aire à sa droite est de –/2.

Avec la TI, on obtient ces valeurs avec la fonction invnorm de la façon suivante:

z–/2 = invnorm(1 ≠ –/2, 0, 1)

Cas 1: lorsque ‡ 2 est connue


Il s’agit du cas le plus simple, et aussi le moins réaliste.

Soit X ~ N(μ; σ²)

ou μ est inconnue et σ² est connue

On sait que Xbar ~ N(μ; σ²/n)


On a donc Z = (Xbar -μ)/(σ/√n) ~ N(0, 1)

On sait que P(-zα/2 ≤ Z ≤ zα/2) = 1 - α


P(-zα/2 ≤ (Xbar -μ)/(σ/√n) ≤ zα/2) = 1 - α

P(-zα/2 * (σ/√n) ≤ (Xbar -μ) ≤ zα/2 * (σ/√n)) = P(-zα/2 * (σ/√n) - Xbar ≤ -μ ≤ zα/2 * (σ/√n) - Xbar)
= P(zα/2 * (σ/√n) + Xbar ≥ μ ≥ -zα/2 * (σ/√n) + Xbar) = P(Xbar - zα/2 * (σ/√n) ≤ μ ≤ zα/2 * (σ/√n) + Xbar)
4.1 · Estimation d’une moyenne 130

Théorème 4.1 Intervalle de confiance pour estimer µ, cas 1: ‡ 2 connue

On s’intéresse à une variable X de moyenne théorique µ (inconnue) et de variance ‡ 2


(connue). On veut estimer la moyenne µ par un intervalle de confiance de niveau 1≠– à
partir d’un échantillon de taille n sélectionné avec remise. Par le théorème limite central,
si n est suffisamment grand (n Ø 30), l’intervalle de confiance est donné par

X̄ ± z–/2 · Ô
n
Notons que la quantité M E = z–/2 · Ô‡
n
s’appelle la marge d’erreur de l’intervalle de
confiance.

Exemple 4.2 Calcul d’un intervalle de confiance: Cas 1

On s’intéresse au taux de mercure (Hg) présent dans le sang chez une population de pêcheurs
en Amazonie. Nous savons que le taux de mercure est normalement distribué et qu’il varie avec
un écart-type de ‡ = 9.3µg/g, mais le taux moyen, µ, est inconnu.

On observe le taux de Hg pour un échantillon de 45 pêcheurs d’une population en Amazonie, et


on obtient x̄ = 23.9. On souhaite estimer le taux de mercure moyen, µ, à partir d’un intervalle
de confiance à 95%.
4.1 · Estimation d’une moyenne 131

Solution:

Rée:
X = “Le taux de mercure dans le sang d’un pêcheur”

μ = “Le taux moyen de mercure de cette population de pêcheur“

Population:
N inconnue
μ inconnue
σ = 9.3

Échantillon
n = 45
xbar = 23.9

σxbar = σ/√n = 9.3/√45 = 1.38636

X~N(μ, 9.3²)
Xbar~N(μ, σxbar²)

On veut un IC à 95%
1-α = 0.95
α/2 = 0.025 [
[
Zα/2 = invNorm(1-0.025, 0, 1) = 1.95996

L’intervale est donnné par la formule suivante: [Xbar ± Zα/2 * σxbar = 23.9 ± 1.95996 * 1.38636 = 23.9 ± 2.71772 (Marge d’erreur)

L
[21.1828, 26.6172] (Intervale de confiance)

Nous pouvons aussi directement calculer cette intervalle sur la TI:


menu B [6:Statistique] B [6:Intervalles de confiance...] B[1:Z-Intervalle...]

Cas 2: lorsque ‡ 2 est inconnue

Théorème 4.2

Soit un échantillon aléatoire X1 , X2 , . . . , Xn constitué de n variables aléatoires


indépendantes sélectionnées avec remise à partir d’une certaine population. Si Xi ≥
N (µ, ‡ 2 ) pour i = 1, . . . ,n et si s est l’écart-type observé dans l’échantillon, on a
X̄ ≠ µ
T = Ô ≥ tn≠1
s/ n
Autrement dit, la statistique T suit une loi de Student avec n ≠ 1 degrés de liberté.
4.1 · Estimation d’une moyenne 132

Rappel: la loi de Student


Propriétés de la loi de Student
ν=1
Si X ≥ t‹ , on a alors fX (x) ν=3
ν = 30

1. E(X) = 0 et V ar(X) = ‹
‹≠2 où ‹ > 2

2. Lien avec la loi normale et la loi du khi-deux:


Soit Z ≥ N (0,1) et X ≥ ‰2n indépendantes et
T = Ô Z on a alors
X/n
-6 -4 -2 0 2 4 6
T ≥ tn . x

Remarques: Figure 4.2


La loi de Student ressemble beaucoup à la loi normale. Elle a cependant des ailes un peu
plus épaisses que celles d’une loi normale.
Lorsque n æ Œ, la loi de Student tend vers une loi normale centrée réduite (Z ≥ N (0,1)).
La valeur critique tn≠1;–/2 est la valeur telle que pour T ≥ tn≠1 , on a
P (T Ø tn≠1;–/2 ) = –/2
… P (≠tn≠1;–/2 Æ T Æ tn≠1;–/2 ) = 1 ≠ –

Soit T ≥ tn≠1 , alors avec la calculatrice


Probabilité Menu TI Dans la feuille de calculs
P (a < T < b) [menu] [5] [5] [5] tCdf(a, b, n ≠ 1)
P (T < c) = 1 ≠ –
2 [menu] [5] [5] [6] invt(1 ≠ –2 , n ≠ 1)

Théorème 4.3 Intervalle de confiance pour estimer µ, cas 2: ‡ 2 inconnue

On s’intéresse à une variable X de moyenne théorique µ (inconnue) et de variance ‡ 2


(inconnue). On veut estimer la moyenne µ par un intervalle de confiance de niveau
1 ≠ – à partir d’un échantillon de taille n sélectionné avec remise. Par le théorème 4.2,
l’intervalle de confiance est donné par
s
X̄ ± tn≠1;–/2 · Ô
n
Notons que la quantité M E = tn≠1;–/2 · Ôsn s’appelle la marge d’erreur de l’intervalle de
confiance. Et que tn≠1;–/2 est la valeur telle que P (T Ø tn≠1;–/2 ) = –/2 où T ≥ tn≠1 .
4.1 · Estimation d’une moyenne 133

Remarques:

L’intervalle de confiance obtenu lorsque ‡ 2 est inconnue est basé sur l’hypothèse de la
normalité des observations.

Cependant, les procédures statistiques basées sur la distribution de Student sont très ro-
bustes envers l’hypothèse de normalité.

Il est surtout important que la distribution des données soit symétrique.

Les seules situations problématiques pour des procédures basées sur T sont lorsqu’il y a
une grande asymétrie et que n est petit ou encore, s’il y a des valeurs aberrantes.

En pratique dès que n Ø 30, on considère qu’on peut utiliser les résultats présentés au
théorème 4.3, même si la loi n’est pas normale.

Exemple 4.3 Calcul d’un intervalle de confiance: cas 2

Reprenons l’exemple précédent, où l’on s’intéressait au taux de mercure moyen d’une population
de pêcheurs en Amazonie. Supposons de façon plus réaliste que l’écart-type théorique n’est pas
connu, et que nous ne pouvons supposer que les données sont normalement distribuées. Dans
notre échantillon de 45 pêcheurs, nous observons x̄ = 23.9 et s = 8.7.

On souhaite estimer le taux de mercure moyen, µ, à partir d’un intervalle de confiance à 95%.

Solution:

Bien que nous ne supposons pas que les données sont normalement distribuées, puisque n =
45 Ø 30, nous pouvons utiliser les résultats présentés au théorème 4.3.

R
Population
N inconnue
μ inconnue
σ inconnue

Échantillon
n = 45
xbar = 23.9
s = 8.7

^σxbar = s/√n = 8.7/√45 = 1.29692 (estimation avec l’écnatillon)

IC = 95%
1 - α = 0.95
α/2 = 0.025

t[n-1*α/2] = invt(1 - 0.025, 45 - 1) = 2.01536

L’intervale est de la forme Xbar± t[n - 1*α/2] * ^σxbar


23.9 ± 2.01537 * 1.29692
23.9 ± 2.61377
[21.2862, 26.5238]
4.1 · Estimation d’une moyenne 134

[
[
[
L
Nous pouvons aussi directement calculer cet intervalle sur la TI:
menu B [6:Statistique] B [6:Intervalles de confiance...] B[1:t-Intervalle...]

Remarques sur le calcul de l’erreur-type, ‡X̄ :


1. L’erreur-type est définie de la façon suivante: ‡X̄ . Dans le cas 2, puisque ‡ est inconnu,
on doit l’estimer par l’écart-type de l’échantillon s. On note alors l’erreur-type:
s
ˆX̄ = Ô .

n
2. Nous avons vu dans la première section que nous devons ajuster la quantité ‡X̄ = Ô‡
n
si
l’échantillon a été sélectionné sans remise d’une population de taille finie.
Dans le cas 2, puisque l’écart-type est inconnu, nous devons modifier le facteur de correction
et utiliser NN≠n = 1 ≠ Nn
.
Si nous n’apportons pas cette modification, l’estimateur de ‡X̄ est biaisé.

Tableau 4.1 Calculs d’un intervalle de confiance pour µ


Cas Intervalle de confiance Calcul de ‡X̄
Y Ô‡
_ si population infinie
_
_
n
X̄ ± z–/2 · ‡X̄ ] ou tirage avec remise
Cas 1 ‡ connu ‡X̄ = Ò
M E = z–/2 · ‡X̄ _
_ N ≠n
Ô‡
[ n·
_ N ≠1 si population finie
et tirage sans remise
Cas 2 Y s
_ Ô si population infinie
‡ inconnu _
_ n
Condition:
ˆX̄
X̄ ± tn≠1:–/2 · ‡ ] ou tirage avec remise
X de loi
ˆX̄ =
‡ 
M E = tn≠1:–/2 · ‡
ˆX̄ _
_ Ôs · 1≠ n
si population finie
normale ou _
[ n N
n Ø 30 et tirage sans remise
4.1 · Estimation d’une moyenne 135

4.1.4 Détermination de la taille échantillonnale pour une marge d’erreur désirée pour
l’estimation d’une moyenne
Lorsque l’on souhaite procéder à une estimation par intervalle de confiance, il est judicieux de se
demander quelle taille d’échantillon serait nécessaire pour atteindre une certaine marge d’erreur,
avant de procéder à la cueillette de l’échantillon.

Si nous sommes dans le cas 1 (celui où ‡ est connu), et que le tirage se fait avec remise (pas
besoin de facteur de correction), nous avons vu que la marge d’erreur M E est:

M E = z–/2 · Ô
n
Il est donc possible de déterminer la taille d’échantillon nécessaire pour obtenir une marge d’erreur
désirée, notée E, pour un certain niveau de confiance (1≠–) donnée, en isolant n dans l’équation
précédente, on obtient:
1z 2
–/2 · ‡ 2
nØ .
E

Exemple 4.4 Détermination de la taille d’échantillon

Dans une usine, la longueur, en millimètre, d’un boîtier en plastique moulé par injection est
distribuée selon une loi normale N (µ, 36). Combien de mesures devrait-on recueillir dans notre
échantillon si l’on désire estimer la longueur moyenne des boîtiers par un intervalle de confiance
de niveau 98%, avec une marge d’erreur n’excédant pas 1.5mm ?

Réponse:
4.1 · Estimation d’une moyenne 136

Remarques:

La valeur de n qui sera choisie sera toujours l’entier qui suit la valeur calculée.

Utiliser le facteur de correction, lorsque c’est applicable, permettra d’atteindre la marge


d’erreur désirée avec une plus petite taille d’échantillon.

Le tableau 4.2 résume la procédure à suivre selon le contexte pour déterminer n afin
d’estimer une moyenne avec un intervalle de confiance de niveau 1 ≠ – et une marge
d’erreur M E Æ E.

Tableau 4.2 Calcul de n dans le cas de l’estimation d’une moyenne


Lorsque N est inconnue Lorsque N est connue
Contexte
ou si tirage avec remise et tirage sans remise
on isole n dans l’équation
on isole n dans
z–/2 · Ô‡n = E
Cas 1 ‡ l’équation
connu on 1obtient2 Ò
·‡ 2 N ≠1 = E
≠n
z z–/2 · Ô‡n N
n Ø –/2 E

on isole n dans
Cas 2 on isole n dans l’équation l’équation
‡ inconnu tn≠1;–/2 · Ôsn = E 
tn≠1;–/2 · Ôs
n
· 1≠ n
N =E

Remarques:

Rappelons que l’on cherche ici à déterminer n; or dans le cas 2, il y a un n dans l’indice de
la valeur critique tn≠1;–/2 . Par conséquent, on doit utiliser des méthodes numériques pour
trouver n (utiliser la fonction [solve] sur la TI-Nspire).

Dans le cas 2, les formules contiennent l’écart-type échantillonnale s, alors que nous n’avons
pas encore d’échantillon...

Par conséquent, nous allons devoir utiliser un échantillon préliminaire pour obtenir une
valeur pour s.

Plus l’échantillon préliminaire est représentatif de la population qui nous intéresse, meilleure
sera l’approximation de s et donc le calcul de n qui en suivra.
4.1 · Estimation d’une moyenne 137

Exemple 4.5

Un ingénieur civil souhaite évaluer la résistance à la compression moyenne d’un nouveau mélange
de béton. Il se demande combien de cylindres il devrait produire pour avoir une marge d’erreur
inférieure à 2.5 MPa dans l’estimation de la résistance moyenne à la compression avec un niveau
de confiance de 95%.

Un échantillon préliminaire de 25 cylindres a permis d’obtenir une estimation de l’écart-type


s = 12.

Réponse:
4.1 · Estimation d’une moyenne 138

4.1.5 Calcul du niveau de confiance associé à un intervalle de confiance donné


Il peut aussi arriver que l’on affirme que l’on estime que le paramètre devrait se retrouver entre
deux bornes, notées [Bi ; Bs ]. À partir de ce que nous avons vu précédemment, nous sommes
maintenant en mesure de déterminer le niveau de confiance qui est associé à cet intervalle
proposé.

Exemple 4.6 Calcul du niveau de confiance

Une compagnie produisant des boissons gazeuses affirme que la quantité moyenne de boisson de
toutes les bouteilles produites se situent entre 247 ml et 253 ml. Quel est le niveau de confiance
associé à cet intervalle ?

Nous avons à notre disposition un échantillon de 55 bouteilles pour lequel nous avons observé
s = 13.2.

Solution:
4.2 · Estimation d’une proportion 139

4.2 Estimation d’une proportion


La proportion (ou pourcentage) est un autre paramètre qui peut être observé dans une population,
tout comme la moyenne ou la variance.

Les quantités p et p̂, présentées à la figure 4.1, représentent respectivement la proportion dans
la population et celle observée dans l’échantillon.

Définition 4.3 Proportion

Dans la population, une proportion (ou proportion théorique) est un paramètre qui
indique le pourcentage d’unités statistiques de la population qui possède une certaine
caractéristique. On la note p.
4.2 · Estimation d’une proportion 140

Définition 4.4 Proportion échantillonnnale

La proportion échantillonnale P̂ d’une certaine caractéristique est le nombre d’unités


statistiques dans l’échantillon qui possède cette caractéristique, divisé par la taille de
l’échantillon. Autrement dit, si on pose:
I
1 si l’individu i possède la caractéristique
Xi =
0 sinon
pour i = 1,2, . . . ,n, on peut alors écrire
qn
i=1 Xi
P̂ =
n

Exemple 4.7 Proportion et proportion échantillonale

Un procédé de fabrication entraîne 7% d’unités défectueuses. On tire un échantillon aléatoire


de taille n = 50 parmi toutes les pièces produites une certaine journée. On observe 4 unités
défectueuses dans notre échantillon.

Dans ce contexte:

p = 0.07

^p = 4/50

Remarques:

On utilise la notation en minuscule, p̂, lorsqu’il s’agit d’une proportion calculée pour un
échantillon en particulier, qui a été observée.

Et la notation en majuscule, P̂ , lorsqu’il est question de la proportion d’un échantillon


aléatoire non observé.

4.2.1 Distribution d’échantillonnage de P̂


Comme pour l’estimation de la moyenne µ, nous devons, avant de présenter les résultats sur
l’estimation du paramètre p, obtenir la distribution d’échantillonnage de son estimateur P̂ .

La distribution exacte de P̂ est rarement utilisée en pratique, en général nous utiliserons sa


distribution approximative basée sur le théorème limite central.
4.2 · Estimation d’une proportion 141

Résumé de la distribution approximative de P̂

Soit X1 ,X2 , . . . ,Xn des variables aléatoires telle que


I
1 si l’individu i possède une certaine caractéristique
Xi =
0 sinon
et
qn
i=1 Xi
P̂ =
n
Si n Ø 30, np Ø 5 et n(1 ≠ p) Ø 5, on peut faire l’approximation de la loi de P̂ par une loi
normale en utilisant le théorème limite central et on obtient ainsi
P̂ ¥ N (µP̂ , ‡P̂2 ) où µP̂ = p

et

_
_
_
p(1≠p)
Si population infinie (si N Ø 20 · n)
_ n
_
] ou tirage avec remise
‡P̂ = Ò Ò
_
_
_
_
_
p(1≠p)
· N ≠n
N ≠1 Si population finie (si N < 20 · n)
[ n
et tirage sans remise

Remarque: Vous pouvez trouver la distribution exacte de P̂ dans les notes de cours de Sylvie
Gervais à la section 4.2.

4.2.2 Estimation ponctuelle de p


Comme pour la moyenne µ, nous allons nous servir d’un échantillon de taille n pour estimer
la proportion p, inconnue, d’unités statistiques dans une population qui possèdent une certaine
caractéristique.

La statistique P̂ est un très bon estimateur ponctuel pour estimer p car,

P̂ est un estimateur sans biais,

et sa variance converge vers 0 lorsque n æ Œ.


4.2 · Estimation d’une proportion 142

4.2.3 Estimation d’une proportion par un intervalle de confiance


Il existe plusieurs approches pour construire les intervalles de confiance pour estimer p (voir p:193
des notes de cours). Mentionnons-en deux:

La méthode de Clopper-Pearson, basée sur la loi binomiale, qui est la distribution exacte
de P̂ . C’est la méthode utilisée par Statgraphics, et plusieurs autres logiciels statistiques.

L’approche de Wald qui est la méthode standard, basée sur l’approximation par la loi
normale de la distribution de P̂ . C’est cette approche que nous utiliserons dans le cadre
du cours, c’est aussi l’approche utilisée par la calculatrice TI.

Intervalle de confiance pour p lors de tirages avec remise


On veut estimer p par un intervalle de confiance de niveau 1 ≠ –.

On cherche 2 bornes aléatoires C₁ et C₂ telle que P(C₁ ≤ p ≤ C₂) = 1 - α

Si n ≥ 30, np ≥ 5 et que n(1-p) ≥ 5, on a ^P ≈ N(p, p(1-p)/n)

On sait que pour Z ~ N(0, 1), P(-Z[α/2] ≤ Z ≤ Z[α/2]) = 1 - α

On a donc (^P - p) / √(p(1-p)/n) ≈ N(0, 1)

P( -Z[α/2] ≤ (^P - p) / √(p(1-p)/n) ≤ Z[α/2]) ≈ 1 - α

Après quelques manipulations, on a P( ^P-Z[α/2] * √(p(1-p)/n) ≤ p ≤ ^P+Z[α/2] * √(p(1-p)/n)) ≈ 1 - α

L’intervale de confiance est [ ^P-Z[α/2] * √(p(1-p)/n) ; ^P+Z[α/2] * √(p(1-p)/n) ]

√(p(1-p)/n) = σ[p]

On remplace σ[p] par ^σ[^p]

^σ[^p] = √(^p(1-^p)/n)
4.2 · Estimation d’une proportion 143

Remarques:
L’intervalle de confiance pour estimer p est de la forme:
Ú
p(1 ≠ p)
P̂ ± z–/2 · ‡P̂ où ‡P̂ = .
n
Mais on ne connaît pas la valeur de p.
Par conséquent, nous allons utiliser son estimateur p̂, pour estimer ‡P̂ .
Ú
p̂(1 ≠ p̂)
ˆP̂ =
‡ .
n
L’intervalle de confiance est approximativement de niveau 1 ≠ –. Et ce pour deux raisons:
nous utilisons la distribution approximative de P̂ et on estime p par p̂ dans le calcul de ‡P̂ .
Il s’agit d’une bonne approximation si:
ù n Ø 30
ù np̂ Ø 5
ù n(1 ≠ p̂) Ø 5
Si ce n’est pas le cas, on devrait utiliser une autre approche que celle de Wald.

Théorème 4.4 Intervalle de confiance pour p

On veut estimer une certaine proportion théorique p par un intervalle de confiance de


niveau (1 ≠ –)% à partir d’un échantillon de taille n sélectionné avec remise. Par la
distribution approximative de P̂ et si les conditions suivantes sont respectées: n Ø 30,
np̂ Ø 5 et n(1 ≠ p̂) Ø 5, alors l’intervalle de confiance approximatif est donné par:

ˆP̂
P̂ ± z–/2 · ‡


Ú
p̂(1 ≠ p̂)
ˆP̂ =

n
Ò
Notons que la quantité M E = z–/2 · p̂(1≠p̂)
n s’appelle la marge d’erreur de l’intervalle
de confiance.
4.2 · Estimation d’une proportion 144

Exemple 4.8 Intervalle de confiance pour p

Poste Canada souhaite vérifier l’efficacité d’une nouvelle machine de reconnaissance optique des
caractères permettant de lire le nom et l’adresse du destinataire à un premier centre de tri. Pour
ensuite imprimer un code-barre représentant le code postal.

Pour ce faire, un échantillon de 200 lettres est obtenu. Parmi celles-ci, seulement 6 ont été mal
interprétées par la machine. Estimez la proportion de toutes les lettres qui seront mal interprétées
par la machine à l’aide d’un intervalle de confiance à 98%.

Solution:

Soit p = “La proportion de toutes les lettres mal lues par la machine”

Population
- N inconnue
- p inconnue

Échantillon
- n = 200
- ^p = 6/200

Conditions
- n = 200 > 30
- n*^p = 6 > 5
- n(1 - ^p) = 194 > 5

L’intervale est de la forme ^P ± Z[α/2] * ^σ[^p]

1 - α = 0.98
α/2 = 0.01

Z[α/2] = invNorm( 1 - α/2 ) = 2.32635

^σ[^p] = √(0.03(1-0.03)/200) = 0.012062

ME = Z[α/2] * ^σ[^p] = 0.028061

L’intervale est [ 0.001939 , 0.058061 ]

TI Menu 665
Paramètres:
Succès, x = 6
n = 200
NivC = 0.98
4.2 · Estimation d’une proportion 145

Nous pouvons aussi directement calculer cet intervalle sur la TI:


menu B [6:Statistique] B [6:Intervalles de confiance...] B[5:Z-Intervalle pour
1 proportion...]

Intervalle de confiance pour p lors de tirages sans remise


Si l’échantillon est sélectionné sans remise, à partir d’une population de taille connue, il est
important d’appliquer le facteur de correction à ‡
ˆP̂ .

Le tableau 4.3 résume comment construire un intervalle de confiance pour p pour les différents
cas possibles.

Tableau 4.3 Intervalle de confiance de niveau 1 ≠ – pour estimer p


Intervalle de
Conditions Calcul de ˆP̂

confiance
ˆP̂ =


n Ø 30
ˆP̂
P̂ ± z–/2 · ‡
_
_
_
p̂(1≠p̂)
Si population infinie (si N Ø 20 · n)
_
]
n
np̂ Ø 5 ou tirage avec remise
M E = z–/2 · ‡
ˆP̂ _
_
Ò 
n(1 ≠ p̂) Ø 5 _
_ p̂(1≠p̂)
[ n · 1≠ n
N Si population finie (si N < 20 · n)
et tirage sans remise

Remarque: Il n’est pas possible de calculer directement sur la TI un intervalle de confiance


lorsque nous devons utiliser le facteur de correction.

Remarque:

Lorsque la taille de la population N est connue, il est aussi possible d’obtenir un estimation
du nombre d’unités statistiques ayant la caractéristique d’intérêt au lieu de la proportion.

Le paramètre d’intérêt est alors un effectif Nc = N p.

Son estimateur est alors N̂c = N p̂.

L’intervalle de confiance pour Nc sera obtenu à l’aide de l’intervalle de confiance pour p.


Il suffira de multiplier les bornes de l’I.C. de p par N , et d’arrondir à des valeurs entières
vers l’intérieur de l’intervalle.
4.2 · Estimation d’une proportion 146

Exemple 4.9 Intervalle de confiance pour p et pour un effectif Nc

Un manufacturier d’écrans ACL teste un échantillon aléatoire de 500 écrans d’un lot de 4000 et
y retrouve 32 unités défectueuses.

a. Donner une estimation ponctuelle de la proportion d’écrans défectueux dans ce lot.

b. Donner une estimation ponctuelle de du nombre d’écrans défectueux dans ce lot.

c. Trouver un intervalle de confiance à 95% pour estimer la proportion d’unités défectueuses


et indiquer la marge d’erreur de votre estimation.

d. Trouver un intervalle de confiance à 95% pour estimer le nombre total d’unités défectueuses
et indiquer la marge d’erreur de votre estimation.

Solutions
a)
p = “Proportion d’écrans défectueux parmi les 4000 écrans du lot”
^p = 32/500 = 0.064
a.
b)
Nc = “Nombre d’écrans défectueux parmi les 4000 écrans du lot”
^Nc = N * ^p = 4000 * 0.064 = 256

c)
On un cherche un IC à 95% pour p

Population
- N = 4000
- p inconnue

Échantillon
- n = 500
- ^p = 0.064

Conditions
n = 500 > 30
n*^p = 32 > 5
n(1-^p) = 468 > 5
20n = 10000 > 4000 = N, alors on doit utiliser le facteur de correction

L’intervale est de la forme ^P ± Z[α/2] * ^σ[^p]

1 - α = 0.95
α/2 = 0.025
Z[α/2] = invNorm(0.975) = 1.95996
^σ[^p] = √(0.064(1-0.064)/500) = 0.010239

ME = Z[α/2] * ^σ[^p] = 0.020068

L’intervale est [ 0.043932 , 0.084068 ]

d)
On cherche un IC a 95% pour Nc
[ N * 0.043932 , N * 0.084068 ] = [ 175.728 , 336.272]

L’intervale est [ 176 , 336 ] (Arrondir pour ne prendre que les valeurs qui appartiennent à l’intervale non arrondi)
4.2 · Estimation d’une proportion 147

4.2.4 Détermination de la taille échantillonnale pour une marge d’erreur désirée pour
l’estimation d’une proportion

Comme pour l’estimation d’une moyenne, si on veut estimer une proportion par un intervalle de
confiance de niveau 1 ≠ – et avec une marge d’erreur désirée E, il suffit d’isoler n dans l’équation
M E Æ E.

Prenons l’exemple d’un tirage avec remise:


Ú
p(1 ≠ p)
M E = z–/2 · .
n
En isolant n on obtient
1z 22
n=
–/2
p(1 ≠ p).
ME
Mais, nous avons ici un problème, car nous ne connaissons pas p. Il faut donc trouver quelle
valeur pú utiliser pour satisfaire l’inégalité:
1z 22 2
z–/2 · pú (1 ≠ pú )
pú (1 ≠ pú ) =
–/2
nØ .
E E2
4.2 · Estimation d’une proportion 148

Quelle valeur de pú doit-on utiliser ?


1. Si nous n’avons aucune connaissance a priori sur la valeur de p
Nous allons utiliser la valeur de p qui maximise la marge d’erreur M E.
Ú
p(1 ≠ p)
M E = z–/2 ·
n
On cherche donc à maximiser la fonction p(1 ≠ p).
La maximum est atteint lorsque p = 0.5.
On utilisera donc pú = 0.5.
C’est une approche conservatrice, car elle ne peut pas donner une valeur de n qui serait
plus petite que celle nécessaire pour atteindre E.
2. Si nous disposons d’un échantillon préliminaire
Nous pourrions utiliser pú = p̂, où p̂ est l’estimation ponctuel de p obtenue à l’aide de
l’échantillon préliminaire.
Mais si la vraie valeur de p s’éloigne de p̂ en étant plus près de 0.5, nous allons obtenir
une valeur de n trop petite et donc une marge d’erreur plus grande que celle souhaitée.
Un compromis consiste à calculer un intervalle de confiance pour p à partir de l’échan-
tillon préliminaire, et d’utiliser pour pú la valeur la plus près de 0.5 qui est incluse dans
l’intervalle.
pú = la valeur la plus près de 0.5 dans l’intervalle [C1 ; C2 ], où [C1 ; C2 ] est l’intervalle
de confiance obtenu à l’aide de l’échantillon préliminaire.

Lorsque les tirages sont faits sans remise et que la taille de la population est connue (N < 20 · n)
on doit ajouter le facteur de correction.
Le tableau 4.4 résume comment trouver n pour atteindre une marge d’erreur désirée lors de la
construction d’un intervalle de confiance.

Tableau 4.4 Calcul de n dans le cas de l’estimation d’une proportion


Lorsque N est inconnue Lorsque N est connue
ou si tirage avec remise et tirage sans remise
on isole n dans
2 ·pú (1≠pú )
z–/2 l’équation
n Ø E2 Ò
pú (1≠pú ) 
z–/2 · n · 1≠ n
N =E
4.2 · Estimation d’une proportion 149

Exemple 4.10 Calcul de n pour obtenir une marge d’erreur désirée

Reprenons l’exemple précédent où Poste Canada souhaitait estimer la proportion d’erreurs de


lecture d’une nouvelle machine de reconnaissance optique. Un échantillon préliminaire a révélé
que 6 des 200 lettres testées avaient été mal lues.

Avec ces données nous avions obtenu l’intervalle de confiance à 98% suivant:
[0.001939; 0.058061]

La marge d’erreur était de M E = 0.028061. On se demande combien d’enveloppes supplémen-


taires nous devrions tester pour obtenir une marge d’erreur de 1.5%, avec le même niveau de
confiance.

Solutions

On cherche n tel que ME ≤ 0.015, donc E = 0.015 avec 1-α = 0.98

On a accès à un échantillon préliminaire


p* = 0.058061 (La valeur de l’intervale la +près de 0.5)

n ≥ Z[α/2]^2 * p* * (1 - p*)/E^2

1-α = 0.98
α/2 = 0.01
Z[α/2] = 2.32635

n ≥ 1315.4534
On prendra alors n = 1316
1316 - 200 = 1116 lettres supplémentaires seront nécessaires

4.2.5 Calcul du niveau de confiance associé à un intervalle de confiance donné


Il peut aussi arriver que l’on affirme que le paramètre devrait se retrouver entre deux bornes,
notées [Bi ; Bs ]. À partir de ce que nous avons vu précédemment, nous sommes en mesure de
déterminer le niveau de confiance qui est associé à cet intervalle proposé.
4.2 · Estimation d’une proportion 150

Exemple 4.11 Calcul du niveau de confiance

Une entreprise de 200 employés souhaite leur offrir une nouvelle assurance dentaire. Un repré-
sentant syndical a interrogé 35 employés, et il affirme que la proportion d’employés en faveur de
la nouvelle assurance se situe dans l’intervalle [0.621; 0.751]. On peut se demander quel est le
niveau de confiance associé à cette affirmation.

Solutions:

R
p = “La proportion des 200 employés qui sont en faveur”

Population
- N = 200
- p inconnu

Échantillon
- n = 35
- ^p = (Bi +Bs)/2 = 0.686

On cherche le niveau de confiance de l’intervale [0.621 , 0.751]

Conditions
n = 35 > 30
n^p = 24.01 > 5
n(1-^p) = 10.99 > 5

20 * 35 = 700 > N = 200, donc on doit utiliser le facteur de correction

IC : ^P ± Z[α/2] * ^σ[^p]

ME = (Bs-Bi)/2 = 0.065 = Z[α/2] * ^σ[^p]


^σ[^p] = √(^p(1-^p)/n) * √(1-n/N) = 0.071256

Z[α/2] = ME/^σ[^p] = 0.065/0.071256 = 0.912207

1-α = P(-Z[α/2] ≤ Z ≤ Z[α/2]) où Z~N(0,1)


1-α = normCdf(-0.912207, 0.912207) = 0.63834

L’intervale [0.621, 0.751] a un niveau de confiance de 63.83%


4.2 · Estimation d’une proportion 151

Vous aimerez peut-être aussi