Vous êtes sur la page 1sur 55

Probabilités et statistique 1-620-96 (BAA jour) Section 7, page 7.

Notes de cours électroniques


1-620-96(BAA jour) - Probabilités et statistique – Janvier 2001

Section 7 : Estimation
Table des matières page(s)
7.1 – Estimation ponctuelle 7.2 – 7.6
7.2 – Introduction au concept d’intervalle de confiance 7.7
7.3 – Intervalle de confiance bilatéral pour une moyenne µ, 7.8 – 7.10
(écart-type σ connu et échantillon prélevé avec remise)
7.4 – Intervalle de confiance bilatéral pour une moyenne µ, 7.11 – 7.12
(écart-type σ inconnu et échantillon prélevé avec remise)
7.5 – Intervalle de confiance bilatéral pour une moyenne µ lorsque 7.13 – 7.14
l’échantillon est prélevé sans remise
7.6 – Intervalle de Wald : intervalle de confiance bilatéral pour une 7.15 – 7.16
proportion π (échantillon prélevé avec remise)
7.7 – Intervalle de confiance bilatéral pour une proportion π 7.17
lorsque l’échantillon est prélevé sans remise
7.8 – Détermination d’une taille d'échantillon permettant de fixer la 7.18 – 7.20
précision d’un intervalle de confiance bilatéral et symétrique
7.9 – Intervalle de confiance unilatéral 7.21
7.10 – Exemples de calculs dans Minitab 7.22 – 7.28
Rubriques supplémentaires
7.11 – Intervalle de Clopper-Pearson pour une proportion π 7.29 – 7.32
(échantillon prélevé avec remise)
7.12 – Niveau de confiance réel d’un intervalle sur une proportion π 7.33 – 7.35
7.13 – Estimation ponctuelle d’une variance σ2 7.36 – 7.37
7.14 – Intervalle de confiance bilatéral pour une variance σ2 7.38 – 7.39
7.15 – Généralisation sur les qualités d’un «bon» estimateur 7.40
Problèmes
7.16 – Problèmes 7.41 – 7.45
7.17 – Solutions des problèmes 7.46 – 7.55

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.2

7.1 – ESTIMATION PONCTUELLE

Exemple 7.1.1 :
On prélève un échantillon aléatoire simple avec remise de taille 30 et on note la
valeur que prend une certaine variable quantitative X chez chacun des 30 individus
composant l'échantillon. Soit x la valeur observée de X , la moyenne de X dans
l'échantillon, et soit µ le paramètre défini comme la moyenne de X dans la population
à partir de laquelle l'échantillon a été prélevé. Une estimation ponctuelle de µ est
donnée par x . Si, par exemple, x = 52 dans l'échantillon prélevé, alors une
estimation ponctuelle de µ est donnée par µ̂ = 52. Il s'agit là d'une approximation.

Clarification de la terminologie et de la notation:


X = variable quantitative étudiée. On veut caractériser la distribution de X dans une
population de N individus à partir des valeurs que prend X dans un échantillon
aléatoire simple (prélevé avec ou sans remise) de taille n.

Un paramètre est une caractéristique de la distribution de X dans la population de


référence. Un premier exemple de paramètre est donné par la moyenne µ de X dans
cette population. D'autres exemples sont son écart-type, sa médiane, la proportion
des individus pour lesquels X prend certaines valeurs spécifiées, etc.

Une statistique est une fonction des n variables aléatoires X1, X2, ... , Xn
qu'engendre l'expérience aléatoire qui consiste à prélever un échantillon aléatoire de
taille n. Nous avons approfondi dans la section 6 les propriétés de ces variables
aléatoires. Un exemple de statistique peut être donné par la variable aléatoire
définie par la somme des n variables aléatoires X1+...+Xn. D'autres exemples sont
donnés par leur moyenne X , leur médiane, leur écart-type, le nombre et la
proportion de variables (parmi les n étudiées) qui prendront certaines valeurs
spécifiées, etc.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.3

L'estimateur d'un paramètre est la statistique utilisée pour l'estimer. Un premier


exemple intuitif est : X est un estimateur envisageable pour µ. On utilise une lettre
majuscule pour désigner la variable aléatoire à laquelle correspond l'estimateur. On
utilise une lettre minuscule pour identifier la valeur numérique que prend l'estimateur
dans l'échantillon examiné et on appelle cette valeur l'estimation. Dans le cas de
l'estimateur X , on note par x sa valeur numérique observée dans l'échantillon
examiné.
Propriétés d'un bon estimateur.
La performance d'un estimateur fait intervenir le concept de l'écart entre l'estimation
qui sera fournie et la valeur du paramètre à estimer. Nous avons vu dans la section
6 que, lorsque l'échantillon aléatoire simple est prélevé avec remise, E( X) = µ et

σ( X) = σ / n , où µ et σ représentent respectivement la moyenne et l'écart-type de la


variable étudiée X dans la population de référence. Ces deux propriétés
correspondent à deux importantes qualités de X lorsqu'on analyse sa capacité à
estimer correctement µ. La première est l'absence de biais. Elle correspond au fait
que l'espérance de l'estimateur [dans notre exemple, E( X) ] est égale au paramètre
à estimer [dans notre exemple, µ]. La seconde vient du fait que plus la taille n de
l'échantillon est grande, plus l'écart-type de l'estimateur est petit et qu'à la limite,
c'est-à-dire lorsque n → ∞ , cet écart-type devient nul. Lorsque l'estimateur est sans
biais, cette deuxième qualité en fait un estimateur convergent du paramètre qu'il
estime.

L'identification des qualités d'un «bon» estimateur est un sujet complexe dont nous
généralisons certains éléments dans la rubrique 7.15.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.4

Estimateurs usuels pour un échantillon aléatoire simple prélevé avec remise:

La moyenne et la variance de X dans la population de référence sont µ et σ2


paramètre estimateur utilisé espérance et écart-type qualités de l'estimateur
à estimer de l'estimateur

n E( X) = µ X est un estimateur
∑ Xi sans biais et
i =1
µ X= σ convergent de µ.
n σ( X) =
n
(voir section 6)

S2 est un estimateur
∑ (X i − X )
n 2 E(S 2 ) = σ 2
sans biais et
i =1
σ2 S2 = convergent de σ2
n −1 (voir rubrique 7.13)

De plus : σ(S 2 ) = v(n) ,


où v(n) est une fonction
strictement décroissante en
n et telle que lim v(n) = 0 .
n→∞

Cas particulier : X ∼ B(1; π)


paramètre estimateur utilisé espérance et écart-type qualités de l'estimateur
à estimer de l'estimateur
X = proportion de
n E( X) = π «succès» dans
∑ Xi l’échantillon.
i =1
π X=
n π (1 − π)
σ( X) = X est un estimateur
n sans biais et
(voir page 7.6) convergent de π .

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.5

Estimateurs usuels pour un échantillon aléatoire simple prélevé sans remise

La moyenne et la variance de X dans la population de référence sont µ et σ2


paramètre estimateur utilisé espérance et écart-type qualités de l'estimateur
à estimer de l'estimateur

n E( X) = µ X est un estimateur
∑ Xi
i =1 sans biais de µ . Il est
µ X= convergent en ce sens
n σ  N − n 
σ( X) = que σ( X) décroît
n  N − 1 
lorsque n augmente et
égale 0, lorsque n = N.
(voir section 6)

S2 est un estimateur
( )  N  2
n 2
∑ Xi − X E(S 2 ) =  σ biaisé de σ2, mais le
i =1  N − 1
σ2 S =
2
biais est négligeable,
n −1
(voir rubrique 7.13). lorsque N est très
grand. Un estimateur
toujours sans biais est
 N − 1 2
De plus, σ(S 2 ) = w(n) ,  S .
où w(n) est une fonction  N 
décroissante en n et telle Ce dernier estimateur
que w(n) = 0, lorsque n = N. est convergent en ce
sens que son écart-
type décroît lorsque n
augmente et égale 0,
lorsque n = N.

Cas particulier : X ∼ B(1; π)


X = proportion de
n E( X) = π «succès» dans
∑ Xi l’échantillon.
i =1
π X=
n π (1 − π)  N − n 
σ( X) =   X est un estimateur
 N −1 
n   sans biais de π . Il est
convergent en ce sens
(voir page 7.6) que σ( X) décroît
lorsque n augmente et
égale 0, lorsque n = N.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.6

Estimation d’une proportion π de «succès»


Examinons le contexte particulier que représente l’estimation d’une proportion π de
«succès» dans une population à partir des résultats qui sont observés dans un
échantillon aléatoire simple de taille n. À chacun des individus de la population est
associé une variable indicatrice X qui prend la valeur 1, si l'individu a la propriété
qui définit le «succès», ou la valeur 0, si ce n'est pas le cas. Cette variable est une
variable de Bernouilli.

Dans la section 6, nous avons vu que le prélèvement de l'échantillon aléatoire simple


engendre n variables de Bernouilli X1, X2, ... , Xn identiquement distribuées.
Soit Y = X1 + X2 +...+ Xn . La variable aléatoire Y représente le nombre total de
«succès» dans l'échantillon. Sa loi exacte est connue : Y ∼ B(n; π), si le tirage est
avec remise; Y ∼ Hg (N, n, π), si le tirage est sans remise.

X1 + ... + X n Y
Dans ce contexte, X = = = proportion de «succès» dans l’échantillon.
n n
L’espérance et l’écart-type de X se déduisent de l’espérance et l’écart-type de Y :
1 1
E( X) = E( Y ) et σ( X) = σ( Y ) .
n n

E(Y) = n π σ( Y ) = n π (1 − π) N−n
σ( Y ) = n π (1 − π)
N −1
E( X ) = π π (1 − π π (1 − π) N − n
σ( X) = σ( X) =
(tirage avec remise ou n n N −1
tirage sans remise) (tirage avec remise) (tirage sans remise)

On peut donc conclure que X = Y/n est un estimateur sans biais et convergent de π.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.7

7.2 – INTRODUCTION AU CONCEPT D’INTERVALLE DE CONFIANCE

Limites de l’estimation ponctuelle


L'estimation ponctuelle n'est pas une technique d'estimation très précise puisque la
valeur numérique prise par un estimateur dans un échantillon donné peut dévier
considérablement de la valeur numérique du paramètre à estimer, comme le
démontrent les écart-types des estimateurs présentés dans les tableaux des pages
7.4 et 7.5. Voilà pourquoi, on est souvent intéressé à identifier un ensemble (ou un
intervalle) de valeurs plausibles. Par exemple, pour estimer une moyenne µ, on
pourrait construire un intervalle de valeurs plausibles pour µ, compte tenu du résultat
de l’estimation ponctuelle, c’est-à-dire compte tenu de la valeur x prise par X dans
l’échantillon.

Le concept d’intervalle de confiance.


Comment définir ce qu’on entend par une «valeur plausible de µ compte tenu de la
valeur x prise par X dans l’échantillon» ? Une façon de faire consiste à inverser la
question et à se demander ce qu’est une valeur peu plausible pour la variable
aléatoire X . On peut, par exemple, utiliser une approche bilatérale et dire qu’il est
peu probable que X prenne une valeur inférieure à son 1er centile ou une valeur
supérieure à son 99e centile, puisque cette probabilité est égale à α = 0,02.

(
Dans un contexte où X ∼ N µ X = µ ; σ X = σ )
n , les 1er et 99e centiles de X sont :

Q 0,01 ( X ) = µ − ( z 0,01 σ X ) et Q 0,99 ( X ) = µ + ( z 0,01 σ X ) . (Voir page 5.14.)

Un intervalle bilatéral de valeurs plausible pour la moyenne µ est alors donné par
l’intervalle [µ1 ; µ2] où µ1 est telle que la valeur observée x correspond au 99e
centile de X , c’est-à-dire x = µ1 + ( z 0,01 σ X ) , et µ2 est telle que x correspond au 1er

centile de X , c’est-à-dire x = µ 2 − ( z 0,01 σ X ) . Le tout peut se réécrire µ1 = x − ∆ et

µ2 = x + ∆, où ∆ = z 0,01 σ X = z 0,01 (σ n ) . La quantité 1 − α = 1 − 0,02 = 0,98 est

appelée le niveau de confiance de l’intervalle bilatéral proposé.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.8

7.3 – INTERVALLE DE CONFIANCE BILATÉRAL POUR UNE MOYENNE µ


(ÉCART-TYPE σ CONNU ET ÉCHANTILLON PRÉLEVÉ AVEC REMISE)

Visualisation du problème :
(
Dans un contexte permettant de poser X ∼ N µ X = µ ; σ X = σ )
n , on cherche un

intervalle de confiance [µ1 ; µ2] pour µ, de niveau de confiance 1 − α.


1) Cloche rouge de moyenne µ1 : on cherche la valeur µ1 de µ telle que la valeur x
prise par X dans l’échantillon est son quantile d'ordre 1−α/2, c’est-à-dire telle que
 σ 
P( X ≥ x ) = α/2. On obtient µ1 = x - ∆, où ∆ = z α / 2   .
 n
2) Cloche bleue de moyenne µ2 : on cherche la valeur µ2 de µ telle que la valeur x
prise par X dans l’échantillon est son quantile d'ordre α/2, c’est-à-dire telle que
 σ 
P( X ≤ x ) = α/2. On obtient µ2 = x + ∆, où ∆ = z α / 2   .
 n

 σ   σ 
N µ1 ;  N µ 2 ; 
 n < ∆ >< ∆ >  n

α/2 α/2

µ
µ1 x µ2

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.9

Contexte d’utilisation:
1) L’échantillon examiné est un échantillon aléatoire simple prélevé avec remise.
2) La variable étudiée, notée X, se distribue selon une loi normale dans la
population de référence ou la taille n de l'échantillon est suffisamment grande
pour que le théorème central limite s'applique.
 σ 
Dans un tel contexte, la distribution de X est donnée par la loi N µ X = µ ; σ X =  .
 n
Forme de l'intervalle :
[µ1 ; µ2] = [ x − ∆ ; x + ∆], où x = valeur observée de la moyenne de l'échantillon (ou
σ
moyenne expérimentale) utilisée pour estimer µ et ∆ = z α / 2 .
n
Précision ou marge d’erreur
Lorsque l’intervalle bilatéral est symétrique, comme c’est le cas ici par rapport à
l’estimation x , la quantité ∆ se nomme souvent précision ou marge d'erreur de
l'estimation. Sa valeur dépend de la taille n de l'échantillon, de l'écart-type σ de la
variable X (la variable étudiée) dans la population de référence et du niveau de
confiance 1−α qui est utilisé.

−α:
Signification du niveau de confiance 1−
De façon générale, le niveau de confiance d'un intervalle représente la proportion
des échantillons possibles pour lesquels le paramètre à estimer appartient à
l'intervalle de confiance. Les valeurs usuelles de α sont 0,10 ; 0,05 ou 0,01. En
d'autres mots, les niveaux de confiance sont habituellement 90%, 95% ou 99%.
L'interprétation usuelle d'un niveau de confiance, par exemple 95%, est que «la
technique utilisée définit un intervalle contenant le paramètre à estimer dans 95%
des cas».
Lorsqu'une enquête permet d'estimer µ par un intervalle de la forme [ x − ∆ ; x + ∆],
l'interprétation du niveau de confiance 95%, qui est souvent formulée dans les
journaux, est : «la marge d'erreur d'une enquête de ce type est ∆, 19 fois sur 20».

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.10

Autre façon de visualiser le calcul de ∆.

Le contexte permet de poser : X ∼ N( µ X ; σ X ) , où µ X = µ et σ X = σ / n .

( ) (
On cherche ∆ tel que 1 − α = P | X − µ | ≤ ∆ = P µ − ∆ ≤ X ≤ µ + ∆ . )
 σ 
On obtient ∆ = z α / 2   . (voir la rubrique sur les quantiles d'une loi normale)
 n

loi de X
f(x)

1−α

α/2 α/2
x
µ−∆ µ µ+∆

 σ 
∆ = z α / 2 σ X = z α / 2  
 n

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.11

7.4 – INTERVALLE DE CONFIANCE BILATÉRAL POUR UNE MOYENNE µ


(ÉCART-TYPE σ INCONNU ET ÉCHANTILLON PRÉLEVÉ AVEC REMISE)

Présentation du problème :
σ
La mise en pratique de l'intervalle de confiance [ x − ∆ ; x + ∆], où ∆ = z α / 2 , est
n
problématique car elle exige la connaissance de la valeur de σ.
Comment estimer σ ?
Une façon de contourner le problème est de trouver un estimateur de σ.
Pour cela, on peut utiliser le résultat démontré dans la rubrique 7.13 à l'effet que

∑ (X i − X)
n 2

i =1
S2 = est un estimateur sans biais de σ2 .
n −1
Voilà pourquoi, lorsque σ est inconnu, on peut estimer ponctuellement σ X par

σˆ X = s n . Plusieurs auteurs nomment cette dernière quantité «l'erreur type» de

X . Dans Minitab, cette quantité est nommée «standard error» et notée «S. E.».

Identification d'un premier intervalle de confiance :


Si dans l'intervalle présenté dans la sous-section 6.2, on remplace σ X par

s
σˆ X = s n , on obtient un nouvel intervalle [ x − ∆ ; x + ∆], où ∆ = z α / 2 . Rien
n
toutefois ne nous garantit qu'il s'agit d'un intervalle valide. C'est à ce problème que
s'est attaqué au début du siècle le statisticien anglais Gosset qui publiait sous le
pseudonyme de "Student". Plus spécifiquement, Gosset identifia un contexte pour
X−µ
lequel il est possible de déterminer la distribution exacte de et les propriétés
S n
de cette distribution qui fut baptisée la loi de "Student".

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.12

Résultat de Gosset :
Soit X1, X2, ... , Xn, les n variables aléatoires indépendantes et identiquement
distribuées qu'engendre l'expérience aléatoire qui consiste à prélever avec remise un
échantillon aléatoire simple de n valeurs d'une variable quantitative X.
X−µ
Si X ∼ N(µ; σ) dans la population de référence, la distribution de est donnée
S n

par la loi de Student à n−1 degrés de liberté. (Loi Tn−1)

Intervalle de confiance qui résulte des travaux de Gosset:


Lorsque la variable étudiée se distribue selon une loi normale dans la population de
référence, un intervalle de confiance bilatéral et symétrique pour µ, de niveau de
s
confiance 1−α, est donné par [ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 et t n −1; α / 2 est le
n
quantile d'ordre 1−(α/2) de la loi de Student à n−1 degrés de liberté.

Extension des résultats aux échantillons de grande taille:


Le résultat de Gosset s'est avéré un résultat robuste. La pratique révèle que, lorsque
la variable étudiée ne se distribue pas selon une loi normale dans la population de
référence mais que la taille n de l'échantillon est suffisamment grande pour que le
théorème central limite s'applique à X , la loi de Student à n-1 degrés de liberté
X−µ
approche habituellement assez bien la distribution de . Il s'en suit que
S n
s
l'intervalle [ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 , peut être utilisé lorsque la taille de
n
l'échantillon est grande. Comme nous le présentons dans la rubrique consacrée à la
loi de Student, plus n augmente, plus la loi Tn a tendance à se confondre avec la loi
N(0; 1) et il n'y a presque plus d'écart entre t n −1; α / 2 et z α / 2 . C'est donc dire que

pour n très grand, on peut utiliser l'intervalle [ x − ∆ ; x + ∆], où


s s
∆ = t n −1; α / 2 ≅ zα / 2 ; ce qui nous ramène à l'intervalle initialement proposé.
n n

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.13

7.5 – INTERVALLE DE CONFIANCE BILATÉRAL POUR UNE MOYENNE µ


LORSQUE L’ ÉCHANTILLON EST PRÉLEVÉ SANS REMISE

Rappel :
Nous avons vu dans la section 6 que, lorsqu'on prélève un échantillon aléatoire
simple sans remise de n valeurs d'une variable quantitative X dont la moyenne et
l'écart-type dans la population de référence sont respectivement µ et σ,

σ N−n
σ( X) = .
n N −1
C'est donc dire que l'écart-type de l'estimateur X est plus petit et que, par
conséquent, on pourrait, pour un même niveau de confiance, obtenir une estimation
de µ par un intervalle plus précis (plus court) que lorsqu'on prélève l'échantillon avec
remise.

La taille N de la population peut être considérée comme infinie.

Très souvent, la taille N de la population peut être considérée comme infinie. Dans
un tel cas, σ( X ) → σ / n . On peut alors considérer qu'il n'est pas nécessaire de
distinguer le cas sans remise du cas avec remise et on peut utiliser directement les
techniques d'estimation présentées précédemment pour le cas avec remise.

La taille N de la population ne peut pas être considérée comme infinie.

Dans un tel cas il faut tenir compte de la vraie valeur de σ( X ).

σ N−n
Si σ est connu, l'intervalle [ x − ∆ ; x + ∆], où ∆ = z α / 2 , peut être utilisé.
n N −1

Si σ n'est pas connu, il faut l'estimer ponctuellement. Pour ce faire, il faut considérer
 N − 1 2
que, dans le cas sans remise, un estimateur sans biais de σ2 est  S .
 N 

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.14

S2  N − n 
On en déduit qu'un estimateur sans biais de Var( X ) est donné par :   et
n  N 

s N−n
on obtient un intervalle de la forme [ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 .
n N
Il est à noter que la différence entre cet intervalle et celui utilisé avec un prélèvement
avec remise tient essentiellement à la valeur de (N − n) / N = 1 − (n / N) . En théorie

de l'échantillonnage la quantité n/N est appelée le taux de sondage et elle


représente la proportion de la population qui est présente dans l'échantillon. Lorsque
ce taux est faible, 1− (n / N) → 1 et il n'est pas vraiment nécessaire de développer

des intervalles spécifiques pour le prélèvement sans remise.

Remarques additionnelles:
1) Tout comme dans le cas avec remise, l'utilisation pour des échantillons de petite
taille des intervalles de confiance qui précèdent ne peut se faire qu'à condition
que la distribution de la variable étudiée dans la population de référence puisse
être approchée par une loi normale.

2) Il est à noter que l'intervalle de confiance pour µ construit en faisant comme si


l'échantillon était prélevé avec remise contient toujours l'intervalle de confiance
pour µ construit à partir de l'échantillon sans remise. Voilà pourquoi on utilise
souvent les intervalles de confiance des rubriques qui précèdent peu importe le
mode de prélèvement de l’échantillon aléatoire simple. En procédant ainsi pour
un tirage sans remise, on est presque toujours assuré que le niveau de confiance
réel de l'intervalle est plus élevé que celui utilisé pour calculer ses bornes.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.15

7.6 – INTERVALLE DE WALD : INTERVALLE DE CONFIANCE BILATÉRAL


POUR UNE PROPORTION π (ÉCHANTILLON PRÉLEVÉ AVEC REMISE)

Description de la problématique
Soit Y = X1 + ... + Xn, la variable aléatoire qui représente le nombre total de «succès»
dans un échantillon aléatoire simple prélevé avec remise. La variable aléatoire
X = Y/n représente la «proportion de succès» dans l’échantillon.

La loi de Y est connue : Y obéit à la loi B(n; π). Dans la section 6, nous avons vu que
pour n suffisamment grand et π ni trop petit, ni trop grand, on peut approcher la loi

B(n; π) par la loi N(µY = nπ; σY = n π(1 − π) ) . Dans un tel contexte, la distribution de

X peut être approchée par la loi N( µ X = π ; σ X = π (1 − π) n ). Lorsque toutes les

conditions sont ainsi réunies pour que l'approximation par la loi normale de la
distribution de X soit performante, on peut considérer que le problème de la
construction d'un intervalle de confiance pour π est un cas particulier de celui de la
construction d’un intervalle de confiance pour une moyenne µ. Il suffit d’utiliser

l’intervalle de confiance de la rubrique 7.3 , en remplaçant µ par π et σ par π(1 − π) .

π(1 − π)
On obtient ainsi l’intervalle [ x − ∆ ; x + ∆] , où ∆ = z α / 2 .
n
Le hic avec la formule qui précède est que ∆ fait intervenir le paramètre π qui
est à estimer. La solution présentée dans cette rubrique consiste à tout simplement
remplacer π(1 − π) n par x (1 − x ) n.

Description de l’intervalle

x (1 − x )
[ x − ∆ ; x + ∆], où ∆ = z α / 2 .
n

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.16

Limites de la méthode
L’intervalle qui précède résultant d'une succession d'approximations, il est peu
probable que son niveau de confiance réel soit égal à 1−α. Il est donc préférable de
considérer qu'il ne vaut qu’approximativement 1−α.

De plus, l'approximation par la loi normale de la distribution de X n'est performante


que si la taille n de l'échantillon examiné est grande et que le paramètre π étudié ne
prend pas une valeur trop petite, ou trop grande. Voilà pourquoi, on devrait limiter
l'utilisation de cet intervalle aux situations où n est très grand et où il est peu
plausible que le paramètre π prenne une valeur proche de 0, ou proche de 1.

Nous présentons dans la rubrique 7.11, une méthode qui n'utilise pas l'approximation
par la loi normale. Elle se base plutôt sur la loi exacte de Y, c'est-à-dire la loi B(n; π).
Elle induit habituellement un intervalle de confiance bilatéral un peu plus long que
celui obtenu par la méthode qui précède et son niveau de confiance réel est toujours
≥ 1 − α . Cette deuxième méthode a l'avantage de pouvoir s'appliquer peu importe
les valeurs de n et de π. Elle est toutefois beaucoup plus complexe et difficile
d'usage sans l'outil informatique.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.17

7.7 – INTERVALLE DE CONFIANCE BILATÉRAL POUR UNE PROPORTION π


LORSQUE L’ÉCHANTILLON EST PRÉLEVÉ SANS REMISE

Discussion
Considérons un échantillon aléatoire simple de taille n prélevé sans remise dans une
population de taille N. L’écart-type de la proportion X de «succès» dans l’échantillon
est alors plus petit que si l’échantillon est prélevé avec remise :

π (1 − π)  N − n  π(1 − π)
 
 N −1  ≤ .
n   n

Lorsque la taille N de la population est tellement grande qu'elle peut être considérée
comme tendant vers l'infini, il n'est pas vraiment nécessaire de distinguer entre les 2
types de prélèvements et on peut raisonner avec le modèle mathématique qui est le
plus simple soit celui qui correspond au prélèvement avec remise.

Lorsque la taille N de la population est très grande et que le taux de sondage n/N est
faible, c'est-à-dire lorsque n <<< N,
π (1 − π)  N − n  π(1 − π)
(N − n) (N − 1) → 1 et σ( X) =  
 N −1  ≅ .
n   n

Voilà pourquoi, on peut utiliser l’intervalle présenté dans la rubrique qui précède pour
estimer π. Une autre justification est que cet intervalle de confiance construit à partir
du modèle avec remise est sans doute plus long que l'intervalle plus exact qui
tiendrait compte que le prélèvement se fait sans remise.

Lorsqu'une telle approche n'est pas satisfaisante parce que trop imprécise, ce qui
peut se produire lorsque le taux de sondage est important ou lorsque la taille de la
population est petite, il faut recourir à d'autres méthodes que nous n'aborderons pas
dans ce texte d'introduction.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.18

7.8 – DÉTERMINATION D’UNE TAILLE D'ÉCHANTILLON PERMETTANT DE


FIXER LA PRÉCISION D’UN INTERVALLE DE CONFIANCE BILATÉRAL ET
SYMÉTRIQUE

Présentation du problème :
Une question souvent posée est: comment fixer la taille de l'échantillon à prélever? Il
s'agit là d'une question fort complexe dont la réponse, quand elle existe, dépend de
l'objectif poursuivi. Nous présentons dans cette rubrique des situations pour
lesquelles il est possible de déterminer la taille d'échantillon nécessaire afin de
pouvoir estimer une moyenne µ, ou une proportion π de «succès», à l'aide d'un
intervalle de confiance bilatéral et symétrique de la forme [ x − ∆ ; x + ∆] , de niveau
de confiance 1−α , dont la précision ∆ est inférieure ou égale à un maximum fixé.

Estimation d’une moyenne


Dans la rubrique 7.3, nous avons vu que si 1) la valeur de σ est connue et si 2) la
variable étudiée se distribue selon une loi normale dans la population de référence,
ou la taille n de l’échantillon est suffisamment grande, un intervalle de confiance
σ
pour µ, de niveau de confiance 1 − α, est donné par [ x − ∆ ; x + ∆] où ∆ = z α / 2 .
n
σ zα / 2 σ
Pour que ∆ ≤ e , il suffit donc que z α / 2 ≤ e, c’est-à-dire que n≥ .
n e
Si la variable étudiée ne se distribue pas selon une loi normale dans la population de
référence, il faut restreindre l’utilisation de ce procédé aux situations où la taille n de
l’échantillon que l’on obtient est assez grande pour justifier le type d’intervalle utilisé.

Remarque :
Souvent on ne connaît pas la valeur exacte de σ, mais on est capable d’identifier une
valeur que cet écart-type ne peut pas dépasser, c’est-à-dire une quantité σ* telle que
σ ≤ σ*. Dans une telle situation, on peut obtenir une approximation de la taille
minimale d’échantillon nécessaire en remplaçant σ par σ* dans la formule qui
précède.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.19

Exemple 7.8.1:
Supposons que l’écart-type σ du revenu annuel dans une certaine population est
égale à 12 000$. Déterminons la taille d’échantillon qu’il faut prélever afin de pouvoir
estimer le revenu annuel moyen avec une précision de 1 000$ (ou moins) au niveau
de confiance 95%.

En supposant que la valeur de n que nous calculerons est suffisamment grande pour
que le théorème central limite s’applique, il suffit de résoudre
zα / 2 σ z 0,025 12 000
n≥ ⇔ n≥ .
e 1 000

Or z 0,025 = Q 0,975 (X) = 1,9600. D’où n ≥ 1,96x12 = 23,52 et n ≥ (23,52)2 = 553,19

n étant un nombre entier, il faut donc que n ≥ 554.

Estimation d’une proportion

Une limite des techniques d'estimation par intervalles de confiance d’une proportion
π est qu'elles exigent l'examen de très grands échantillons pour donner des résultats
précis. Il n'y a malheureusement pas de façons de contourner cette difficulté.

Examinons le raisonnement généralement utilisé par les grandes firmes de sondage


pour déterminer la taille de l'échantillon à prélever pour estimer une proportion de
«succès» dans la population. Pensons, entre autres, au contexte des sondages qui
sont menés en période de campagne électorale ou de campagne référendaire. Dans
un tel contexte, la taille N de la population de référence est très grande et, bien qu'on
soit prêt à recruter un grand échantillon, le taux de sondage envisageable reste
toujours très faible. Il n'est donc pas nécessaire de tenir compte du mode de
prélèvement et on peut raisonner à partir du modèle avec remise.

Le problème peut se poser comme suit : à partir de quelle taille d'échantillon, peut-on
être assuré qu'un intervalle de niveau de confiance 1−α de la forme [ x − ∆ ; x + ∆]
soit tel que ∆ ≤ e, où e est la marge d'erreur maximale désirée?

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.20

π(1 − π)
On cherche donc n tel que ∆ = z α / 2 ≤ e.
n
Or : π(1−π) ≤ 0,25 ; ce que le lecteur peut vérifier avec diverses valeurs de π.

[ Cette propriété se démontre facilement :


π(1−π) ≤ 0,25 ⇔ π2 − π + 0,25 ≥ 0 ⇔ (π − 0,5)2 ≥ 0, ce qui est toujours vrai.]

0,25
D'où : si n est tel que z α / 2 ≤ e , alors ∆ ≤ e.
n
2
z z 
On obtient : n ≥ α / 2 et n ≥  α / 2  .
2e  2e 

Exemple 7.8.2:
Lors d'un sondage sur les intentions de vote, combien d'électeurs doit-on sonder
pour pouvoir estimer à ± 3% la proportion de l'électorat qui a l'intention de voter pour
le parti au pouvoir, au niveau de confiance 95%?
2 2
z   1,96 
On obtient : n ≥  α / 2  =   = 1067,1 . Il faut interroger au moins 1068
 2e   0,06 
électeurs.

Exemple 7.8.3:
Les journaux publient souvent des résultats de sondage mené auprès d'environ 1000
personnes. Au niveau de confiance 95%, la marge d'erreur maximale pour estimer

0,5 × 0,5 1,96


une proportion est : z α / 2 = = 3,1%. Nous venons d'expliquer la
n 2 1000
phrase si souvent publiée : «La marge d'erreur d'une telle étude est de 3,1%, 19 fois
20».

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.21

7.9 – INTERVALLE DE CONFIANCE UNILATÉRAL.

Dans certaines situations, on peut être intéressé à estimer un paramètre par un


intervalle de valeurs ne contenant qu'une borne inférieure ou qu'une borne
supérieure.

Intervalle de confiance unilatéral pour une moyenne


Un intervalle unilatéral borné inférieurement et de niveau de confiance 1−α est
σ s
donné par [ x − ∆; +∞); où, selon le contexte, ∆ = z α ou ∆ = t n −1; α .
n n

Un intervalle unilatéral borné supérieurement et de niveau de confiance 1−α est


σ s
donné par (−∞; x + ∆]; où, selon le contexte, ∆ = z α ou ∆ = t n −1; α .
n n

Les contextes d’utilisation sont les mêmes que pour les intervalles de confiance
bilatéraux décrits aux rubriques 7.3 et 7.4.

Intervalle de confiance unilatéral pour une proportion


Lorsque le contexte en est un qui permet d’estimer la proportion π par un intervalle
de Wald (rubrique 7.6), un intervalle unilatéral borné inférieurement et de niveau de
π (1 − π)
confiance 1−α est donné par [ x − ∆; 1], où ∆ = z α ; un intervalle unilatéral
n
borné supérieurement et de niveau de confiance 1−α est donné par [0; x + ∆].

Méthode rapide pour calculer la borne d’un intervalle unilatéral


Pour obtenir rapidement la borne recherchée d'un intervalle unilatéral à l'aide d'un
logiciel, il suffit de faire construire l'intervalle de confiance bilatéral de niveau de
confiance 1−2α et de ne retenir ensuite que la borne désirée.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.22

7.10 – EXEMPLES DE CALCULS DANS MINITAB.

Fichier utilisé :
Dans les exemples qui suivent, la variable étudiée est la variable «Price» contenue
dans la colonne c1 du fichier «Homes.MTW» que nous avons exploré maintes fois
dans le cours de Statistique descriptive [voir, entre autres, le chapitre un du manuel
Statistique descriptive, par Bélisle(1999)]. Pour que les calculs qui suivent aient un
sens, nous supposons que l'échantillon de 150 maisons qui est examiné est un
échantillon aléatoire simple qui a été prélevé à partir d'une population très vaste. De
cette façon, les formules déduites du cas avec remise s'appliquent à cet échantillon
qui a sans doute été prélevé sans remise.

Exemple 7.10.1 : estimation ponctuelle de µ et σ


Soit µ et σ, la moyenne et l’écart-type de la variable Price dans la population de
référence dans laquelle a été prélevé l’échantillon du fichier. Pour estimer
ponctuellement µ et σ, il suffit de calculer la moyenne x et l’écart-type corrigé s. Il
s’agit de quantités qui sont automatiquement calculées lorsqu’on sélectionne la
colonne c1 (colonne contenant les 150 valeurs observées de la variable Price) dans
le menu «Stat >Basic Statistics >Display Descriptive Statistics...». On peut obtenir le
même résultat en tapant la commande «describe c1» dans la fenêtre de session. Il
est à noter que «l’erreur-type» s n de X est également calculée.

menu : «Stat >Basic Statistics >Display Descriptive Statistics...»


Descriptive Statistics

Variable N Mean Median TrMean StDev SE Mean


Price 150 153775 144900 151069 41611 3398

Variable Minimum Maximum Q1 Q3


Price 72000 302000 126500 179225

n x s s n

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.23

On peut également obtenir directement les valeurs de x et s en utilisant les


commandes «mean» et «stdev» dans la fenêtre de session.
Commande Résultat affiché
MTB > mean c1 Column Mean

Mean of Price = 153775


MTB > stdev c1 Column Standard Deviation

Standard deviation of Price = 41611

On peut également sauvegarder dans des constantes de la feuille de travail les


résultats des calculs.
Commande Résultat
affiché
MTB > let k1 = mean(c1) Data Display
MTB > let k2 = stdev(c1)
MTB > print k1 k2 K1 153775
K2 41610,9

Exemple 7.10.2 : intervalle de confiance à 95% pour µ


Étant donné que l’écart-type σ de Price dans la population de référence est inconnu
et que la taille d’échantillon est assez grande pour que l’intervalle de Student puisse
être utilisé (voir la rubrique 7.4), l’intervalle de confiance à construire est :
s s
[ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 = t 149 ; 0,025 .
n 150
Pour obtenir directement cet intervalle, il suffit de sélectionner le menu : «Stat >Basic
Statistics >1-Sample t...», de préciser que la colonne c1 contient les données, de
cocher l'option «Confidence Interval» et d’inscrire le niveau de confiance en %, c’est-
à-dire 95, dans la fenêtre «Level». Cette opération équivaut à utiliser la commande
«TInterval 95 c1» dans la fenêtre de session.
Commande Résultat affiché
MTB > TInterval 95 c1 T Confidence Intervals

Variable N Mean StDev SE Mean 95,0 % CI


Price 150 153775 41611 3398 ( 147062; 160489)

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.24

Il est à noter qu’on pourrait directement obtenir le même résultat en procédant


comme suit.
Opération Commandes – fenêtre de session
Calcul de la moyenne de l’échantillon x MTB > let k1 = mean(c1)
Calcul de l’écart-type corrigé de l’échantillon s MTB > let k2 = stdev(c1)
Calcul de t 149; 0,025 MTB > InvCDF 0,975 k3;
SUBC > T 149.
(quantile d’ordre 0,975 d’une loi T149 )
Calcul de la précision de l’intervalle MTB > let k4 = k3*k2/sqrt(150)
∆ = t149; 0,025 s n( )
Calcul de la borne inférieure de l’intervalle x − ∆ MTB > let k5 = k1 – k4
Calcul de la borne supérieure de l’intervalle x + ∆ MTB > let k6 = k1 + k4
Impression des résultats MTB > name k5 ‘borne inf’
MTB > name k6 ‘borne inf’
MTB > print k5 k6

Data Display

borne inf 147062


borne sup 160489

Remarque :
Étant donné que z0,025 = 1,9600 et t149; 0,025 = 1,9760 . L'intervalle utilisant
s
∆ = zα / 2 , est un peu plus court que celui qui précède. On peut l'obtenir par le
n
σ
menu «Stat >Basic Statistics > 1-Sample Z...», qui utilise ∆ = z α / 2 pour la valeur
n
de σ que l'utilisateur précise dans la fenêtre «sigma». Il suffit d’inscrire la valeur de
s, c’est-à-dire 41 611, dans la fenêtre «Sigma». La même opération peut être faite
en utilisant la commande : MTB > ZInterval 95 41611 c1.

Z Confidence Intervals

The assumed sigma = 41611

Variable N Mean StDev SE Mean 95,0 % CI


Price 150 153775 41611 3398 ( 147115; 160435)

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.25

Exemple 7.10.3: intervalle unilatéral.


Pour obtenir un intervalle unilatéral de niveau de confiance 90% pour la moyenne µ
définie dans l’exemple 7.10.1, on utilise Minitab pour obtenir un intervalle bilatéral de
niveau de confiance 80%, puis on retient la borne désirée.
T Confidence Intervals

Variable N Mean StDev SE Mean 80,0 % CI


Price 150 153775 41611 3398 (149402; 158149)

[149 402 ; +∞) est un intervalle de confiance unilatéral pour µ, de niveau de


confiance 90%. Il en est de même pour (−∞ ; 158 149]. (Dans ce dernier cas, on
pourrait remplacer −∞ par 0, puisque le prix de vente d'une maison est toujours un
nombre positif.)

Exemple 7.10.4 : estimation ponctuelle d’une proportion π


Voyons comment estimer ponctuellement la proportion π (dans la population) de
maisons dont le prix de vente se situe dans l’intervalle [150 000; 200 000).

Construction de la variable de Bernouilli sur laquelle porte l'étude.


Cette variable X est une variable de Bernouilli telle que, pour chacun des individus
(chacune des lignes), X = 1, si 150 000 ≤ Price < 200 000; et X = 0, sinon. On peut
la construire en utilisant le menu «Manip >Code >Numeric to Numeric...» ou la
commande «code» de la fenêtre de session. Comme nous l'avons vu en statistique
descriptive, on utilise souvent le vocable «variable indicatrice» pour désigner ce
type de variable.
On doit
Code data from columns: écrire un
c1 nombre qui
Into columns: est plus
c6 grand que
Original values (eg, 1:4 12): New: le
maximum
150000:199999,99 1
observé
0:149999,99 200000 :320000 0

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.26

On peut effectuer la même opération en utilisant la commande ci-dessous dans la


fenêtre de session.
MTB > Code (150000:199999,99) 1 (0:149999,99 200000:320000) 0 c1 c6

On peut examiner la façon dont se distribue la variable indicatrice dans l'échantillon


en utilisant le menu «Stat >Basic Statistics >Tally...» ou la commande :
«MTB > tally c6». On observe 54 «succès» dans l'échantillon de taille 150, c'est-à-
dire 54 maisons dont le prix de vente est dans l’intervalle [150 000$; 200 000$).
Summary Statistics for Discrete Variables
X Count Percent
0 96 64,00
1 54 36,00
N= 150

Le nombre y de «succès» observés dans l’échantillon est donc 54 et on peut estimer


ponctuellement le paramètre π par x = y/n = 54/150 = 0,36.
Remarque :
On peut obtenir directement les valeurs du nombre y de «succès» observés dans
l’échantillon et de la proportion x de «succès» observés dans l’échantillon en
calculant la somme et la moyenne de la colonne contenant la variable indicatrice.
Commande Résultat affiché
MTB > sum c6 Column Sum

Sum of C6 = 54,000
MTB > mean c6 Column Mean

Mean of C6 = 0,36000

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.27

Exemple 7.10.5 :intervalle de confiance à 90% pour π


Estimons la proportion π de «succès» définie dans l’exemple 7.10.4 par un intervalle
bilatéral, de niveau de confiance 90%, en utilisant la méthode de Wald (méthode
utilisant une approximation de la loi binomiale par la loi normale)

Méthode 1 (méthode utilisant la colonne contenant les valeurs observées de la


variable indicatrice étudiée).
Dans le menu «Stat >Basic Statistics >1 Proportion...»,
- cocher la case «Samples in columns:» et inscrire la colonne c6 contenant les
valeurs de la variable indicatrice dans la fenêtre correspondante;
- sélectionner le bouton «Options», inscrire le niveau de confiance en %, 90, dans
la fenêtre à droite de «Confidence level:» et cocher le choix «Use test and
interval based on normal distribution».
OU taper directement les commandes ci-dessous dans la fenêtre de session.
MTB > POne c6;
SUBC> Confidence 90;
SUBC> UseZ.

Méthode 2 (méthode n'utilisant que la taille n de l'échantillon et le nombre de


«succès» observé dans l'échantillon).
Dans le menu «Stat >Basic Statistics >1 Proportion...»,
- cocher l'option «Summarized data», inscrire la taille de l'échantillon, 150, dans la
fenêtre à droite de «Number of trials» et inscrire le nombre observé de «succès»
dans l'échantillon, 54, dans la fenêtre à droite de «Number of successes»;
- sélectionner le bouton «Options», inscrire le niveau de confiance en %, 90, dans
la fenêtre à droite de «Confidence level:» et, cocher le choix «Use test and
interval based on normal distribution».
OU taper directement les commandes ci-dessous dans la fenêtre de session.
MTB > POne 150 54;
SUBC > Confidence 90;
SUBC > UseZ.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.28

Résultat affiché (méthode 1)


Test and Confidence Interval for One Proportion

Test of p = 0,5 vs p not = 0,5


Success = 1

Variable X N Sample p 90,0 % CI Z-Value P-Value


C6 54 150 0,360000 (0,295535; 0,424465) -3,43 0,001

Résultat affiché (méthode 2)


Test and Confidence Interval for One Proportion

Test of p = 0,5 vs p not = 0,5

Sample X N Sample p 90,0 % CI Z-Value P-Value


1 54 150 0,360000 (0,295535; 0,424465) -3,43 0,001

Peu importe la méthode utilisée, on obtient [0,2955; 0,4245] comme intervalle de


confiance à 90% pour la proportion π des maisons de la population de référence dont
le prix de vente se situe dans l’intervalle [150 000$; 200 000$).

Remarque
Si, dans les options du menu «Stat >Basic Statistics >1 Proportion...», on ne
sélectionne pas le choix «Use test and interval based on normal distribution»,ou si,
dans la fenêtre de session, on n’inscrit pas la sous-commande «Use Z»; l’intervalle
de confiance ne se construit pas selon la méthode de Wald. Il s’agit plutôt d’un
intervalle de Clopper-Pearson (voir la rubrique supplémentaire 7.11).

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.29

7.11 – INTERVALLE DE CLOPPER-PEARSON POUR UNE PROPORTION π


(ÉCHANTILLON PRÉLEVÉ AVEC REMISE)

Introduction
Contrairement à l'intervalle de Wald, l'intervalle de Clopper-Pearson peut être utilisé
pour toute valeur de n et de π. Plusieurs le qualifient d'exact mais cela n'est pas
vraiment le cas car son niveau de confiance réel est toujours plus grand ou égal à la
valeur 1−α utilisée pour le construire1, ce que nous illustrons dans la rubrique 7.12.
L’appelation «exacte» provient du fait que la construction de cet intervalle fait
intervenir la loi exacte de Y = n X = nombre de «succès» dans l’échantillon, c’est-à-
dire la loi binomiale.
Principe de construction de l’intervalle.

Procédons à une analogie. Dans la rubrique 7.3, nous avons expliqué que la
construction d’un intervalle de confiance [µ1 ; µ2] pour µ; de niveau de confiance
1 − α, revient à chercher la valeur µ1 de la moyenne de la population pour laquelle
P( X ≥ x ) = α/2, et la valeur µ2 de la moyenne de la population pour laquelle
P( X ≤ x ) = α/2, où x est la valeur prise par la variable X dans l’échantillon prélevé.

En appliquant le même type de raisonnement au contexte de l’étude d’une proportion


π de «succès» de l’échantillon à l’aide de la variable aléatoire Y définie comme le
nombre de «succès» dans l’échantillon, on obtient que : la construction d’un
intervalle de confiance [π1 ; π2] pour π, de niveau de confiance 1 − α, revient à
chercher la valeur π1 de la proportion π de «succès» dans la population pour laquelle
P(Y ≥ y) = α/2, et la valeur π2 de la proportion π de «succès» dans la population pour
laquelle P(Y ≤ y) = α/2, où y est la valeur prise par la variable Y dans l’échantillon.
Lorsqu’on utilise la loi exacte de Y pour résoudre ce problème, il faut surmonter deux
difficultés principales que nous expliquons dans ce qui suit.

1
Voir, entre autres, l'article de Alan AGRESTI et Brent A. COULL, "Approximate is Better than
«Exact» for Interval Estimation of Binomial Proportions", The American Statistician, Mai 1998, Vol. 52,
No. 2, pp. 119-126.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.30

Difficultés
1) Il est théoriquement possible d’observer aucun «succès» dans un échantillon, ce
qui complique la détermination de la valeur de π1 puisque P(Y ≥ 0) = 1, pour
toute valeur de π.
2) Il est théoriquement possible de n’observer que des «succès» dans l’échantillon,
ce qui complique la détermination de la valeur de π2 puisque P(Y ≤ n) = 1, pour
toute valeur de π.
Pour contourner ces difficultés, on peut raisonner comme suit. Étant donné que la
plus petite valeur de π est 0, on pose π1 = 0 lorsque Y prend la valeur y = 0 dans
l’échantillon. . Étant donné que la plus grande valeur de π est 1, on pose π2 = 1
lorsque Y prend la valeur y = n dans l’échantillon.

Valeur des bornes de l’intervalle.


Soit Y la variable aléatoire qui correspond au nombre total de «succès» dans
l'échantillon et soit y sa valeur observée. Lorsque l'échantillon aléatoire simple est
prélevé avec remise, la loi de Y est la loi B(n, π) et les bornes de l'intervalle de
confiance [π1 ; π2] de Clopper-Pearson, de niveau de confiance 1 − α sont telles que:
si y = 0, π1 = 0 et
π2 est la valeur de π pour laquelle P(Y ≤ y)= P(Y = 0) = α/2.
si y ∈ {1, ..., n-1}, π1 est la valeur de π pour laquelle P(Y ≥ y)= α/2 et
π2 est la valeur de π pour laquelle P(Y ≤ y)= α/2.
si y = n, π1 est la valeur de π pour laquelle P(Y ≥ y)= P(Y = n) = α/2 et
π2 = 1.

Calculs dans Minitab : Le calcul des bornes de l’intervalle de Clopper-Pearson se


fait directement par le menu «Stat >Basic Statistics >1 Proportion...» lorsque l'option
«Use test and interval based on normal distribution» n'est pas sélectionnée. (Si on
utilise plutôt la commande «POne ...» dans la fenêtre de session, il ne faut pas
inscrire la sous-commande «Use Z».)

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.31

Exemple 7.11.1
Examinons l’intervalle de confiance de Clopper-Pearson que l’on obtient au niveau
de confiance 95%, lorsqu’on observe 34 «succès» dans un échantillon de taille n =
80.
Test and Confidence Interval for One Proportion
Test of p = 0,5 vs p not = 0,5
Exact
Sample X N Sample p 95,0 % CI P-Value
1 34 80 0,425000 (0,315110; 0,540611) 0,219

L'intervalle de Clopper-Pearson est [0,3151; 0,5406] . Le lecteur peut vérifier que


celui de Wald est [0,3167 ; 0,5333] . Notons que l'intervalle de Clopper-Pearson
n'est pas symétrique par rapport à x : il n'est pas de la forme [ x − ∆ ; x + ∆].

Le tableau qui suit contient des calculs effectués dans Minitab. Il permet de vérifier
que, lorsque Y ∼ B(n=80; π) et y = 34, il faut que π = 0,3151 pour que P(Y ≥ y) =
0,025 . De même, il faut que π = 0,5406 pour que P(Y≤ y) = 0,025.

π P(Y≤33) P(Y≥34) π P(Y≤34)


0,3150 0,9751 0,0249 0,5405 0,0251
0,3151 0,9750 0,0250 0,5406 0,0250
0,3152 0,9749 0,0251 0,5407 0,0249

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.32

Technique de calcul des bornes


La technique utilisée pour obtenir les valeurs de π1 et π2 dépasse selon nous le
niveau d’un cours d’introduction. Nous la présentons à titre d’information. Cette
technique se base sur la relation qui suit qui est présentée dans la rubrique de
l’annexe B portant sur la loi de Fisher.
 (1 − π) (y + 1) 
Soit Y ∼ B(n; π), P(Y≤ y) = P X ≤  , où X ∼ F2(n − y ), 2( y +1) .
 π(n − y ) 

Les formules qui suivent se déduisent de cette relation. Dans celles-ci, la quantité y
représente le nombre de «succès» observé dans l'échantillon et n est la taille de
celui-ci.
y f2 y,2(n − y +1); 1− α / 2 ( y + 1) f 2( y + 1),2(n − y ); α / 2
π1 = et π 2 = .
(n − y + 1) + y f 2 y, 2(n − y +1) ; 1− α / 2 (n − y ) + ( y + 1) f2( y +1), 2(n − y ) ; α / 2

Exemple 7.11.2:
Examinons de nouveau les données de l’exemple 7.11.1. Pour n =80 et y =34, les
bornes de l'intervalle de Clopper-Pearson, de niveau de confiance 95%, sont :
34 f 68, 94 ; 0,975 34 × 0,6360
π1 = = = 0,3151 et
47 + 34 f68, 94 ; 0,975 47 + (34 × 0,6360)

35 f70, 92 ; 0,025 35 × 1,5467


π2 = = = 0,5406 .
46 + 35 f70, 92 ; 0,025 46 + (35 × 1,5467)

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.33

7.12 – NIVEAU DE CONFIANCE RÉEL D’UN INTERVALLE SUR UNE


PROPORTION π

Le premier tableau ci-dessous donne l'intervalle de confiance à 95% pour π selon la


méthode dite «exacte» (méthode de Clopper-Pearson) qui est programmée dans
Minitab pour chacune des valeurs y que peut prendre la variable aléatoire Y définie
comme le nombre de «succès» observé en prélevant un échantillon aléatoire simple
avec remise de taille n = 10 dans une population. Le tableau qui suit donne, pour
différentes valeurs de π, la probabilité d’obtenir une valeur de Y ∼ B(n=10; π) telle
que l’intervalle recouvre la valeur de π. Cette probabilité, qui correspond au niveau
de confiance réel, est toujours supérieure à 95%.
Intervalles obtenus avec la méthode de Clopper-Pearson pour n=10
Confidence Interval for One Proportion
Sample Y N Sample p 95,0 % CI
1 0 10 0,000000 (0,000000; 0,308497)
2 1 10 0,100000 (0,002529; 0,445016)
3 2 10 0,200000 (0,025211; 0,556095)
4 3 10 0,300000 (0,066740; 0,652453)
5 4 10 0,400000 (0,121552; 0,737622)
6 5 10 0,500000 (0,187086; 0,812914)
7 6 10 0,600000 (0,262378; 0,878448)
8 7 10 0,700000 (0,347547; 0,933260)
9 8 10 0,800000 (0,443905; 0,974789)
10 9 10 0,900000 (0,554984; 0,997471)
11 10 10 1,000000 (0,691503; 1,000000)

probabilité d’obtenir une probabilité d’obtenir une


valeur valeur de Y ∼ B(n=10; π) valeur valeur de Y ∼ B(n=10; π)
de π telle que l’intervalle de π telle que l’intervalle
recouvre la valeur de π recouvre la valeur de π
0,05 P(0 ≤ Y ≤ 2) = 0,9885 0,95 P(8 ≤ Y ≤ 10) = 0,9885
0,10 P(0 ≤ Y ≤ 3) = 0,9872 0,90 P(7 ≤ Y ≤ 10) = 0,9872
0,15 P(0 ≤ Y ≤ 4) = 0,9901 0,85 P(6 ≤ Y ≤ 10) = 0,9901
0,20 P(0 ≤ Y ≤ 5) = 0,9936 0,80 P(5 ≤ Y ≤ 10) = 0,9936
0,25 P(0 ≤ Y ≤ 5) = 0,9803 0,75 P(5 ≤ Y ≤ 10) = 0,9803
0,30 P(0 ≤ Y ≤ 6) = 0,9894 0,70 P(4 ≤ Y ≤ 10) = 0,9894
0,35 P(1 ≤ Y ≤ 7) = 0,9817 0,65 P(3 ≤ Y ≤ 9) = 0,9817
0,40 P(1 ≤ Y ≤ 7) = 0,9817 0,60 P(3 ≤ Y ≤ 9) = 0,9817
0,45 P(2 ≤ Y ≤ 8) = 0,9722 0,55 P(2 ≤ Y ≤ 8) = 0,9722
0,50 P(2 ≤ Y ≤ 8) = 0,9785

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.34

Illustrons les calculs du tableau précédent pour une valeur de π, par exemple 0,35.
L'examen du premier tableau révèle que ce n'est que pour Y = 1, 2, 3, 4, 5, 6, 7, que
l'intervalle contient la valeur π = 0,35. La probabilité P(1 ≤ Y ≤ 7) donne donc la
probabilité d’obtenir une valeur de Y ∼ B(n=10; π) telle que l’intervalle recouvre
π = 0,35. Cette probabilité correspond au niveau de confiance réel lorsque π =
0,35; ou encore à la proportion des échantillons (lorsque π = 0,35) pour lesquels le
paramètre étudié appartient à l'intervalle de confiance que détermine la méthode de
Clopper-Pearson.

Le tableau qui suit refait le même type de calculs dans le cas n =100. Il permet de
comparer les niveaux de confiance réels des intervalles obtenus selon les 2
techniques étudiées dans cette section. Il se base sur le tableau fourni en page
suivante. Nous nous contentons d'examiner des valeurs de π ≤ 0,5 étant donné que,
comme l'illustre bien le tableau qui précède, les niveaux de confiance réels pour des
valeurs de π > 0,5 peuvent se déduire de ceux obtenus pour des valeurs < 0,5 .

Méthode de Clopper- Méthode de Wald :


Pearson : I.C. à 95% I.C. à 95%
probabilité d’obtenir une probabilité d’obtenir une
valeur valeur de Y ∼ B(n=100; π) valeur de Y ∼ B(n=100; π)
de π telle que l’intervalle telle que l’intervalle
recouvre la valeur de π recouvre la valeur de π
0,05 P( 1 ≤ Y ≤ 10) = 0,9826 P( 3 ≤ Y ≤ 11) = 0,8775
0,10 P( 5 ≤ Y ≤ 16) = 0,9557 P( 6 ≤ Y ≤ 17) = 0,9324
0,15 P( 8 ≤ Y ≤ 22) = 0,9657 P(10 ≤ Y ≤ 23) = 0,9330
0,20 P(12 ≤ Y ≤ 28) = 0,9674 P(14 ≤ Y ≤ 28) = 0,9331
0,25 P(17 ≤ Y ≤ 34) = 0,9625 P(18 ≤ Y ≤ 34) = 0,9459
0,30 P(21 ≤ Y ≤ 39) = 0,9625 P(22 ≤ Y ≤ 39) = 0,9502
0,35 P(26 ≤ Y ≤ 44) = 0,9543 P(27 ≤ Y ≤ 44) = 0,9403
0,40 P(31 ≤ Y ≤ 50) = 0,9586 P(31 ≤ Y ≤ 49) = 0,9481
0,45 P(35 ≤ Y ≤ 55) = 0,9657 P(36 ≤ Y ≤ 54) = 0,9444
0,50 P(40 ≤ Y ≤ 60) = 0,9648 P(41 ≤ Y ≤ 59) = 0,9431
Constatation : La probabilité est partout La probabilité est souvent
≥ 95%. < 95% et parfois ≥ 95%.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.35

Méthode de Clopper- Méthode de Wald : Méthode de Clopper- Méthode de Wald :


Y x Pearson : I.C. à 95% I.C. à 95% Y x Pearson : I.C. à 95% I.C. à 95%
0 0,00 (0,000000; 0,036217) (0,000000; 0,000000) 51 0,51 (0,408036; 0,611356) (0,412021; 0,607979)
1 0,01 (0,000253; 0,054459) (-9,5E-03; 0,029501) 52 0,52 (0,417790; 0,620995) (0,422080; 0,617920)
2 0,02 (0,002431; 0,070384) (-7,4E-03; 0,047439) 53 0,53 (0,427581; 0,630595) (0,432178; 0,627822)
3 0,03 (0,006230; 0,085176) (-3,4E-03; 0,063434) 54 0,54 (0,437412; 0,640157) (0,442316; 0,637684)
4 0,04 (0,011004; 0,099257) (0,001593; 0,078407) 55 0,55 (0,447280; 0,649680) (0,452493; 0,647507)
5 0,05 (0,016432; 0,112835) (0,007284; 0,092716) 56 0,56 (0,457187; 0,659164) (0,462710; 0,657290)
6 0,06 (0,022335; 0,126030) (0,013453; 0,106547) 57 0,57 (0,467134; 0,668609) (0,472967; 0,667033)
7 0,07 (0,028605; 0,138920) (0,019992; 0,120008) 58 0,58 (0,477119; 0,678014) (0,483264; 0,676736)
8 0,08 (0,035172; 0,151558) (0,026828; 0,133172) 59 0,59 (0,487144; 0,687380) (0,493602; 0,686398)
9 0,09 (0,041984; 0,163982) (0,033909; 0,146091) 60 0,60 (0,497209; 0,696705) (0,503982; 0,696018)
10 0,10 (0,049005; 0,176223) (0,041201; 0,158799) 61 0,61 (0,507314; 0,705990) (0,514403; 0,705597)
11 0,11 (0,056207; 0,188301) (0,048675; 0,171325) 62 0,62 (0,517461; 0,715233) (0,524866; 0,715134)
12 0,12 (0,063569; 0,200236) (0,056309; 0,183691) 63 0,63 (0,527648; 0,724433) (0,535372; 0,724628)
13 0,13 (0,071073; 0,212041) (0,064086; 0,195914) 64 0,64 (0,537878; 0,733592) (0,545922; 0,734078)
14 0,14 (0,078705; 0,223728) (0,071992; 0,208008) 65 0,65 (0,548151; 0,742706) (0,556516; 0,743484)
15 0,15 (0,086454; 0,235308) (0,080015; 0,219985) 66 0,66 (0,558467; 0,751776) (0,567155; 0,752845)
16 0,16 (0,094310; 0,246788) (0,088147; 0,231853) 67 0,67 (0,568827; 0,760801) (0,577840; 0,762160)
17 0,17 (0,102265; 0,258175) (0,096377; 0,243623) 68 0,68 (0,579233; 0,769780) (0,588572; 0,771428)
18 0,18 (0,110311; 0,269477) (0,104701; 0,255299) 69 0,69 (0,589685; 0,778711) (0,599353; 0,780647)
19 0,19 (0,118443; 0,280698) (0,113110; 0,266890) 70 0,70 (0,600185; 0,787594) (0,610183; 0,789817)
20 0,20 (0,126656; 0,291843) (0,121601; 0,278399) 71 0,71 (0,610734; 0,796426) (0,621064; 0,798936)
21 0,21 (0,134944; 0,302915) (0,130169; 0,289831) 72 0,72 (0,621333; 0,805206) (0,631998; 0,808002)
22 0,22 (0,143304; 0,313920) (0,138809; 0,301191) 73 0,73 (0,631984; 0,813934) (0,642986; 0,817014)
23 0,23 (0,151732; 0,324859) (0,147518; 0,312482) 74 0,74 (0,642688; 0,822606) (0,654029; 0,825971)
24 0,24 (0,160225; 0,335735) (0,156293; 0,323707) 75 0,75 (0,653448; 0,831220) (0,665131; 0,834869)
25 0,25 (0,168780; 0,346552) (0,165131; 0,334869) 76 0,76 (0,664265; 0,839775) (0,676293; 0,843707)
26 0,26 (0,177394; 0,357312) (0,174029; 0,345971) 77 0,77 (0,675141; 0,848268) (0,687518; 0,852482)
27 0,27 (0,186066; 0,368016) (0,182986; 0,357014) 78 0,78 (0,686080; 0,856696) (0,698809; 0,861191)
28 0,28 (0,194794; 0,378667) (0,191998; 0,368002) 79 0,79 (0,697085; 0,865056) (0,710169; 0,869831)
29 0,29 (0,203574; 0,389266) (0,201064; 0,378936) 80 0,80 (0,708157; 0,873344) (0,721601; 0,878399)
30 0,30 (0,212406; 0,399815) (0,210183; 0,389817) 81 0,81 (0,719302; 0,881557) (0,733110; 0,886890)
31 0,31 (0,221289; 0,410315) (0,219353; 0,400647) 82 0,82 (0,730523; 0,889689) (0,744701; 0,895299)
32 0,32 (0,230220; 0,420767) (0,228572; 0,411428) 83 0,83 (0,741825; 0,897735) (0,756377; 0,903623)
33 0,33 (0,239199; 0,431173) (0,237840; 0,422160) 84 0,84 (0,753212; 0,905690) (0,768147; 0,911853)
34 0,34 (0,248224; 0,441533) (0,247155; 0,432845) 85 0,85 (0,764692; 0,913546) (0,780015; 0,919985)
35 0,35 (0,257294; 0,451849) (0,256516; 0,443484) 86 0,86 (0,776272; 0,921295) (0,791992; 0,928008)
36 0,36 (0,266408; 0,462122) (0,265922; 0,454078) 87 0,87 (0,787959; 0,928927) (0,804086; 0,935914)
37 0,37 (0,275567; 0,472352) (0,275372; 0,464628) 88 0,88 (0,799764; 0,936431) (0,816309; 0,943691)
38 0,38 (0,284767; 0,482539) (0,284866; 0,475134) 89 0,89 (0,811699; 0,943793) (0,828675; 0,951325)
39 0,39 (0,294010; 0,492686) (0,294403; 0,485597) 90 0,90 (0,823777; 0,950995) (0,841201; 0,958799)
40 0,40 (0,303295; 0,502791) (0,303982; 0,496018) 91 0,91 (0,836018; 0,958016) (0,853909; 0,966091)
41 0,41 (0,312620; 0,512856) (0,313602; 0,506398) 92 0,92 (0,848442; 0,964828) (0,866828; 0,973172)
42 0,42 (0,321986; 0,522881) (0,323264; 0,516736) 93 0,93 (0,861080; 0,971395) (0,879992; 0,980008)
43 0,43 (0,331391; 0,532866) (0,332967; 0,527033) 94 0,94 (0,873970; 0,977665) (0,893453; 0,986547)
44 0,44 (0,340836; 0,542813) (0,342710; 0,537290) 95 0,95 (0,887165; 0,983568) (0,907284; 0,992716)
45 0,45 (0,350320; 0,552720) (0,352493; 0,547507) 96 0,96 (0,900743; 0,988996) (0,921593; 0,998407)
46 0,46 (0,359843; 0,562588) (0,362316; 0,557684) 97 0,97 (0,914824; 0,993770) (0,936566; 1,003434)
47 0,47 (0,369405; 0,572419) (0,372178; 0,567822) 98 0,98 (0,929616; 0,997569) (0,952561; 1,007439)
48 0,48 (0,379005; 0,582210) (0,382080; 0,577920) 99 0,99 (0,945541; 0,999747) (0,970499; 1,009501)
49 0,49 (0,388644; 0,591964) (0,392021; 0,587979) 100 1,00 (0,963783; 1,000000) (1,000000; 1,000000)
50 0,50 (0,398321; 0,601679) (0,402002; 0,597998)

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.36

7.13 – ESTIMATION PONCTUELLE D’UNE VARIANCE σ2

Introduction.
Dans cette rubrique, nous expliquons pourquoi l'estimateur usuel de la variance σ2
est

∑ (X i − X) ∑ (X i − X)
n 2 n 2

i =1 i =1
S2 = plutôt que . Comme nous l'avons vu en statistique
n −1 n
descriptive, on nomme souvent la valeur s2 prise par S2, la variance corrigée de
l'échantillon, pour bien signaler que le diviseur est (n−1) plutôt que n. Comme nous
le verrons dans les lignes qui suivent, c'est afin d'obtenir un estimateur sans biais de
σ2 que le diviseur est (n−1).

Résumé de la théorie.
Soient X1, X2, ... , Xn les n variables aléatoires engendrées par l'expérience aléatoire
qui consiste à prélever un échantillon aléatoire simple de taille n afin de caractériser
la distribution d'une variable quantitative X dans une population. Soit µ et σ2, la
moyenne et la variance de X dans cette population de référence.
n
∑ Xi
( )2 .
i =1 n
Soit X = et W = ∑ X i − X
n i =1

On peut démontrer que :

E(W) = (n − 1) σ 2 ,si le prélèvement se fait avec remise, et

 N  2
E(W) = (n − 1)   σ , si le prélèvement se fait sans remise.
 N − 1
On en déduit que :
 W 
E  = σ2, si le prélèvement se fait avec remise, par contre
 (n − 1) 
 W   N  2
E  =   σ , si le prélèvement est sans remise.
 (n − 1)   N − 1

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.37

∑ (X i − X)
n 2
W i =1
S2 = = est donc un estimateur sans biais de σ2 lorsque
(n − 1) n −1
l'échantillon aléatoire simple est prélevé avec remise.

Lorsque l'échantillon aléatoire simple est prélevé sans remise, l'estimateur sans biais
 N − 1 2
de σ2 est  S .
 N 

Détails du calcul de E(W)

( )2 .
n
W = ∑ Xi − X
i =1

( )2 ( )2
n n
1) Soit a un nombre réel quelconque. ∑ (X i − a )2 = ∑ X i − X + n X − a .
i =1 i =1

Il s'agit d'une propriété de la moyenne que nous avons démontré en statistique


descriptive [Chapitre 3 du manuel Statistique descriptive, Bélisle(1998)].

n 
2) En posant a = µ, on obtient : W =  ∑ (X i − µ )2  − n X − µ ( )2
i =1 

n 
( )2 =  ∑ Var( Xi )
n
3) E(W) =  ∑ E (X i − µ )2  − n E X − µ − n Var ( X) = n σ 2 − n Var ( X) .
i =1  i =1 
4) Pour un prélèvement avec remise,
 σ2 
E(W) = n σ 2 − n  = (n − 1) σ 2 .
 n 
 
5) Pour un prélèvement sans remise,
 σ2   N − n   n(N − 1) − (N − n)  2  N  2
E(W) = n σ 2 − n  σ = (n − 1)  σ .
 n   N − 1 
=  
   (N − 1)   N − 1

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.38

7.14 – INTERVALLE DE CONFIANCE BILATÉRAL POUR UNE VARIANCE σ2

Utilisation de la loi du khi-deux en échantillonnage:


La loi du khi-deux est souvent utilisée pour modéliser une somme de carrés de
variables aléatoires. Une application fréquente découle des théorèmes qui suivent
que nous nous contentons d'énoncer.
Soit X1, X2, ... , Xn, n variables aléatoires indépendantes et identiquement
distribuées selon une loi N(µ; σ).

∑ (Xi − X)
n n 2
∑ Xi
i =1 i =1
Soit X = et S 2 = .
n n −1
Théorème 1 : X et S2 sont deux variables aléatoires indépendantes.
X−µ
Théorème 2 : ∼ N(0; 1) . (Résultat déjà présenté dans la section 6)
σ/ n

(n − 1) S 2
Théorème 3 : ∼ χ n−
2
1 .
σ 2

X−µ
Théorème 4: ∼ Tn-1 . (Résultat déjà présenté dans la rubrique 7.4)
S/ n

Intervalle de confiance pour une variance σ2


Le théorème 3 permet de construire un intervalle de confiance pour σ2, lorsque la
variable dont on veut estimer la variance se distribue selon une loi normale dans la
population de référence. L'échantillon aléatoire simple examiné doit toutefois être
prélevé avec remise.
 (n − 1) s 2 (n − 1) s 2 
Un intervalle de niveau de confiance 1 − α est : σ2 ∈  ;  ,
 c n −1; α / 2 c n −1; 1− α / 2 

où c n −1; α représente le quantile d'ordre 1 − α d'une loi χ n−


2
1.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.39

Exemple 7.14.1
Un échantillon aléatoire simple prélevé avec remise de taille n =20 est examiné. On
y calcule l'écart-type corrigé s d'une variable X et on obtient s = 8,32. Sachant que la
distribution de la variable X dans la population de référence peut être approchée par
une loi normale, estimons sa variance σ2 et son écart-type σ par un intervalle de
confiance, de niveau de confiance 90%.

L'intervalle de confiance à 90% pour σ2 se construit à l'aide de la loi χ19


2
dont les

quantiles d'ordre 0,05 et 0,95 sont respectivement 10,1170 et 30,1435 (nous avons
utilisé le menu «Calc >Probability Distributions >Chi Square...» pour obtenir ces
valeurs).
19 × (8,32) 2 19 × (8,32)2 
σ2 ∈  ;  = [ 43,6321 ;130,0015]
 30,1435 10,1170 

 19 × (8,32) 2 19 × (8,32) 2 
σ∈  ;  = [ 6,61 ; 11,40 ]
 30,1435 10,1170 

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.40

7.15 – GÉNÉRALISATION SUR LES QUALITÉS D’UN «BON» ESTIMATEUR

Soient X1, X2, ... , Xn les n variables aléatoires engendrées par l'expérience aléatoire
qui consiste à prélever un échantillon aléatoire simple de taille n afin de caractériser
la distribution d'une variable quantitative X dans une population.

Soit θ le paramètre de X à estimer.

Soit θ̂ , l'estimateur de θ à étudier. θ̂ = h(X1, X2, ... , Xn) est une variable aléatoire.

Le biais de θ̂ est défini par b( θ̂ ) = E( θ̂ ) − θ. On dit de θ̂ qu'il est un estimateur

sans biais de θ, si et seulement si b( θ̂ ) = 0.

Un estimateur sans biais θ̂ est dit un estimateur convergent de θ si et seulement si

lim σ(θˆ ) = 0 . (Dans le cas d'un prélèvement sans remise, σ(θˆ ) = 0 lorsque n = N)
n→∞

Si on a le choix entre deux estimateurs sans biais de θ, on devrait choisir celui ayant
le plus petit écart-type.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.41

7.16 – PROBLÈMES

Problème 7.16.1 (cliquer ici pour la solution)


Soit µ et σ la moyenne et l’écart-type de la variable Area dans la population de
référence de laquelle a été prélevé l’échantillon du fichier «Homes.mtw».
a) Estimer ponctuellement µ et σ.
b) Estimer µ à l’aide d’un intervalle bilatéral de niveau de confiance 99%.

Problème 7.16.2 (cliquer ici pour la solution)


Une règle empirique qui peut être utilisée pour construire rapidement un intervalle de
confiance bilatéral et symétrique pour une moyenne µ consiste à construire
l’intervalle [ x − 2 σ X ; x + 2 σ X ] , où x est la moyenne observée de la variable

étudiée dans l’échantillon et σ X = σ n.

Dans quel contexte peut-on utiliser un tel intervalle et que vaut son niveau de
confiance?

Problème 7.16.3 (cliquer ici pour la solution)


15 automobiles d’un même modèle sont soumises à un essai routier afin qu’on
puisse estimer la consommation d’essence moyenne pour ce modèle (en litres par
100 km). On obtient l’intervalle de confiance [8,560 ; 8,920] pour la moyenne µ de la
variable X définie comme la consommation d’essence (en litres par 100 km) d’une
automobile du modèle étudié lors d’un essai routier du même type que celui utilisé
pour l’échantillon de taille 15. Le niveau de confiance de l’intervalle qui précède est
95% et celui-ci correspond à l’intervalle de confiance (bilatéral et symétrique)
usuellement utilisé lorsque la distribution de la variable étudiée dans la population de
référence peut être approchée par une loi normale.

Déduire des informations qui précèdent, les valeurs observées de la moyenne


expérimentale x et de l’écart-type expérimental s (écart-type corrigé de l’échantillon).

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.42

Problème 7.16.4 (cliquer ici pour la solution)

276 personnes choisies au hasard dans la clientèle très importante d’un grand
magasin ont répondu à un questionnaire permettant de dresser leur profil. Une des
questions portait sur le montant total X des achats (avant taxes) que chacune des
personnes interrogées avaient effectués lors de leur dernière visite au magasin. Afin
de faciliter la collecte des données, les répondants devaient cocher une des classes
présentées dans le tableau ci-dessous.
Montant total des achats (en $) Nombre de
lors de la dernière visite réponses
0 40
(0, 50) 76
[50, 100) 57
[100, 150) 32
[150, 200) 21
[200, 300) 12
[300, 500) 17
[500, 1000) 7
[1000, 2000) 3
Nombre total de réponses obtenues 265
Nombre de données manquantes 11
Nombre de répondants 276

a) Soit µ et σ la moyenne et l’écart-type de X pour l’ensemble de la clientèle du


magasin. Estimer ponctuellement µ et σ. Utiliser des méthodes d’approximation
si nécessaire.

b) Estimer µ par un intervalle de confiance bilatéral de niveau de confiance 95%.

c) Utiliser un niveau de confiance 95% pour estimer, par un intervalle approprié, le


montant minimal du total espéré des ventes lors d’une journée d’opération
pendant laquelle 4 215 clients visitent le magasin.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.43

Problème 7.16.5 (cliquer ici pour la solution)


Voici la description du fichier «Backpain.mtw» du répertoire «Student» qu’on obtient
en consultant le menu «Help» de Minitab.
A nurse completing her master’s degree thesis collected data for a sample of 279
patients who had received treatment for low back pain.

Column Name Count Description


C1-T Gender 279 Patient’s gender
C2 Age 279 Patient’s age
C3 LostDays 279 Number of workdays lost as a result of low back pain
C4 Cost 279 Cost of treatment for low back pain

a) Décrire en français le contenu du fichier, c’est-à-dire décrire la population de


référence, la taille de l’échantillon et les 4 variables étudiées.

b) Utiliser l’ensemble des 279 données disponibles pour estimer le nombre moyen
de jours de travail perdus à cause de douleurs au bas du dos et le coût moyen
du traitement. Utiliser des intervalles de confiance bilatéraux, de niveau de
confiance 95%.

c) Si on procède à un examen rapide des données contenues dans le fichier, on


peut constater une anomalie qui questionne la validité de plusieurs de celle-ci.
Quelle est cette anomalie? Que faire pour obtenir des estimations fiables du
nombre moyen de jours de travail perdus à cause de douleurs au bas du dos et
du coût moyen du traitement. Que deviennent les intervalles de confiance
bilatéraux décrits en b)?

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.44

Problème 7.16.6 (cliquer ici pour la solution)


Une des questions de l’enquête décrite au problème 7.16.4 permettait d’identifier le
sexe du répondant. Les réponses compilées furent : 145 femmes, 121 hommes et
10 données manquantes.

a) Utiliser la méthode de Wald pour estimer la proportion de la clientèle du magasin


qui est féminine à l’aide d’un intervalle de confiance bilatéral de niveau de
confiance 99%.
b) Le niveau de confiance réel de l’intervalle construit en a) est-il vraiment égal à
99% ?
c) En prévoyant un taux de non réponse maximal de 4% à ce type de question,
combien aurait-il fallu de répondants pour que la précision ou marge d’erreur de
l’estimation demandée en a) soit de 5% ou moins?

Problème 7.16.7 (cliquer ici pour la solution)


Soit π la proportion de maisons sises sur un terrain de 0,5 âcre ou plus dans la
population de référence de laquelle a été prélevé l’échantillon du fichier
«Homes.mtw».

a) Estimer ponctuellement π.
b) Expliquer pourquoi on peut estimer π par un intervalle de confiance utilisant
l’approximation de la loi binomiale par la loi normale (intervalle de Wald).
c) Procéder à l’estimation décrite en b) en utilisant un intervalle bilatéral de niveau
de confiance 95%.
d) Comparer l’estimation obtenue en c) à celle donnée par un intervalle de Clopper-
Pearson de même niveau de confiance.
e) L’intervalle construit en d) est-il symétrique? Que signifie le fait qu’il soit plus long
et englobe celui construit en c)?

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.45

Problème 7.16.8 (cliquer ici pour la solution)


Les proportions de «succès» qui suivent sont définies pour la population de
référence de laquelle a été prélevé l’échantillon du fichier «Homes.mtw».
π = proportion des maisons ayant une seule salle de bain.
π1 = proportion des maisons ayant une seule salle de bain parmi celles dont le prix de
vente est de moins de 125 000$.
π2 = proportion des maisons ayant une seule salle de bain parmi celles dont le prix de
vente est dans l’intervalle [125 000$, 175 000$).
π3 = proportion des maisons ayant une seule salle de bain parmi celles dont le prix de
vente est de 175 000$ ou plus.

a) Estimer ponctuellement les 4 proportions de «succès» définies ci-dessus.


b) Identifier une méthode qui peut être utilisée pour estimer chacune de ces
proportions par un intervalle de confiance bilatéral de niveau de confiance 90%.
c) Construire les intervalles de confiance décrits en b). Que remarque-t-on?

Problème 7.16.9 (cliquer ici pour la solution)


On utilise un échantillon aléatoire simple prélevé avec remise de taille n = 92, pour
estimer une proportion π de «succès» à l’aide d’un intervalle bilatéral de Clopper-
Pearson de niveau de confiance 95%. Le résultat ci-dessous est calculé par Minitab.
On remarque que le nombre et la proportion de «succès» observés dans
l’échantillon ont été effacés par inadvertance. Retrouver ces valeurs à partir de
l’information fournie.
Test and Confidence Interval for One Proportion

Sample X N Sample p 95,0 % CI


1 92 (0,147193; 0,327510)

Problème 7.16.10 (cliquer ici pour la solution)


Dans le contexte du problème qui précède, construire un intervalle de confiance
unilatéral de la forme [0, π2] ayant un niveau de confiance d’au moins 95%.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.46

7.17 – SOLUTIONS DES PROBLÈMES

Solution du problème 7.16.1

Fichier : Homes.mtw
MTB > TInterval 99 c2

T Confidence Intervals

Variable N Mean StDev SE Mean 99,0 % CI


Area 150 1823,4 587,3 47,9 ( 1698,3; 1948,5)

a) On estime ponctuellement µ par x = 1823,4 pi2.


On estime ponctuellement σ par s = 587,3 pi2.

b) La taille de l’échantillon est suffisamment grande pour qu’on puisse utiliser


l’intervalle de Student.
s s
[ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 = t 149 ; 0,025 .
n 150
L’intervalle de confiance cherché pour µ est [1698,3 pi2 ; 1948,5 pi2].

Solution du problème 7.16.2


σ
L’intervalle suggéré est de la forme [ x − ∆ ; x + ∆] où ∆ = z α / 2 et z α / 2 = 2.
n
Le contexte d’utilisation de ce type d’intervalle de confiance pour µ est :
1) l’échantillon examiné est un échantillon aléatoire simple prélevé avec remise ou
pouvant être traité comme tel;
2) la variable étudiée se distribue selon une loi normale dans la population de
référence ou la taille n de l'échantillon est suffisamment grande pour que le
théorème central limite s'applique.
Pour trouver le niveau de confiance 1 − α, il suffit de raisonner comme suit.
z α / 2 est le quantile d’ordre 1 − α/2 d’une variable Z ∼ N(0,1).

D’où : α/2 = P(Z > 2) = 0,02275 et 1 − α = 1 − (2 x 0,02275) = 0,9545.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.47

Solution du problème 7.16.3


s s
L’intervalle utilisé est de la forme [ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 = t 14 ; 0,025 .
n 15
[ x − ∆ ; x + ∆] = [8,560 ; 8,920] ⇒ x = 8,740 et ∆ = 0,180.
t 14; 0,025 est le quantile d’ordre 0,975 d’une loi T14 ⇒ t 14; 0,025 = 2,1448.

s 0,180 × 15
∆ = 0,180 = 2,1448 ⇒s= = 0,325.
15 2,1448
La réponse est donc x = 8,740 et s = 0,325.

Solution du problème 7.16.4

a) Les calculs se font à partir des n = 265 réponses obtenues.


Les données étant déjà regroupées en 9 classes, on ne peut calculer que des
approximations de la moyenne x et de l’écart-type corrigé s de l’échantillon.
9 9
∑ ni c i ∑ n i (c i − c ) 2
i =1 i =1
x≅c= et s ≅ ,
n n −1
où ni est l’effectif de la ième classe et c i est son centre, i = 1, ... ,9.
Des estimations ponctuelles approximatives de µ et σ sont respectivement
x = 126,04$ et s =208,34$ .
C1 C2
MTB > let k1 = sum(c1*c2)/265 ↓ centre effectif
MTB > let k2 = sqrt(sum(((c1-k1)**2)*c2)/264) 1 0 40
MTB > print k1 k2 2 25 76
3 75 57
Data Display 4 125 32
5 175 21
K1 126,038 6 250 12
7 400 17
K2 208,340
8 750 7
9 1500 3

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.48

b) Même si la variable étudiée ne se distribue pas selon une loi normale dans la
population de référence, le nombre n = 265 de réponses obtenues est
suffisamment grand pour qu’on puisse utiliser un intervalle de Student :
s s
[ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 = t 264 ; 0,025 .
n 265
Calcul de t 264 ; 0,025 MTB > InvCDF 0,975 k3; Data Display
SUBC > T 264.
Calcul de ∆ MTB > let k4 = k3*k2/sqrt(265) K3 1,96899
Calcul de la borne inférieure MTB > let k5 = k1-k4 K4 25,1996
Calcul de la borne supérieure MTB > let k6 = k1+k4 K5 100,838
Impression des résultats MTB > print k3-k6 K6 151,237

Les résultats des calculs sont : t 264 ; 0,025 = 1,96899; ∆ = 25,20$.

L’intervalle de confiance cherché pour µ est [100,84$ ; 151,24$]

c) Soit Y = le total des ventes (en $) pour une journée où 4 215 clients visitent le
magasin. Y = X1+...+X4215, où X i = total des achats du ième client.
µY = E(Y) = 4 215 µX, où X est la variable pour laquelle on a procédé à des
estimations en a) et b). La question posée revient donc à calculer un intervalle de
confiance unilatéral ne contenant qu’une borne inférieure pour µY = 4 215 µX . Il
suffit de résoudre ce problème pour µX et de multiplier ensuite la borne inférieure
obtenue par 4 215. Au niveau de confiance 95%, la borne inférieure de
s
l’intervalle unilatéral pour µX est : x − ∆*, où ∆* = t 264 ; 0,05 .
265
Calcul de t 264 ; 0,05 MTB > InvCDF 0,95 k7; Data Display
SUBC > T 264.
Calcul de ∆* MTB > let k8 = k7*k2/sqrt(265) K7 1,65065
Calcul de la borne inférieure MTB > let k9 = k1-k8 K8 21,1254
de l’intervalle unilatéral pour µX K9 104,912
Calcul de la borne inférieure MTB > let k10 = 4215*k9 K10 442206
de l’intervalle unilatéral pour µY
Impression des résultats MTB > print k7-k10

Au niveau de confiance 95%, les intervalles unilatéraux pour µX et µY sont


respectivement [104,91$; + ∞ ) et [442 206$ , + ∞ )

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.49

Solution du problème 7.16.5

a) Population de référence : ensemble des personnes qui sont soignées pour des
douleurs au bas du dos. (Le fichier décrit certaines caractéristiques d’un
échantillon de 279 de ces personnes.)
Variables étudiées :
Gender = sexe de la personne;
Age = âge de la personne;
LostDays = nombre de journées de travail perdues à cause des douleurs;
Cost = coût du traitement.

b) Soit X = LostDays et Y = Cost. La question posée revient à construire des


intervalles de confiance bilatéraux, de niveau de confiance 95%, pour µX et µY en
utilisant les 279 observations de l’échantillon. En supposant qu’il s’agit d’un
échantillon aléatoire simple et que la taille de la population de référence est très
grande, on peut utiliser des intervalles de Student :
sX sX
intervalle pour µX : [ x − ∆ ; x + ∆], où ∆ = t n −1; α / 2 = t 278 ; 0,025 ,
n 265
sY sY
intervalle pour µY : [ y − ∆ ; y + ∆], où ∆ = t n −1; α / 2 = t 278 ; 0,025 ,
n 265
MTB > Tinterval 95 c3-c4

T Confidence Intervals

Variable N Mean StDev SE Mean 95,0 % CI


LostDays 279 3,939 14,113 0,845 (2,276; 5,602)
Cost 279 388,4 530,6 31,8 (325,9; 451,0)

Les intervalles de confiance cherchés pour µX et µY sont respectivement


[2,276 journées; 5,602 journées] et [325,9 $; 451,0$].

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.50

c)
À partir de la ligne 165, il semble y avoir eu C1-T C2 C3 C4
↓ Gender Age LostDays Cost
une erreur dans la compilation des valeurs 160 Male 19 1 908
observées de la variable Cost. À partir de 161 Female 23 0 188
162 Male 43 0 132
cette ligne, Cost = LostDays, ce qui est 163 Male 49 7 941
évidemment erroné. Il vaut donc mieux se 164 Male 30 2 144
165 Female 45 1 1
restreindre aux 164 premières lignes, pour 166 Female 26 1 1
167 Female 74 1 1
étudier la variable Y = Cost. L’intervalle de
168 Male 42 4 4
confiance bilatéral à 95% pour µY est 169 Female 31 60 60
170 Male 52 1 1
[573,7 $; 743,2$] . 171 Male 32 1 1
172 Male 33 0 0

Comparaison : les 164 premières lignes vs les 115 dernières


MTB > copy c3-c4 c5-c6;
SUBC> use 1:164.
MTB > name c5 'X1' c6 'Y1'
MTB > copy c3-c4 c7-c8;
SUBC> use 165:279.
MTB > name c7 'X2' c8 'Y2'
MTB > describe c3-c8
MTB > Tinterval 95 c3-c8

Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean
LostDays 279 3,939 1,000 1,896 14,113 0,845
Cost 279 388,4 166,0 321,5 530,6 31,8
X1 164 4,33 0,00 1,83 17,20 1,34
Y1 164 658,5 556,0 605,1 549,6 42,9
X2 115 3,383 1,000 2,049 7,899 0,737
Y2 115 3,383 1,000 2,049 7,899 0,737

Variable Minimum Maximum Q1 Q3


LostDays 0,000 180,000 0,000 3,000
Cost 0,0 2758,0 1,0 650,0
X1 0,00 180,00 0,00 3,00
Y1 132,0 2758,0 188,0 917,7
X2 0,000 60,000 0,000 3,000
Y2 0,000 60,000 0,000 3,000

T Confidence Intervals
Variable N Mean StDev SE Mean 95,0 % CI
LostDays 279 3,939 14,113 0,845 (2,276; 5,602)
Cost 279 388,4 530,6 31,8 (325,9; 451,0)
X1 164 4,33 17,20 1,34 ( 1,68; 6,98)
Y1 164 658,5 549,6 42,9 (573,7; 743,2)
X2 115 3,383 7,899 0,737 (1,923; 4,842)
Y2 115 3,383 7,899 0,737 (1,923; 4,842)

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.51

Solution du problème 7.16.6

a) Notre réponse se base sur les n = 266 réponses reçues. La proportion de


femmes observée dans cet échantillon est x = 145/266. L’intervalle de confiance
demandé pour la proportion π de femmes dans la clientèle du magasin est :

x (1 − x )
[ x − ∆ ; x + ∆], où ∆ = z 0,005 .
266
L’intervalle de confiance pour π est [0,4665; 0,6238] .
MTB > POne 266 145;
SUBC> Confidence 99;
SUBC> UseZ.

Test and Confidence Interval for One Proportion

Test of p = 0,5 vs p not = 0,5


Sample X N Sample p 99,0 % CI Z-Value P-Value
1 145 266 0,545113 (0,466468; 0,623758) 1,47 0,141

b) Le niveau de confiance 99% de l’intervalle est approximatif. Le niveau de


confiance réel peut lui être légèrement inférieur ou supérieur.
c) Soit n le nombre de réponses qu’il faut obtenir pour que la précision ou marge
d’erreur de l’intervalle de confiance soit telle que : ∆ ≤ 0,05.

0,25 z 0,005
Si n est tel que z 0,005 ≤ 0,05 , c’est-à-dire si n ≥ , alors ∆ ≤ e.
n 2 × 0,05

Dans ce problème n ≥ 25,7583 et n ≥ 663,490.


Calcul de z 0,005 MTB > InvCDF 0,995 k1; Data Display
SUBC > Normal 0 1.
Calcul d’une borne inférieure MTB > let k2 = k1/(2*0,05) K1 2,57583
pour n K2 25,7583
Calcul d’une borne inférieure MTB > let k3 = k2**2 K3 663,490
pour n
Impression des résultats MTB > print k1-k3

Il faut obtenir au moins 664 réponses. Le taux maximal de non réponse étant 4%,
il faut que le nombre n* de répondants soit tel que n* ≥ 664/0,96 = 691,67. Il faut
donc recruter au moins 692 répondants.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.52

Solution du problème 7.16.7


a) Dans l’échantillon, il y a 90 maisons MTB > Code (0:0,4999) 0 (0,5:100) 1 c3 c6
MTB > name c6 'Indic'
sises sur un terrain de 0,5 acre ou MTB > tally c6
plus. On estime poctuellement π par
Summary Statistics for Discrete Variables
x = 90/150 = 0,60. Indic Count
0 60
1 90
N= 150

b) La taille n =150 de l’échantillon étant grande et la proportion π étudiée semblant


ni trop petite, ni trop grande, l’approximation de la loi B(n, π) par une loi normale
est possible. On peut donc utiliser l’intervalle de Wald.

c) L’intervalle de confiance cherché (intervalle de Wald) pour π est [0,5216; 0,6784].


MTB > POne c6;
SUBC> Confidence 95;
SUBC> UseZ.

Test and Confidence Interval for One Proportion


Test of p = 0,5 vs p not = 0,5
Success = 1

Variable X N Sample p 95,0 % CI Z-Value P-Value


Indic 90 150 0,600000 (0,521601; 0,678399) 2,45 0,014

d) L’intervalle de Clopper-Pearson cherché pour π est [0,5169; 0,6790].


MTB > POne c6;
SUBC> Confidence 95.

Test and Confidence Interval for One Proportion


Test of p = 0,5 vs p not = 0,5
Success = 1

Exact
Variable X N Sample p 95,0 % CI P-Value
Indic 90 150 0,600000 (0,516931; 0,679037) 0,018

e) Non, l’intervalle construit en d) n’est pas symétrique. Le fait qu’il soit plus long et
englobe celui construit en c) signifie que son niveau de confiance réel (qui est
plus grand ou égal à 95%) est plus élevé que celui de l’intervalle construit en c).

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.53

Solution du problème 7.16.8


a) Pour procéder rapidement aux estimations demandées, on peut :
- créer une nouvelle variable «Codeprix» prenant les valeurs 1, 2 ou 3 selon que le
prix de vente soit inférieur à 125 000$, appartienne à l’intervalle [125 000$, 175
000$) ou soit supérieur ou égal à 175 000$;
- produire un tableau croisé approprié opposant cette nouvelle variable à la
variable «Baths» qui donne le nombre de salles de bain.
MTB > Code (0:124999,99) 1 (125000:174999,99) 2 (175000:400000) 3 c1 c6
MTB > name c6 'CodePrix'
MTB > Table c6 c5;
SUBC> Counts;
SUBC> RowPercents.

Tabulated Statistics
Rows: CodePrix Columns: Baths

1,0 1,5 2,0 2,5 3,0 3,5 4,0 All

1 24 4 4 0 0 0 0 32
75,00 12,50 12,50 -- -- -- -- 100,00

2 14 18 21 18 7 0 0 78
17,95 23,08 26,92 23,08 8,97 -- -- 100,00

3 0 4 4 25 3 3 1 40
-- 10,00 10,00 62,50 7,50 7,50 2,50 100,00

All 38 26 29 43 10 3 1 150
25,33 17,33 19,33 28,67 6,67 2,00 0,67 100,00

Cell Contents --
Count
% of Row

Le tableau ci-dessus révèle que, parmi les 150 maisons de l’échantillon total, il y en a
38 avec une seule salle de bain.
Parmi les 32 maisons dont le prix de vente est inférieur à 125 000$, il y en a 24 avec
une seule salle de bain; parmi les 78 dont le prix de vente est dans l’intervalle
[125 000$; 175 000$), il y en 14 avec une seule salle de bain; parmi les 40 dont le
prix de vente est supérieur ou égal à 175 000$, il n’y en a aucune avec une seule
salle de bain.
Des estimations ponctuelles de π, π1, π2 et π3 sont donc respectivement données
par : 38/150 = 0,2533; 24/32 = 0,7500; 14/78 = 0,1795 et 0/40 = 0,0000.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.54

b) Les tailles des sous-échantillons (32, 78 et 40) n’étant pas très grandes et
certaines des proportions étudiées semblant très petites, il ne faut pas utiliser une
méthode utilisant une approximation de la loi binomiale par une loi normale. Il
vaut donc mieux procéder aux estimations demandées en utilisant des intervalles
de Clopper-Pearson.

c) paramètre intervalle de niveau de confiance 90%


π [0,1957; 0,3185]
π1 [0,5939; 0,8691]
π2 [0,1119; 0,2663]
π3 [0,0000; 0,0722]

MTB > POne 150 38;


SUBC> Confidence 90.
Exact
Sample X N Sample p 90,0 % CI P-Value
1 38 150 0,253333 (0,195667; 0,318469) 0,000

MTB > Pone 32 24;


SUBC> Confidence 90.
Exact
Sample X N Sample p 90,0 % CI P-Value
1 24 32 0,750000 (0,593943; 0,869067) 0,007

MTB > Pone 78 14;


SUBC> Confidence 90.
Exact
Sample X N Sample p 90,0 % CI P-Value
1 14 78 0,179487 (0,111901; 0,266276) 0,000

MTB > Pone 40 0;


SUBC> Confidence 90.
Exact
Sample X N Sample p 90,0 % CI P-Value
1 0 40 0,000000 (0,000000; 0,072158) 0,000

On remarque que les intervalles obtenus pour π1, π2 et π3 ne se recoupent pas.


Les données semblent confirmer que, plus une maison a un prix de vente élevé,
plus la probabilité pour qu’elle ait une seule salle de bain est faible.

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).


Probabilités et statistique 1-620-96(BAAjour) Section 7, p.7.55

Solution du problème 7.16.9

Soit y le nombre de «succès» observés dans l’échantillon de taille n =92. L’intervalle


de Clopper-Pearson de niveau de confiance 95% étant [0,147193; 0,327510], on sait
que y est tel que P(Y1 ≥ y) = 1 − P(Y1 ≤ y −1) = 0,025 et P(Y2 ≤ y) = 0,025; où les
variables aléatoires Y1 et Y2 obéissent respectivement aux lois B(n=92; π=0,147193)
et B(n=92; π=0,327510).
Il suffit d’examiner la fonction de répartition d’une de ces lois pour trouver y =21.
On en déduit que la proportion de «succès» dans l’échantillon est 21/92 = 0,2283.
MTB > set c1 C1 C2 C3
DATA> 0:92 ↓ y P(Y1<=y) P(Y2<=y)
DATA> end 19 18 0,92330 0,00367
MTB > cdf c1 c2; 20 19 0,95502 0,00738
SUBC> Binomial 92 0,147193. 21 20 0,97500 0,01398
MTB > cdf c1 c3; 22 21 0,98682 0,02500
SUBC> Binomial 92 0,327510. 23 22 0,99341 0,04232
24 23 0,99687 0,06799

Solution du problème 7.16.10

On veut utiliser la méthode de Clopper-Pearson pour construire un intervalle de


confiance unilatéral de la forme [0, π2] ayant un niveau de confiance d’au moins 95%
à partir d’un échantillon de taille 92 dans lequel on observe 21 «succès».
Il suffit de construire l’intervalle bilatéral de niveau de confiance 90% et de ne retenir
que sa borne supérieure. L’intervalle cherché est [0; 0,2937] .
MTB > POne 98 21;
SUBC> Confidence 90.

Test and Confidence Interval for One Proportion

Test of p = 0,5 vs p not = 0,5

Exact
Sample X N Sample p 90,0 % CI P-Value
1 21 98 0,214286 (0,148312; 0,293711) 0,000

Copyright  2001. École des Hautes Études Commerciales, Montréal (Québec).

Vous aimerez peut-être aussi