Vous êtes sur la page 1sur 10

Corrigé Statistiques inférentielle par par Pierre Veuillez

1 Intervalle de confiance.
Exercice
Déterminer une valeur approchée de la loi de la moyenne empirique :
E Xn = E (X) , V Xn = n V (X) donc Xn ,→ N E (X) , n1 V (X)
  1

2 Exercices
2.1 Variance
1 2
Xi2 − Xn
P
Soit X ayant une espérance m et une variance v, sa variance empirique est Wn = n
avec Xn la moyenne empirique de X et n1
P 2
Xi la moyenne empirique de X 2 .

1. Soit Y ayant une espérance et une variance. Calculer E (Y 2 ) en fonction E (Y ) et V (Y )


   2
2. Calculer E Xn et V Xn et en déduire E Xn
n−1
3. Montrer enfin que E (Wn ) = n
V (X) et en déduire un estimateur sans biais de la variance.

Solution
1. V (Y ) = E (Y 2 ) − E (X)2 donc E (Y 2 ) = V (Y ) + E (Y )2
 2
2. E Xn = m et V Xn = n1 v donc E Xn = n1 v + m2
 

1
E (Xi2 ) = n1 n (v + m2 ) − n1 v + m2 = 1 − n1 v = n−1
P  
3. E (Wn ) = n n
v
n−1
Wn = v et n−1

D’où E n n
Wn variance empirique sans biais est un estimateur sans biais de
la variance.

2.2 Question confidentielle.


Certains sujets abordés dans les enquêtes d’opinion sont parfois assez intimes, et on court le risque
que les personnes interrogées se refusent à répondre franchement à l’enquêteur, faussant ainsi le
résultat.
On peut alors avoir recours à une astuce consistant à inverser aléatoirement les réponses .
Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses
positives.
L’enquêteur demande à chaque personne interrogée de lancer un dé.

• Si le dé tombe sur , la personne doit donner sa réponse sans mentir,

• sinon elle doit donner l’opinion contraire à la sienne.

Si l’enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est franche ou non, et on
peut espérer que la personne sondée acceptera de jouer le jeu.
Généralisons légèrement la situation en tirant pour chaque personne une variable de Bernoulli de
paramètre α.

Cours˙Estimation-c Page 1/ 12
• Si le résultat de cette variable est 1, la réponse est franche,

• sinon, elle est inversée.

Soit n le nombre de personnes interrogées.


L’enquêteur ne recueille que la fréquence empirique Fn des “oui”.

1. Montrer que la probabilité de “oui” à l’issue de la procédure est q = α p + (1 − α) (1 − p)

2. Montrer que Fn , la fréquence observée par l’enquêteur, est un estimateur sans biais de q et de
risque quadratique tendant vers 0 quand n tend vers +∞

3. Pour α 6= 1/2 exprimer p en en fonction de q.


−1+α
4. En déduire que Tn = Fn2α−1 est un estimateur sans biais de p dont le risque quadratique tend
vers 0 quand n tend vers +∞.

5. Pour n fixé, quelle valeur attribuer à α pour que le risque quadratique soit minimum ? Est-ce
acceptable ?
Pour quelle valeur de α ce risque est-il maximum ?
Quel sera le risque quadratique avec le dé (α = 1/6)

2.3 Loi uniforme


Soit X de loi U [0, a] et (X1 , . . . Xn ) une n-échantillon de variables. Etimation de a :
X a une espérance de a/2. Soit Xn la moyenne empirique.

1. Soit Tn = 2Xn . Montrer que Tn est sans biais et déterminer son risque quadratique

2. Soit Tn0 = max (X1 , . . . , Xn )


Déterminer la fonction de répartition de X puis celle de Tn0
En déduire sa densité puis son biais et son risque quadratique.

3. Soit Tn00 = n+1 0


n
Tn déterminer son biais et son risque quadratique.

4. Quel est le meilleur estimateur de a pour de grandes valeurs de n ?

solution:
Pn
1
Xi donc E Xn = n1 ni=1 E (Xi ) = a2 d’où E (Tn ) = 2 a2 = a et Tn est sans biais.
 P
1. Xn = n i=1

V Xn = n12 ni=1 V (Xi ) car les (Xi ) sont indépendantes.


 P
Ra a 2 2 2 2 n a2
E (Xi2 ) = 0 a1 t2 dt = a1 [t3 /3]0 = a3 donc V (Xi ) = a3 − a4 = a12 d’où V Xn = 12n

2.
 a2
La variance de Tn = 2Xn est alors V (Tn ) = 4V Xn = 3n et donc son risque quadratique est
a2 a2
3n
+ 02 = 3n

 R 0 si x < 0
Rx x 1 x
2. La fonction de répartition F de Xest : F (x) = −∞ f (t) dt = dt = si x ∈ [0, a]
 0 a a
1 si x > a
n
(Tn0 ≤ t) = (max (X1 , . . . , Xn ) ≤ t) = i=1 (Xi ≤ t) et en notant F la fonction de répartition
T
de X, et G celle de Tn0 on a alors

Cours˙Estimation-c Page 2/ 12
G (t) = F (t)n .
F est continue sur R et C 1 sauf en 0 et a donc G également et Tn0 est à densité de densité :

0 n−1 0 si x ∈/ [0, a]
g (t) = G (t) = n f (t) F (t) = n x n−1

a a
si x ∈ [0, a]
Ra Ra  n 1 n+1 a
L’espérance (qui existe) de Tn0 est alors 0 t g (t) dt = 0 ann tn dt = n+1 an
t 0
n
= n+1 a
Donc Tn0 a pour biais n+1 n
− 1 a = − na (biaisé mais son biais tend vers 0 quand n → +∞ )

Ra Ra  n 1 n+2 a
L’espérance (qui existe) de Tn0 2 est 0 t2 g (t) dt = 0 ann tn+1 dt = n+2 an
t 0
n
= n+2 a2
Donc la variance de Tn0 est
 2

2

2 n 2 n n
V (Tn0 ) =E Tn0 −E (Tn0 ) = a − 2 a2 = a2
n+2 n+1
(n + 1) (n + 2)
 
et son risque quadratique est r0 = V (Tn0 ) + b2 = (n+1)n2 (n+2) a2 + n12 a2 = (n+1)n2 (n+2) + n12 a2 ∼
2 2
n2
a

3. Alors Tn00 = n+1 0


n
Tna pour espérance n+1 n
E (Tn0 ) = a donc Tn00 est sans biais.
2
Sa variance est V (Tn00 ) = n+1
n
V (Tn0 ) = n(n+2)
1
a2 et a pour risque quadratique r00 = 1
n(n+2)
a2 ∼
a ce qui est (pour n grand) deux fois mieux que Tn0 .
1 2
n2

4. Donc pour de grandes valeurs de n, Tn00 est le meilleur estimateur de a.

2.4 Intervalle de confiance pour le paramètre d’une variable de Bernouilli.


Lors d’un sondage sur 100 personnes interrogée, 60 pensent voter pour A
On modélise le choix par un échantillon (X1 , . . . , X100 ) de variable indépendantes de même loi de
Bernouilli de paramètre p.
On cherche à déterminer un intervalle de confiance pour p au niveau de confiance 99% (1% de risque)
1
P100
1. Déterminer l’espérance et la variance de la fréquence empirique F = 100 i=1 Xi ?

2. On note F ∗ la fréquence empirique centrée réduite.


Par quelle loi peut on approcher celle de F ∗ ? On suppose désormais que F ∗ suit N (0, 1)
 √ √ 
∗ p(1−p) p(1−p)
3. Déterminer t tel que P (−t ≤ F ≤ t) ≥ 0, 99 et en déduire que P F − t 10 ≤ p ≤ F + t 10 ≥
0, 99

4. Montrer que pour tout p ∈ [0, 1] , p (1 − p) ≤ 14 et en déduire que [F − t/20 ; F + t/20] est un
intervalle de confiance de p au niveau de confiance 99%

Cours˙Estimation-c Page 3/ 12
Solution
1
P100  1
P100 1
1. On a E (F100 ) = E 100 i=1 Xi = 100 i=0 E (Xi ) = 100
100p =p
Donc Fn est un estimateur sans biais de p

2. Somme de variables indépendantes de même loi B (1, p) : V (Xi ) = p (1 − p) 6= 0 et E (Xi ) = p


1
P100 ∗
Donc avec F = 100 i=1 Xi , F peut être approchée par une loi Normale centrée réduite.
1
P100 1
V (F ) = 1002 i=1 V (Xi ) car les (Xi )i sont indépendantes. Donc V (F ) = 100 p (1 − p) et

F∗ = qF −p =√ 10
(F − p) la fréquence empirique centrée réduite suit approximativement
p(1−p) p(1−p)
100
une loi N (0, 1)

3. Comme −t ≤ t : P (−t ≤ F ∗ ≤ t) = Φ (t) − Φ (−t) = Φ (t) − (1 − Φ (t)) = 2Φ (t) − 1


On résout : 2Φ (t) − 1 = 0, 99 ⇐⇒ Φ (t) ≥ 0, 995 et on lit sur la table de la lo Normale pour
t = 2, 58
N.B. première transformation à connaı̂tre :
!
10
(−t ≤ F ∗ ≤ t) = −t ≤ p (F − p) ≤ t
p (1 − p)
p p !
p (1 − p) p (1 − p)
= −t ≤F −p≤t
10 10
p p !
p (1 − p) p (1 − p)
= F −t ≤p≤F +t
10 10

 √ √ 
p(1−p) p(1−p)
Donc P Fn − t 10
≤ p ≤ Fn + t 10
≥ 0, 99

4. On étudie les variations de f (p) = p (1 − p) .


f est dérivable sur R et f 0 (p) = 1 − p − p = 1 − 2p
p 0 1/2 1
0 1
f (p) = 1 − 2p + 0 − affine et p (1 − p) ≤ 4
f (p) % 1/4 &
p
On a alors p (1 − p) ≤ 12 donc
N.B. seconde transformation à connaı̂tre :
 √ √ 
p(1−p) p(1−p) 1 1

Fn − t 10 ≤ p ≤ Fn + t 10 ⊂ Fn − t 20 ≤ p ≤ Fn + t 20 et P (Fn − t/20 ≤ p ≤ Fn + t/20) ≥
 √ √ 
p(1−p) p(1−p)
P Fn − t 20 ≤ p ≤ Fn + t 20 ≥ 0, 99

Donc [Fn − t/20 ; Fn + t/20] est un intervalle de confiance de p au niveau de confiance 99%
soit avec l’échantillon de données : p̂ = 0, 6
t/20 ' 0, 13, l’intervalle de confiance au niveau 99% est [0, 47 ; 0, 73] ... ce qui ne renseigne pas
beaucoup sur les chances de remporter l’élection..
Avec un échantillon de taille 10000, on trouvera l’intervalle [Fn − t/200 , Fn + t/200] soit une
largeur d’intervalle proche de 5% pour un niveau de confiance de 99%.

Cours˙Estimation-c Page 4/ 12

p(1−p)
Avec un niveau de confiance de 95%, on a t = 1, 96 et pour n = 1000 on a t √1000 ≤ 0, 0302,
c’est la classique des sondages : pour un échantillon de 1000 personne, le résultat est donné
avec un intervalle de confiance de 3% (ce que ne disent pas les sondeurs, c’est que cela n’est
sûr qu’à 95% : il y a 5% de chance que la valeur réelle soit hors de cet intervalle de

2.5 Intervalle de confiance par Bienaymé-Tchebichev


 √ 
Soit a ∈ 0; 2 3 , X ,→ U[0,a] et (X1 . . . Xn ) un n-echantillon de variables de même loi que X et
indépendantes.
On cherche un intervalle de confiance de a2 au niveau de confiance 99% (niveau de risque 1%).
On note Xn la moyenne empirique
2
1. Rappeler la moyenne m de X et montrer que V (X) = a12 . En déduire la moyenne et l’espérance
de Xn .

2. En déduire que P Xn − a2 > 0, 1 ≤ 100



n

3. Déterminer enfin n pour que Xn − 0, 1 ; Xn + 0, 1 soit un intervalle de confiance de a2 au


 

niveau de confiance 99%

4. Ecrire un programme PASCAL qui


 √ 
• choisit un nombre a au hasard dans 0; 2 3
• effectue 10000 tirages dans [0, a]
• calcule et affiche la moyenne des résultats obtenus.

Le programme a affiché 0,534.


a
• Pensez vous que 2
= 0, 534 ?
a
• Pensez vous que 2
> 0, 7 ?
a
• Pensez vous que 2
∈ [0, 43 ; 0, 64] ?

5. Par quelle loi peut-on approcher celle de X1000 ?


 √ 
6. Déterminer t pour que P −t ≤ a12 100 Xn − a2 < t ≥ 0, 99 et en déduire un autre intervalle


de confiance de a2 au niveau α

Solution
 √ 
Soit a ∈ 0; 2 3 , X ,→ U[0,a] et (X1 . . . Xn ) un néchantillon de variables de même loi que X et
indépendantes.
On cherche un intervalle de confiance de a2 au niveau de confiance 99% (niveau de risque 1%).
On note Xn la moyenne empirique
a
1. On a E (X) = 2
Rat2
Et
h 3 comme
ia la densité de X est nulle hors de [0, a] et vaut a1 sur [0, a] on a E (X 2 ) = 0 a
dt =
t 2 2 2 2
3a
= a3 et donc X a une variance qui est V (X) = a3 − a2 = a12
0

Donc E Xn = E n1 ni=1 Xi = n1 ni=1 E (Xi ) = nn E (X) = a2


 P  P

Cours˙Estimation-c Page 5/ 12
 1
Pn  1
Pn 1
Et V Xn = E n i=1 Xi = n2 i=1 V (Xi ) car les Xi sont indépendants · · · = n2
nV (X) =
a2
12n
a2
Rappeler la moyenne m de X et montrer que V (X) = 12
. En déduire la moyenne et l’espérance
de Xn .
 V (Xn ) a2
2. D’après l’inégalité de Bienaymé-Tchebichev on a alors P Xn − a2 > 0, 1 ≤ 0,12 = 100 12n et
√ 2 a
 100 a

comme 0 ≤ a ≤ 2 3 alors a ≤ 12 et donc P Xn − 2 > 0, 1 ≤ n et P Xn − 2 ≤ 0, 1 ≥
1 − 100
n

3. Comme l’événement Xn − a2 ≤ 0, 1 s’écrit −0, 1 ≤ Xn − a2 ≤ 0, 1 ou encore :


 

Xn − 0, 1 ≤ a2 ≤ Xn + 0, 1


Donc pour n = 10000 on a P Xn − 0, 1 ≤ a2 ≤ Xn + 0, 1 ≥ 1 − 0, 01 et Xn − 0, 1 ; Xn + 0, 1


  

est un intervalle de confiance de a2 au niveau de confiance 99%

4. Ecrire un programme PASCAL qui


Program estim;
var a,x,s:real;k:integer;
begin
randomize;a:=random(2*(3));s:=0;{initialisation}
for k:=1 to 10000 do
begin
x:=random(a);
s:=s+x;
end;
writeln(’la moyenne est :’,s/10000);
end.
Le programme a affiché 0,534.
a
• Chaque valeur a une probabilité nulle d’avoir été choisie ! donc 2
6= 0, 534 ?
a
• La probabilité que soit dans l’intervalle [0, 534 − 0, 1 ; 0, 534 + 0, 1] est supérieure à 99%.
2
Donc la probabilité qu’il soit > 0, 7 est de moins de 1%. Je ne pense donc pas que a/2 > 0, 7
• La probabilité de a2 ∈ [0, 43 ; 0, 64] est supérieure à 99%. Je pense donc que oui. (et j’ai
moins de 1% de chances de me tromper ...)

5. La loi ni=1 Xi somme de variables indépendantes de même loi qui a pour espérance n a2 , et
P
2
pour variance n a12 .
Xn −a/2 ∗
DOnc centreée réduite, elle peut être approchée par une loi N (0, 1) et Xn = √ 2
par
a /12n
N (0, 1)
 √ 
12 a

6. Et pour n = 10000 : P −t ≤ a
100 Xn − 2
< t ' Φ (t) − Φ (−t) = 2Φ (t) − 1
On résout 2Φ (t) − 1 ≥ 0, 99 ⇐⇒ Φ (t) ≥ 0, 995 ce qui est vérifié pour t = 2, 58 ≤ 2, 6
 √   
On a −t ≤ a12 100 Xn − a2 < t = Xn − t 100a√12 ≤ a2 < Xn + t 100a√12 avec 100a√12 ≤ 1

100

Cours˙Estimation-c Page 6/ 12
donc Xn − 0, 026 ; Xn + 0, 026 est un intervalle de confiance de a2 au niveau de confiance 99%
 

(soit une précision quatre fois meilleure qu’avec la formule de Bienaymé-Tchebichev)

Cours˙Estimation-c Page 7/ 12
2.6 Comptage par capture et recapture
On cherche à évaluer le nombre N de poissons dans un étang.
Pour cela, on prélève dans l’étang m poissons que l’on bague avant les remettre dans l’étang.
On propose deux méthodes différentes d’estimation de N .

Méthode 1
Soit n ∈ N∗ , n ≥ m.
On prélève des poissons dans l’étang, au hasard et avec remise.
On note Xn la variable aléatoire égale au nombre de poissons qu’il a été nécessaire de pêcher pour
obtenir n poissons marqués.
Pour tout i ∈ [2, n], on pose Di = Xi − Xi−1 . On pose D1 = X1 et on suppose que les Di sont des
variables indépendantes.

1. a) Pour tout i ∈ [2, n] , quelle est la signification de Di ?


b) Déterminer, pour i ∈ [2, n], la loi de Di , son espérance et sa variance.
En déduire l’espérance et la variance de Xn .
c) On pose An = m n
Xn . Montrer que An est un estimateur sans biais de N et déterminer son
risque quadratique.
Xn
2. a) Pour n assez grand, par quelle loi peut-on approcher la loi de la variable aléatoire Xn = n
(on utilisera le théorème de la limite centrée)?
b) On a marqué 200 poissons puis effectué 450 prélèvements pour obtenir 50 poissons marqués.
On pose σ = σ(An ). On a pu prouver par ailleurs que σ ≤ 100.
Déterminer en fonction de σ, un intervalle de confiance pour N au seuil 0.9 (On donne
Φ(1, 64) ' 0, 95).

Méthode 2
On prélève successivement et avec remise n poissons. Soit Yn le nombre de poissons marqués parmi
eux.
1 1
1. Montrer que Y
nm n
est un estimateur sans biais de N
.
nm
2. Pour quelle raison évidente ne peut-on pas prendre Yn
comme estimateur de N ?
On pose alors Bn = m(n+1)
Yn +1

a) Calculer l’espérance de Bn .
b) Est-il un estimateur sans biais de N ?

Solution

Méthode 1

1. a) Di est la différence du nombre de pèche nécessaire pour obtenir i−1 et i poissons marqués.
C’est le nombre de pèche pour obtenir un poisson marqué de plus.

Cours˙Estimation-c Page 8/ 12
b) Donc Di est le nombre de pèches pour obtenir un poisson marqué de plus dans une suite
de pèche (on peut supposer que la pèche se continue indéfiniment) indépendantes (avec
remise, en supposant que les poissons sont bêtes et ne se souviennent pas qu’il ne faut pas
m
mordre à l’hameçon) ayant toutes une probabilité N de donner un poisson marqué.
m
m
1− N N (N − m)
et E (Di ) = N

Donc Di ,→ G N m
et V (Di ) = 2 =
m m2

N
Comme D1 + D2 + · · · + Dn = Xn on a alors E (Xn ) = n N
m
et comme les (Di )i sont
N (N −m)
indépendants, V (Xn ) = n m2
c) On pose An = m n
Xn .
m
On a alors E (An ) = n
E
(Xn ) = N donc An est un estimateur sans biais de N.
 m2
Sa variance est V (An ) = V mn
Xn = n2 V (Xn ) = N (Nn−m)
N (N −m)
Donc son risque quadratique est : biais2 + V (An ) = n

2. a) Pour n assez grand, Xn étant une somme de variables indépendantes et de même loi, Xn∗
peut être approchée par une loi normale centrée réduite.
b) An suit alors également une loi normale de paramètres E (An ) = N et et V (An ) = σ 2
et Anσ−N suit une loi normale centrée réduite.
Donc P −t ≤ Anσ−N ≤ t = Φ (t) − Φ (−t) = Φ (t) − [1 − Φ (t)] = 2Φ (t) − 1


Et
 
An − N
P −t ≤ ≤ t ≥ 0, 9 ⇐⇒ 2Φ (t) − 1 ≥ 0, 9
σ
⇐⇒ Φ (t) ≥ 0, 95 ' Φ(1, 64)
⇐⇒ t ≥ 1, 64
car Φ est croissante sur R
Comme σ ≤ 100 alors
 
An − N
−t ≤ ≤ t = (An − tσ ≤ N ≤ An + tσ) ⊂ (An − t100 ≤ N ≤ An + t100)
σ
Et avec t = 1, 64 : P (An − t100 ≤ N ≤ An + t100) ≥ P −t ≤ Anσ−N ≤ t ≥ 0, 9


Donc [An − 164 , An + 164] est un intervalle de confiance de N au niveau de confiance 0, 9


Avec ici : m = 200; n = 50 et X50 = 450
Donc A50 = 200 50
X50 = 1800 (Estimation ponctuelle de N )
et on est sûr à 90% que le nombre de poissons dans l’étang est compris dans l’intervalle
[1636 , 1964]

Méthode 2
On prélève successivement et avec remise n poissons. Soit Yn le nombre de poissons marqués parmi
eux.
m

1. Le nombre Yn de poissons marqués suit une loi binomial de paramètres n, N .
m 1
Yn = N1

Donc son espérance est E (Yn ) = n N et E nm
1
Donc Y
nm n
est un estimateur sans biais de N1 .
1 2
m m
 nm(N −m) 1
  (N −m)
On a V (Yn ) = n N 1− N = N2
donc V Y
nm n
= nm
V (Yn ) = n m N2
1 1 (N −m)
Donc le risque quadratique de Y
nm n
comme estimateur de N
est n m N2

Cours˙Estimation-c Page 9/ 12
nm
2. Comme Yn peut être nul avec une probabilité non nulle, Yn
aurait une probabilité non nulle
de ne pas être défini.
On pose alors Bn = m(n+1)Yn +1

a) On utilise le théorème de transfert : les valeurs de Yn sont [[0, n]]

n
X m(n + 1)
E (Bn ) = P (Yn = k)
k=0
k+1
n  
X m(n + 1) n k n−k
= p q
k=0
k+1 k

il faut développer le coefficient du binôme pour simplifier l’expression.


m m
en notant p = N et q = 1 − N

n
X m(n + 1) n!
E (Bn ) = pk q n−k
k=0
k+1 k! (n − k)!
n
X (n + 1)!
= m pk q n−k
k=0
(k + 1)! (n − k)!

On y reconnaı̂t n+1

k+1
et on réindexe h = k + 1pour faire réapparaitre la formule du
binôme... pour la puissance n + 1

n  
X n + 1 k n−k
E (Bn ) = m p q
k=0
k + 1
n+1  
X n + 1 h−1 n+1−h
= m p q
k=1
h
n+1   !
m X n + 1 h n+1−h
= p q − q n+1
p k=0 h
m
(p + q)n+1 − q n+1

=
p
m
1 − q n+1

=
p
N 1 − q n+1

=

b) Donc B est biaisé, mais quand n tend vers +∞ (quand on augmente le nombre de repêche)
le biais tend vers 0 : il est asymptotiquement sans biais.

Cours˙Estimation-c Page 10/ 12

Vous aimerez peut-être aussi