Vous êtes sur la page 1sur 8

ENIT Statistiques

Corrigé : Estimation Paramétrique

Exercice 1
1. Bernouilli B(p) ; θ = p ∈ [0, 1].
E(X1 ) = p, donc p̂EM M
= X n = n1 ni=1 Xi . C'est un estimateur sans biais
P
n
(ESB) de p car E(p̂EM n
M
) = p. P(Xi = xi ) = p, si xi = 1, et 1 − p si xi = 0.
Donc
(1 − p)n− xi .
P P
xi
L = P(XP 1 = x1 , . . . , Xn = xP
n) = p
logL = ( xi ) log Pp + (n − xi ) log(1EM − p).

logL = p(1−p) ( xi − np) = 0 =⇒ p̂n V = n1 ni=1 Xi = p̂EM
1 M
:= p̂n .
P
∂p n
V(X1 ) p(1−p)
V(p̂n ) = n
= n
.
La quantité d'information de Fisher vaut : In (p) = V( ∂p ∂ 1
P
logL) = V( p(1−p) ( xi −
np)) = p(1−p) .
n

Ainsi, V(p̂n ) = In1(p) =borne FDCR, donc p̂n est optimal, car ESB et de
variance minimale (ecace). Il n'est pas normal à n xé, mais asymptoti-
quement normal (quand n → ∞) par le TCL.
2. Exponentielle E(λ) ; θ = λ > 0.
On a E(X1 ) = λ1 , donc λ̂EM
n
M
= X1n = Pnn Xi .
P i=1
On peut montrer (en utilisant que ni=1 Xi suit la loi Gamma G(n, λ)) que
E(λ̂EM
n
M
) = n−1n
λ 6= λ, donc c'est un estimateur biaisé (mais asymptoti-
quement sans biais).
En écrivant L = f(X1 ,...,Xn ) (x1 , . . . , xn ) = ni=1 λ exp(−λxi ), puis en faisant
Q

∂λ
logL = 0, on obtient λ̂EM
n
V
= λ̂EM n
M
= Pnn Xi .
i=1

3. Exponentielle E(λ) ; θ = λ1 > 0.


θ̂nEM M = θ̂nEM V = X n devient simplement un ESB de θ.
4. Normale N (m, σ 2 ) ; θ = (m, σ 2 ) ∈ R × R+ .
EM M
(m = E(X); σ 2 = E[(X−E(X))2 ]), donc (m̂EM M
= X n ; σˆ2 n = n1 ni=1 (Xi −
P
n
X n )2 := Sn2 ) est un estimateur par méthode Q des moments de θ.
En écrivant L = f(X1 ,...,Xn ) (x1 , . . . , xn ) = ni=1 fX1 (xi ) (avec fX1 (xi ) =
√1 exp(− i 2 )), puis en faisant ∂ logL = 0 et logL = 0, on
(x −m)2 ∂
σ 2π 2σ ∂m ∂(sigma2 )
obtient les mêmes estimateurs par maximum de vraisemblance.
m̂n est un ESB de m, mais σˆ2 n = Sn2 est biaisé : E(Sn2 ) = n−1 n
σ 2 . C'est
pourquoi on utilise plutôt l'estimateur Sn02 := n−1 n
Sn2 = n−11 n 2
P
i=1 (Xi − X n )
qui est alors un ESB de σ 2 .
5. Gamma Γ(α, λ) ; θ = (α, λ) ∈ R∗+ × R∗+ .
On sait pour la loi Gamma que E(X) = αλ et V(X) = λα2 . Donc :
et λ = V(X) . Ainsi :
2
α = (E(X))
V(X)
E(X)

α̂nEM M = S 2 et λ̂EM = XS 2n . Ils sont biaisés.


(X )2
n M
n
n n

1
En écrivant L = f(X1 ,...,Xn ) (x1 , . . . , xn ), puis en faisant ∂α

logL = 0 et

∂λ
logL = 0, on obtient un système de deux équations, dont la résolution
n'est pas explicite, et donc la solution est diérente de (α̂n , λ̂EM
EM M
n
M
). On a
ainsi un contre-exemple où l'estimateur par max. de vraisemblance (EMV)
est diérent de celui par méthode des moments (EMM).
Exercice 2 n
Un estimateur linéaire et sans biais de θ s'écrit sous la forme θ̂n = ai Xi avec
X

i=1
n
ai = 1. Comme les variables aléatoires sont indépendantes, on a V(θ̂n ) =
X

i=1
n n n
1
, avec σ = V(X1 ) . D'après l'inégalité de Cauchy-Schwarz on a ( ai )(
X X X
a2i σ 2 2 2
2
)≥
i=1 i=1 i=1
n
n n n
ai 2 1
) Puisque ai = 1, on déduit que a2i ≥ avec égalité si et seulement
X X X
(
i=1
n i=1 i=1
n
1
si ai = pour tout i ∈ {1, . . . , n}. L'estimateur de variance minimale dans
n
la classe des estimateurs linéaires et sans biais est donc la moyenne empirique
n
1X
Xn = Xi .
n i=1

Exercice 3
1. La loi de Xi est la loi N (mi + α, σ 2 ) . La log-vraisemblance s'écrit :
n
n 2 1 X
log(Ln (x1 , . . . , xn ; α)) = − log(2πσ ) − 2 (xi − mi − α)2
2 2σ i=1

On obtient :
n
∂ 1 X
log(Ln (x1 , . . . , xn ; α)) = 2 (xi − mi − α) ,
∂α σ i=1

et donc :
n
∂ 1X
log(Ln (x1 , . . . , xn ; α)) = 0 ⇔ α = (xi − mi ) .
∂α n i=1

L'étude du signe de la dérivée de la log-vraisemblance, montre qu'elle atteint


n
1X
son maximum en (xi − mi ) . L'estimateur du maximum de vraisem-
n i=1
blance est donc : n
1X
α̂n = (Xi − mi ) .
n i=1

2
La loi de α̂n est la loi N (α, σ 2 /n) . En particulier, cet estimateur est sans
biais. On vérie qu'il est ecace. On a également :
∂2 n
2
log(Ln (x1 , . . . , xn ; α)) = − 2 ,
∂ α σ
et, on en déduit que l'information de Fisher est :
∂2 n
In = Eα [− 2
log(Ln (X1 , . . . , Xn ; α))] = 2 .
∂ α σ
σ2 1
Comme Varα (α̂n ) = = , l'estimateur est ecace.
n In
De plus, les variables (Xi − mi ) sont indépendantes et de même loi gaus-
sienne. Par la loi√ forte des grands nombres, l'estimateur est convergent.
Comme la loi de n(α̂n − α) est la loi N (0, σ 2 ) , l'estimateur du maximum
de vraisemblance est donc asymptotiquement normal (et asymptotiquement
ecace).
2. La loi de Xi est la loi N (βmi , σ 2 ) . En particulier, la loi de β̂n est la loi
n
σ2 X 1
N (β, 2 ) . Ainsi β̂n est un estimateur sans biais de β . On vérie
n i=1 m2i
qu'il est ecace. La log-vraisemblance s'écrit :
n
n 1 X
log(Ln (x1 , . . . , xn ; β)) = − log(2πσ 2 ) − 2 (xi − βmi )2
2 2σ i=1

On a : n
∂2 1 X 2
log(L (x
n 1 , . . . , xn ; β)) = − m,
∂ 2β σ 2 i=1 i
et donc :
n
∂2 1 X 2
In = Eβ [− 2 log(Ln (X1 , . . . , Xn ; β))] = 2 m.
∂ β σ i=1 i

D'autre part on a :
n
σ2 X 1
Var (β̂n ) = 2 .
n i=1 m2i
n
1 X 1 1
Par Cauchy-Schwarz, on a 2 2
≥ Pn 2
, et l'inégalité est stricte
n i=1 mi i=1 mi
1
dès qu'il existe mi 6= mj . En particulier Var(β̂n ) > , s'il existe mi 6= mj ,
In
et l'estimateur n'est alors pas ecace.
3. On a : n
∂ 1 X
log(Ln (x1 , . . . , xn ; β)) = 2 mi (xi − βmi ) .
∂β σ i=1

3
En étudiant le signe de cette dérivée, on en déduit que l'estimateur du
maximum de vraisemblance de β est :
Pn
mi Xi
β̃n = Pi=1
n 2
i=1 mi

σ2
La loi de β̃n est la loi N (β, n ) . En particulier, cet estimateur est
m2i
P
i=1
sans biais et il est ecace. Il est préférable à β̂n .
4. On obtient les estimations avec les intervalles de conance de niveau exact
95% : α̂n ' 88.6 ± 6.1, β̂n ' 1.088 ± 0.006 et β̃n ' 1.087 ± 0.006. (La
théorie des tests permet de déterminer lequel des deux eets (additif ou
multiplicatif) modélise au mieux les données observées.)
Exercice 4
1. a) Vérier que la v.a. U + V est de loi G(a + b, λ)
U → G(a, λ) , V → G(b, λ)
λ
 a
ΦU (t) = λ−it
En eet, ΦU (t) = E eitU =
R +∞ aλ
ua−1 e−λu du =
 R
R
eitu fU (u)du = 0
eitu Γ(a)
R +∞ λa a−1 −(λ−it)u
0 Γ(a)
u e du
Soit z = λ−itλ
u
λz a−1 −λz λ
R +∞ λa
 λ
a R +∞ λa a−1 −λz λ
a
ΦU (t) = 0 Γ(a) λ−it
e λ−it
dz = λ−it 0 Γ(a)
z e dz = λ−it
(car et sont
  
ΦU +V (t) = E eit(U +V ) = E eitU eitV = E eitU E(eitV ) U V
indépendantes)
λ
a λ b λ
a+b
ΦU +V (t) == ΦU (t)ΦV (t) = λ−it λ−it
= λ−it
=⇒ U + V → G(a + b, λ)
b) Vérier que que la v.a. cU est de loi G a, λc


Soit Z = cU  a
itcU
 λ
a 1
ΦZ (t) = ΦcU (t) = E e = ΦU (ct) = λ−ict = 1−i c t
(λ)
c
=⇒ Z = cU → G(a, λ )
2. X → N (0, 1) et U → G(a, λ).
Les fonctions de2 densité des v.a. X et U sont :
fX (x) = √12π e− 2 ∀x ∈ R et fU (u) = Γ(a)
x λa a−1 −λu
u e ∀x > 0
a) Vérier que la densité de la v.a. X 2 est de loi G 21 , 12


Soit Z = X 2
√ √ √
FZ (z) = P (Z ≤ z) = P (X 2 ≤ z) = P (− z ≤ X ≤ z) = 2FX ( z) − 1
√ z

fZ (z) = ∂z FZ (z) = 2√2 z fX ( z) = √1z √12π e− 2 ∀z > 0
1
(1)2 1 1
fZ (z) = Γ2 1 z 2 −1 e− 2 u ∀z > 0
(2)
Z = X → G 21 , 12
2


4

b) i. On pose T = √XU et S = U , Déterminer la densité du couple (T, S)
Soit fT,S (t, s) la densité du couple (T, S)
T = √XU
 
√ X = TS
⇐⇒
S= U U = S2
x ∈ R =⇒ t = √xu ∈ R

s= u>0
fT,S (t, s) = fX,U (ts, s2 ) |det J| pour t ∈ R et s > 0
! 
∂x(t,s) ∂x(t,s) 
s t
où J = ∂u(t,s) ∂u(t,s) =
∂t ∂s

∂t ∂s
0 2s
|det J| = 2s2
X et U deux variables aléatoires réelle indépendantes donc fX,U (ts, s2 ) =
fX (ts)fU (s2 )
2 s2 2
t λa a−1 −λs2 a t 2
fT,S (t, s) = fX,U (ts, s2 ) |det J| = √1 e− 2 (s2 ) e 2s2 = √ 2λ s2a e−(λ+ 2 )s
2π Γ(a) 2πΓ(a)
pour t ∈ R et s > 0
b) ii. Déterminer la densité de la v.a. T .
fT (t) est la densité marginale de la v.a. T
R R +∞ 2λa 2a −(λ+ t2 )s2 z=s2 R +∞ 2λa a −(λ+ t2 )z 1
fT (t) = R fT,S (t, s)ds = 0 √2πΓ(a) s e 2 ds = 0 √2πΓ(a) z e 2 √ dz =
2 z
R +∞ λa 1 t2

0

2πΓ(a)
z a− 2 e−(λ+ 2 )z dz
λa
R +∞ (a+ 1 )−1 −(λ+ t2 )z a Γ(a+ 12 ) a Γ(a+ 12 )
= √2πΓ(a) z 2 e 2 dz = √ λ 1 = √ λ  1 =
0 2πΓ(a)  2 a+
 2πΓ(a) 1 2 a+ 2 2
λ+ t2 λa+ 2 1+ 2λ
t

Γ(a+ 1 ) 1
√ √ 2 a+ 1
λ 2πΓ(a)  t2 2
1+ 2λ
Γ(a+ 1 ) 1
=⇒ fT (t) = √ √ 2
λ 2πΓ(a)  2
a+ 1 ∀t ∈ R.
t 2
1+ 2λ

3. déduire sans calcul à partir de 1.b) et 2.b) la densité de la v.a. X12 + ... + Xn2
X → N (0, 1) alors X 2 → G 12 , 12


U → G(a, λ) , V → G(b, λ) alors U + V → G(a + b, λ) et cU → G(a, λc )


Donc Xi2 → G( 12 , 12 ) et X12 + ... + Xn2 → G( n2 , 12 )
4. déduire sans calcul la densité de la v.a. r X 2 +...+X
Y
2
(loi de Student)
1 n
n

U → G(a, λ) alors cU → G(a, λc )


X12 + ... + Xn2 → G( n2 , 12 ) =⇒ n1 (X12 + ... + Xn2 ) → G( n2 , n2 )
La densité de T = √XU où X → N (0, 1) et U → G(a, λ) est fT (t) =
Γ(a+ 1 ) 1
√ √ 2
λ 2πΓ(a)  a+ 1 ∀t ∈ R
t2 2
1+ 2λ
X12 +...+Xn2
La densité de la variable r Y
2 +...+X 2
X1
où Y → N (0, 1) et n
→ G( n2 , n2 )
n
n

est la densité de T = X

U
avec a = n
2
et λ = n
2

5
Γ( + ) n 1
Γ( n+1 )
fr Y (t) = √ n √2 2 n 1
n+1 = √
nΓ( n
2
)Γ( 21 ) 
1
 n+1 ∀t ∈ R
2πΓ( 2 )

2 +...+X 2 t2 2 2 2 2
X1 n 2 1+ n 2
1+ tn
n

Exercice 5
1. On associe à chaque usine une v.a.r Xi = 1 si l'usine i respecte les NHS et
0 sinon.

Xi → B(p) où p = 0.4.
Soit fn la fréquence des usines qui respectent les NHS dans un échantillon
de n usines.
Pn
Xi
fn = i=1 n
On cherche n tel que P (0.35 ≤ fn ≤ 0.45) ≥ 0.9
D'après le TCL, f√ n −E(fn ) L
→ N (0, 1)
V (f ) n→∞
 Pn  n
X i 1
Pn 1
Pn 1
E(fn ) = E = E ( X ) = i=1 E(Xi ) = n ×n×E(Xi ) = p
i=1
n n i=1 i n
 Pn 
i=1 Xi
= n12 V ( ni=1 Xi ) = n12 ni=1 V (Xi ) = n12 × n ×
P P
V (fn ) = V n
p(1−p)
V (Xi ) = n
fn −E(fn ) L
fn∗ = √ = qfn −p
= f√n −0.4
→ N (0, 1)
0.24
p(1−p)
V (fn ) n n→∞
n
 
f −0.4
P (0.35 ≤ fn ≤ 0.45) ≥ 0.9 ⇐⇒ P √ 0.24 ≤ √ 0.24 ≤ √ 0.24
0.35−0.4 n 0.45−0.4
≥ 0.9
n n n
   
−0.05 ∗ ∗
P √ 0.24 ≤ fn ≤ √ 0.24 ≥ 0.9 ⇐⇒ P |fn | ≤ √ 0.24 ≥ 0.9
0.05 0.05
n n
    n
2FN (0,1) √0.05 0.24
− 1 ≥ 0.9 ⇐⇒ FN (0,1) √0.05 0.24
≥ 0.95
n n

q
√0.05
0.24
≥ FN−1(0,1) (0.95) ⇐⇒ 0.24
n
≤ 0.05
1.64
⇐⇒ n ≥ 258. 2
n
Il faut contrôler au moins un échantillon de 259 usines pourque la fréquence
des usines qui respectent les NHS (parmi toutes les usines) soit comprise
entre 35% et 45% avec une probabilité supérieure à 0.9. Ou en d'autres
termes, il faut prendre un échantillon d'au moins 259 usines pour pouvoir
armer avec un risque d'erreur au plus égal à 10% que la fréquence des
usines qui respectent les NHS se situe entre 35% et 45%.
2. On contrôle 128 usines et on observe que 72 d'entre elles respectent les
normes d'hygiène et de sécurité. Trouver un intervalle de conance de niveau
95% pour la proportion d'usines respectant les normes d'hygiène.
P n
Xi 72
fn = i=1
n
=
= 0.5625
128
Le niveau de conance est 1 − α = 0.95
Le seuil de risque est α = 0.05
D'après le TCL,
L
fn∗ = qfn −p → N (0, 1)
p(1−p) n→∞
n

6
   q q 
fn −p p(1−p) p(1−p)
P q p(1−p) ≤ t1− α2 = 1−α ⇐⇒ P fn − t1− α2

n
≤ p ≤ fn + t1− α2 n
=
n
1−α  
q q
p(1−p) p(1−p)
P p ∈ fn − t1− α2 n
, fn + t1− α2 n
=1−α
 q q 
p(1−p) p(1−p)
IC1−α (p) = fn − t1− α2 n
, fn + t1− α2 n

On décide d'estimer p(1 − p) par fn (1 − fn ) dans IC1−α (p) (voir la méthode


exacte et la méthode par majoration de la variance dans le cours), on a
alors :
fn = 0.5625
n = 128
q q
σ̂fn = fn (1−f n
n)
= 0.5625(1−0.5625)
128
= 4. 384 8 × 10−2
t1− α2 = t0.975
P |fn∗ | ≤ t1− α2 = 1−α ⇐⇒ 2FN (0,1) t1− α2 −1 = 1−α ⇐⇒ FN (0,1) t1− α2 =
  

1 − α2 ⇐⇒ t1− α2 = FN−1(0,1) 1 − α2


t0.975 = FN−1(0,1) (0.975) = 1.96


 q q 
0.5625(1−0.5625) 0.5625(1−0.5625)
IC95% (p) = 0.5625 − 1.96 × 128
, 0.5625 + 1.96 × 128
=
[0.4766 , 0.6484]
D'après l'échantillon de 128 usines qu'on a contrôlées, on est sûr à 95% que
la proportion des usines qui respectent les NHS se situe entre 47.66% et
64.84%.

Exercice 6
1. La statistique qu'on utilise pour trouver un intervalle de conance pour
la variance σ 2 est la statistique du Khi-Deux. Il y a deux cas : cas où la
moyenne m est connue et cas où la moyenne m est inconnue. Ici la moyenne
m est inconnue.
Soit S 2 la variance empirique de l'échantillon (l'estimateur sans biais de
σ 2 ) : S 2 = n−1
1
Pn 2
i=1 Xi − X̄
(n−1)S 2 Pn  Xi −X̄ 2
σ2
= i=1 σ2
→ χ2 (n − 1)
 
(n−1)S 2
P χ2α ,n−1 ≤ σ2
2
≤ χ1− α ,,n−1 = 1 − α
2 2
où  
χ2α est telle que P χ2 ≤ χ2α ,n−1 = α2
2 2
 
χ1− α est telle que P χ ≤ χ21− α ,n−1 = 1 − α2
2 2
2 2
 
On aura P χ2 α (n−1)S 2 (n−1)S 2
2
≤ σ ≤ χ2α =1−α
1− 2 ,,n−1 2 ,n−1
  
2 (n−1)S 2 (n−1)S 2
P σ ∈ χ2 α , χ2α =1−α
1− 2 ,,n−1 2 ,n−1

7
 
(n−1)S 2 2
IC1−α (σ ) =2
, (n−1)S
χ21− α ,,n−1 χ2α ,n−1
2 2
AN :
Le niveau de conance est 1 − α = 95% ⇐⇒ le niveau du risque est 5%
n= 26   
P χ2 ≤ χ2α ,n−1 = α2 =⇒ P χ2 ≤ χ22.5%,25 = 2.5% =⇒ χ22.5%,25 = 13.12
2
   
P χ ≤ χ1− α ,n−1 = 1− α2 =⇒ P χ2 ≤ χ297.5%,25 = 97.5% =⇒ χ297.5%,25 =
2 2
2
40.642
, 13.12 = [0.0279 , 0.0863]
 1.132 1.132 
IC95% (σ 2 ) = 40.642
2. Pour trouver un intervalle de conance pour m on utilise la statistique de
la loi normale centrée et réduite si σ est connu et la statistique de Student
à n − 1 degrés de liberté si σ est inconnu. Dans ce cas σ est inconnu.
X̄n −m
T = S

→ t(n − 1)
n

P (|T | ≤ t) = 1 − α
 
X̄ −m
P √S ≤ t = 1 − α
n
n
 
P X̄n − t √Sn ≤ m ≤ X̄n + t √Sn = 1 − α
 h i
P m ∈ X̄n − t √Sn , X̄n + t √Sn = 1 − α
h i
IC1−α (m) = X̄n − t √Sn , X̄n + t √Sn
AN :
1 − α = 90% ⇐⇒ α = 10%
X̄n = 62
n = 26
q
1
Pn 2 q 1
S = n−1 i=1 X i − X̄ = 26−1 × 1.132 = 0.2128
P (|T | ≤ t) = 0.9 ⇐⇒ 2P (T ≤ t) − 1 = 0.9 =⇒ t = 1.708 (d'après la table
de la fonctionh de répartition d'une Student à 25 degrés i
de libertés)
IC90% (m) = 62 − 1.708 × 0.2128

26
, 62 + 1.708 × 0.2128

26
= [61. 928 , 62. 071]
D'après l'échantillon des 26 pièces prélevées, on est sûr à 90% (niveau de
conance) que la diamètre moyen des pièces produits se situe dans l'inter-
valle [61. 928 , 62. 071].

Vous aimerez peut-être aussi