Vous êtes sur la page 1sur 12

AC04 P21

Examen médian : 02 Avril 2021 à 10h15


Durée de l’épreuve : 1h30

Consignes générales d’examen

• Matériel autorisé:

– matériel nécessaire à l’écriture (stylos, crayons, règle, gomme…),


– calculatrice (si modèle programmable, la mémoire doit être ex-
empte de toute information relative à l’UV),
– dictionnaire (papier) tel que prévu par la charte des examens,
– feuille de note manuscrite A4 recto,
– polycopié de tables statistiques.

• Tout autre matériel ou document est interdit et son utilisation pendant


l’épreuve fera l’objet de poursuites conformément au règlement des
études.

• Le barême est donné à titre indicatif.

• Si, au cours de l’épreuve, un étudiant repère ce qui lui semble être une
erreur d’énoncé, il le signale sur sa copie et poursuit sa composition en
expliquant les raisons des initiatives qu’il est amené à prendre.

1
Exercice (4 pts)

On s’interroge sur le risque d’infection d’un adulte au virus ”V ” lorsqu’il a


dans son foyer un adolescent lycéen contagieux.
Pour cela on considère un échantillon iid de n = 206 adultes qui ont eu un
adolescent lycéen contagieux dans leur foyer, et parmi lesquels z = 136 ont
été infectés par leur adolescent.
On note Z la variable aléatoire associée à z et p désigne la probabilité
qu’un adulte soit infecté par un adolescent lycéen contagieux de son foyer.

1. (2 pts) Proposer un modèle pour la variable aléatoire Z.


Correction : La v.a. Z est à valeurs entières dans l’ensemble {0, . . . , n};
c’est une variable de comptage sur un ensemble de n variables de
Bernoulli iid (”(Xi )i ”) de probabilité de succès p (la probabilité d’avoir
été infecté par un adolescent contagieux dans le foyer); c’est donc une
variable aléatoire de loi Binomiale B(n, p), i.e., Z = ∑ni=1 Xi ∼ B(n, p),
iid
avec X1 , . . . , Xn ∼ X, avec X ∼ B(p).

2. (2 pts) On ne s’intéresse pas directement à l’estimation du paramètre


p
p mais au rapport r = 1−p qui représente la probabilité qu’un adulte
soit infecté par un adolescent lycéen contagieux de son foyer sur la
probabilité qu’un adulte ne soit pas infecté par un adolescent lycéen
contagieux de son foyer.
Après avoir exprimé p en fonction de r, estimer le paramètre r, donner
son estimation et discuter les propriétés de l’estimateur.
Correction : Dans cette correction, on détaille deux approches possibles
: l’une par la méthode des moments et l’autre par la méthode du
maximum de vraisemblance; les deux conduisent à la même expression
d’estimateur. Remarquons tout d’abord que
p r
r= ⇔ r(1 − p) = p ⇔ p(1 + r) = r ⇔ p = .
1− p 1+r
E(X)
(a) Moments. Comme E(X) = p = 1+r
r
, alors r = 1−E(X) , on en déduit
l’estimateur des moments de r en remplaçant E(X) par X̄ = Zn , ce
qui donne
Z
n
r̂Mo =
1 − Zn

2
En tant qu’estimateur des moments, c’est un estimateur conver-
gent de r; il est aussi asymptotiquement Gaussien. Pour ce qui
p
est de son biais, comme la fonction g : p ∈]0, 1[→ 1−p est une
2
fonction strictement convexe car g(2) (p) = (1−p)3
> 0, on applique
l’inégalité de Jensen,
Z Z p
E(r̂Mo ) = E(g( )) > g(E( )) = g(p) = = r, (1)
n n 1− p
ce qui implique que r̂Mo est un estimateur biaisé pour r.
(b) Maximum de vraisemblance. A ce stade, on peut soit écrire la
vraisemblance en fonction de r et déterminer directement l’estimateur
du maximum de vraisemblance de r, soit exprimer la vraisem-
blance de p, en déduire l’EMV de p puis utiliser la propriété de
l’invariance fonctionnelle pour déterminer l’estimateur du max-
imum de vraisemblance de r. Quelque soit l’approche retenue,
notons que le support de Z ne dépend pas de p et donc ne dépend
pas de r.
i. Vraisemblance de p : p ∈]0, 1[→ L(p, z) = Cnz pz (1 − p)n−z et
log-vraisemblance de p :

p ∈]0, 1[→ ℓ(p, z) = ln(Cnz ) + z ln(p) + (n − z) ln(1 − p);

; la vraisemblance et la log-vraisemblance étant dérivables au-


tant de fois que nécessaire, on cherche pc solution de l’équation
de vraisemblance, soit

z n−z z(1 − pc ) − pc (n − z) z
− =0⇔ = 0 ⇔ pc =
pc 1 − pc pc (1 − pc ) n

De plus ℓ(2) (p, z) = − pz2 − (1−p)


n−z
2 < 0, ∀p ∈]0, 1[; on en déduit

Z
p̂Mv = .
n
p
Comme r = 1−p = g(p), par invariance fonctionnelle, on en
déduit r̂Mv l’estimateur du maximum de vraisemblance :
Z
n
r̂Mv = ,
1 − Zn

qui coïncide avec r̂Mo .

3
ii. Vraisemblance de r : r ∈ R∗+ → L(r, z) = Cnz ( 1+r
r z
) (1 − 1+r
r n−z
) ;
la log-vraisemblance est :
r r
r ∈ R∗+ → ℓ(r, z) = ln(Cnz ) + z ln( ) + (n − z) ln(1 − )
1+r 1+r
= ln(Cnz ) + z ln(r) − z ln(1 + r) − (n − z) ln(1 + r)
= ln(Cnz ) + z ln(r) − n ln(1 + r).

la vraisemblance et la log-vraisemblance étant dérivables au-


tant de fois que nécessaire, on cherche rc solution de l’équation
de vraisemblance, soit
z
z n z(1 + rc ) − rc n z
− =0⇔ = 0 ⇔ rc = = n
rc 1 + rc rc (1 − rc ) n − z 1 − nz
2 2
De plus ℓ(2) (rc , z) = − rz2 + (1+rn )2
= − (n−z)
z + (n−z)
n < 0 car
c c
1
z > 1n ; on en déduit
Z
n
r̂Mv = = r̂Mo .
1 − Zn

Le modèle étant régulier et en tant qu’estimateur du maximum


de vraisemblance, r̂Mv est un estimateur convergent de r; il est
aussi asymptotiquement Gaussien; dans la section méthode des
moments, nous avons montré que r̂Mv est un estimateur sans biais
pour r.
Comme le modèle est régulier (support de la variable indépendant
de r et log-vraisemblance régulière, on va déterminer l’information
de Fisher de modèle à partir de l’expression In (r) = −E(ℓ(2) (r, Z)),
soit ,
Z n Z n
In (r) = −E(− + ) = E( ) −
r2 (1 + r)2 r2 (1 + r)2
nr n
= −
(1 + r)r2 (1 + r)2
nr
= .
(1 + r)2 r2

On approche alors la loi de r̂Mv par

(1 + r)2 r
r̂Mv ∼ N (r, ).
app n

4
Problème (17 pts)

On désigne par X la durée de fonctionnement (en années) d’un téléphone


portable d’une certaine marque. Pour étudier la distribution de X, on con-
iid
sidère un échantillon X1 , . . . , Xn ∼ X pour lequel on dispose de 51 réalisations,
x1 , . . . , xn avec n = 51, qui sont sont listées ci-dessous par ordre croissant:

[1] 0.200 0.442 0.607 0.651 0.664 0.724 0.764 0.880 0.904 0.911 0.914 0.927
[13] 0.991 0.994 1.030 1.046 1.067 1.079 1.176 1.222 1.331 1.342 1.782 1.806 1.812
[26] 1.859 1.861 1.958 1.973 2.060 2.062 2.072 2.084 2.101 2.143 2.254 2.310 2.330
[39] 2.369 2.476 2.512 2.545 2.619 2.701 2.783 2.854 2.895 3.154 3.209 3.537 4.519

On donne ∑51 51 2
i=1 xi = 90.506, ∑i=1 xi = 202.0524 et un résumé graphique
des (xi )1≤i≤51 sous la forme d’un histogramme:

Histogramme des xi
12
10
8
6
4
2
0

0 1 2 3 4 5 6

1. (1 pt) Justifier la modélisation de X par la loi de densité fλ , avec


λ ∈ R∗+ , définie par :

 2 x2
x exp(− ) quand x ≥ 0,
 0λ λ2
fλ (x) = 2
quand x < 0.

5
On donne l’espérance et la variance de X:

π π
E(X) = λ et Var(X) = λ 2 (1 − )
2 4

Correction : X désignant une durée de fonctionnement, c’est une v.a.


continue à valeurs dans R∗+ , ce qui est cohérent avec la loi de densité
fλ , avec laquelle on modélise X.

2. (2 pts) Tracer le boxplot des (xi )1≤i≤51 en précisant les valeurs numériques
qui le définissent. Un choix de modélisation Gaussienne pour X aurait-
elle été pertinente ?
Correction : Le boxplot est défini à partir des premier ( fb0.25 ), deuxième
( fb0.5 ) et troisième ( fb0.75 ) quartiles empiriques, ainsi que l’étendue inter-
quartile IQR = fb0.75 − fb0.25 .
En notant x(1) ≤ x(2) ≤ . . . ≤ x(51) , la suite des valeurs ordonnées des
(xi )1≤i≤51 , on déduit fb0.25 = x(⌈51/4⌉) = x(13) = 0.991, fb0.5 = x(⌈51/2⌉) =
x(26) = 1.859, fb0.75 = x(⌈(3∗51)/4⌉) = x(39) = 2.369 et donc IQR = 1.378;
la notation ⌈x⌉ désigne l’arrondi à l’entier supérieur de la partie entière
de x (puisque ici x n’est pas entier). Pour dessiner le boxplot (boîte
à moustaches), il reste à déterminer la longueur des moustaches; pour
cela, calculons
fb0.25 − 1.5 IQR = 0.991 − 1.5 ∗ 1.378 = −1.076 < x(1) et par conséquent
la moustache inférieure se situe en x(1) et il n’y a pas de valeur aberrante
inférieure;
3.537 = x(50) < fb0.75 + 1.5 IQR = 2.369 + 1.5 ∗ 1.378 = 4.436 < x(51) et
par conséquent la moustache supérieure est fixée à x(50) et x(51) est une
valeur aberrante supérieure. Ci-dessous le tracé du boxplot.

6
Boxplot des (xi)_i

4
3
2
1

3. (1 pt) Déterminer la fonction de répartition de X.


Correction : Notons( FX la fonction de répartition de X. ∀x ∈ R, on a
0 si x < 0
FX (x) = P(X ≤ x) = R x 2 y2 y2 x 2
0 λ 2 y exp(− λ 2 )dy = [− exp(− λ 2 )]0 = 1 − exp(− λ 2 ) si x ≥ 0
x

4. (3 pts) Estimateur de moments de λ : b


λ1

(a) (1 pt) Proposer b


λ1 , un estimateur des moments de λ .

Correction : Comme E(X) = λ 2π , on en déduit que λ = E(X) √2π ,
ce qui conduit par la méthode des moments à l’estimateur des
moments de λ
b 2
λ1 = X̄ √ ,
π
avec X̄ = 1n ∑ni=1 Xi .
(b) (2 pts) Etudier les propriétés de l’estimateur b λ1 : est-il sans biais
pour λ ? Est-il convergent ?
Correction : Par linéarité de l’espérance et l’hypothèse d’identique

distribution des (Xi )i , E(b
λ1 ) = E(X̄ √2π ) = √2π E(X) = √2π 2π λ = λ ;
b
λ1 est donc un estimateur sans biais pour λ .
En tant qu’estimateur des moments, b λ1 est convergent pour le

7
paramètre λ ; il est possible de montrer directement qu’il est con-
vergent car il est sans biais et sa variance tend vers 0 quand n tend
vers +∞ (conditions suffisantes qui garantissent la convergence en
probabilité vers son espérance); en effet, sous l’hypothèse iid des
4 4
(Xi )i , Var(b
λ1 ) = π Var(X) = λ 2 π (1 − π ) −→ 0.
n→+∞
n n 4

5. (7 pts) Estimateur du maximum de vraisemblance de λ : b


λ2

(a) (3 pts) Déterminer bλ2 l’estimateur du maximum de vraisemblance


de λ .
Correction : Le support de X est R+ qui ne dépend pas de λ .
La vraisemblance et la log-vraisemblance du modèle associées à λ
sont définies respectivement par :

n
2n xi2
λ > 0 → L(λ ; x1 , . . . , xn ) =
λ 2n ∏(xi) exp(− ∑ )
i=1 λ
2
i
n n
xi2
λ > 0 → ℓ(λ ; x1 , . . . , xn ) = n ln(2) − 2n ln(λ ) + ∑ xi − ∑
i=1 λ
2
i=1

La vraisemblance et la log-vraisemblance sont toutes deux dériv-


ables sur R∗+ autant de fois que nécessaire; on cherche donc λc
solution de l’équation de vraisemblance:

n
2n x2
ℓ′ (λc ; x1 , . . . , xn ) = 0 ⇔ − + 2 ∑ i3 = 0
λc i=1 λc
n
xi2
⇔ λc2 = ∑
i=1 n
s
n xi2
⇔ λc = ∑
i=1 n

Vérifions que λc est bien un maximum de la log-vraisemblance:

2n n
xi2 2n λc2
ℓ (λc ; x1 , . . . , xn ) = 2 − 6 ∑ 4 = 2 − 6n 4 < 0;
(2)
λc i=1 λc λc λc

8
On en déduit l’estimateur du maximum de vraisemblance de λ :
s
n X2
b
λ2 = ∑ i
i=1 n

(b) (2 pts) Etudier les propriétés de l’estimateur b λ2 : est-il sans biais


pour λ ? Est-il convergent ?
Correction : En tant qu’estimateur du maximum de vraisem-
blance, b
λ2 est convergent et asymptotiquement Gaussien; déter-
minons la loi approchée de b λ2 à partir du calcul de l’information
de Fisher du modèle, qui s’obtient à partir de l’expression In (λ ) =
−E(ℓ(2) (λ ; X1 , . . . , Xn )) car le support de X ne dépend pas de λ et
le modèle est suffisamment régulier;

2n n
Xi2 2n 6n 2n 6nλ 2 4n
In (λ ) = −E( 2 −6 ∑ 4 = − 2 + 4 E(X ) = − 2 + 4 = 2 ,
2
λ i=1 λ λ λ λ λ λ

car Var(X) = E(X 2 ) − (E(X))2 = λ 2 − λ 2 π4 , d’où E(X 2 ) = λ 2 . On


en déduit donc

b λ 2
λ2 ∼ N (λ , )
app 4n

Il reste à étudier le biais de bλ2 : on note g : x > 0 → x la fonction
strictement concave ; en effet sa dérivée seconde est négative pour
x > 0 (g(2) (x) = − 41 x−3/4 ); nous appliquons ensuite l’inégalité de
Jensen,

Xn 2 X n 2 √
E(b
λ2 ) = E(g( ∑ i )) < g(E( ∑ i )) = λ2 = λ
i=1 n i=1 n

; l’estimateur du maximum de vraisemblance b λ2 est donc un esti-


mateur biaisé de λ .
(c) (1 pt) Donner une approximation de la loi de b
λ2 . En déduire une
b
approximation de P(λ2 > 2) pour λ = 2.1.
Correction : En utilisant (??), et avec n = 51 et λ = 2, on obtient

9
b
λ2 − 2.1 2 − 2.1
P(b
λ2 > 2) = P( 2
> 2
)
√ √
4n 4n
2 − 2.1
≈ 1−ϕ( ) = 1 − ϕ (−0.680136) = ϕ (0.68013) ≈ 0.7517.
√2
4n

(d) (1 pt) Déterminer la fonction de répartition de la variable aléatoire


Y = X 2 en fonction de celle de X, puis montrer que l’on retrouve
l’estimateur b
iid
λ2 à partir de Y1 = X12 , . . . ,Yn = Xn2 ∼ Y et d’une
méthode d’estimation que l’on précisera.
Correction : Notons FY la fonction de répartition de Y . Comme
Y = X 2 , on a immédiatement que FY (y) = 0 pour x < 0. Il reste à
déterminer FY pour y ≥ 0, on a

FY (y) = P(Y ≤ y) = P(X 2 ≤ y) = P(X ≤ y)
√ y
= FX ( y) = 1 − exp(− 2 );
λ
On reconnait la fonction de répartition d’une loip exponentielle de
E ( λ12 et donc Y ∼ E ( λ12 avec E(Y ) = λ 2 ⇔ λ = E(Y ) et par la
méthode des moments, on retombe sur b λ2 , l’estimateur du maxi-
mum de vraisemblance de λ .

6. (2 pts) Comparaison de la performance de b


λ1 et b
λ2 .

(a) (1 pt) Sur ce graphique, figurent les estimations fournies par b


λ1 et
b
λ2 calculées sur des données simulées avec λ = 2 et pour différentes
valeurs de n. Quelle(s) conclusion(s) peut-on en déduire ?

10
Moment

2.1
EMV

Estimations

2.0
1.9
1.8

0 2000 4000 6000 8000 10000

Correction : Le graphique indique que l’estimateur des moments


est bien un estimateurs sans biais pour le paramètre λ tandis que
l’estimateur du maximum de vraisemblance est sans biais pour λ
et que son biais est négatif (comme cela a été montré à la question
5 (b)).
(b) (1 pt) Proposer un critère qui permet de comparer la précision des
deux estimateurs de λ . Est-on en mesure de conclure que l’un des
deux estimateurs b λ1 ou bien b
λ2 de λ , est plus précis que l’autre ?
Correction : Comparer la précision de deux estimateurs, consiste
à étudier le signe de la différence de leur risque quadratique pour
tout λ > 0; si pour tout λ > 0, le signe est constant (positif ou
négatif), alors l’estimateur qui a la plus petit risque quadratique
est l’estimateur le plus précis pour λ .
Le risque quadratique d’un estimateur b λ est défini par

R(b
λ , λ ) = E[(b
λ − λ )2 ] = Var(b
λ ) + (bbλ (n, λ ))2 ,

avec bbλ (n, λ ) = E(b


λ ) − λ le bais de b
λ.
Le risque quadratique de b λ1 se réduit à sa variance puisque b
λ1 est
b
sans biais pour λ tandis que celui de λ2 est égal à la somme de
sa variance et de son biais au carré ; il suffit alors d’étudier, pour
tout λ , le signe de

λ1 ) − R(b
Var(b λ2 , λ ),

11
ce qui n’est pas possible ici car nous n’avons pas les outils néces-
saires pour évaluer analytiquement le biais de bλ2 .

7. (1 pt) Simulation. Proposer, sous R, une méthode de simulation de n


variables aléatoires iid de variable aléatoire parente X de densité fλ ,
avec λ = 2.
Correction : Comme Y = X 2 suit la loi E (1/λ 2 ), il suffit de simuler n
v.a. iid de loi E (1/λ 2 ) avec λ = 2, puis de prendre leur racine carrée,
ce qui donnera n réalisations de v.a. de loi dont la densité est fλ , avec
λ = 2. Sous R cela donne
y<- rexp(n,1/4)
x<-sqrt(y)

12

Vous aimerez peut-être aussi