Devoir 2019

Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
Dans ce sujet, par convention : un vecteur est un vecteur colonne. On notera xT la transposée du
vecteur ou de la matrice x.
Exercice 1. Soient n1 , n2 deux entiers strictement supérieurs à 1. Nous posons n := n1 +n2 et considérons
les vecteurs
   
1 0
 ..  k  ..  k 1n1 ×1 n 0n1 ×1
1k×1 :=  .  ∈ R , 0k×1 :=  .  ∈ R , e1 := ∈ R , e2 := ∈ Rn .
0n2 ×1 1n2 ×1
1 0
Soient (x1,i ,Y1,i ), i = 1, . . . , n1 et (x2,i ,Y2,i ), i = 1, . . . , n2 deux ensembles de points de régression où
{x j,i , 1 ≤ i ≤ n j , j = 1, 2} sont des scalaires. Nous posons pour j = 1, 2
   
Y j,1 x j,1
 ..  nj  ..  nj Y1 n x1
Y j :=  .  ∈ R , x j :=  .  ∈ R , Y := ∈ R , x := ∈ Rn .
Y2 x2
Y j,n j x j,n j
Nous supposons que les points {x j,i , 1 ≤ i ≤ n j , j = 1, 2} sont déterministes et que les vecteurs e1 , e2
et x sont linéairement indépendants. Définissons :
n n
1 j eTj x 1 j eTj Y
x̄ j := ∑ x j,i = , Ȳ j := ∑ Y j,i = ,
n j i=1 ke j k2 n j i=1 ke j k2
— la matrice Z := [e1 , e2 , x] ∈ Rn×3 , et la matrice H projecteur orthogonal sur Vect(e1 , e2 , x) l’es-

pace vectoriel engendré par les vecteurs (e1 , e2 , x).
— le vecteur e3 := x − x̄1 e1 − x̄2 e2 .
— Pour j = 1, 2
2 nj
SDX := ∑ ∑ (x j,i − x̄ j )2 = kx − x̄1 e1 − x̄2 e2 k2 = ke3 k2 ,
j=1 i=1
2 nj
SPD := ∑ ∑ (x j,i − x̄ j )(Y j,i − Ȳ j ) = (x − x̄1 e1 − x̄2 e2 )T (Y − Ȳ1 e1 − Ȳ2 e2 ) ,
j=1 i=1
2 nj
SDY := ∑ ∑ (Y j,i − Ȳ j )2 = kY − Ȳ1 e1 − Ȳ2 e2 k2 .
j=1 i=1
Soit Θ := R3 × R∗+ ; on écrira θ = (β , σ 2 ) = (β0,1 , β0,2 , β1 , σ 2 ) un élément de Θ. Nous supposons que

sous Pθ , pour θ = (β0,1 , β0,2 , β1 , σ 2 ) ∈ Θ,
(a) pour j = 1, 2, le vecteur Y j est distribué suivant une loi gaussienne d’espérance β0, j 1n j ×1 + β1 x j
et de matrice de covariance σ 2 In j ×n j ; Ik×k désignant la matrice identité de taille k × k.
(b) les vecteurs Y1 et Y2 sont indépendants.
Nous appelons estimateur des moindres carrés l’estimateur β̂ qui minimise le critère
u 7→ J(u) := kY − Zuk2 .
1. Montrer que β̂ est unique et vérifie : H Y = Zβ̂ .
Page 1
2. Montrer que
SPD
H Y = Ȳ1 e1 + Ȳ2 e2 + e3 .
SDX
3. En déduire que l’estimateur des moindres carrés β̂ = (β̂0,1 , β̂0,2 , β̂1 ) de β est donné par :
SPD
β̂1 = et β̂0, j = Ȳ j − β̂1 x̄ j
SDX
4. Pour θ ∈ Θ, déterminer la distribution de β̂1 sous Pθ .

5. Montrer que
1
σ̂ 2 := (SDY −β̂1 SPD)
n−3
est un estimateur sans biais de σ 2 .
6. Déterminer la distribution de σ̂ 2 sous Pθ , pour θ ∈ Θ.
7. Soit α ∈ ]0, 1[, déterminer un intervalle de confiance de probabilité de couverture 1 − α pour
β1 .
8. Déterminer un test de l’hypothèse H0 : β1 ≤ 0, contre H1 : β1 > 0 de niveau α.
Exercice 2. Soit (X1 , . . . , Xn ) un n-échantillon du modèle statistique
(]0, 1[ , B(]0, 1[), {pθ dλLeb , θ ∈ Θ := R∗+ })
où pour tout θ ∈ Θ, pθ est la densité par rapport à la mesure de Lebesgue dλLeb sur ]0, 1[ d’une loi
Beta(θ , 1) :
pθ (x) := θ xθ −1 1[0,1] (x) .
Nous admettons que ce modèle statistique est régulier et nous supposons que n ≥ 3.
1. Déterminer l’estimateur du maximum de vraisemblance θ̂nMV de θ .
2. Montrer que sous Pθ , θ ∈ Θ, − log X1 est distribué selon une loi Gamma dont on déterminera
les paramètres ; en déduire la loi de − ∑ni=1 log(Xi ).
3. Montrer que θ̃n := (1 − 1/n)θ̂nMV est un estimateur sans biais de θ .
4. L’estimateur θ̃n est-il un estimateur efficace de θ ?
5. Montrer que la fonction nθ /θ̂nMV est pivotale.
Soient α ∈ ]0, 1[ et 0 ≤ an,α < bn,α tels que
Z bn,α Z +∞
1 n−1
y exp(−y)dy = 1 − α, où Γ(n) := t n−1 exp(−t) dt.
Γ(n) an,α 0
6. Déterminer en fonction de an,α et bn,α un intervalle de confiance de θ de probabilité de couver-

ture 1 − α.
7. Montrer que la suite d’estimateurs log(θ̂nMV ) est consistante et asymptotiquement normale.
8. En déduire la construction d’un intervalle de confiance asymptotique de couverture 1 − α pour
θ.
Page 2
9. Discuter les deux constructions d’un intervalle de confiance pour θ , constructions établies à la
question 6 et à la question 8.
Exercice 3. Soit un modèle statistique (X, X , {Qθ := pθ · µ, θ ∈ Θ}) où µ est une mesure σ -finie
sur X , Θ est un intervalle ouvert de R et la densité x 7→ pθ (x) = p(x, θ ) vérifie
Ha pour tout x ∈ X, θ 7→ pθ (x) est trois fois continûment différentiable sur Θ ; et pour tout x ∈ X et
θ ∈ Θ, pθ (x) > 0.
h 2 i
Hb pour tout θ ∈ Θ, Eθ ∂∂θ 2 log p(X, θ ) < ∞ et l’information de Fisher

" 2 # 2
∂ ∂
i(θ ) := Eθ log p(X, θ ) = −Eθ log p(X, θ )
∂θ ∂θ2
est strictement positive.

Hc il existe une fonction mesurable M : X → R+ telle que supθ ∈Θ Eθ [M(X)] < ∞ et pour tout x ∈ X,
3
∂
sup 3 log p(x, θ ) ≤ M(x) .
θ ∈Θ ∂ θ
Soit une suite de n-échantillons de ce modèle statistique. Pour tout n ∈ N∗ , la log-vraisemblance de

l’observation (X1 , . . . , Xn ) est donnée par :
n
θ 7→ `n (θ ; X1 , . . . , Xn ) := ∑ log p(Xi , θ ) .
i=1
Soit θ0 ∈ Θ et {θ̂n , n ∈ N} une suite consistante d’estimateurs de θ .

1. Montrer que l’on peut choisir 0 < B < ∞ de telle sorte que
1 ∂3

lim Pn,θ0 sup ` (θ ; X1 , . . . , Xn ) ≤ B = 1.
3 n

n→∞ θ ∈Θ n ∂ θ
2. Montrer que
1 ∂2 Pn,θ0 −prob
`n (θ̂n ; X1 , . . . , Xn ) −→ −i(θ0 ) ,
n ∂θ2
3. En déduire que
∂2

lim Pn,θ0 `n (θ̂n ; X1 , . . . , Xn ) < 0 = 1 .
n→∞ ∂θ2
On dit que {θ̂n , n ∈ N} est une suite suite consistante de racines de la vraisemblance si la suite
{θ̂n , n ∈ N} est consistante et pour tout n ∈ N et tout θ ∈ Θ, Pn,θ -presque sûrement,
∂
`n (θ̂n ; X1 , . . . , Xn ) = 0 .
∂θ
(1) (2)
Supposons qu’il existe deux suites {θ̂n , n ∈ N} et {θ̂n , n ∈ N} consistantes de racines de la vrai-
semblance. Posons
n o
(1) (2)
Sn := (x1 , . . . , xn ) ∈ X : θ̂n (x1 , . . . , xn ) 6= θ̂n (x1 , . . . , xn ) .
Page 3
4. Montrer que sur l’événement {(X1 , . . . , Xn ) ∈ Sn }, il existe θ̂n∗ appartenant au segment d’extrémités
(1) (2)
θ̂n et θ̂n , tel que
∂2
`n (θ̂n∗ ; X1 , . . . , Xn ) = 0. (1)
∂θ2
Dans la suite, nous admettrons qu’il est possible de choisir θ̂n∗ de telle sorte que θ̂n∗ soit une
fonction mesurable des observations (X1 , · · · , Xn ).
(1)
Soit {θ̂n∗ , n ∈ N} une suite d’estimateurs vérifiant θ̂n∗ = θ̂n si (X1 , . . . , Xn ) 6∈ Sn , et vérifiant la relation
(1) si (X1 , . . . , Xn ) ∈ Sn .
5. Montrer que la suite {θ̂n∗ , n ∈ N} est consistante.
6. Montrer que limn→∞ Pn,θ0 [(X1 , . . . , Xn ) ∈ Sn ] = 0.
7. Conclure.
Exercice 4. Rappel : inégalité de Bernstein. Soient Z1 , . . . , Zn des variables aléatoires réelles centrées
indépendantes. Supposons qu’il existe des constantes σ , c > 0 vérifiant pour tout entier k > 2 et
i ∈ {1, . . . , n},
σ2
E[|Zi |k ] 6 k! ck−2 . (2)
2
Alors pour tout x > 0, n √
P ∑ Zi > 2nσ x + cx 6 e−x .
2
i=1
Notons que si Z1 , . . . , Zn sont de même loi et presque sûrement à valeurs dans [−b, b], alors l’inégalité
(2) est satisfaite avec c = b et σ 2 = Var(Z1 ).
Soit un ensemble d’apprentissage Dn := {(X1 ,Y1 ), . . . , (Xn ,Yn )} de variables aléatoires indépendantes
et de même loi sur X × {0, 1}.
Considérons un ensemble C := {g1 , . . . , gM } de classifieurs, c’est à dire de fonctions gi : X →
{0, 1}. Nous considérons un classifieur minimisant le risque empirique sur la classe C :
1 n
gbn ∈ arg min
g∈C
∑ 1{g(Xi )6=Yi } .
n i=1
On note g∗ le classifieur bayésien et E (g) l’excès de risque pour un classifieur g :
E (g) := P(g(X) 6= Y ) − P(g∗ (X) 6= Y ).
Soit g∗C un classifieur minimisant le risque dans la classe C ,
g∗C ∈ arg min P g(X) 6= Y .

g∈C
1. Montrer que
gn ) 6 E (g∗C ) + Z(b
E (b gn ) ,
où, pour tout g ∈ C ,
1 n
Z(g) := ∑ (1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi } ) − (E (g∗C ) − E (g)) .
n i=1
Page 4
2. Pour δ ∈ ]0, 1[, posons xδ := − log(δ /M) où M est le nombre de classifieurs dans la classe C ;
et  s 
\ 2 Var(1{g∗C (X)6=Y } − 1{g(X)6=Y } ) xδ xδ 
Ωδ := Z(g) 6 + .
g∈C
 n n
Montrer que P(Ωδ ) > 1 − δ .

Introduisons l’hypothèse de Bernstein : il existe C > 0 et α ∈ [0, 1] tels que pour tout g ∈ C ,
Var(1{g(X)6=Y } − 1{g∗C (X)6=Y } ) 6 C E (g)α . (3)
3. Montrer que, sous l’hypothèse de Bernstein (3), il existe une constante c dépendant de C, α
mais pas de M, n et δ telle que, sur Ωδ ,
1/(2−α)
∗ xδ xδ
E (b
gn ) 6 c max E (gC ), , .
n n
Dans la suite de l’exercice, on suppose que g∗ ∈ C .

4. Montrer que Var(1{g(Xi )6=Yi } − 1{g∗ (Xi )6=Yi } ) 6 P(g(X) 6= g∗ (X)).
5. Montrer que l’hypothèse de Bernstein est vérifiée si Y = η ∗ (X) où η∗ (x) est la fonction de
régression.
6. Montrer que l’hypothèse de Bernstein est vérifiée s’il existe γ ∈ (0, 1/2] tel que |η∗ (X) − 1/2| >
γ presque sûrement.
Page 5
Solution de l’exercice 1. 1. On remarque tout d’abord que {Zu, u ∈ R3 } = Vect(e1 , e2 , x). De

plus Vect(e1 , e2 , x) étant un sous espace non vide de l’espace euclidien Rn , la projection ortho-
gonale H Y est l’unique élément de Vect(e1 , e2 , x) qui vérifie
kY − H Yk2 = inf kY − zk2

z∈Vect(e1 ,e2 ,x)
= inf kY − Zuk2 = inf J(u)

u∈R3 u∈R3
Comme les vecteurs (e1 , e2 , x) sont linéairement indépendants, il existe un unique β̂ ∈ R3 tel
que H Y = Zβ̂ .
2. Par construction e3 est orthogonal à e1 , e2 puisque x̄1 e1 + x̄2 e2 est le projeté orthogonal de x sur
Vect(e1 , e2 ). H Y est le projeté orthogonal de Y sur Vect(e1 , e2 , e3 ) et on a donc par l’orthogo-
nalité de ces vecteurs
1 T
HY = α1 e1 + αe2 + αe3 , αi := e Y.
kei k2 i
Nous avons ke1 k2 = n1 , ke2 k2 = n2 et ke3 k2 = kx − x̄1 e1 − x̄2 e2 k2 = SDX. De plus

n1 n2
eT1 Y = ∑ Yi,1 = n1Ȳ1 eT2 Y = ∑ Yi,2 = n2Ȳ2 .
i=1 i=1
Enfin,
eT3 Y = (x − x̄1 e1 − x̄2 e2 )T Y = (x − x̄1 e1 − x̄2 e2 )T (Y − Ȳ1 e1 − Ȳ2 e2 ) = SPD,
où dans la dernière relation on a de nouveau utilisé le fait que e3 est orthogonal à e1 , e2 .
Par suite, nous avons établi
n1Ȳ1 n2Ȳ2 SPD

HY = e1 + e2 + e3 .
n1 n2 SDX
3. D’une part
SPD
H Y = Ȳ1 e1 + Ȳ2 e2 + e3
SDX
et d’autre part
Zβ̂ = β̂ 0,1 e1 + β̂ 0,2 e2 + β̂ 1 x.
En utilisant le fait que x = e3 + x̄1 e1 + x̄2 e2 , nous obtenons
SPD
Ȳ1 e1 + Ȳ2 e2 + e3 = β̂ 0,1 e1 + β̂ 0,2 e2 + β̂ 1 (e3 + x̄1 e1 + x̄2 e2 )
SDX
et par identification (les vecteurs ei sont orthogonaux)
SPD
Ȳ1 = β̂ 0,1 + β̂ 1 x̄1 , Ȳ2 = β̂ 0,2 + β̂ 1 x̄2 , = β̂ 1 .
SDX
Ce qui conclut la démonstration.
Page 6
4. De la définition de SPD, nous déduisons que

T T 1 T 1 T
SPD = (x − x̄1 e1 − x̄2 e2 ) (Y − Ȳ1 e1 − Ȳ2 e2 ) = (x − x̄1 e1 − x̄2 e2 ) In×n − e1 e1 − e2 e2 Y
n1 n2

1 1
= eT3 In×n − e1 eT1 − e2 eT2 Y
n1 n2
= eT3 Y, (4)
en utilisant l’orthogonalité des vecteurs ei . Cela montre que SPD est une combinaison linéaire
des composantes du vecteur Y. Or sous Pθ ,
Y ∼ Nn (β0,1 e1 + β0,2 e2 + β1 x; σ 2 In×n ).
Par suite, SPD est une loi gaussienne sur R d’espérance
eT3 (β0,1 e1 + β0,2 e2 + β1 x) = β1 eT3 x = β1 eT3 e3 = β1 ke3 k2 = β1 SDX .
Dans les calculs qui précèdent nous avons encore utilisé que x = e3 + x̄1 e1 + x̄2 e2 et l’ortho-
gonalité des vecteurs ei . Ainsi, β̂ 1 est d’espérance β1 sous Pθ . La variance de eT3 Y est donnée
par
σ 2 eT3 e3 = σ 2 ke3 k2 = σ 2 SDX .
En conclusion, sous Pθ
σ2

β̂ 1 ∼ N β1 , .
SDX
5. Nous avons en utilisant (4), l’orthogonalité des vecteurs ei et la relation Im(H) = Vect(e1 ne2 , e3 ),
(SPD)2 1 2
SDY −β̂ 1 SPD = SDY − = kY − Ȳ1 e1 − Ȳ2 e2 k2 − 2
eT3 Y
SDX ke3 k
= kY − H Yk2 .
Ainsi
1
σ̂ 2 = k(In×n − H)Yk2 .
n−3
En terme d’espérance sous Pθ ,
1
Eθ σ̂ 2 = Trace(In×n − H)Eθ YYT (In×n − H)T

n−3
1
Trace(In×n − H) σ 2 In×n + {β1,0 e1 + β2,0 e2 + β1 x}{β1,0 e1 + β2,0 e2 + β1 x}T (In×n − H)

=
n−3
σ2
= Trace(In×n − H) = σ 2 .
n−3
Dans la dernière ligne, nous avons utilisé le fait que I − H est orthogonal à e1 , e2 , x, que c’est un
projecteur sur l’orthogonal d’un espace de dimension 3 et donc que sa trace est n − 3.
6. Puisque In×n − H projette sur l’orthogonal de H et que sous Pθ , l’espérance de Y est dans H ;
alors (In×n − H)Y est une gaussienne centrée. Sa matrice de covariance est σ 2 (In×n − H). Nous
avons donc
n−3
σ̂ 2
(n − 3) 2 = k(In×n − H)Yk2 = ∑ Zk2
σ k=1
Page 7
où sous Pθ , les v.a. Z1 , · · · , Zn−3 sont i.i.d. N(0, 1). Ainsi, sous Pθ ,
σ̂ 2
(n − 3) ∼ χ 2 (n − 3).
σ2
7. Sous Pθ , les variables aléatoires eT3 Y et (I − H)Y sont décorrélées. Comme elles sont conjointe-
ment gaussiennes, les estimateurs β̂ 1 = eT3 Y/ke3 k2 , et σ̂ 2 = (n−3)−1 k(I−H)Yk2 sont indépendants
(on peut aussi directement invoquer l’application du théorème de Cochran). De plus
√ β̂1 − β 1 √ β̂1 − β 1 σ W
SDX = SDX =p
σ̂ σ σ̂ V /(n − 3)
où sous Pθ , W,V sont indépendants ; W ∼ N(0, 1) ; V ∼ χ 2 (n − 3). On en déduit que sous Pθ
√ β̂1 − β 1
SDX ∼ tn−3 .
σ̂
On en déduit un IC de confiance de niveau 1 − α donné par

q1−α/2 σ̂ q1−α/2 σ̂
β̂1 − √ ; β̂1 + √ .
SDX SDX
où q1−α/2 désigne le quantile d’ordre 1 − α/2 d’une loi tn−3 .
8. On cherche un test de zone de rejet de la forme R := {β̂1 > c} ou, de façon équivalente,
( )
β̂1 − β1 √ c − β1 √
R= SDX > SDX .
σ̂ σ̂
Le seuil c est déterminé de façon à garantir le niveau du test :
sup Pθ (R) ≤ α.
β1 ≤0
√
En utilisant le fait que sous Pθ , β̂1 −β
σ̂
1
SDX suit une loi de Student de paramètre (n − 3) et ce
quel que soit θ ∈ Θ (il s’agit d’une fonction pivotale), nous avons
c − β1 √ c√

sup Pθ (R) = sup P W > SDX = P W > SDX
β1 ≤0 β1 ≤0 σ̂ σ̂
√
où W suit une loi de Student de paramètre (n − 3) ; il suffit donc de prendre c SDX/σ̂ égal au
quantile d’ordre 1 − α de cette loi (noté q1−α ). En conclusion, un test est donné par la zone de
rejet
σ̂
β̂1 > q1−α √ .
SDX
Solution de l’exercice 2. 1. On calcule la log vraisemblance :
n
`n (θ , (Xi )i=1...,n ) = n log(θ ) + (θ − 1) ∑ log(Xi ).
i=1
n
La dérivée de la fonction s’annule au point : θ = ∑ni=1 − log(Xi )
.
C’est un maximum : on remarque que
Page 8
• limθ →∞ `n (θ , (Xi )i=1...,n ) = limθ →0 `n (θ , (Xi )i=1...,n ) = −∞,

• OU la fonction est concave,
donc la fonction atteint un maximum unique et
n
θ̂nMV = . (5)
∑ni=1 − log(Xi )
2. Si X ∼ β (θ , 1), alors − log(X) ∼ exp(θ ) = Γ(1, θ −1 ). En effet pour toute fonction g mesurable :
Z 1
Eθ [g(− log(X))] = g(− log(x))θ xθ −1 dx
Z0 ∞
= g(u)θ exp(−uθ )du.
0
(on a fait le changement de variable u = − log(x)) et on reconnait la densité d’une loi exponen-
tielle de paramètre θ (i.e., d’espérance θ −1 ).
Donc, par la propriété d’additivité des lois Γ, on obtient : ∑ni=1 − log(Xi ) ∼ Γ(n, θ −1 ) (ou Γ(n, θ )
selon la paramétrisation de la loi Γ).
3. On définit Sn = ∑ni=1 − log(Xi ) et calcule

n
En,θ (θ̂nMV ) = En,θ
Sn
n xn−1 θ n exp(−θ x)
Z ∞
= dx
0 x Γ(n)
Z ∞ n−2 n−1
nθ x θ exp(−θ x)
= dx avec Γ(n) = (n − 1)Γ(n − 1)
n−1 0 Γ(n − 1)
nθ
= .
n−1
n−1 MV
Donc θ̃n = (1 − 1/n)θ̂nMV = n θ̂n est un estimateur sans biais.
4. On calcule la variance de l’estimateur :
(n − 1)2
En,θ (θ̃n )2 = En,θ (θ̂nMV )2

n2
(n − 1)2 ∞ n2 xn−1 θ n exp(−θ x)

Z
= dx
n2 0 x
2 Γ(n)
(n − 1)2
Z ∞ n−3 n−2
2 x θ exp(−θ x)
= θ dx avec Γ(n) = (n − 1)(n − 2)Γ(n − 2)
(n − 1)(n − 2) 0 Γ(n − 2)
n−1 2
= θ .
n−2
1
Donc varn,θ (θ̃n ) = ( n−1 2
n−2 − 1)θ = n−2 θ .
2
De plus, on calcule l’information de Fisher pour une observation :

— Méthode 1 : avec l’inverse de la Hessienne :
2
∂
I1 (θ ) = −Eθ `n (θ , X)
∂θ2

1 1
= −Eθ − 2 = 2 .
θ θ
Page 9
— Méthode 2 : avec le carré du score.

" 2 # " 2 #
∂ 1
I1 (θ ) = Eθ `n (θ , X) = Eθ + log(X)
∂θ θ
h i
= Eθ (− log(X) − Eθ [− log(X)])2
1
= varθ ((− log(X))) = .
θ2
En utilisant le fait que sous Pθ , − log(X) ∼ exp(θ ).
1 θ2
On remarque que var(θ̃n ) > In (θ ) = n , l’estimateur n’est donc pas efficace.
5. On remarque que sous Pθ ,n , nθ /θ̂nMV = θ Sn ∼ Γ(n, 1) ne dépend pas de θ . En effet,
— si X ∼ Γ(k, ω), alors pour tout λ > 0, λ X ∼ Γ(k, λ ω).
— et Sn ∼ Γ(n, θ −1 ).
La fonction nθ /θ̂nMV est donc pivotale.
6. Par définition de an,α , bn,α , on a :
Pn,θ nθ /θ̂nMV ∈ [an,α , bn,α ] = 1 − α

" #!
θ̂nMV an,α θ̂nMV bn,α
d’où Pn,θ θ ∈ , = 1 − α.
n n
θ̂nMV an,α θ̂nMV bn,α

h i
L’intervalle n , n est donc intervalle de confiance de θ de probabilité de couverture
1 − α.
7. On admet que le modèle est régulier. Par le théorème II.3-8 (Slides Amphi 7), on a que l’esti-
mateur du maximum de vraisemblance est asymptotiquement efficace :
√

Pn,θ 1
n(θ̂n − θ ) ⇒ N 0,
MV
I1 (θ )
√ P
i.e., n(θ̂nMV − θ ) ⇒ N 0, θ 2 .
n,θ
Par la méthode ∆, avec la fonction θ 7→ log(θ ), on a
√ θ2

Pn,θ
n log(θ̂nMV ) − log(θ ) ⇒ N 0, 2 = N (0, 1) .
θ
En particulier, la suite d’estimateurs log(θ̂nMV ) est consistante et asymptotiquement normale.

8. On a donc, en notant qα/2 (resp. q1−α/2 ) les quantiles d’ordre α/2 (resp. 1 − α/2) d’une gaus-
sienne centrée de variance 1 :
√
n log(θ̂nMV ) − log(θ ) ∈ qα/2 ; q1−α/2 = 1 − α

lim Pn,θ
n→∞
h √ √ i
i.e., lim Pn,θ θ ∈ θ̂nMV eqα/2 / n ; θ̂nMV eq1−α/2 / n = 1 − α.
n→∞
h √ √ i
L’intervalle θ̂nMV eqα/2 / n ; θ̂nMV eq1−α/2 / n est donc intervalle de confiance asymptotique de θ
de probabilité de couverture 1 − α.
Page 10
9. On peut faire les remarques suivantes :

— Le premier intervalle est exact, il est valide pour tout n, le second est seulement asympto-
tique.
— Le second intervalle est plus facile à calculer : quand n varie, on n’a pas à recalculer les
quantiles de la loi Γ.
— Les deux intervalles s’écrivent sous la forme [αn θ̂nMV ; βn θ̂nMV ].
Solution de l’exercice 3. 1. Il vient de l’hypothèse Hc que, pour tout i ∈ {1, . . . , n},
3
∂
sup 3 log p(Xi , θ ) ≤ M(Xi ) .

θ ∈Θ ∂ θ
On en déduit que, pour tout B > 0,

" #
1 ∂3 n

1
Pn,θ0 sup ` (θ ; X1 , . . . , Xn ) > B 6 Pn,θ0
3 n ∑ M(Xi ) > B .
θ ∈Θ n ∂ θ n i=1
Pn,θ −prob
D’après la loi faible des grands nombres, 1n ∑ni=1 M(Xi ) −→ 0
Eθ0 [M(X)]. Si B = Eθ0 [M(X)]+
ε, avec ε > 0, on en déduit donc
" #

1 ∂3

1 n
Pn,θ0 sup ` (θ ; X1 , . . . , Xn ) > B 6 Pn,θ0 ∑ M(Xi ) − Eθ0 [M(X)] > ε → 0 .

3 n
θ ∈Θ n ∂ θ n i=1
2. Soit ε > 0, on veut montrer que

1 ∂2

Pn,θ0 `n (θ̂n ; X1 , . . . , Xn ) + i(θ0 ) > ε → 0 .

n ∂θ2
On a
1 ∂2 1 ∂2 2

1 ∂
n ∂ θ 2 `n (θ̂n ; X1 , . . . , Xn ) + i(θ0 ) 6 n ∂ θ 2 `n (θ̂n ; X1 , . . . , Xn ) − n ∂ θ 2 `n (θ0 ; X1 , . . . , Xn )

1 ∂2

+
2
`n (θ0 ; X1 , . . . , Xn ) + i(θ0 ) .
n ∂θ
De plus, sur l’événement
1 ∂3

Ω = sup ` (θ ; X1 , . . . , Xn ) 6 B ,
3 n
θ ∈Θ n ∂ θ
on a
1 ∂2 1 ∂2

n ∂θ2 `n (θ̂ n ; X1 , . . . , Xn ) − `n (θ 0 ; X1 , . . . , Xn ) 6 B|θ̂n − θ0 | .
n ∂θ2
On a donc
1 ∂2

c
h ε i
Pn,θ0
`n (θ̂n ; X1 , . . . , Xn ) + i(θ 0 ) > ε 6P n,θ [Ω ] + P n,θ |θ̂n − θ 0 | >
n ∂θ2 0 0
2B
1 ∂2

ε
+ Pn,θ0 ` (θ
n 0 1 ; X , . . . , X n ) + i(θ )
0
> .
n ∂θ2 2
Dans la majoration de droite, le premier terme tend vers 0 d’après la question 1, le second tend
vers 0 par hypothèse de consistance de θ̂n et le dernier tend vers 0 par la loi faible des grands
nombres (la condition Hb permettant son application).
Page 11
3. Soit ε := i(θ0 )/2. Alors
1 ∂2 1 ∂2

lim Pn,θ0 `n (θ0 ; X1 , . . . , Xn ) + i(θ0 ) ≤ ε = 1 =⇒ lim Pn,θ0
`n (θ0 ; X1 , . . . , Xn ) ≤ −n i(θ0 )/2 = 1,
n n ∂θ2 n n ∂θ2
ce qui conclut la démonstration.

4. C’est une application directe du théorème de Rolle à la fonction continûment dérivable θ 7→
∂ (1) (2)
∂ θ `n (θ ; X1 , . . . , Xn ). Sur {(X1 , . . . , Xn ) ∈ Sn }, cette fonction s’annule aux points θ̂n et θ̂n ,
donc ils existe un point entre ces deux valeurs en lequel la dérivée vaut 0.
(1) (2)
5. Soit ε > 0. Comme θ̂n∗ appartient au segment d’extrémités θ̂n et θ̂n , on a
h
(1) εi h
(2) εi
Pn,θ0 |θ̂n∗ − θ0 | > ε 6 Pn,θ0 |θ̂n − θ0 | >

+ Pn,θ0 |θ̂n − θ0 | > .
2 2
(1) (2)
Dans la majoration de droite, les deux termes tendent vers 0 car θ̂n et θ̂n sont supposées
consistantes.
6. D’après la question 4, θ̂n∗ est une suite consistante d’estimateurs. Donc, d’après la question 2,
2
∂ ∗
lim Pn,θ0 `n (θ̂n ; X1 , . . . , Xn ) < 0 = 1 .
n→∞ ∂θ2
On en déduit, par la définition de θ̂n∗ , que
∂2

∗
Pn,θ0 [(X1 , . . . , Xn ) ∈ Sn ] 6 Pn,θ0 `n (θ̂n ; X1 , . . . , Xn ) = 0 → 0 .
∂θ2
On peut conclure que, sous les conditions Ha,Hb et Hc, les équations de vraisemblance ont au
maximum une suite de racines consistantes.
Solution de l’exercice 4. 1. En remarquant que g et g∗ ne prennent comme valeurs que 0 ou 1, on

écrit que :
P(g(X) 6= Y ) − P(g∗ (X) 6= Y )

= E 1{g(X)6=Y } − 1{g∗ (X)6=Y }

= E 1{g(X)6=Y } 1{g(X)6=g∗ (X)} + 1{g(X)6=Y } 1{g(X)=g∗ (X)} − 1{g∗ (X)6=Y } 1{g(X)6=g∗ (X)} − 1{g∗ (X)6=Y } 1{g(X)=g∗ (X)}

= E 1{g(X)6=g∗ (X)} 1{g(X)6=Y } − 1{g∗ (X)6=Y }

= E 1{g(X)6=g∗ (X)} 1{g∗ (X)=Y } − 1{g∗ (X)6=Y }

= P(g(X) 6= g∗ (X),Y = g∗ (X)) − P(g(X) 6= g∗ (X),Y 6= g∗ (X)),
qui est la forme attendue.

2. On raisonne conditionnellement à la variable aléatoire X en remarquant que 1{g∗ (X)=1} = 1{η ∗ (X)≥1/2} .
On obtient alors que :
P (Y = g∗ (X) | X) = P (Y = 1, g∗ (X) = 1 | X) + P (Y = 0, g∗ (X) = 0 | X)

= 1{g∗ (X)=1} P (Y = 1 | X) + 1{g∗ (X)=0} P (Y = 0 | X)
= 1{η ∗ (X)≥1/2} η ∗ (X) + 1{η ∗ (X)<1/2} (1 − η ∗ (X)).
Page 12
3. On applique l’égalité obtenue en 1. et on obtient que

E (g) = P(g(X) 6= g∗ (X),Y = g∗ (X)) − P(g(X) 6= g∗ (X),Y 6= g∗ (X))
= E 1{g(X)6=g∗ (X)} [P (Y = g∗ (X) | X) − P (Y 6= g∗ (X) | X)] ,

où la dernière égalité provient d’un conditionnement par rapport à X. On applique alors l’égalité
obtenue en début de 2. et on a :
E (g)
1{g(X)6=g∗ (X)} 1{η ∗ (X)≥1/2} η ∗ (X) + 1{η ∗ (X)<1/2} (1 − η ∗ (X)) − 1{η ∗ (X)≥1/2} (1 − η ∗ (X)) − 1{η ∗ (X)<1/2} η ∗ (X)

=E
= E 1{g(X)6=g∗ (X)} 1{η ∗ (X)≥1/2} (2η ∗ (X) − 1) + 1{η ∗ (X)<1/2} (1 − 2η ∗ (X))

= E 1{g(X)6=g∗ (X)} |2η ∗ (X) − 1|

où la dernière égalité provient de la disjonction de cas η ∗ (X) ≥ 1/2 et η ∗ (X) < 1/2.
4. On raisonne conditionnellement aux observations (Xi ,Yi )1≤i≤n et on écrit directement que :
1 n
E (g∗C ) + Z(b
gn ) = E (g∗C ) + ∑ (1{g∗C (Xi )6=Yi } − 1{bgn (Xi )6=Yi } ) − (E (g∗C ) − E (bgn ))
n i=1
1 n 1 n
= E (b
gn ) + ∑ 1{g∗C (Xi )6=Yi } − ∑ 1{bgn (Xi )6=Yi }
n i=1 n i=1
Comme gbn minimise le risque empirique dans C , on en déduit alors que la différence des deux
derniers termes est positive, c’est-à-dire :
E (g∗C ) + Z(b
gn ) ≥ E (b
gn ).
5. Il s’agit dans cette question d’appliquer l’inégalité de Bernstein aux variables aléatoires Zig ,
indexées par g ∈ C et définies par :

Zig = 1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi } − E 1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi }
= 1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi } − (E (g∗C ) − E (g)).
Ces variables aléatoires sont comprises entre −1 et 1 et sont centrées. On a donc pour tout x > 0,
si σg2 := Var(Z1g ) :
!
n q
g
P ∑ Zi > 2nσg2 x + x ≤ e−x .
i=1
On obtient alors que
  s 
[ 2 Var(1 − 1{g(X)6=Y } )xδ xδ 
{g∗C (X)6=Y }
P Ωcδ = P 

Z(g) > + 
g∈C
 n n 
 s 
2 Var(1{g∗C (X)6=Y } − 1{g(X)6=Y } )xδ xδ
≤ ∑ P Z(g) > + 
g∈C n n
 s 
1 n 2 Var(1 ∗
{gC (X)6=Y } − 1 )x
{g(X)6=Y } δ x
= ∑ P  ∑ Zig > + δ
g∈C n i=1 n n
!
n q
≤ M sup P ∑ Zig > 2nσg2 xδ + xδ ≤ Me−xδ = δ .
g∈C i=1
Page 13
6. On introduit l’hypothèse de Bernstein
Var(1{g∗C (X)6=Y } − 1{g(X)6=Y } ) ≤ CE (g)α .
Conditionnellement aux observations, d’après la question 3. et la définition de l’ensemble Ωδ

donné en question 4, nous savons que sur Ωδ ,
gn ) ≤ E (g∗C ) + Z(b
E (b gn )
s
2 Var(1{g∗C (X)6=Y } − 1{bgn (X)6=Y } )xδ xδ
≤ E (g∗C ) + +
n n
r
x 2CE (b gn )α xδ
≤ E (g∗C ) + δ +
n n
Notons mn = max E (g∗C ), xnδ , on a alors que

r
2Cxδ
E (b
gn ) ≤ 2mn + E (b
gn )α/2 .
n
On observe alors que :
— soit E (b
gn ) ≤ 4mn et la conclusion est directe. On trouve c = 4.
— soit alors E (b
gn ) ≥ 4mn , et dans ce cas :
r
2Cxδ
E (b
gn ) − 2mn ≤ E (b
gn )α/2 ,
n
E (b
gn )
qui entraı̂ne - en remarquant que dans ce cas E (b
gn ) − 2mn ≥ 2 - que :
r
2Cxδ
E (b
gn ) ≤ 2 E (b
gn )α/2 ,
n
soit encore : x 1/(2−α)
E (b
gn ) ≤ 8C δ .
n
on obtient c = (8c)1/(2−α) .
On obtient la conclusion voulue.
Page 14

Devoir 2019

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Devoir 2019

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433

— la matrice Z := [e1 , e2 , x] ∈ Rn×3 , et la matrice H projecteur orthogonal sur Vect(e1 , e2 , x) l’es-

Soit Θ := R3 × R∗+ ; on écrira θ = (β , σ 2 ) = (β0,1 , β0,2 , β1 , σ 2 ) un élément de Θ. Nous supposons que

1. Montrer que β̂ est unique et vérifie : H Y = Zβ̂ .

4. Pour θ ∈ Θ, déterminer la distribution de β̂1 sous Pθ .

Exercice 2. Soit (X1 , . . . , Xn ) un n-échantillon du modèle statistique

(]0, 1[ , B(]0, 1[), {pθ dλLeb , θ ∈ Θ := R∗+ })

6. Déterminer en fonction de an,α et bn,α un intervalle de confiance de θ de probabilité de couver-

est strictement positive.

Soit une suite de n-échantillons de ce modèle statistique. Pour tout n ∈ N∗ , la log-vraisemblance de

Soit θ0 ∈ Θ et {θ̂n , n ∈ N} une suite consistante d’estimateurs de θ .

On note g∗ le classifieur bayésien et E (g) l’excès de risque pour un classifieur g :

E (g) := P(g(X) 6= Y ) − P(g∗ (X) 6= Y ).

Soit g∗C un classifieur minimisant le risque dans la classe C ,

g∗C ∈ arg min P g(X) 6= Y .

Montrer que P(Ωδ ) > 1 − δ .

Var(1{g(X)6=Y } − 1{g∗C (X)6=Y } ) 6 C E (g)α . (3)

Dans la suite de l’exercice, on suppose que g∗ ∈ C .

Solution de l’exercice 1. 1. On remarque tout d’abord que {Zu, u ∈ R3 } = Vect(e1 , e2 , x). De

kY − H Yk2 = inf kY − zk2

= inf kY − Zuk2 = inf J(u)

Nous avons ke1 k2 = n1 , ke2 k2 = n2 et ke3 k2 = kx − x̄1 e1 − x̄2 e2 k2 = SDX. De plus

eT3 Y = (x − x̄1 e1 − x̄2 e2 )T Y = (x − x̄1 e1 − x̄2 e2 )T (Y − Ȳ1 e1 − Ȳ2 e2 ) = SPD,

n1Ȳ1 n2Ȳ2 SPD

4. De la définition de SPD, nous déduisons que

Y ∼ Nn (β0,1 e1 + β0,2 e2 + β1 x; σ 2 In×n ).

Par suite, SPD est une loi gaussienne sur R d’espérance

eT3 (β0,1 e1 + β0,2 e2 + β1 x) = β1 eT3 x = β1 eT3 e3 = β1 ke3 k2 = β1 SDX .

Le seuil c est déterminé de façon à garantir le niveau du test :

• limθ →∞ `n (θ , (Xi )i=1...,n ) = limθ →0 `n (θ , (Xi )i=1...,n ) = −∞,

(n − 1)2 ∞ n2 xn−1 θ n exp(−θ x)

De plus, on calcule l’information de Fisher pour une observation :

— Méthode 2 : avec le carré du score.

Pn,θ nθ /θ̂nMV ∈ [an,α , bn,α ] = 1 − α

θ̂nMV an,α θ̂nMV bn,α

Par la méthode ∆, avec la fonction θ 7→ log(θ ), on a

En particulier, la suite d’estimateurs log(θ̂nMV ) est consistante et asymptotiquement normale.

9. On peut faire les remarques suivantes :

On en déduit que, pour tout B > 0,

2. Soit ε > 0, on veut montrer que

3. Soit ε := i(θ0 )/2. Alors

ce qui conclut la démonstration.

On en déduit, par la définition de θ̂n∗ , que

Solution de l’exercice 4. 1. En remarquant que g et g∗ ne prennent comme valeurs que 0 ou 1, on

P(g(X) 6= Y ) − P(g∗ (X) 6= Y )

= E 1{g(X)6=g∗ (X)} 1{g(X)6=Y } − 1{g∗ (X)6=Y }

= E 1{g(X)6=g∗ (X)} 1{g∗ (X)=Y } − 1{g∗ (X)6=Y }

= P(g(X) 6= g∗ (X),Y = g∗ (X)) − P(g(X) 6= g∗ (X),Y 6= g∗ (X)),

qui est la forme attendue.

P (Y = g∗ (X) | X) = P (Y = 1, g∗ (X) = 1 | X) + P (Y = 0, g∗ (X) = 0 | X)

3. On applique l’égalité obtenue en 1. et on obtient que

= E 1{g(X)6=g∗ (X)} |2η ∗ (X) − 1|

6. On introduit l’hypothèse de Bernstein

Var(1{g∗C (X)6=Y } − 1{g(X)6=Y } ) ≤ CE (g)α .

Conditionnellement aux observations, d’après la question 3. et la définition de l’ensemble Ωδ

Notons mn = max E (g∗C ), xnδ , on a alors que

Vous aimerez peut-être aussi