Académique Documents
Professionnel Documents
Culture Documents
Dans ce sujet, par convention : un vecteur est un vecteur colonne. On notera xT la transposée du
vecteur ou de la matrice x.
Exercice 1. Soient n1 , n2 deux entiers strictement supérieurs à 1. Nous posons n := n1 +n2 et considérons
les vecteurs
1 0
.. k .. k 1n1 ×1 n 0n1 ×1
1k×1 := . ∈ R , 0k×1 := . ∈ R , e1 := ∈ R , e2 := ∈ Rn .
0n2 ×1 1n2 ×1
1 0
Soient (x1,i ,Y1,i ), i = 1, . . . , n1 et (x2,i ,Y2,i ), i = 1, . . . , n2 deux ensembles de points de régression où
{x j,i , 1 ≤ i ≤ n j , j = 1, 2} sont des scalaires. Nous posons pour j = 1, 2
Y j,1 x j,1
.. nj .. nj Y1 n x1
Y j := . ∈ R , x j := . ∈ R , Y := ∈ R , x := ∈ Rn .
Y2 x2
Y j,n j x j,n j
Nous supposons que les points {x j,i , 1 ≤ i ≤ n j , j = 1, 2} sont déterministes et que les vecteurs e1 , e2
et x sont linéairement indépendants. Définissons :
n n
1 j eTj x 1 j eTj Y
x̄ j := ∑ x j,i = , Ȳ j := ∑ Y j,i = ,
n j i=1 ke j k2 n j i=1 ke j k2
u 7→ J(u) := kY − Zuk2 .
Page 1
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
2. Montrer que
SPD
H Y = Ȳ1 e1 + Ȳ2 e2 + e3 .
SDX
3. En déduire que l’estimateur des moindres carrés β̂ = (β̂0,1 , β̂0,2 , β̂1 ) de β est donné par :
SPD
β̂1 = et β̂0, j = Ȳ j − β̂1 x̄ j
SDX
où pour tout θ ∈ Θ, pθ est la densité par rapport à la mesure de Lebesgue dλLeb sur ]0, 1[ d’une loi
Beta(θ , 1) :
pθ (x) := θ xθ −1 1[0,1] (x) .
Nous admettons que ce modèle statistique est régulier et nous supposons que n ≥ 3.
1. Déterminer l’estimateur du maximum de vraisemblance θ̂nMV de θ .
2. Montrer que sous Pθ , θ ∈ Θ, − log X1 est distribué selon une loi Gamma dont on déterminera
les paramètres ; en déduire la loi de − ∑ni=1 log(Xi ).
3. Montrer que θ̃n := (1 − 1/n)θ̂nMV est un estimateur sans biais de θ .
4. L’estimateur θ̃n est-il un estimateur efficace de θ ?
5. Montrer que la fonction nθ /θ̂nMV est pivotale.
Soient α ∈ ]0, 1[ et 0 ≤ an,α < bn,α tels que
Z bn,α Z +∞
1 n−1
y exp(−y)dy = 1 − α, où Γ(n) := t n−1 exp(−t) dt.
Γ(n) an,α 0
Page 2
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
9. Discuter les deux constructions d’un intervalle de confiance pour θ , constructions établies à la
question 6 et à la question 8.
Exercice 3. Soit un modèle statistique (X, X , {Qθ := pθ · µ, θ ∈ Θ}) où µ est une mesure σ -finie
sur X , Θ est un intervalle ouvert de R et la densité x 7→ pθ (x) = p(x, θ ) vérifie
Ha pour tout x ∈ X, θ 7→ pθ (x) est trois fois continûment différentiable sur Θ ; et pour tout x ∈ X et
θ ∈ Θ, pθ (x) > 0.
h 2 i
Hb pour tout θ ∈ Θ, Eθ ∂∂θ 2 log p(X, θ ) < ∞ et l’information de Fisher
" 2 # 2
∂ ∂
i(θ ) := Eθ log p(X, θ ) = −Eθ log p(X, θ )
∂θ ∂θ2
2. Montrer que
1 ∂2 Pn,θ0 −prob
`n (θ̂n ; X1 , . . . , Xn ) −→ −i(θ0 ) ,
n ∂θ2
3. En déduire que
∂2
lim Pn,θ0 `n (θ̂n ; X1 , . . . , Xn ) < 0 = 1 .
n→∞ ∂θ2
On dit que {θ̂n , n ∈ N} est une suite suite consistante de racines de la vraisemblance si la suite
{θ̂n , n ∈ N} est consistante et pour tout n ∈ N et tout θ ∈ Θ, Pn,θ -presque sûrement,
∂
`n (θ̂n ; X1 , . . . , Xn ) = 0 .
∂θ
(1) (2)
Supposons qu’il existe deux suites {θ̂n , n ∈ N} et {θ̂n , n ∈ N} consistantes de racines de la vrai-
semblance. Posons
n o
(1) (2)
Sn := (x1 , . . . , xn ) ∈ X : θ̂n (x1 , . . . , xn ) 6= θ̂n (x1 , . . . , xn ) .
Page 3
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
4. Montrer que sur l’événement {(X1 , . . . , Xn ) ∈ Sn }, il existe θ̂n∗ appartenant au segment d’extrémités
(1) (2)
θ̂n et θ̂n , tel que
∂2
`n (θ̂n∗ ; X1 , . . . , Xn ) = 0. (1)
∂θ2
Dans la suite, nous admettrons qu’il est possible de choisir θ̂n∗ de telle sorte que θ̂n∗ soit une
fonction mesurable des observations (X1 , · · · , Xn ).
(1)
Soit {θ̂n∗ , n ∈ N} une suite d’estimateurs vérifiant θ̂n∗ = θ̂n si (X1 , . . . , Xn ) 6∈ Sn , et vérifiant la relation
(1) si (X1 , . . . , Xn ) ∈ Sn .
5. Montrer que la suite {θ̂n∗ , n ∈ N} est consistante.
6. Montrer que limn→∞ Pn,θ0 [(X1 , . . . , Xn ) ∈ Sn ] = 0.
7. Conclure.
Exercice 4. Rappel : inégalité de Bernstein. Soient Z1 , . . . , Zn des variables aléatoires réelles centrées
indépendantes. Supposons qu’il existe des constantes σ , c > 0 vérifiant pour tout entier k > 2 et
i ∈ {1, . . . , n},
σ2
E[|Zi |k ] 6 k! ck−2 . (2)
2
Alors pour tout x > 0, n √
P ∑ Zi > 2nσ x + cx 6 e−x .
2
i=1
Notons que si Z1 , . . . , Zn sont de même loi et presque sûrement à valeurs dans [−b, b], alors l’inégalité
(2) est satisfaite avec c = b et σ 2 = Var(Z1 ).
Soit un ensemble d’apprentissage Dn := {(X1 ,Y1 ), . . . , (Xn ,Yn )} de variables aléatoires indépendantes
et de même loi sur X × {0, 1}.
Considérons un ensemble C := {g1 , . . . , gM } de classifieurs, c’est à dire de fonctions gi : X →
{0, 1}. Nous considérons un classifieur minimisant le risque empirique sur la classe C :
1 n
gbn ∈ arg min
g∈C
∑ 1{g(Xi )6=Yi } .
n i=1
1. Montrer que
gn ) 6 E (g∗C ) + Z(b
E (b gn ) ,
où, pour tout g ∈ C ,
1 n
Z(g) := ∑ (1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi } ) − (E (g∗C ) − E (g)) .
n i=1
Page 4
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
2. Pour δ ∈ ]0, 1[, posons xδ := − log(δ /M) où M est le nombre de classifieurs dans la classe C ;
et s
\ 2 Var(1{g∗C (X)6=Y } − 1{g(X)6=Y } ) xδ xδ
Ωδ := Z(g) 6 + .
g∈C
n n
3. Montrer que, sous l’hypothèse de Bernstein (3), il existe une constante c dépendant de C, α
mais pas de M, n et δ telle que, sur Ωδ ,
1/(2−α)
∗ xδ xδ
E (b
gn ) 6 c max E (gC ), , .
n n
Page 5
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
Comme les vecteurs (e1 , e2 , x) sont linéairement indépendants, il existe un unique β̂ ∈ R3 tel
que H Y = Zβ̂ .
2. Par construction e3 est orthogonal à e1 , e2 puisque x̄1 e1 + x̄2 e2 est le projeté orthogonal de x sur
Vect(e1 , e2 ). H Y est le projeté orthogonal de Y sur Vect(e1 , e2 , e3 ) et on a donc par l’orthogo-
nalité de ces vecteurs
1 T
HY = α1 e1 + αe2 + αe3 , αi := e Y.
kei k2 i
Enfin,
où dans la dernière relation on a de nouveau utilisé le fait que e3 est orthogonal à e1 , e2 .
Par suite, nous avons établi
3. D’une part
SPD
H Y = Ȳ1 e1 + Ȳ2 e2 + e3
SDX
et d’autre part
Zβ̂ = β̂ 0,1 e1 + β̂ 0,2 e2 + β̂ 1 x.
En utilisant le fait que x = e3 + x̄1 e1 + x̄2 e2 , nous obtenons
SPD
Ȳ1 e1 + Ȳ2 e2 + e3 = β̂ 0,1 e1 + β̂ 0,2 e2 + β̂ 1 (e3 + x̄1 e1 + x̄2 e2 )
SDX
et par identification (les vecteurs ei sont orthogonaux)
SPD
Ȳ1 = β̂ 0,1 + β̂ 1 x̄1 , Ȳ2 = β̂ 0,2 + β̂ 1 x̄2 , = β̂ 1 .
SDX
Ce qui conclut la démonstration.
Page 6
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
en utilisant l’orthogonalité des vecteurs ei . Cela montre que SPD est une combinaison linéaire
des composantes du vecteur Y. Or sous Pθ ,
Dans les calculs qui précèdent nous avons encore utilisé que x = e3 + x̄1 e1 + x̄2 e2 et l’ortho-
gonalité des vecteurs ei . Ainsi, β̂ 1 est d’espérance β1 sous Pθ . La variance de eT3 Y est donnée
par
σ 2 eT3 e3 = σ 2 ke3 k2 = σ 2 SDX .
En conclusion, sous Pθ
σ2
β̂ 1 ∼ N β1 , .
SDX
5. Nous avons en utilisant (4), l’orthogonalité des vecteurs ei et la relation Im(H) = Vect(e1 ne2 , e3 ),
(SPD)2 1 2
SDY −β̂ 1 SPD = SDY − = kY − Ȳ1 e1 − Ȳ2 e2 k2 − 2
eT3 Y
SDX ke3 k
= kY − H Yk2 .
Ainsi
1
σ̂ 2 = k(In×n − H)Yk2 .
n−3
En terme d’espérance sous Pθ ,
1
Eθ σ̂ 2 = Trace(In×n − H)Eθ YYT (In×n − H)T
n−3
1
Trace(In×n − H) σ 2 In×n + {β1,0 e1 + β2,0 e2 + β1 x}{β1,0 e1 + β2,0 e2 + β1 x}T (In×n − H)
=
n−3
σ2
= Trace(In×n − H) = σ 2 .
n−3
Dans la dernière ligne, nous avons utilisé le fait que I − H est orthogonal à e1 , e2 , x, que c’est un
projecteur sur l’orthogonal d’un espace de dimension 3 et donc que sa trace est n − 3.
6. Puisque In×n − H projette sur l’orthogonal de H et que sous Pθ , l’espérance de Y est dans H ;
alors (In×n − H)Y est une gaussienne centrée. Sa matrice de covariance est σ 2 (In×n − H). Nous
avons donc
n−3
σ̂ 2
(n − 3) 2 = k(In×n − H)Yk2 = ∑ Zk2
σ k=1
Page 7
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
où sous Pθ , les v.a. Z1 , · · · , Zn−3 sont i.i.d. N(0, 1). Ainsi, sous Pθ ,
σ̂ 2
(n − 3) ∼ χ 2 (n − 3).
σ2
7. Sous Pθ , les variables aléatoires eT3 Y et (I − H)Y sont décorrélées. Comme elles sont conjointe-
ment gaussiennes, les estimateurs β̂ 1 = eT3 Y/ke3 k2 , et σ̂ 2 = (n−3)−1 k(I−H)Yk2 sont indépendants
(on peut aussi directement invoquer l’application du théorème de Cochran). De plus
√ β̂1 − β 1 √ β̂1 − β 1 σ W
SDX = SDX =p
σ̂ σ σ̂ V /(n − 3)
où sous Pθ , W,V sont indépendants ; W ∼ N(0, 1) ; V ∼ χ 2 (n − 3). On en déduit que sous Pθ
√ β̂1 − β 1
SDX ∼ tn−3 .
σ̂
On en déduit un IC de confiance de niveau 1 − α donné par
q1−α/2 σ̂ q1−α/2 σ̂
β̂1 − √ ; β̂1 + √ .
SDX SDX
où q1−α/2 désigne le quantile d’ordre 1 − α/2 d’une loi tn−3 .
8. On cherche un test de zone de rejet de la forme R := {β̂1 > c} ou, de façon équivalente,
( )
β̂1 − β1 √ c − β1 √
R= SDX > SDX .
σ̂ σ̂
sup Pθ (R) ≤ α.
β1 ≤0
√
En utilisant le fait que sous Pθ , β̂1 −β
σ̂
1
SDX suit une loi de Student de paramètre (n − 3) et ce
quel que soit θ ∈ Θ (il s’agit d’une fonction pivotale), nous avons
c − β1 √ c√
sup Pθ (R) = sup P W > SDX = P W > SDX
β1 ≤0 β1 ≤0 σ̂ σ̂
√
où W suit une loi de Student de paramètre (n − 3) ; il suffit donc de prendre c SDX/σ̂ égal au
quantile d’ordre 1 − α de cette loi (noté q1−α ). En conclusion, un test est donné par la zone de
rejet
σ̂
β̂1 > q1−α √ .
SDX
Solution de l’exercice 2. 1. On calcule la log vraisemblance :
n
`n (θ , (Xi )i=1...,n ) = n log(θ ) + (θ − 1) ∑ log(Xi ).
i=1
n
La dérivée de la fonction s’annule au point : θ = ∑ni=1 − log(Xi )
.
C’est un maximum : on remarque que
Page 8
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
2. Si X ∼ β (θ , 1), alors − log(X) ∼ exp(θ ) = Γ(1, θ −1 ). En effet pour toute fonction g mesurable :
Z 1
Eθ [g(− log(X))] = g(− log(x))θ xθ −1 dx
Z0 ∞
= g(u)θ exp(−uθ )du.
0
(on a fait le changement de variable u = − log(x)) et on reconnait la densité d’une loi exponen-
tielle de paramètre θ (i.e., d’espérance θ −1 ).
Donc, par la propriété d’additivité des lois Γ, on obtient : ∑ni=1 − log(Xi ) ∼ Γ(n, θ −1 ) (ou Γ(n, θ )
selon la paramétrisation de la loi Γ).
3. On définit Sn = ∑ni=1 − log(Xi ) et calcule
n
En,θ (θ̂nMV ) = En,θ
Sn
n xn−1 θ n exp(−θ x)
Z ∞
= dx
0 x Γ(n)
Z ∞ n−2 n−1
nθ x θ exp(−θ x)
= dx avec Γ(n) = (n − 1)Γ(n − 1)
n−1 0 Γ(n − 1)
nθ
= .
n−1
n−1 MV
Donc θ̃n = (1 − 1/n)θ̂nMV = n θ̂n est un estimateur sans biais.
4. On calcule la variance de l’estimateur :
(n − 1)2
En,θ (θ̃n )2 = En,θ (θ̂nMV )2
n2
Page 9
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
√ θ2
Pn,θ
n log(θ̂nMV ) − log(θ ) ⇒ N 0, 2 = N (0, 1) .
θ
Page 10
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
1 ∂2
+
2
`n (θ0 ; X1 , . . . , Xn ) + i(θ0 ) .
n ∂θ
De plus, sur l’événement
1 ∂3
Ω = sup ` (θ ; X1 , . . . , Xn ) 6 B ,
3 n
θ ∈Θ n ∂ θ
on a
1 ∂2 1 ∂2
n ∂θ2 `n (θ̂ n ; X1 , . . . , Xn ) − `n (θ 0 ; X1 , . . . , Xn ) 6 B|θ̂n − θ0 | .
n ∂θ2
On a donc
1 ∂2
c
h ε i
Pn,θ0
`n (θ̂n ; X1 , . . . , Xn ) + i(θ 0 ) > ε 6P n,θ [Ω ] + P n,θ |θ̂n − θ 0 | >
n ∂θ2 0 0
2B
1 ∂2
ε
+ Pn,θ0 ` (θ
n 0 1 ; X , . . . , X n ) + i(θ )
0
> .
n ∂θ2 2
Dans la majoration de droite, le premier terme tend vers 0 d’après la question 1, le second tend
vers 0 par hypothèse de consistance de θ̂n et le dernier tend vers 0 par la loi faible des grands
nombres (la condition Hb permettant son application).
Page 11
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
1 ∂2 1 ∂2
lim Pn,θ0 `n (θ0 ; X1 , . . . , Xn ) + i(θ0 ) ≤ ε = 1 =⇒ lim Pn,θ0
`n (θ0 ; X1 , . . . , Xn ) ≤ −n i(θ0 )/2 = 1,
n n ∂θ2 n n ∂θ2
∂2
∗
Pn,θ0 [(X1 , . . . , Xn ) ∈ Sn ] 6 Pn,θ0 `n (θ̂n ; X1 , . . . , Xn ) = 0 → 0 .
∂θ2
On peut conclure que, sous les conditions Ha,Hb et Hc, les équations de vraisemblance ont au
maximum une suite de racines consistantes.
= E 1{g(X)6=Y } 1{g(X)6=g∗ (X)} + 1{g(X)6=Y } 1{g(X)=g∗ (X)} − 1{g∗ (X)6=Y } 1{g(X)6=g∗ (X)} − 1{g∗ (X)6=Y } 1{g(X)=g∗ (X)}
Page 12
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
où la dernière égalité provient d’un conditionnement par rapport à X. On applique alors l’égalité
obtenue en début de 2. et on a :
E (g)
1{g(X)6=g∗ (X)} 1{η ∗ (X)≥1/2} η ∗ (X) + 1{η ∗ (X)<1/2} (1 − η ∗ (X)) − 1{η ∗ (X)≥1/2} (1 − η ∗ (X)) − 1{η ∗ (X)<1/2} η ∗ (X)
=E
= E 1{g(X)6=g∗ (X)} 1{η ∗ (X)≥1/2} (2η ∗ (X) − 1) + 1{η ∗ (X)<1/2} (1 − 2η ∗ (X))
où la dernière égalité provient de la disjonction de cas η ∗ (X) ≥ 1/2 et η ∗ (X) < 1/2.
4. On raisonne conditionnellement aux observations (Xi ,Yi )1≤i≤n et on écrit directement que :
1 n
E (g∗C ) + Z(b
gn ) = E (g∗C ) + ∑ (1{g∗C (Xi )6=Yi } − 1{bgn (Xi )6=Yi } ) − (E (g∗C ) − E (bgn ))
n i=1
1 n 1 n
= E (b
gn ) + ∑ 1{g∗C (Xi )6=Yi } − ∑ 1{bgn (Xi )6=Yi }
n i=1 n i=1
Comme gbn minimise le risque empirique dans C , on en déduit alors que la différence des deux
derniers termes est positive, c’est-à-dire :
E (g∗C ) + Z(b
gn ) ≥ E (b
gn ).
5. Il s’agit dans cette question d’appliquer l’inégalité de Bernstein aux variables aléatoires Zig ,
indexées par g ∈ C et définies par :
Zig = 1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi } − E 1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi }
= 1{g∗C (Xi )6=Yi } − 1{g(Xi )6=Yi } − (E (g∗C ) − E (g)).
Ces variables aléatoires sont comprises entre −1 et 1 et sont centrées. On a donc pour tout x > 0,
si σg2 := Var(Z1g ) :
!
n q
g
P ∑ Zi > 2nσg2 x + x ≤ e−x .
i=1
On obtient alors que
s
[ 2 Var(1 − 1{g(X)6=Y } )xδ xδ
{g∗C (X)6=Y }
P Ωcδ = P
Z(g) > +
g∈C
n n
s
2 Var(1{g∗C (X)6=Y } − 1{g(X)6=Y } )xδ xδ
≤ ∑ P Z(g) > +
g∈C n n
s
1 n 2 Var(1 ∗
{gC (X)6=Y } − 1 )x
{g(X)6=Y } δ x
= ∑ P ∑ Zig > + δ
g∈C n i=1 n n
!
n q
≤ M sup P ∑ Zig > 2nσg2 xδ + xδ ≤ Me−xδ = δ .
g∈C i=1
Page 13
Ecole Polytechnique, promotion 2018 Contrôle connaissances Cours MAP433
gn ) ≤ E (g∗C ) + Z(b
E (b gn )
s
2 Var(1{g∗C (X)6=Y } − 1{bgn (X)6=Y } )xδ xδ
≤ E (g∗C ) + +
n n
r
x 2CE (b gn )α xδ
≤ E (g∗C ) + δ +
n n
r
2Cxδ
E (b
gn ) ≤ 2mn + E (b
gn )α/2 .
n
On observe alors que :
— soit E (b
gn ) ≤ 4mn et la conclusion est directe. On trouve c = 4.
— soit alors E (b
gn ) ≥ 4mn , et dans ce cas :
r
2Cxδ
E (b
gn ) − 2mn ≤ E (b
gn )α/2 ,
n
E (b
gn )
qui entraı̂ne - en remarquant que dans ce cas E (b
gn ) − 2mn ≥ 2 - que :
r
2Cxδ
E (b
gn ) ≤ 2 E (b
gn )α/2 ,
n
soit encore : x 1/(2−α)
E (b
gn ) ≤ 8C δ .
n
on obtient c = (8c)1/(2−α) .
On obtient la conclusion voulue.
Page 14