Vous êtes sur la page 1sur 14

Sorbonne Université, Master 1 4MA015, Statistique, 2019-2020

Cours : A. Guyader TD : A. Ben-Hamou, A. Godichon et M. Sangnier

Correction du TD 6

Exercice 1
1. On suppose que σ est connu.

(a) Comme Ȳn ∼ N (m, σ 2 /n), on a n(Ȳn −m)/σ ∼ N (0, 1). On a donc pour tout u ≥ 0,
√ Ȳn − m
 
P n ≤ u = 2Φ(u) − 1.
σ
Ainsi, on obtient l’intervalle de confiance de niveau 1 − α :
Φ−1 (1 − α/2) Φ−1 (1 − α/2)
 
I(m) = Ȳn − σ √ ; Ȳn + σ √ .
n n
Notez bien que σ est connu, donc il s’agit bien d’une quantité calculable.
(b) La longueur de l’intervalle de confiance de niveau 1 − α est donnée par la fonction
σ
L(n) = 2 √ Φ−1 (1 − α/2).
n
Pour σ = 3 et 1 − α = 0.95, on a pour tout n,
3
L(n) ≤ 2 ⇔ √ Φ−1 (0.975) ≤ 1 ⇔ (3Φ−1 (0.975))2 ≤ n.
n

De Φ−1 (0.975) ' 2 on déduit que (3Φ−1 (0.975))2 ' 36. Ainsi, il faut au minimum
n0 = 36 observations pour que l’intervalle de confiance I(m) soit de longueur plus
petite que 2.
Pour 1 − α = 0.95, σ = 3, n = 25 et ȳ25 = 20, la réalisation de l’intervalle de confiance
I(m) est :
 
σ −1 σ −1
ȳn − √ Φ (1 − α/2) ; ȳn + √ Φ (1 − α/2)
n n
 
3 3
= 20 − √ Φ−1 (0.975) ; 20 + √ Φ−1 (0.975)
25 25
' [18.8 ; 21.2].

Attention à bien distinguer la valeur observée ȳn = Ȳn (ω) de la v.a. Ȳn , et la réalisation
de l’intervalle de confiance obtenue à partir de ȳn de l’intervalle de confiance aléatoire
obtenu avec Ȳn .
(c) On rejette H0 si
 
σ −1 σ −1
/ Ȳn − √ Φ (1 − α/2), Ȳn + √ Φ (1 − α/2) ,
m0 ∈
n n
c’est-à-dire
√ Ȳn − m0

n > Φ−1 (1 − α/2),
σ
ou encore
√ Ȳn − m0
  
α>2 1−Φ n
.
σ
La p-valeur du test est donc donnée par

√ Ȳn − m0
  
α0 = 2 1 − Φ n
.
σ

Pour σ = 3, n = 25, ȳ25 = 20 et m0 = 18.9, on obtient donc la p-valeur


√ 20 − 18.9
  
α0 = 2 1 − Φ 25
' 2(1 − Φ(1.83)) ' 2(1 − 0.97) ' 0.06.
3

On rejette donc H0 au niveau 10%, et on accepte H0 aux niveaux 5% et 1%.


2. (a) Le modèle de régression associé est Y = Xβ + σε, avec X = [1, · · · , 1]t ∈ Rn , β =
m ∈ R et ε = [ε1 , · · · , εn ]t ∈ Rn . L’estimateur des moindres carrés est ainsi β̂ =
(X t X)−1 X t Y = Ȳn .
(b) Étant donné le modèle de régression, Y ∼ N (m(1 · · · 1)t , σ 2 In ) et la matrice de pro-
jection associée est :
 
1 ... 1
1
P = X(X t X)−1 X t =  ... . . . ...  .

n
1 ... 1

De plus, P Y = (Ȳn · · · Ȳn )t , P⊥ Y = (In − P )Y = Y − (Ȳn · · · Ȳn )t , P (m(1 · · · 1)t ) =


m(1 · · · 1)t et P⊥ (m(1 · · · 1)t ) = 0. D’après le théorème de Cochran,
— P Y ∼ N (m(1 · · · 1)t ), σ 2 P ), P⊥ Y ∼ N (0, σ 2 P⊥ ) ;
— P Y et P⊥ Y sont indépendants ; Pn
t )k2 2
n(Ȳn −m)2 t 2
i=1 (Yi −Ȳn )
— kP (Y −m(1···1)
σ2
= σ2
∼ χ 2 (1), kY −(Ȳn ···Ȳn ) k =
σ2 σ2
∼ χ2 (n − 1).
(c) On vient de voir que
n
X
(n − 1)σ̂n2 /σ 2 = (Yi − Ȳn )2 /σ 2 ∼ χ2 (n − 1).
i=1

Ainsi, E[(n − 1)σ̂n2 /σ 2 ] = n − 1, c’est-à-dire E[σ̂n2 ] = σ 2 donc σ̂n2 est sans biais. De
plus, la loi des grands nombres et le théorème de continuité impliquent que
n n
1X 1X 2 p.s.
s2n = (Yi − Ȳn )2 = Yi − Ȳn2 −−−→ E[Y12 ] − m2 = σ 2 ,
n n n→∞
i=1 i=1

n 2 P
i.e. s2n est un estimateur convergent de σ 2 . Ainsi, σ̂n2 = n−1 sn → σ2.
(d) D’après le cours, on sait que :

β̂ − β √ Ȳn − m
p = n ∼ T (n − 1).
σ̂n 1/n σ̂n

(e) D’après le cours et ce qui vient d’être dit, un intervalle de confiance de niveau (1 − α)
pour σ 2 est donné par
(n − 1)σ̂n2 (n − 1)σ̂n2
 
,
cn−1 (1 − α/2) cn−1 (α/2)
où cn−1 (α/2) et cn−1 (1 − α/2) sont les quantiles d’ordres α/2 et 1 − α/2 d’une loi
χ2n−1 (ici p = 1 si p est le nombre de variables explicatives). Ainsi, le test consistant
à rejeter H0 si
(n − 1)σ̂n2 (n − 1)σ̂n2
 
3∈/ ,
cn−1 (1 − α/2) cn−1 (α/2)
i.e., si
cn−1 (1 − α/2) cn−1 (α/2)
σ̂n2 > 3 ou σ̂n2 < 3
n−1 n−1
est de niveau α.
(f) D’après le cours et ce qui vient d’être dit, un intervalle de confiance de niveau 1 − α
pour m est donné par
 
tn−1 (1 − α/2) tn−1 (1 − α/2)
J(m) = Ȳn − σ̂n √ , Ȳn + σ̂n √ .
n n
où tn−1 (1 − α/2) est le quantile d’ordre 1 − α/2 d’une loi de Student T (n − 1).
On peut construire un test de niveau α en rejetant H0 si m0 ∈ / J(m), c’est-à-dire si
√ Ȳn − m0

n > tn−1 (1 − α/2).
σ̂n

(g) Pour ce test unilatéral, on cherche une région de rejet de la forme R =] − ∞, cα [ pour
Ȳn telle que :

α = sup P(Ȳn < cα )


m≥m0
√ Ȳn − m √ cα − m
 
= sup P n < n
m≥m0 σ̂n σ̂n
√ cα − m
 
= sup FT (n−1) n
m≥m0 σ̂n
√ cα − m0
 
= FT (n−1) n ,
σ̂n
i.e.
σ̂n
cα = m0 + √ tn−1 (α).
n
Pour ce test,

T (Y ) = 1 ⇔ Ȳn < cα
√ Ȳn − m0
⇔ n < tn−1 (α)
σ̂n
√ Ȳn − m0
 
⇔ FT (n−1) n < α.
σ̂n
Ainsi, la p-valeur du test T (Y ) = 1 ⇔ Ȳn < cα est :
√ Ȳn − m0
 
α0 = FT (n−1) n .
σ̂n
Pour m0 = 12, 5, n = 25, ȳ25 = 12 et σ̂n2 = 1, 69, la p-valeur est :

  
12 − 12.5
α0 = FT (24) 25 √ ' FT (24) (−1, 92) ' 0.03.
1.69
On rejette donc H0 au niveau 5%.
Exercice 2
1. On note β = (a, b)t et
 
1 t1
X =  ... ...  .
 

1 tn

Le modèle est identifiable si et seulement si X est de rang p = 2, c’est-à-dire si et seulement


si les vecteurs (ti )1≤i≤n et (1)1≤i≤n ne sont pas colinéaires. Ceci est équivalent à l’existence
de i 6= j tel que ti 6= tj , ou, considérant l’hypothèse ni=1 ti = 0, à l’existence de i ∈ J1, nK
P
tel que ti 6= 0.
2. L’estimateur des moindres carrés de β est donné par :
P −1  P
 
β̂ = (X X) X Y = t −1 t P i ti
2
PPn
i Yi
i ti i ti i ti Yi
 −1    
n 0 nȲ Ȳ
= = ρ ,
0 nvt nρ vt

donc    
â Ȳ
= ρ .
b̂ vt

Par ailleurs, l’estimateur de σ 2 est défini par :


 2
2 1 2 1 X ρ
σ̂ = Y − X β̂ = Yi − Ȳ − ti

n−2 n−2 vt
i
1 X ρ2 X 2 ρ X 
= (Yi − Ȳ )2 + 2 ti − 2 ti Yi + 0
n−2 vt i vt
i i
1  ρ2 ρ  n  ρ2 
= nvY + 2 nvt − 2 nρ = vY − .
n−2 vt vt n−2 vt

Pour rappel, β̂ consiste en les coordonnées dans la base des colonnes de X, de la projection
de Y sur l’espace engendré par les colonnes de X, noté M(X), et
1 1
σ̂ 2 = kY − X β̂k2 = kP 2
⊥Y k .
n−2 n − 2 M(X)

D’après le cours, les estimateurs β̂ et σ̂ 2 sont indépendants et ont pour loi :


        1 
â a 2 t −1 a 2 n 0
∼ N , σ (X X) =N ,σ ;
b̂ b b 0 nv1 t
(n − 2)σ̂ 2
∼ χ2(n−2) .
σ2
3. D’après le cours, on a les intervalles de confiance de niveau 1 − α suivants :
— pour a  
tn−2 (1 − α/2)σ̂ tn−2 (1 − α/2)σ̂
â − √ , â + √
n n
— pour b  
tn−2 (1 − α/2)σ̂ tn−2 (1 − α/2)σ̂
b̂ − √ , b̂ + √
nvt nvt
Comme P(A ∪ B) ≤ P(A) + P(B), on en déduit que
 
σ̂ σ̂
P |â − a| > √ tn−2 (1 − α/4) ou |b̂ − b| > √ tn−2 (1 − α/4)
n nvt
   
σ̂ σ̂
≤ P |â − a| > √ tn−2 (1 − α/4) + P |b̂ − b| > √ tn−2 (1 − α/4)
n nvt
≤ α/2 + α/2 = α.
Donc
 
σ̂ σ̂
P |â − a| ≤ √ tn−2 (1 − α/4) et |b̂ − b| ≤ √ tn−2 (1 − α/4) ≥ 1 − α.
n nvt
Ceci implique que la région rectangulaire donnée par
 
2 σ̂ σ̂
(a, b) ∈ R | |â − a| ≤ √ tn−2 (0.9875) et |b̂ − b| ≤ √ tn−2 (0.9875)
n nvt
est une région de confiance de niveau 0.95 pour (a, b).
Remarque : il faut prendre les quantiles à l’ordre 1 − α/4 et non plus 1 − α/2 et les
√ √
événements {|â − a| > σ̂tn−2 (1 − α/4)/ n} et {|b̂ − b| > σ̂tn−2 (1 − α/4)/ nvt } ne sont
pas indépendants.
4. D’après le cours, un ellipsoïde de niveau 1 − α pour (a, b) est donné par
   n 0   â − a  
2 1  2
E(Y ) = (a, b) ∈ R : â − a, b̂ − b ≤ fn−2 (1 − α)
2σ̂ 2 0 nvt b̂ − b
 
2 2 2 2 2 2
= (a, b) ∈ R : (â − a) + vt (b̂ − b) ≤ σ̂ fn−2 (1 − α) ,
n

2 (1 − α) est le quantile d’ordre 1 − α d’une loi de Fisher F 2 .


où fn−2 n−2
Remarque : la forme de cette région diffère de la région rectangulaire de la question 3.
5. On pose B = (5, −8), de sorte que Bβ = 5a − 8b. La loi de B(β̂ − β) est la loi normale
d’espérance nulle et de variance :
 1   
0 2 25 64
Bσ 2 n B t
= σ + .
0 nv1 t n nvt
On peut alors construire un intervalle de confiance à partir de la loi de Student
(5â − 8b̂) − (5a − 8b)
q ∼ T(18−2) .
25 64

+ σ̂ 2
n nvt

En effet, l’indépendance entre numérateur et dénominateur est une conséquence du Théo-


rème de Cochran et
s
(5â − 8b̂) − (5a − 8b) σ2 1
q × 2
× 1 ∼ T(18−2) .
25
+ 64

σ 2 σ̂ (n − 2) √
n nvt n−2
√ 2
| {z }

| {z } | {z }
N (0,1) 1/ χ (n−2) 1/(1/ ddl)

On en déduit que
 


 (5â − 8b̂) − (5a − 8b) 
P r ≤ t16 (0.975) = 0.95,
   
25 64 2

n + nvt σ̂

ce qui conduit à l’intervalle de confiance pour 5a − 8b de niveau 95% :
" s  s  #
25 64 25 64
(5â − 8b̂) − t16 (0.975) + σ̂ 2 , (5â − 8b̂) + t16 (0.975) + σ̂ 2 .
n nvt n nvt

6. Notons tout d’abord que H0 s’écrit encore a − b = 0, de sorte qu’on effectue les mêmes
calculs qu’à la question précédente avec B = (1, −1). Cette fois, B β̂ suit la loi normale de
moyenne a − b et de variance :
 1   
0 2 1 1
Bσ 2 n B t
= σ + ,
0 nv1 t n nvt

ce qui donne pour n = 22 :

√ (â − b̂) − (a − b)
22  1/2 ∼ T(22−2) .
σ̂ 1 + v1t

Sous H0 , a = b, donc
 
√ |â − b̂|
P  22  1/2 > t20 (0.995) = 0.01.

σ̂ 1 + v1t

donc le test rejetant H0 lorsque

1 1/2
 
σ̂
|â − b̂| > √ 1+ t20 (0.995)
22 vt

est de niveau 1%.

Exercice 3
1. Le modèle s’écrit Y = Xβ + ε, avec
   
Y1 1 W1 Z1
 
a
Y =  ...  , X =  ... .. ..  , β =  b  et ε ∼ N (0, σ 2 I ).
  
. .  n
Yn 1 Wn Zn c

Les estimateurs des moindres carrés de a,b et c s’écrivent :


 

β̂ =  b̂  = (X t X)−1 X t Y.

On calcule
  
1 W1 Z1 k1k2 hW, 1i hZ, 1i
 
1 ... 1
X t X =  W1 . . . Wn   ... .. ..  = 
hW, 1i kW k2 hW, Zi 

. . 
Z1 . . . Z n 1 Wn Zn hZ, 1i hW, Zi kZk2
 
n nW̄ nZ̄
=  nW̄ r2 r2 sin θ  .
2
nZ̄ r sin θ r2
D’après l’énoncé, W̄ = Z̄ = 0 et cos θ > 0, donc :
 
n 0 0
X tX =  0 r2 r2 sin θ 
0 r2 sin θ r2
 
1/n 0 0
(X t X)−1 =  0 1
r2 cos2 θ
− sin θ 
r2 cos2 θ
,
− sin θ 1
0 r2 cos2 θ r2 cos2 θ
   
a b 1 d −b
puisque l’inverse de la matrice est définie lorsque ∆ = ad−bc 6= 0 par ∆ .
c d −c a
On obtient finalement :
   
â h1, Y i
β̂ =  b̂  = (X t X)−1 X t Y = (X t X)−1  hW, Y i 
ĉ hZ, Y i
 

=  2 2 −1
(r cos θ) hW − (sin θ)Z, Y i  .
(r2 cos2 θ)−1 h−(sin θ)W + Z, Y i

D’après le cours, on sait que :

β̂ − β ∼ N (0, σ 2 (X t X)−1 )

est indépendant de σ̂ 2 = kY − X β̂k2 /(n − 3), avec

(n − 3)σ̂ 2
∼ χ2(n−3) .
σ2
2. Rappelons que cos θ > 0 par hypothèse. D’après le cours, un intervalle de confiance de
niveau 1 − α pour c est donc donné par :

 
σ̂ σ̂
ĉ − tn−3 (1 − α/2), ĉ + tn−3 (1 − α/2) .
r cos θ r cos θ

Cet intervalle a pour longueur


2σ̂
L(θ) = tn−3 (1 − α/2).
r cos θ
Donc
4σ̂ 2
L2 (θ) = t2 (1 − α/2)
r2 cos2 θ n−3
et
4E(σ̂ 2 ) 2 4σ 2
E L2 (θ) = 2 t2 (1 − α/2),

tn−3 (1 − α/2) =
r cos2 θ r2 cos2 θ n−3
car σ̂ 2 est un estimateur sans biais de σ 2 .
Ainsi, θ 7→ E L2 (θ) a les variations inverses de la fonction cosinus sur ] − π/2, π/2[ ;


l’espérance de la longueur est minimum pour θ = 0, alors que l’espérance de la longueur


tend vers +∞ lorsque θ approche −π/2 ou π/2. Autrement dit, l’intervalle de confiance est
le meilleur dans le cas W ⊥ Z et est le pire dans le cas limite où W et Z sont colinéaires
(ceci est normal car le modèle n’est plus identifiable en b, c dans ce cas).
3. D’après le cours, un intervalle de confiance de niveau 1 − α/3 pour a est donné par
 
σ̂
P |â − a| ≤ √ tn−3 (1 − α/6) = 1 − α/3,
n

et pour b par
 
σ̂
P |b̂ − b| ≤ tn−3 (1 − α/6) = 1 − α/3,
r cos θ

ce qui implique (en utilisant la question 2)


 
σ̂
P |â − a| ≥ √ tn−3 (1 − α/6) ≤ α/3,
n
 
σ̂
P |b̂ − b| ≥ tn−3 (1 − α/6) ≤ α/3,
r cos θ
 
σ̂
P |ĉ − c| ≥ tn−3 (1 − α/6) ≤ α/3 .
r cos θ

Ainsi, par la borne de l’union, l’événement


     
σ̂tn−3 (1 − α/6) σ̂tn−3 (1 − α/6) σ̂tn−3 (1 − α/6)
|â − a| ≥ √ ∪ |b̂ − b| ≥ ∪ |ĉ − c| ≥
n r cos θ r cos θ

est de probabilité inférieure à α. On en déduit un parallélépipède rectangle de confiance de


niveau 97% = 1 − α (on choisit α = 0.03) pour (a, b, c) et pour n = 27 observations :
 
3 σ̂ σ̂
(a, b, c) ∈ R : |â − a| ≤ √ t24 (0.995) et max(|b̂ − b|, |ĉ − c|) ≤ t24 (0.995) .
3 3 r cos θ

4. D’après le cours, un ellipsoïde de confiance de niveau 1−α = 0.97 pour β = (a, b, c) lorsque
n = 27 est donné par
 
1
E(X) = β ∈ R3 : ( β̂ − β) t
(X t
X)( β̂ − β) ≤ f 3
24 (0.97)
3σ̂ 2
 
1  
= (a, b, c) ∈ R3 : n(â − a) 2
+ r 2
( b̂ − b) 2
+ r 2
(ĉ − c)2
+ 2r 2
sin θ(b̂ − b)(ĉ − c) ≤ f 3
24 (0.97)
3σ̂ 2

3 (0.97) est le quantile d’ordre 0.97 d’une loi de Fisher F 3 .


où f24 27

Exercice 4
1. On note Gj = (g1j . . . gnj )t , pour j = 1, . . . , p. Par hypothèse, les Gj sont deux à deux
orthogonaux. On a
  2
(G1 )t (G1 )t G1 . . .
   
0 δ1 . . . 0
  .. .. ..  .
Gt G =  ...  (G1 . . . Gp ) =  .. .. ..
= .
  
. . . . . 
p
(G )t 0 p
. . . (G ) G t p 0 . . . δp2

L’estimateur des moindres carrés de γ est donné par

γ̂ = (Gt G)−1 Gt Z
avec
1/δ12 . . .
 
0
(Gt G)−1 =  ... .. ..
.
 
. .
0 ... 1/δp2

Ainsi
γ̂j = hGj , Zi/δj2 .
L’estimateur des moindres carrés de σ 2 est donné par :
1
σ̂ 2 = kZ − Gγ̂k2 .
n−p

D’après le cours, σ̂ 2 est indépendant de γ̂, et on a

σ̂ 2
(n − p) ∼ χ2(n−p)
σ2
et
γ̂ − γ ∼ N (0, σ 2 (Gt G)−1 ).
2. On en déduit un intervalle de confiance au niveau 1 − α :
!
(n − p)σ̂ 2 (n − p)σ̂ 2
P −1 ≤ σ 2 ≤ −1 = 1 − α.
Fχ2 (1 − α/2) Fχ2 (α/2)
(n−p) (n−p)

Pour n = 25 et p = 5, on obtient l’intervalle de confiance pour σ 2 au niveau 95% :


" #
20σ̂ 2 20σ̂ 2
, ,
Fχ−1
2 (0.975) Fχ−1
2 (0.025)
20 20

où Fχ−1 −1
2 (0.025) ' 9.6 et Fχ2 (0.975) ' 34.2.
20 20

3. On sait que

1/δ12 . . .
  
0
γ̂ − γ ∼ N (0, σ 2 (Gt G)−1 ) = N 0, σ 2  ... .. ..
 .
  
. .
0 ... 1/δp2

Comme le vecteur γ̂ est gaussien et que les composantes γ̂k de γ̂ sont non corrélées, elles
sont indépendantes. De plus, leurs lois marginales sont données par

σ2
 
γ̂k − γk ∼ N 0, 2 .
δk

Par l’indépendance, la loi de pj=1 γ̂j est tout simplement :


P

   
p p p p 2
X X X 1 X σ
γ̂j ∼ N  γj , σ 2 2
=N γj , 2  .
δ j δ
j=1 j=1 j=1 j=1

4. On déduit de la question précédente


Pp Pp
j=1 γ̂j − j=1 γj
∼ N (0, 1)
σ/δ
mais on ne connaît pas σ 2 ! Il faut donc l’estimer et utiliser la loi de Student. En utilisant
2
la question 2, les v.a. γ̂ − γ et (n−p)σ̂
σ2
∼ χ2(n−p) sont indépendantes. On a alors :
Pp
γ̂j − pj=1 γj
P
j=1
σ/δ
q ∼ T (n − p),
σ̂ 2
σ2

c’est-à-dire
p
X p 
δ X
γ̂j − γj ∼ T (n − p).
σ̂
j=1 j=1

Les calculs habituels mènent à l’intervalle de confiance suivant au niveau 1 − α pour


P p
j=1 γj :
 
p p
X σ̂ X σ̂
 γ̂j − FT−1
(n−p) (1 − α/2), γ̂j + FT−1 (1 − α/2) .
δ δ (n−p)
j=1 j=1

n = 32 et p = 7, on construit le test à partir de l’intervalle de confiance : on rejette


Pour P
H0 : pj=1 γj = 0 au niveau 1% si
 
7 7
X σ̂ X σ̂
0∈/ γ̂j − FT−1 (0.995), γ̂j + FT−1 (0.995) ,
δ (25) δ (25)
j=1 j=1

c’est-à-dire
7
X σ̂
γ̂j > FT−1

(0.995).

j=1 δ (25)

Exercice 5
1. Réécriture sous forme de modèle linéaire.
(a) La difficulté vient de ce que f est une fonction, donc l’espace des paramètres est
énorme (dimension infinie). C’est un exemple typique de modèle non paramétrique.
(b) Pour le modèle proposé, nous pouvons écrire pour tout x ∈ [0, 1],
p
X
f (x) = βj φj (x)
j=1

où p = 2K + 1 et pour tout 1 ≤ k ≤ K et x ∈ [0, 1],


 
 β 1 = a0  φ1 (x) = 1
β2k = ak ; φ (x) = cos(2πkx)
 2k
β2k+1 = bk φ2k+1 (x) = sin(2πkx)

Ainsi, en posant pour tout 1 ≤ i ≤ n et 1 ≤ j ≤ p

Xi,j = φj (i/n),

nous obtenons le modèle linéaire gaussien


p
X
Yi = βj φj (i/n) + εi = (Xβ)i + εi .
j=1
(c) Si p ≤ n, on peut vérifier que les vecteurs colonnes Xj , 1 ≤ j ≤ p, de X satisfont la
propriété suivante :

Xjt Xj 0 = 0 pour j 6= j 0 , kX1 k2 = n et kXj k2 = n/2 pour j > 1. (1)

Pour montrer cela, nous utilisons de manière répétée que pour tout ` ∈ {−(n −
1), . . . , (n − 1)},
n
X n
X
i2π`i/n
e = 0 si ` 6= 0 et ei2π`i/n = n si ` = 0.
i=1 i=1

Allons-y, prouvons courageusement (??). Le fait que kX1 k2 = n ne pose pas problème.
Pour tout 0 ≤ k ≤ K, 1 ≤ k 0 ≤ K, on a 1 ≤ k + k 0 ≤ 2K < p, ce qui donne
sympathiquement
n
X
t
X2k+1 X2k0 = sin(2πki/n) cos(2πk 0 i/n)
i=1
n  
0 0
X
= = ei2π(k+k )i/n − ei2π(k −k)i/n /2
i=1
=0
0 Pn i2π(k0 −k)i/n
car ei2π(k+k )i/n 6= 1 et i=1 e ∈ R. De plus, pour tout 0 ≤ k, k 0 ≤ K avec
k + k 0 > 0,
n
X
t
X2k+1 X2k0 +1 = sin(2πki/n) sin(2πk 0 i/n)
i=1
n  
i2π(k−k0 )i/n i2π(k0 +k)i/n
X
= < e −e /2
i=1
n  
0
X
= < ei2π(k−k )i/n /2
i=1

car ei2π(k0 +k)i/n


6= 1 puisque 0 < k + k 0 < p ≤ n. Lorsque k 6= k 0 , on a ei2π(k−k )i/n 6= 1
0

t
donc X2k+1 X2k0 +1 = 0. Si par contre k = k 0 > 0, alors X2k+1
t X2k0 +1 = n/2. De la
même façon, on montre que pour tout 1 ≤ k, k ≤ K, X2k X2k0 = 0 pour k 6= k 0 et
0 t

= n/2 si k 0 = k. Tout ceci prouve finalement que (??) est vraie !


Ainsi lorsque n ≥ p, X est de plein rang et le modèle est identifiable. Nous pouvons
calculer l’estimateur des moindres carrés à l’aide de la méthode usuelle :

βb = (X t X)−1 X t Y,

Ici, par l’orthogonalité (??), X t X est la matrice de diagonale (n, n/2, . . . , n/2), ce qui
donne pour tout 1 ≤ k ≤ K

 βb1 = Yn

βb2k = 2n−1 ni=1 Yi cos(2πki/n)
P

 βb −1
Pn
2k+1 = 2n i=1 Yi sin(2πki/n)

Ceci conduit aux estimateurs


K
X 
µ
bi = Yn + βb2k cos(2πki/n) + βb2k+1 sin(2πki/n) ,
k=1
et
K
X 
fb(x) = Yn + βb2k cos(2πkx) + βb2k+1 sin(2πkx)
k=1

2. Overfitting et choix de modèle.


b 2 /σ 2 ∼ χ2 donc
(a) D’après le cours, on sait que kY − X βk n−p

b 2) = 1 − p σ2.
 
rn = n−1 E(kY − X βk
n
Ainsi, lorsque p est fixe et n tend vers l’infini, c’est-à-dire lorsque l’on dispose de plus
en plus de données, le modèle permet de retrouver les données initiales Yi à une erreur
σ près (en écart-type). Cette erreur asymptotique est logique et due au fait que les
données observées sont elles-mêmes bruitées.
(b) Si p = n, alors rn = 0 c’est-à-dire que X βb = Y . Ainsi la fonction fb passe par les
points de coordonnées (i/n, Yi ), 1 ≤ i ≤ n. Pour autant, comme le montre la question
suivante, ceci n’est pas souhaitable car l’estimateur fˆ “colle” trop aux données : c’est
le phénomène de sur-ajustement (ou overfitting).
(c) La qualité de l’approximation dépend fortement du modèle choisi :
- si p = 3, le modèle ne contient pas la fonction f ! Il y a donc un biais et l’approxi-
mation est trop “plate”.
- si p = 81, le modèle contient bien la fonction f , mais on voit que le modèle est
trop gros, ce qui se traduit par un sur-ajustement aux données. En fait, on estime
plein de coefficients qui sont en réalité égaux à zéro donc inutilement.
- si p = 11, il s’agit du bon modèle, donc l’approximation est assez bonne (autant
que σ le permet).
La moralité est que le choix du modèle est très important. Il faut prendre un modèle
assez grand pour avoir peu de biais, mais pas trop grand pour avoir une variance
petite. C’est le fameux compromis biais-variance.

Exercice 6
1. La projection orthogonale de X sur F = vect((1, · · · , 1)t ) est

= F (F t F )−1 F t X = X̄n (1 · · · 1)t .

Ainsi, le théorème de Cochran assure que X̄n (1 · · · 1)t est indépendant de X − X̄n (1 · · · 1)t .
Ceci implique que X̄n est indépendant de s2n = n−1 ||X − X̄n (1 · · · 1)t ||2 . De plus, nous

avons nX̄n ∼ N (0, 1) et le théorème de Cochran nous dit que

||X − X̄n (1 · · · 1)t ||2 = ns2n ∼ χ2 (n − 1).

2. (a) Posons Yi = Xi − m, de sorte que EYi = 0 pour tout i. Ainsi, par définition
n
X n
X n
X n
X n
X
ns2n = 2
(Xi − X̄n ) = 2
(Yi − Ȳn ) = Yi2 − 2Ȳn 2
Yi + n(Ȳn ) = Yi2 − n(Ȳn )2 .
i=1 i=1 i=1 i=1 i=1
Ainsi, on a
 !2 
n
X n
X
E(ns2n ) = E(Yi2 ) − nE  n−1 Yi 
i=1 i=1
n
!
X
= nσ 2 − nVar n−1 Yi
i=1
= nσ 2 − σ 2
= (n − 1)σ 2 .

Remarque : on obtient le même résultat en travaillant directement sur Xi plutôt que


sur Yi et en remarquant que E(X12 ) = Var(X1 ) + E(X1 )2 = Var(X1 ) + E(X̄n )2 .
Par suite, comme X̄n et ns2n sont indépendants et que les Xi sont i.i.d., on a pour
tout t ∈ R,
 X n !
2 2
n
= E s2n E exp itX1 = φn (t)E s2n .
   
E sn exp itnX̄n = E sn E exp it Xi
i=1

(b) Remarquons tout d’abord que φ0 (t) = iE X1 exp itX1 et φ00 (t) = −E X12 exp itX1 .
 

En particulier, φ0 (0) = im. De plus, comme


n
X
ns2n = Xj2 − n(X̄n )2
j=1
n
X n
X
−1
= Xj2 −n Xk X`
j=1 k,`=1
n
X X
= (1 − 1/n) Xj2 − n−1 Xk X` ,
j=1 k6=`

nous obtenons
n n n
! !
  X Y X Y
E ns2n eitnX̄n =(1 − 1/n) E Xj2 eitXh + n−1 E Xk X` eitXh
j=1 h=1 k6=` h=1
 
n
X Y
=(1 − 1/n) E Xj2 eitXj eitXh 
j=1 h6=j
 
X Y
+ n−1 E Xk eitXk X` eitX` eitXh 
k6=` h∈{k,`}
/
 
n
X Y
=(1 − 1/n) E(Xj2 eitXj )E  eitXh 
j=1 h6=j
 
X Y
+ n−1 E Xk eitXk E X` eitX` E  eitXh  ,
 

k6=` h∈{k,`}
/

en utilisant l’indépendance des Xi . Finalement, comme les Xi sont aussi identiquement


distribués,
 
E ns2n eitnX̄n = − (n − 1)φ00 (t)φn−1 (t) + (n − 1)(φ0 (t))2 φn−2 (t).
En utilisant la question 1, on obtient donc

φn (t)(n − 1)σ 2 = −(n − 1)φ00 (t)φn−1 (t) + (n − 1)(φ0 (t))2 φn−2 (t),

ce qui donne la relation voulue


2
φ00 φ0

− = −σ 2 , φ(0) = 1, φ0 (0) = im.
φ φ

(c) On résout l’équation différentielle. Comme


2
φ00 φ0

00
(log φ) (t) = − ,
φ φ

elle s’écrit
(log φ)00 (t) = −σ 2 .
D’où log φ = −σ 2 t2 /2 + at + b, pour a, b ∈ R, et les conditions initiales φ(0) = 1 et
φ0 (0) = im donnent
 2 2 
−σ t
φ(t) = exp + imt pour tout t ∈ R.
2

On reconnaît la fonction caractéristique de la loi N (m, σ 2 ) et on en déduit que les


v.a. Xi suivent la loi N (m, σ 2 ), pour tout i = 1, . . . , n.