Académique Documents
Professionnel Documents
Culture Documents
Lucien D. GNING
lucien.gning@univ-thies.sn
December 5, 2021
yi = β0 + β1 xi1 + . . . + βp xip + εi i = 1, . . . , n
Définition
Un modèle de régression linéaire est défini par une équation de la forme :
Y = Xβ + ε
X α = α0 1 + α1 X1 + . . . + αp Xp
0
oùα = (α0 , α1 , . . . , αp ) ∈ Rp+1
Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 4 / 41
Estimateurs des Moindres Carrés Ordinaires
Proposition
L’estimateur β̂ des Moindres Carrés Ordinaires a pour expression :
0 0
β̂ = (X X )−1 X Y ,
Remarque
0
L’hypothèse H1 assure que la matrice X X est bien inversible. (A vérifier
en exercie)
Preuve
On cherche β ∈ Rp+1 qui minimise la fonction
0 0 0
S(β) = kY − X βk2 = β X X β − 2Y X β + kY k2
0
Or S est de type quadratique en β, avec X X symétrique définie positive,
donc le problème admet une unique solution β̂ : c’est le point où le
gradient de S est nul. Ceci s’écrit :
0 0 0 0 0
∇S(β̂) = 2β̂ X X − 2Y X = 0 ⇐⇒ X X β̂ = X Y
0 0 0
La matrice X X étant inversible par H1 ceci donne β̂ = (X X )−1 X Y .
0 0
Puisque par définition Ŷ = PX Y = X β̂ = X (X X )−1 X Y et que cette
relation est valable pour tout Y ∈ Rn , on en déduit que
0 0
PX = X (X X )−1 X .
Preuve
Pour le biais il suffit d’écrire :
0 0 0 0 0 0
E[β̂] = E[((X X )−1 X Y )] = (X X )−1 X E[Y ] = (X X )−1 X E[X β + ε]
Suite de la preuve
Preuve
Or
V(Y ) = V(X β + ε) = V(ε) = σ 2 In ,
donc :
0 0 0 0
V[β̂] = σ 2 (X X )−1 X X (X X )−1 = σ 2 (X X )−1
L’estimateur des MCO est optimal en un certain sens. C’est ce que précise
le résultat suivant, généralisation de celui vu en régression linéaire simple.
Théorème
Gauss-Markov
L’estimateur β̂ des MCO est de variance minimale parmi les estimateurs
linéaires sans biais de β.
Propriétés des estimateurs MCO
Preuve
Soit β̃ = AY un autre estimateur sans biais de β, montrons que
V(β̃) ≥ V(β̂). On a:
car Y = X β + ε et X β ∈ M(X ).
Proposition
Sous les hypothèses H1 et H2 , on a :
1 E(ε̂) = 0
2 V(ε̂) = σ 2 PX ⊥
3 E(Ŷ ) = X β
4 V(Ŷ ) = σ 2 PX
5 Cov(ε̂, Ŷ ) = 0
Preuve
1 E(ε̂) = E(P ⊥ ε) = P ⊥ E(ε) = 0
X X
0
2 V(ε̂) = V(PX ⊥ ε) = PX ⊥ V(ε)PX ⊥ = PX ⊥ V(ε)PX ⊥ = σ 2 PX ⊥ PX ⊥ =
σ 2 PX ⊥
3 E(Ŷ ) = E(X β̂) = X β car β̂ est sans biais
0 0 0
4 V(Ŷ ) = V(X β̂) = X V(β̂)X = σ 2 X (X X )−1 X = σ 2 PX
5 Cov(ε̂, Ŷ ) = Cov(ε̂, Y − ε̂) = Cov(ε̂, Y ) − V(ε̂) =
Cov(PX ⊥ Y , Y ) − σ 2 PX ⊥ et puisque V(Y ) = σ 2 I , nous avons
Cov(ε̂, Ŷ ) = PX ⊥ V(Y ) − σ 2 PX ⊥ = σ 2 PX ⊥ − σ 2 PX ⊥ 0
Cet estimateur est biaisé. Ce biais est néanmoins facile à corriger, comme
le montre le résultat suivant. C’est une généralisation du résultat obtenu
en régression linéaire simple, en remplaçant n − 2 par n − p − 1.
Proposition
kε̂k2 SCR
La statistique σ̂ 2 = n−p−1 = n−p−1 est un estimateur sans biais de σ 2 .
Preuve
Nous calculons E(kε̂k2 ), puisque c’est un scalaire, il est égal à sa trace, ce
qui donne :
0 0
E(kε̂k2 ) = E[Tr (kε̂k2 )] = E[Tr (ε̂ ε̂)] = E[Tr (ε̂ε̂ )]
0
= Tr (E[ε̂ε̂ ]) = Tr (V(ε̂)) = Tr (σ 2 PX ⊥ )
E(kε̂k2 ) = (n − p − 1)σ 2 .
kε̂k2 SCR
D’où σ̂ 2 = n−p−1 = n−p−1 est un estimateur sans biais de σ 2
Estimation de σ 2
0 kε̂k2 0 SCR 0
σ̂β̂2 = σ̂ 2 (X X )−1 = (X X )−1 = (X X )−1
n−p−1 n−p−1
0
Soit xn+1 = (1, xn+1,1 , . . . , xn+1,p ) une nouvelle valeur pour laquelle nous
voudrions prédire yn+1 . Cette variable réponse est définie par
0
yn+1 = xn+1 β + εn+1 avec E(εn+1 ) = 0, V(εn+1 ) = σ 2 et
Cov(εn+1 , εi ) = 0 pour i = 1, . . . , n.
La méthode naturelle est de prédire la valeur correspondante grâce au
0
modèle ajusté, soit ŷn+1 = xn+1 β̂. L’erreur de prévision est à nouveau
0
définie par ε̂n+1 = yn+1 − ŷn+1 = xn+1 (β − β̂) + εn+1 .
Deux types d’erreurs vont alors entacher notre prévision : la première due
à l’incertitude sur εn+1 , l’autre à l’incertitude inhérente à l’estimateur β̂.
Proposition
L’erreur de prévision satisfait les propriétés suivantes :
0 0
E(ε̂n+1 ) = 0 V(ε̂n+1 ) = σ 2 1 + xn+1 (X X )−1 xn+1
Preuve
Comme E(εn+1 ) = 0 et puisque β̂ est un estimateur sans biais de β, il est
clair que :
0 0
E(ε̂n+1 ) = E(xn+1 (β − β̂) + εn+1 ) = xn+1 (β − E(β̂)) + E(εn+1 ) = 0.
Définition
1 Comme dans le cas de la régression linéaire simple, le coefficient de
∂ log(L(β̂,σ 2 )) n 1
2
= − 2 + 4 kY − X β̂k2
∂σ 2σ 2σ
d’où il vient :
2 kY − X β̂k2
σ̂mv =
n
Cet estimateur est biaisé contrairement à celui des moindres carrés
Pn 2
2 kY − X β̂k2 2
nσ̂mv i=1 ε̂i
σ̂ = = =
n−p−1 n−p−1 n−p−1
Loi des estimateurs
ε ∼ N (0, σ 2 In ) ⇒ Y ∼ N (X β, σ 2 In .)
Proposition
Sous les hypothèses H1 et H2 nous avons :
0
1 β̂ est un vecteur gaussien de moyenne β et de variance σ 2 (X X )−1 :
0
β̂ ∼ N (β, σ 2 (X X )−1 )
2 β̂ et σ̂ 2 sont indépendants
2
3 (n − p − 1) σσ̂2 ∼ χ2n−p−1
0 0 0 0 0 0
β̂ = (X X )−1 X Y = (X X )−1 X [X (X X )−1 X ]Y
0 0
= (X X )−1 X PX Y
kε̂k2 kY − PX Y k2
σ̂ 2 = =
n−p−1 n−p−1
Preuve
Par le théorème de Cochran, nous savons que PX Y et (Y − PX Y ) sont
indépendants, il en va de même pour toutes les fonctions de l’un et de
l’autre.
1 En rappelant que PX ⊥ est la projection orthogonale sur M⊥ (X ) le
sous espace de dimension n − p − 1 de Rn , on a:
ε̂ = (Y − PX Y ) = PX ⊥ Y = PX ⊥ (X β + ε) = PX ⊥ ε
β̂j − βj β̂j − βj
Tj = p 0 = ∼ Tn−p−1
σ̂ [(X X )−1 ]jj σ̂β̂j
Preuve
D’après la proposition précédente, on sait d’une part que
0 σ̂ 2
β̂j ∼ N (βj , σ 2 (X X )−1 2
jj ), et d’autre part que (n − p − 1) σ 2 ∼ χn−p−1 et
enfin que βj et σ̂ 2 sont indépendants. Il reste alors à écrire Tj sous la
forme :
β̂ −βj
q j
σ (X 0 X )−1
jj
Tj = σ̂
σ
pour une reconnaı̂tre une loi de Student Tn−p−1 .
Test de significativité d’un paramètre du modèle
H0 : βj = 0
β̂j
Tj = ∼ Tn−p−1
σ̂β̂j
H0 : β1 = β2 = . . . = βq = 0 avec q ≤ p
vs
yi = β0 + βq+1 xiq+1 + . . . + βp xip + εi sous H0
L’hypothèse H0 peut être testée au moyen de la statistique :
SCR0 − SCR n−p−1
F = × ∼ Fq,n−p−1
SCR q
où SCR0 est la somme des carrés des résidus du modèle ’réduit’ sous H0
et SCR est la somme des carrés des résidus du modèle de référence.
Test de nullité de quelques paramètres du modèle
SCE /p (n − p − 1)R 2
F = = ∼ Fp,n−p−1
SCR/(n − p − 1) 1 − R2
Proposition
Pour j = 1, . . . , p, un intervalle de confiance de niveau (1 − α)% pour βj
est :
q q
0 −1 0 −1
β̂j − tn−p−1 (1 − α/2)σ̂ (X X )jj , β̂j + tn−p−1 (1 − α/2)σ̂ (X X )jj
Proposition
Intervalle de confiance pour la prévision. Un intervalle de confiance de
niveau (1 − α)% pour yn+1 est donné par :
q
0 0 0
xn+1 β̂ ± tn−p−1 (1 − α/2)σ̂ 1 + xn+1 (X X )−1 xn+1
Analyse de résidus
1 Résidus simples :
ε̂i = yi − ŷi , i = 1, . . . , n
2 Résidus standardisés :
ε̂i
ri = √ , i = 1, . . . , n
σ̂( 1 − hii )
où
1 (xi − x̄)(xj − x̄)
hij = + Pn 2
n k=1 (xk − x̄)
3 Résidus studentisés :
ε̂
ti = √i , i = 1, . . . , n
σ̂(i) ( 1 − hii )
2 est la variance résiduelle estimée dans l’échantillon privé de
où σ̂(i)
l’individu i.
Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 31 / 41
Analyse de résidus
1
vj = ,
1 − Rj2
3 Cp de Mallow
SCR
+ 2(p + 1) − n
Cp =
σ̂ 2
Le meilleur modèle sera celui qui aura le plus petit AIC, BIC ou Cp de
Mallow.