Vous êtes sur la page 1sur 40

Cours de Modèles linéaires Généralisés

Régression Linéaire Multiple

Lucien D. GNING
lucien.gning@univ-thies.sn

December 5, 2021

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 1 / 41


Modèle linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du modèle


de régression simple lorsque les variables explicatives sont en nombre
quelconque. Nous supposons donc que les données collectées suivent le
modèle suivant :

yi = β0 + β1 xi1 + . . . + βp xip + εi i = 1, . . . , n

p correspond au nombre de variables explicatives. En notant


0 0
Y = (y1 , . . . , yn ) ∈ Rn , β = (β0 , β1 , . . . , βp ) ∈ Rp+1 ,
0
ε = (ε1 , . . . , εn ) ∈ Rn et
 
1 x11 x12 . . . x1p
1 x21 x22 . . . x2p 
X = .
 
.. .. .. 
 .. . ... . . 
1 xn1 xn2 . . . xnp

nous obtenons la définition suivante :


Modèle linéaire multiple

Définition
Un modèle de régression linéaire est défini par une équation de la forme :

Y = Xβ + ε

Les hypothèses concernant le modèle sont :


1 H1 : rang(X ) = p + 1 (matrice X de rang plein)
2 H2 : E(ε) = 0, V(ε) = σ 2 In où In est la matrice d’identité d’ordre n.
Notations : Xj la j ème colonne de la matrice X , elle correspond à la j ème
variable.
0
La i ème ligne de X sera quand à elle notée xi = (1, xi1 , . . . , xip )
Ainsi le modèle se réécrit :
0
yi = xi β + εi ∀i = 1, . . . , n
0
Ce qui implique : E(yi ) = xi β et E(Y ) = X β
Estimateurs des Moindres Carrés Ordinaires
Comme pour la régression linéaire simple, nous allons considérer ici une
fonction de coût quadratique, d’où la dénomination de Moindres Carrés
Ordinaires (MCO).
Définition
L’estimateur des moindres carrés β̂ est défini comme suit :
n 
X p
X 2
2
β̂ = argminkY − X βk = argmin yi − β0 − βj xij
β∈Rp+1 β∈Rp+1 i=1 j=1

Notons M(X ) le sous espace engendré par 1, X1 , . . . , Xp , les colonnes de


X . Il est de dimension p + 1 par l’hypothèse (H1 ) et tout vecteur de cet
espace est de la forme :

X α = α0 1 + α1 X1 + . . . + αp Xp
0
oùα = (α0 , α1 , . . . , αp ) ∈ Rp+1
Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 4 / 41
Estimateurs des Moindres Carrés Ordinaires

1 On note PM(X ) (Y ) le projeté orthogonal de Y sur M(X ). Puisque


X = (1, X1 , . . . , Xp ) forme une base de M(X ), il existe une unique
décomposition de la forme PM(X ) (Y ) = X β.
2 Rappelons que par définition du projeté orthogonal, PM(X ) (Y ) est
l’unique vecteur de M(X ) minimisant la distance euclidienne
kY − PM(X ) (Y )k, ce qui revient au même que de minimiser son carré
:
n
2
X 2
kY − PM(X ) (Y )k = yi − (β0 + β1 xi1 + . . . βp xip )
i=1

3 Remarquons que Ŷ = PM(X ) (Y ) = PX Y où PX est la matrice de la


projection orthogonale sur M(X ). Il peut aussi s’écrire sous la forme
Ŷ = X β̂, où β̂ est l’estimateur des MCO de β. L’espace orthogonal à
M(X ), noté M⊥ (X ), est souvent appelé espace des résidus. En tant
que supplémentaire orthogonal, il est de dimension
n − p − 1 = dim(Rn ) − dim(M(X )).
Estimateurs des Moindres Carrés Ordinaires

Proposition
L’estimateur β̂ des Moindres Carrés Ordinaires a pour expression :
0 0
β̂ = (X X )−1 X Y ,

et la matrice PX de projection orthogonale sur M(X ) s’écrit :


0 0
PX = X (X X )−1 X .

Remarque
0
L’hypothèse H1 assure que la matrice X X est bien inversible. (A vérifier
en exercie)

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 6 / 41


Estimateurs des Moindres Carrés Ordinaires

Preuve
On cherche β ∈ Rp+1 qui minimise la fonction
0 0 0
S(β) = kY − X βk2 = β X X β − 2Y X β + kY k2
0
Or S est de type quadratique en β, avec X X symétrique définie positive,
donc le problème admet une unique solution β̂ : c’est le point où le
gradient de S est nul. Ceci s’écrit :
0 0 0 0 0
∇S(β̂) = 2β̂ X X − 2Y X = 0 ⇐⇒ X X β̂ = X Y
0 0 0
La matrice X X étant inversible par H1 ceci donne β̂ = (X X )−1 X Y .
0 0
Puisque par définition Ŷ = PX Y = X β̂ = X (X X )−1 X Y et que cette
relation est valable pour tout Y ∈ Rn , on en déduit que
0 0
PX = X (X X )−1 X .

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 7 / 41


Propriétés des estimateurs MCO
Proposition
L’estimateur β̂ des moindres carrés est sans biais, ie E(β̂) = β et sa
matrice de covariance est
0
V(β̂) = σ 2 (X X )−1

Preuve
Pour le biais il suffit d’écrire :
0 0 0 0 0 0
E[β̂] = E[((X X )−1 X Y )] = (X X )−1 X E[Y ] = (X X )−1 X E[X β + ε]

Puisque E[ε] = 0, il vient :


0 0
E[β̂] = (X X )−1 X X β = β

Pour la variance, on procède de même :


0 0 0 0 0
V[β̂] = V[((X X )−1 X Y )] = (X X )−1 X V(Y )X (X X )−1
Propriétés des estimateurs MCO

Suite de la preuve
Preuve
Or
V(Y ) = V(X β + ε) = V(ε) = σ 2 In ,
donc :
0 0 0 0
V[β̂] = σ 2 (X X )−1 X X (X X )−1 = σ 2 (X X )−1

L’estimateur des MCO est optimal en un certain sens. C’est ce que précise
le résultat suivant, généralisation de celui vu en régression linéaire simple.
Théorème
Gauss-Markov
L’estimateur β̂ des MCO est de variance minimale parmi les estimateurs
linéaires sans biais de β.
Propriétés des estimateurs MCO

Preuve
Soit β̃ = AY un autre estimateur sans biais de β, montrons que
V(β̃) ≥ V(β̂). On a:

V(β̃) = V(β̃ − β̂ + β̂) = V(β̃ − β̂) + V(β̂) + 2Cov(β̃ − β̂, β̂)

Comme β̃ est sans biais E(β̃) = E(AY ) = E(A(X β + ε)) = AX β = β


alors AX = I . La covariance devient :
0 0
Cov(β̃ − β̂, β̂) = Cov(AY , (X X )−1 X Y ) − V(β̂)
0 0
= σ 2 AX (X X )−1 − σ 2 (X X )−1 = 0

Donc V(β̃) = V(β̃ − β̂) + V(β̂) ou encore


V(β̃) − V(β̂) = V(β̃ − β̂).
La variance étant semi-définie positive on obtient le résultat escompté.
Résidus et variance résiduelle

Les résidus sont définis par :


0
ε̂ = (ε̂1 , . . . , ε̂n ) = Y − Ŷ = (I − PX )Y = PX ⊥ Y = PX ⊥ ε

car Y = X β + ε et X β ∈ M(X ).
Proposition
Sous les hypothèses H1 et H2 , on a :
1 E(ε̂) = 0
2 V(ε̂) = σ 2 PX ⊥
3 E(Ŷ ) = X β
4 V(Ŷ ) = σ 2 PX
5 Cov(ε̂, Ŷ ) = 0

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 11 / 41


Résidus et variance résiduelle

Preuve
1 E(ε̂) = E(P ⊥ ε) = P ⊥ E(ε) = 0
X X
0
2 V(ε̂) = V(PX ⊥ ε) = PX ⊥ V(ε)PX ⊥ = PX ⊥ V(ε)PX ⊥ = σ 2 PX ⊥ PX ⊥ =
σ 2 PX ⊥
3 E(Ŷ ) = E(X β̂) = X β car β̂ est sans biais
0 0 0
4 V(Ŷ ) = V(X β̂) = X V(β̂)X = σ 2 X (X X )−1 X = σ 2 PX
5 Cov(ε̂, Ŷ ) = Cov(ε̂, Y − ε̂) = Cov(ε̂, Y ) − V(ε̂) =
Cov(PX ⊥ Y , Y ) − σ 2 PX ⊥ et puisque V(Y ) = σ 2 I , nous avons
Cov(ε̂, Ŷ ) = PX ⊥ V(Y ) − σ 2 PX ⊥ = σ 2 PX ⊥ − σ 2 PX ⊥ 0

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 12 / 41


Estimation de σ 2

Comme en régression linéaire simple, un estimateur ”naturel” de la


variance résiduelle est donné par :
n n
1X 1X 2 1
(yi − ŷi )2 = ε̂i = kε̂k2 .
n n n
i=1 i=1

Cet estimateur est biaisé. Ce biais est néanmoins facile à corriger, comme
le montre le résultat suivant. C’est une généralisation du résultat obtenu
en régression linéaire simple, en remplaçant n − 2 par n − p − 1.
Proposition
kε̂k2 SCR
La statistique σ̂ 2 = n−p−1 = n−p−1 est un estimateur sans biais de σ 2 .

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 13 / 41


Estimation de σ 2

Preuve
Nous calculons E(kε̂k2 ), puisque c’est un scalaire, il est égal à sa trace, ce
qui donne :
0 0
E(kε̂k2 ) = E[Tr (kε̂k2 )] = E[Tr (ε̂ ε̂)] = E[Tr (ε̂ε̂ )]
0
= Tr (E[ε̂ε̂ ]) = Tr (V(ε̂)) = Tr (σ 2 PX ⊥ )

et comme PX ⊥ est la matrice de la projection orthogonale sur un espace


de dimension n − p − 1 on a bien :

E(kε̂k2 ) = (n − p − 1)σ 2 .
kε̂k2 SCR
D’où σ̂ 2 = n−p−1 = n−p−1 est un estimateur sans biais de σ 2
Estimation de σ 2

On déduit de cet estimateur σ̂ 2 de la variance résiduelle σ 2 un estimateur


0
σ̂β̂2 de la variance de V(β̂) = σ 2 (X X )−1 :

0 kε̂k2 0 SCR 0
σ̂β̂2 = σ̂ 2 (X X )−1 = (X X )−1 = (X X )−1
n−p−1 n−p−1

En particulier, un estimateur de l’écart-type de l’estimateur β̂i du i-ème


coefficient de la régression est tout simplement :
q
σ̂i = σ̂β̂i = σ̂ [(X 0 X )−1 ]ii
Prévision

0
Soit xn+1 = (1, xn+1,1 , . . . , xn+1,p ) une nouvelle valeur pour laquelle nous
voudrions prédire yn+1 . Cette variable réponse est définie par
0
yn+1 = xn+1 β + εn+1 avec E(εn+1 ) = 0, V(εn+1 ) = σ 2 et
Cov(εn+1 , εi ) = 0 pour i = 1, . . . , n.
La méthode naturelle est de prédire la valeur correspondante grâce au
0
modèle ajusté, soit ŷn+1 = xn+1 β̂. L’erreur de prévision est à nouveau
0
définie par ε̂n+1 = yn+1 − ŷn+1 = xn+1 (β − β̂) + εn+1 .
Deux types d’erreurs vont alors entacher notre prévision : la première due
à l’incertitude sur εn+1 , l’autre à l’incertitude inhérente à l’estimateur β̂.
Proposition
L’erreur de prévision satisfait les propriétés suivantes :
0 0
E(ε̂n+1 ) = 0 V(ε̂n+1 ) = σ 2 1 + xn+1 (X X )−1 xn+1


Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 16 / 41


Prévision

Preuve
Comme E(εn+1 ) = 0 et puisque β̂ est un estimateur sans biais de β, il est
clair que :
0 0
E(ε̂n+1 ) = E(xn+1 (β − β̂) + εn+1 ) = xn+1 (β − E(β̂)) + E(εn+1 ) = 0.

Calculons la variance de l’erreur de prévision. Puisque β̂ dépend


uniquement des variables aléatoires (εi )1≤i≤n , dont εn+1 est décorrélée. Il
vient :
0 0
V(ε̂n+1 ) = V xn+1 (β − β̂) + εn+1 = xn+1 V(β̂)xn+1 + σ 2

0 0
= σ 2 1 + xn+1 (X X )−1 xn+1


Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 17 / 41


Coefficient de détermination ajustée Ra2

Définition
1 Comme dans le cas de la régression linéaire simple, le coefficient de

détermination R 2 est défini par :


SCE SCR
R2 = =1− .
SCT SCT
2 Néanmoins, on peut lui reprocher de ne pas tenir compte de la
dimension de l’espace de projection M(X ), d’où la définition du
coefficient de détermination ajusté.

n − 1 SCR n−1 (n−1)R 2 −p


Ra2 = 1− = 1− (1−R 2 )=
n − p − 1 SCT n−p−1 n−p−1

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 18 / 41


Le modèle linéaire multiple gaussien
Nous avons supposé un modèle de la forme :
0
yi = xi β + εi = β0 + β1 xi1 + . . . + βp xip + εi i = 1, . . . , n
que nous avons réécrit sous la forme matricielle :
      
y1 1 x11 x12 . . . x1p β0 ε1
y2  1 x21 x22 . . . x2p  β1  ε2 
 ..  =  .. ..   ..  +  .. 
      
.. .. ..
 .  . . . . .  .   . 
yn 1 xn1 xn2 . . . xnp βp εn
| {z } | {z } | {z } | {z }
Y X β ε

Ici nous suppons que


1 H : rang(X ) = p + 1
1
2 H : ε ∼ N (0, σ 2 I ), où I est la matrice d’identité d’ordre n et
2 n n
σ 2 ∈ R∗+ .
Ceci signifie que les erreurs sont indépendants et identiquement distribués.
L’intérêt de supposer les erreurs sont gaussiennes est de pouvoir en déduire
les lois de nos estimateurs, donc de construire des régions de confiance et
des tests d’hypothèses.
Estimateurs du maximum de vraisemblance
Commençons par remarquer que les yi sont eux-mêmes gaussiens
0 0
εi ∼ N (0, σ 2 ) ⇒ yi = xi β + εi ∼ N (xi β, σ 2 )
et mutuellement indépendants puisque les erreurs εi le sont. La
vraisemblance s’en déduit :
n  n  n 
2
Y 1 1 X 0 2
L(Y , β, σ ) = fY (yi ) = √ exp − 2 (yi − xi β)
2πσ 2 2σ
i=1 i=1
 n  
1 1 2
= √ exp − 2 kY − X βk
2πσ 2 2σ
D’où l’on déduit la log-vraisemblance :
n n 1
log L(Y , β, σ 2 ) = − log 2π − log σ 2 − 2 kY − X βk2 .
2 2 2σ
On cherche les estimateurs β̂mv et σmv 2 qui maximisent cette

log-vraisemblance. Il est clair qu’il faut minimiser la quantité kY − X βk2 ,


ce qui est justement le principe des moindres carrés ordinaires, donc
0 0
β̂mv = β̂ = (X X )−1 X Y .
Estimateurs du maximum de vraisemblance

Ceci étant vu, il reste simplement à maximiser log(L(β̂,σ 2 )) par rapport à


σ 2 . Calculons donc sa dérivée partielle rapport à σ 2 :

∂ log(L(β̂,σ 2 )) n 1
2
= − 2 + 4 kY − X β̂k2
∂σ 2σ 2σ
d’où il vient :
2 kY − X β̂k2
σ̂mv =
n
Cet estimateur est biaisé contrairement à celui des moindres carrés
Pn 2
2 kY − X β̂k2 2
nσ̂mv i=1 ε̂i
σ̂ = = =
n−p−1 n−p−1 n−p−1
Loi des estimateurs

Les erreurs étant gaussiennes il en est de même pour le vecteur Y :

ε ∼ N (0, σ 2 In ) ⇒ Y ∼ N (X β, σ 2 In .)

Proposition
Sous les hypothèses H1 et H2 nous avons :
0
1 β̂ est un vecteur gaussien de moyenne β et de variance σ 2 (X X )−1 :
0
β̂ ∼ N (β, σ 2 (X X )−1 )

2 β̂ et σ̂ 2 sont indépendants
2
3 (n − p − 1) σσ̂2 ∼ χ2n−p−1

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 22 / 41


Lois des estimateurs
Preuve
0 0 0 0
1 β̂ = (X X )−1 X Y = (X X )−1 X (X β + ε). Or par hypothèse
ε ∼ N (0, σ 2 In ) est un vecteur gaussien. On en déduit que β̂ est lui
aussi un vecteur gaussien, sa loi est donc entièrement caractérisée par
la donnée de sa moyenne et de sa matrice de variance covariance,
lesquelles ont été calculées précédemment.
2

0 0 0 0 0 0
β̂ = (X X )−1 X Y = (X X )−1 X [X (X X )−1 X ]Y
0 0
= (X X )−1 X PX Y

donc β̂ est un vecteur aléatoire fonction de PX Y , tandis que

kε̂k2 kY − PX Y k2
σ̂ 2 = =
n−p−1 n−p−1

est une variable aléatoire fonction de (Y − PX Y ).


Lois des estimateurs (suite preuve)

Preuve
Par le théorème de Cochran, nous savons que PX Y et (Y − PX Y ) sont
indépendants, il en va de même pour toutes les fonctions de l’un et de
l’autre.
1 En rappelant que PX ⊥ est la projection orthogonale sur M⊥ (X ) le
sous espace de dimension n − p − 1 de Rn , on a:

ε̂ = (Y − PX Y ) = PX ⊥ Y = PX ⊥ (X β + ε) = PX ⊥ ε

où ε ∼ N (0, σ 2 In ). Il s’en suit par le théorème de Cochran que :

σ̂ 2 kPX ⊥ εk2 kPX ⊥ (ε − E[ε])k2


(n − p − 1) 2
= 2
= ∼ χ2n−p−1
σ σ σ2
Loi des estimateurs avec variance inconnue
Proposition
Sous les hypothèses H1 et H2 :
pour j = 1, . . . , p, nous avons

β̂j − βj β̂j − βj
Tj = p 0 = ∼ Tn−p−1
σ̂ [(X X )−1 ]jj σ̂β̂j

Preuve
D’après la proposition précédente, on sait d’une part que
0 σ̂ 2
β̂j ∼ N (βj , σ 2 (X X )−1 2
jj ), et d’autre part que (n − p − 1) σ 2 ∼ χn−p−1 et
enfin que βj et σ̂ 2 sont indépendants. Il reste alors à écrire Tj sous la
forme :
β̂ −βj
q j
σ (X 0 X )−1
jj
Tj = σ̂
σ
pour une reconnaı̂tre une loi de Student Tn−p−1 .
Test de significativité d’un paramètre du modèle

On étudie l’effet de la présence d’une variable explicative Xj dans le


modèle en testant l’hypothèse nulle :

H0 : βj = 0

où βj est le paramètre associé à la variable explicative Xj . Sous H0

β̂j
Tj = ∼ Tn−p−1
σ̂β̂j

Si |Tj | ≥ tn−p−1,1−α/2 alors on rejette H0


Si |Tj | < tn−p−1,1−α/2 alors on ne peut pas rejeter H0

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 26 / 41


Test de nullité de quelques paramètres du modèle
On veut étudier l’influence de q variables explicatives (avec q ≤ p) sur la
variable à expliquer. Cela revient à tester l’hypothèse de nullité de q
paramètres du modèle :

H0 : β1 = β2 = . . . = βq = 0 avec q ≤ p

Sous l’hypothèse alternative, au moins un des paramètres β1 , . . . , βq est


non nul. Ce test peut être formulé comme la comparaison de deux modèles
emboı̂tés, l’un à p + 1 paramètres et l’autre à p + 1 − q paramètres:

yi = β0 + β1 xi1 + . . . + βp xip + εi sous H1

vs
yi = β0 + βq+1 xiq+1 + . . . + βp xip + εi sous H0
L’hypothèse H0 peut être testée au moyen de la statistique :
SCR0 − SCR n−p−1
F = × ∼ Fq,n−p−1
SCR q
où SCR0 est la somme des carrés des résidus du modèle ’réduit’ sous H0
et SCR est la somme des carrés des résidus du modèle de référence.
Test de nullité de quelques paramètres du modèle

Si Fobs ≥ Fq,n−p−1 (1 − α) on rejette l’hypothèse nulle.


Fobs est une observation de F et Fq,n−p−1 (1 − α) est le quantile d’ordre
1 − α de la loi Fq,n−p−1 .

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 28 / 41


Test de Fisher global : adéquation du modèle

H0 β1 = . . . = βp = 0 (le modèle n’est pas significatif)


H1 ∃k ∈ {1, . . . , p} tel que βk 6= 0 (le modèle est significatif)
La statistique du test est donnée par :

SCE /p (n − p − 1)R 2
F = = ∼ Fp,n−p−1
SCR/(n − p − 1) 1 − R2

On définit la plus-value (p-value) par :

p = P(Fp,n−p−1 > Fobs |H0 )

où Fobs est une réalisation de F On rejettera H0 au seuil α ∈ (0, 1) si


Fobs > Fq,n−p−1 (1 − α) ou p < α.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 29 / 41


Intervalle de confiance

Proposition
Pour j = 1, . . . , p, un intervalle de confiance de niveau (1 − α)% pour βj
est :
 q q 
0 −1 0 −1
β̂j − tn−p−1 (1 − α/2)σ̂ (X X )jj , β̂j + tn−p−1 (1 − α/2)σ̂ (X X )jj

où tn−p−1 (1 − α/2) est le quantile de niveau (1 − α/2) d’une loi de


Student Tn−p−1 .

Proposition
Intervalle de confiance pour la prévision. Un intervalle de confiance de
niveau (1 − α)% pour yn+1 est donné par :
 q 
0 0 0
xn+1 β̂ ± tn−p−1 (1 − α/2)σ̂ 1 + xn+1 (X X )−1 xn+1
Analyse de résidus
1 Résidus simples :

ε̂i = yi − ŷi , i = 1, . . . , n

2 Résidus standardisés :
ε̂i
ri = √ , i = 1, . . . , n
σ̂( 1 − hii )
où
1 (xi − x̄)(xj − x̄)
hij = + Pn 2
n k=1 (xk − x̄)
3 Résidus studentisés :
ε̂
ti = √i , i = 1, . . . , n
σ̂(i) ( 1 − hii )
2 est la variance résiduelle estimée dans l’échantillon privé de
où σ̂(i)
l’individu i.
Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 31 / 41
Analyse de résidus

1 Normalité des résidus : test de Student (H0 ) : nullité de la moyenne


2 Homoscédasticité : test de Bartlett ou vérification graphique en
représentant le nuage de points (ŷi , ti )1≤i≤n . Si les résidus ont une
variance constante, le nuage doit se répartir uniformément de part et
d’autre de l’axe des abscisses.
3 Normalité des résidus : test de normalité (Shapiro-Wilk,
Jarque-Bera, Kolmogorov-Smirnov . . .).
4 Non autocorrélation des résidus: test de Durbin-Watson dont la
statistique est définie par :
Pn
(ε̂i − ε̂i−1 )2
D = i=2Pn 2
i=1 ε̂i

D doit être proche de 2 si les résidus sont non autocorrélés. D ne suit


pas de loi mais elle est tabulée.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 32 / 41


1 La distance de Cook est un indicateur qui permet de comparer les
prédictions obtenues avec et sans l’observation i. Elle définie par :
Pn
j=1 (ŷj(i) − ŷj ) hii
Di = = r2
2σ̂ 2 2(1 − hii ) i

où ŷj(i) est l’estimation de yj obtenue sans utiliser dans l’échantillon


l’observation i.
2 Di peut être comparée à 1 pour détecter les valeurs atypiques.
3 L’observation i est considérée comme atypique si |ti | ≥ 2 (ti =
résidus studentisés)

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 33 / 41


Points atypiques

1 La distance de Cook est un indicateur qui permet de comparer les


prédictions obtenues avec et sans l’observation i. Elle définie par :
Pn
j=1 (ŷj(i) − ŷj ) hii
Di = = r2
2σ̂ 2 2(1 − hii ) i

où ŷj(i) est l’estimation de yj obtenue sans utiliser dans l’échantillon


l’observation i.
2 Di peut être comparée à 1 pour détecter les valeurs atypiques.
3 L’observation i est considérée comme atypique si |ti | ≥ 2 (ti =
résidus studentisés)

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 34 / 41


Multi-colinéarité : VIF

1 Facteur d’inflation de la variance (VIF) :

1
vj = ,
1 − Rj2

où Rj2 est le coefficient de détermination de la régression de la variable


xj , j = 1, . . . , p sur les autres variables x1 , . . . , xj−1 , xj+1 , . . . , xp .
2 Plus xj est linéairement proche des autres variables, plus la racine
carré de Rj2 est proche de 1 et le VIF grand (présence de
multi-colinéarité), et donc plus la variance de l’estimateur de βj est
élevée. L’avantage du VIF par rapport à la matrice de corrélation est
qu’il prend en compte des corrélations multiples.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 35 / 41


Multi-colinéarité : Conditionnement

Soit S la matrice diagonale  des écart-types empiriques des variables


x̃11 . . . x̃1p
x̃21 . . . x̃2p 
  Pn
x̃11 . . . x̃1p 
(x̃ij )1≤i≤n et soit X =   où x̃ij = xij − n1 k=1 xkj ,
 .. .. .. 
 . . . 
x̃n1 . . . x̃np
1 −1 0 −1
C = n S (X̃ X̃ )S
Soit λ1 , . . . , λp les valeurs propres de C rangées respectivement par ordre
décroissant. On appelle indice de conditionnement la valeur
λ1
K=
λp

En pratique si K > 1000 on considère qu’il y a des problèmes de mauvais


conditionnement (présence de colinéarité).

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 36 / 41


Critères de sélection de modèle

1 Akaike Information Criterium (AIC)

AIC = −2 log(`(β̂)) + 2(p + 1)

2 Bayesium Information Criterium (BIC)

BIC = −2 log(`(β̂)) + (p + 1) log(n)

3 Cp de Mallow
SCR
+ 2(p + 1) − n
Cp =
σ̂ 2
Le meilleur modèle sera celui qui aura le plus petit AIC, BIC ou Cp de
Mallow.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 37 / 41


Algorithme de sélection de variables

1 Recherche exhaustive : La façon la plus simple de faire est de tester


tous les sous-ensembles de variables possibles. Mais cela devient vite
impossible lorsque le nombre de variables explicatives p est grand.
2 Recherche descendante pas à pas : On part de toutes les variables
et on élimine celle qui provoque la plus faible diminution du R 2 . On
fait cela jusqu’à éliminer toutes les variables, et le nombre de variables
est ensuite choisi par un des critères précédents.
3 Recherche ascendante pas à pas : On procède de façon inverse :
on part du meilleur modèle à une variable et on introduit ensuite les
variables une à une.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 38 / 41


Algorithme de sélection de variables

1 Recherche stepwise : C’est une recherche ascendante, qui de plus,


effectue à chaque pas un test de significativité de toutes les variables
utilisées à l’étape courante pour éventuellement en éliminer.
L’algorithme s’arrête lorsqu’on ne peut plus ni ajouter ni supprimer de
variables.
2 Algorithme de Furnival et Wilson : Cet algorithme est peut être le
plus efficace pour sélectionner le meilleur modèle pour un nombre de
variables d fixé. Tout l’intérêt de cet algorithme est de rechercher le
meilleur modèle (selon les critères précédents) sans avoir à explorer
tous les modèles possibles.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 39 / 41


Sortie lm() de R
1 Call : la fomule du modèle,
2 Residuals : des statistiques descriptives des résidus,
3 Coefficients : un tableau à deux entrées où les lignes correspondent
aux coeffcients associés aux variables explicatives, et les colonnes,
dans l’ordre, à l’estimation du coefficient, l’écart-type estimé, la
valeur du test de Student de nullité statistique du coefficient et enfin
la p-value associé à ce test, suivie d’un symbole pour lire rapidement
la significativité,
4 Signif. codes : les significations des symboles de niveau de
significativité,
5 Residual standard error : estimation de l’écart-type de l’aléa et degré
de liberté,
6 Multiple R-squared : coeffcient de détermination,
7 Adjusted R-squared : coeffcient de détermination ajusté,
8 F-statistic : valeur de la statistique de Fisher du test de significativité
globale, ainsi que les degrés de liberté et la p-value associée au test
Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 40 / 41

Vous aimerez peut-être aussi