Rappel Modèles Linéaires Multiples

Cours de Modèles linéaires Généralisés
Régression Linéaire Multiple
Lucien D. GNING
lucien.gning@univ-thies.sn
December 5, 2021
Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 1 / 41

Modèle linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du modèle

de régression simple lorsque les variables explicatives sont en nombre
quelconque. Nous supposons donc que les données collectées suivent le
modèle suivant :
yi = β0 + β1 xi1 + . . . + βp xip + εi i = 1, . . . , n
p correspond au nombre de variables explicatives. En notant

0 0
Y = (y1 , . . . , yn ) ∈ Rn , β = (β0 , β1 , . . . , βp ) ∈ Rp+1 ,
0
ε = (ε1 , . . . , εn ) ∈ Rn et
 
1 x11 x12 . . . x1p
1 x21 x22 . . . x2p 
X = .
 
.. .. .. 
 .. . ... . . 
1 xn1 xn2 . . . xnp
nous obtenons la définition suivante :

Modèle linéaire multiple
Définition
Un modèle de régression linéaire est défini par une équation de la forme :
Y = Xβ + ε
Les hypothèses concernant le modèle sont :

1 H1 : rang(X ) = p + 1 (matrice X de rang plein)
2 H2 : E(ε) = 0, V(ε) = σ 2 In où In est la matrice d’identité d’ordre n.
Notations : Xj la j ème colonne de la matrice X , elle correspond à la j ème
variable.
0
La i ème ligne de X sera quand à elle notée xi = (1, xi1 , . . . , xip )
Ainsi le modèle se réécrit :
0
yi = xi β + εi ∀i = 1, . . . , n
0
Ce qui implique : E(yi ) = xi β et E(Y ) = X β
Estimateurs des Moindres Carrés Ordinaires
Comme pour la régression linéaire simple, nous allons considérer ici une
fonction de coût quadratique, d’où la dénomination de Moindres Carrés
Ordinaires (MCO).
Définition
L’estimateur des moindres carrés β̂ est défini comme suit :
n
X p
X 2
2
β̂ = argminkY − X βk = argmin yi − β0 − βj xij
β∈Rp+1 β∈Rp+1 i=1 j=1
Notons M(X ) le sous espace engendré par 1, X1 , . . . , Xp , les colonnes de

X . Il est de dimension p + 1 par l’hypothèse (H1 ) et tout vecteur de cet
espace est de la forme :
X α = α0 1 + α1 X1 + . . . + αp Xp
0
oùα = (α0 , α1 , . . . , αp ) ∈ Rp+1
1 On note PM(X ) (Y ) le projeté orthogonal de Y sur M(X ). Puisque

X = (1, X1 , . . . , Xp ) forme une base de M(X ), il existe une unique
décomposition de la forme PM(X ) (Y ) = X β.
2 Rappelons que par définition du projeté orthogonal, PM(X ) (Y ) est
l’unique vecteur de M(X ) minimisant la distance euclidienne
kY − PM(X ) (Y )k, ce qui revient au même que de minimiser son carré
:
n
2
X 2
kY − PM(X ) (Y )k = yi − (β0 + β1 xi1 + . . . βp xip )
i=1
3 Remarquons que Ŷ = PM(X ) (Y ) = PX Y où PX est la matrice de la

projection orthogonale sur M(X ). Il peut aussi s’écrire sous la forme
Ŷ = X β̂, où β̂ est l’estimateur des MCO de β. L’espace orthogonal à
M(X ), noté M⊥ (X ), est souvent appelé espace des résidus. En tant
que supplémentaire orthogonal, il est de dimension
n − p − 1 = dim(Rn ) − dim(M(X )).
Proposition
L’estimateur β̂ des Moindres Carrés Ordinaires a pour expression :
0 0
β̂ = (X X )−1 X Y ,
et la matrice PX de projection orthogonale sur M(X ) s’écrit :

0 0
PX = X (X X )−1 X .
Remarque
0
L’hypothèse H1 assure que la matrice X X est bien inversible. (A vérifier
en exercie)

Preuve
On cherche β ∈ Rp+1 qui minimise la fonction
0 0 0
S(β) = kY − X βk2 = β X X β − 2Y X β + kY k2
0
Or S est de type quadratique en β, avec X X symétrique définie positive,
donc le problème admet une unique solution β̂ : c’est le point où le
gradient de S est nul. Ceci s’écrit :
0 0 0 0 0
∇S(β̂) = 2β̂ X X − 2Y X = 0 ⇐⇒ X X β̂ = X Y
0 0 0
La matrice X X étant inversible par H1 ceci donne β̂ = (X X )−1 X Y .
0 0
Puisque par définition Ŷ = PX Y = X β̂ = X (X X )−1 X Y et que cette
relation est valable pour tout Y ∈ Rn , on en déduit que
0 0
PX = X (X X )−1 X .

Propriétés des estimateurs MCO
Proposition
L’estimateur β̂ des moindres carrés est sans biais, ie E(β̂) = β et sa
matrice de covariance est
0
V(β̂) = σ 2 (X X )−1
Preuve
Pour le biais il suffit d’écrire :
0 0 0 0 0 0
E[β̂] = E[((X X )−1 X Y )] = (X X )−1 X E[Y ] = (X X )−1 X E[X β + ε]
Puisque E[ε] = 0, il vient :

0 0
E[β̂] = (X X )−1 X X β = β
Pour la variance, on procède de même :

0 0 0 0 0
V[β̂] = V[((X X )−1 X Y )] = (X X )−1 X V(Y )X (X X )−1
Suite de la preuve
Preuve
Or
V(Y ) = V(X β + ε) = V(ε) = σ 2 In ,
donc :
0 0 0 0
V[β̂] = σ 2 (X X )−1 X X (X X )−1 = σ 2 (X X )−1
L’estimateur des MCO est optimal en un certain sens. C’est ce que précise
le résultat suivant, généralisation de celui vu en régression linéaire simple.
Théorème
Gauss-Markov
L’estimateur β̂ des MCO est de variance minimale parmi les estimateurs
linéaires sans biais de β.
Preuve
Soit β̃ = AY un autre estimateur sans biais de β, montrons que
V(β̃) ≥ V(β̂). On a:
V(β̃) = V(β̃ − β̂ + β̂) = V(β̃ − β̂) + V(β̂) + 2Cov(β̃ − β̂, β̂)
Comme β̃ est sans biais E(β̃) = E(AY ) = E(A(X β + ε)) = AX β = β

alors AX = I . La covariance devient :
0 0
Cov(β̃ − β̂, β̂) = Cov(AY , (X X )−1 X Y ) − V(β̂)
0 0
= σ 2 AX (X X )−1 − σ 2 (X X )−1 = 0
Donc V(β̃) = V(β̃ − β̂) + V(β̂) ou encore

V(β̃) − V(β̂) = V(β̃ − β̂).
La variance étant semi-définie positive on obtient le résultat escompté.
Résidus et variance résiduelle
Les résidus sont définis par :

0
ε̂ = (ε̂1 , . . . , ε̂n ) = Y − Ŷ = (I − PX )Y = PX ⊥ Y = PX ⊥ ε
car Y = X β + ε et X β ∈ M(X ).
Proposition
Sous les hypothèses H1 et H2 , on a :
1 E(ε̂) = 0
2 V(ε̂) = σ 2 PX ⊥
3 E(Ŷ ) = X β
4 V(Ŷ ) = σ 2 PX
5 Cov(ε̂, Ŷ ) = 0

Résidus et variance résiduelle
Preuve
1 E(ε̂) = E(P ⊥ ε) = P ⊥ E(ε) = 0
X X
0
2 V(ε̂) = V(PX ⊥ ε) = PX ⊥ V(ε)PX ⊥ = PX ⊥ V(ε)PX ⊥ = σ 2 PX ⊥ PX ⊥ =
σ 2 PX ⊥
3 E(Ŷ ) = E(X β̂) = X β car β̂ est sans biais
0 0 0
4 V(Ŷ ) = V(X β̂) = X V(β̂)X = σ 2 X (X X )−1 X = σ 2 PX
5 Cov(ε̂, Ŷ ) = Cov(ε̂, Y − ε̂) = Cov(ε̂, Y ) − V(ε̂) =
Cov(PX ⊥ Y , Y ) − σ 2 PX ⊥ et puisque V(Y ) = σ 2 I , nous avons
Cov(ε̂, Ŷ ) = PX ⊥ V(Y ) − σ 2 PX ⊥ = σ 2 PX ⊥ − σ 2 PX ⊥ 0

Estimation de σ 2
Comme en régression linéaire simple, un estimateur ”naturel” de la

variance résiduelle est donné par :
n n
1X 1X 2 1
(yi − ŷi )2 = ε̂i = kε̂k2 .
n n n
i=1 i=1
Cet estimateur est biaisé. Ce biais est néanmoins facile à corriger, comme
le montre le résultat suivant. C’est une généralisation du résultat obtenu
en régression linéaire simple, en remplaçant n − 2 par n − p − 1.
Proposition
kε̂k2 SCR
La statistique σ̂ 2 = n−p−1 = n−p−1 est un estimateur sans biais de σ 2 .

Estimation de σ 2
Preuve
Nous calculons E(kε̂k2 ), puisque c’est un scalaire, il est égal à sa trace, ce
qui donne :
0 0
E(kε̂k2 ) = E[Tr (kε̂k2 )] = E[Tr (ε̂ ε̂)] = E[Tr (ε̂ε̂ )]
0
= Tr (E[ε̂ε̂ ]) = Tr (V(ε̂)) = Tr (σ 2 PX ⊥ )
et comme PX ⊥ est la matrice de la projection orthogonale sur un espace

de dimension n − p − 1 on a bien :
E(kε̂k2 ) = (n − p − 1)σ 2 .
kε̂k2 SCR
D’où σ̂ 2 = n−p−1 = n−p−1 est un estimateur sans biais de σ 2
Estimation de σ 2
On déduit de cet estimateur σ̂ 2 de la variance résiduelle σ 2 un estimateur

0
σ̂β̂2 de la variance de V(β̂) = σ 2 (X X )−1 :
0 kε̂k2 0 SCR 0
σ̂β̂2 = σ̂ 2 (X X )−1 = (X X )−1 = (X X )−1
n−p−1 n−p−1
En particulier, un estimateur de l’écart-type de l’estimateur β̂i du i-ème

coefficient de la régression est tout simplement :
q
σ̂i = σ̂β̂i = σ̂ [(X 0 X )−1 ]ii
Prévision
0
Soit xn+1 = (1, xn+1,1 , . . . , xn+1,p ) une nouvelle valeur pour laquelle nous
voudrions prédire yn+1 . Cette variable réponse est définie par
0
yn+1 = xn+1 β + εn+1 avec E(εn+1 ) = 0, V(εn+1 ) = σ 2 et
Cov(εn+1 , εi ) = 0 pour i = 1, . . . , n.
La méthode naturelle est de prédire la valeur correspondante grâce au
0
modèle ajusté, soit ŷn+1 = xn+1 β̂. L’erreur de prévision est à nouveau
0
définie par ε̂n+1 = yn+1 − ŷn+1 = xn+1 (β − β̂) + εn+1 .
Deux types d’erreurs vont alors entacher notre prévision : la première due
à l’incertitude sur εn+1 , l’autre à l’incertitude inhérente à l’estimateur β̂.
Proposition
L’erreur de prévision satisfait les propriétés suivantes :
0 0
E(ε̂n+1 ) = 0 V(ε̂n+1 ) = σ 2 1 + xn+1 (X X )−1 xn+1


Prévision
Preuve
Comme E(εn+1 ) = 0 et puisque β̂ est un estimateur sans biais de β, il est
clair que :
0 0
E(ε̂n+1 ) = E(xn+1 (β − β̂) + εn+1 ) = xn+1 (β − E(β̂)) + E(εn+1 ) = 0.
Calculons la variance de l’erreur de prévision. Puisque β̂ dépend

uniquement des variables aléatoires (εi )1≤i≤n , dont εn+1 est décorrélée. Il
vient :
0 0
V(ε̂n+1 ) = V xn+1 (β − β̂) + εn+1 = xn+1 V(β̂)xn+1 + σ 2

0 0
= σ 2 1 + xn+1 (X X )−1 xn+1


Coefficient de détermination ajustée Ra2
Définition
1 Comme dans le cas de la régression linéaire simple, le coefficient de
détermination R 2 est défini par :

SCE SCR
R2 = =1− .
SCT SCT
2 Néanmoins, on peut lui reprocher de ne pas tenir compte de la
dimension de l’espace de projection M(X ), d’où la définition du
coefficient de détermination ajusté.
n − 1 SCR n−1 (n−1)R 2 −p

Ra2 = 1− = 1− (1−R 2 )=
n − p − 1 SCT n−p−1 n−p−1

Le modèle linéaire multiple gaussien
Nous avons supposé un modèle de la forme :
0
yi = xi β + εi = β0 + β1 xi1 + . . . + βp xip + εi i = 1, . . . , n
que nous avons réécrit sous la forme matricielle :
      
y1 1 x11 x12 . . . x1p β0 ε1
y2  1 x21 x22 . . . x2p  β1  ε2 
 ..  =  .. ..   ..  +  .. 
      
.. .. ..
 .  . . . . .  .   . 
yn 1 xn1 xn2 . . . xnp βp εn
| {z } | {z } | {z } | {z }
Y X β ε
Ici nous suppons que

1 H : rang(X ) = p + 1
1
2 H : ε ∼ N (0, σ 2 I ), où I est la matrice d’identité d’ordre n et
2 n n
σ 2 ∈ R∗+ .
Ceci signifie que les erreurs sont indépendants et identiquement distribués.
L’intérêt de supposer les erreurs sont gaussiennes est de pouvoir en déduire
les lois de nos estimateurs, donc de construire des régions de confiance et
des tests d’hypothèses.
Estimateurs du maximum de vraisemblance
Commençons par remarquer que les yi sont eux-mêmes gaussiens
0 0
εi ∼ N (0, σ 2 ) ⇒ yi = xi β + εi ∼ N (xi β, σ 2 )
et mutuellement indépendants puisque les erreurs εi le sont. La
vraisemblance s’en déduit :
n n n
2
Y 1 1 X 0 2
L(Y , β, σ ) = fY (yi ) = √ exp − 2 (yi − xi β)
2πσ 2 2σ
i=1 i=1
n
1 1 2
= √ exp − 2 kY − X βk
2πσ 2 2σ
D’où l’on déduit la log-vraisemblance :
n n 1
log L(Y , β, σ 2 ) = − log 2π − log σ 2 − 2 kY − X βk2 .
2 2 2σ
On cherche les estimateurs β̂mv et σmv 2 qui maximisent cette
log-vraisemblance. Il est clair qu’il faut minimiser la quantité kY − X βk2 ,

ce qui est justement le principe des moindres carrés ordinaires, donc
0 0
β̂mv = β̂ = (X X )−1 X Y .
Estimateurs du maximum de vraisemblance
Ceci étant vu, il reste simplement à maximiser log(L(β̂,σ 2 )) par rapport à

σ 2 . Calculons donc sa dérivée partielle rapport à σ 2 :
∂ log(L(β̂,σ 2 )) n 1
2
= − 2 + 4 kY − X β̂k2
∂σ 2σ 2σ
d’où il vient :
2 kY − X β̂k2
σ̂mv =
n
Cet estimateur est biaisé contrairement à celui des moindres carrés
Pn 2
2 kY − X β̂k2 2
nσ̂mv i=1 ε̂i
σ̂ = = =
n−p−1 n−p−1 n−p−1
Loi des estimateurs
Les erreurs étant gaussiennes il en est de même pour le vecteur Y :
ε ∼ N (0, σ 2 In ) ⇒ Y ∼ N (X β, σ 2 In .)
Proposition
Sous les hypothèses H1 et H2 nous avons :
0
1 β̂ est un vecteur gaussien de moyenne β et de variance σ 2 (X X )−1 :
0
β̂ ∼ N (β, σ 2 (X X )−1 )
2 β̂ et σ̂ 2 sont indépendants
2
3 (n − p − 1) σσ̂2 ∼ χ2n−p−1

Lois des estimateurs
Preuve
0 0 0 0
1 β̂ = (X X )−1 X Y = (X X )−1 X (X β + ε). Or par hypothèse
ε ∼ N (0, σ 2 In ) est un vecteur gaussien. On en déduit que β̂ est lui
aussi un vecteur gaussien, sa loi est donc entièrement caractérisée par
la donnée de sa moyenne et de sa matrice de variance covariance,
lesquelles ont été calculées précédemment.
2
0 0 0 0 0 0
β̂ = (X X )−1 X Y = (X X )−1 X [X (X X )−1 X ]Y
0 0
= (X X )−1 X PX Y
donc β̂ est un vecteur aléatoire fonction de PX Y , tandis que
kε̂k2 kY − PX Y k2
σ̂ 2 = =
n−p−1 n−p−1
est une variable aléatoire fonction de (Y − PX Y ).

Lois des estimateurs (suite preuve)
Preuve
Par le théorème de Cochran, nous savons que PX Y et (Y − PX Y ) sont
indépendants, il en va de même pour toutes les fonctions de l’un et de
l’autre.
1 En rappelant que PX ⊥ est la projection orthogonale sur M⊥ (X ) le
sous espace de dimension n − p − 1 de Rn , on a:
ε̂ = (Y − PX Y ) = PX ⊥ Y = PX ⊥ (X β + ε) = PX ⊥ ε
où ε ∼ N (0, σ 2 In ). Il s’en suit par le théorème de Cochran que :
σ̂ 2 kPX ⊥ εk2 kPX ⊥ (ε − E[ε])k2

(n − p − 1) 2
= 2
= ∼ χ2n−p−1
σ σ σ2
Loi des estimateurs avec variance inconnue
Proposition
Sous les hypothèses H1 et H2 :
pour j = 1, . . . , p, nous avons
β̂j − βj β̂j − βj
Tj = p 0 = ∼ Tn−p−1
σ̂ [(X X )−1 ]jj σ̂β̂j
Preuve
D’après la proposition précédente, on sait d’une part que
0 σ̂ 2
β̂j ∼ N (βj , σ 2 (X X )−1 2
jj ), et d’autre part que (n − p − 1) σ 2 ∼ χn−p−1 et
enfin que βj et σ̂ 2 sont indépendants. Il reste alors à écrire Tj sous la
forme :
β̂ −βj
q j
σ (X 0 X )−1
jj
Tj = σ̂
σ
pour une reconnaı̂tre une loi de Student Tn−p−1 .
Test de significativité d’un paramètre du modèle
On étudie l’effet de la présence d’une variable explicative Xj dans le

modèle en testant l’hypothèse nulle :
H0 : βj = 0
où βj est le paramètre associé à la variable explicative Xj . Sous H0
β̂j
Tj = ∼ Tn−p−1
σ̂β̂j
Si |Tj | ≥ tn−p−1,1−α/2 alors on rejette H0

Si |Tj | < tn−p−1,1−α/2 alors on ne peut pas rejeter H0

Test de nullité de quelques paramètres du modèle
On veut étudier l’influence de q variables explicatives (avec q ≤ p) sur la
variable à expliquer. Cela revient à tester l’hypothèse de nullité de q
paramètres du modèle :
H0 : β1 = β2 = . . . = βq = 0 avec q ≤ p
Sous l’hypothèse alternative, au moins un des paramètres β1 , . . . , βq est

non nul. Ce test peut être formulé comme la comparaison de deux modèles
emboı̂tés, l’un à p + 1 paramètres et l’autre à p + 1 − q paramètres:
yi = β0 + β1 xi1 + . . . + βp xip + εi sous H1
vs
yi = β0 + βq+1 xiq+1 + . . . + βp xip + εi sous H0
L’hypothèse H0 peut être testée au moyen de la statistique :
SCR0 − SCR n−p−1
F = × ∼ Fq,n−p−1
SCR q
où SCR0 est la somme des carrés des résidus du modèle ’réduit’ sous H0
et SCR est la somme des carrés des résidus du modèle de référence.
Test de nullité de quelques paramètres du modèle
Si Fobs ≥ Fq,n−p−1 (1 − α) on rejette l’hypothèse nulle.

Fobs est une observation de F et Fq,n−p−1 (1 − α) est le quantile d’ordre
1 − α de la loi Fq,n−p−1 .

Test de Fisher global : adéquation du modèle
H0 β1 = . . . = βp = 0 (le modèle n’est pas significatif)

H1 ∃k ∈ {1, . . . , p} tel que βk 6= 0 (le modèle est significatif)
La statistique du test est donnée par :
SCE /p (n − p − 1)R 2
F = = ∼ Fp,n−p−1
SCR/(n − p − 1) 1 − R2
On définit la plus-value (p-value) par :
p = P(Fp,n−p−1 > Fobs |H0 )
où Fobs est une réalisation de F On rejettera H0 au seuil α ∈ (0, 1) si

Fobs > Fq,n−p−1 (1 − α) ou p < α.

Intervalle de confiance
Proposition
Pour j = 1, . . . , p, un intervalle de confiance de niveau (1 − α)% pour βj
est :
q q
0 −1 0 −1
β̂j − tn−p−1 (1 − α/2)σ̂ (X X )jj , β̂j + tn−p−1 (1 − α/2)σ̂ (X X )jj
où tn−p−1 (1 − α/2) est le quantile de niveau (1 − α/2) d’une loi de

Student Tn−p−1 .
Proposition
Intervalle de confiance pour la prévision. Un intervalle de confiance de
niveau (1 − α)% pour yn+1 est donné par :
q
0 0 0
xn+1 β̂ ± tn−p−1 (1 − α/2)σ̂ 1 + xn+1 (X X )−1 xn+1
Analyse de résidus
1 Résidus simples :
ε̂i = yi − ŷi , i = 1, . . . , n
2 Résidus standardisés :
ε̂i
ri = √ , i = 1, . . . , n
σ̂( 1 − hii )
où
1 (xi − x̄)(xj − x̄)
hij = + Pn 2
n k=1 (xk − x̄)
3 Résidus studentisés :
ε̂
ti = √i , i = 1, . . . , n
σ̂(i) ( 1 − hii )
2 est la variance résiduelle estimée dans l’échantillon privé de
où σ̂(i)
l’individu i.
Analyse de résidus
1 Normalité des résidus : test de Student (H0 ) : nullité de la moyenne

2 Homoscédasticité : test de Bartlett ou vérification graphique en
représentant le nuage de points (ŷi , ti )1≤i≤n . Si les résidus ont une
variance constante, le nuage doit se répartir uniformément de part et
d’autre de l’axe des abscisses.
3 Normalité des résidus : test de normalité (Shapiro-Wilk,
Jarque-Bera, Kolmogorov-Smirnov . . .).
4 Non autocorrélation des résidus: test de Durbin-Watson dont la
statistique est définie par :
Pn
(ε̂i − ε̂i−1 )2
D = i=2Pn 2
i=1 ε̂i
D doit être proche de 2 si les résidus sont non autocorrélés. D ne suit

pas de loi mais elle est tabulée.

1 La distance de Cook est un indicateur qui permet de comparer les
prédictions obtenues avec et sans l’observation i. Elle définie par :
Pn
j=1 (ŷj(i) − ŷj ) hii
Di = = r2
2σ̂ 2 2(1 − hii ) i
où ŷj(i) est l’estimation de yj obtenue sans utiliser dans l’échantillon

l’observation i.
2 Di peut être comparée à 1 pour détecter les valeurs atypiques.
3 L’observation i est considérée comme atypique si |ti | ≥ 2 (ti =
résidus studentisés)

Points atypiques
1 La distance de Cook est un indicateur qui permet de comparer les

prédictions obtenues avec et sans l’observation i. Elle définie par :
Pn
j=1 (ŷj(i) − ŷj ) hii
Di = = r2
2σ̂ 2 2(1 − hii ) i
où ŷj(i) est l’estimation de yj obtenue sans utiliser dans l’échantillon

l’observation i.
2 Di peut être comparée à 1 pour détecter les valeurs atypiques.
3 L’observation i est considérée comme atypique si |ti | ≥ 2 (ti =
résidus studentisés)

Multi-colinéarité : VIF
1 Facteur d’inflation de la variance (VIF) :
1
vj = ,
1 − Rj2
où Rj2 est le coefficient de détermination de la régression de la variable

xj , j = 1, . . . , p sur les autres variables x1 , . . . , xj−1 , xj+1 , . . . , xp .
2 Plus xj est linéairement proche des autres variables, plus la racine
carré de Rj2 est proche de 1 et le VIF grand (présence de
multi-colinéarité), et donc plus la variance de l’estimateur de βj est
élevée. L’avantage du VIF par rapport à la matrice de corrélation est
qu’il prend en compte des corrélations multiples.

Multi-colinéarité : Conditionnement
Soit S la matrice diagonale  des écart-types empiriques des variables

x̃11 . . . x̃1p
x̃21 . . . x̃2p 
  Pn
x̃11 . . . x̃1p 
(x̃ij )1≤i≤n et soit X =   où x̃ij = xij − n1 k=1 xkj ,
 .. .. .. 
 . . . 
x̃n1 . . . x̃np
1 −1 0 −1
C = n S (X̃ X̃ )S
Soit λ1 , . . . , λp les valeurs propres de C rangées respectivement par ordre
décroissant. On appelle indice de conditionnement la valeur
λ1
K=
λp
En pratique si K > 1000 on considère qu’il y a des problèmes de mauvais

conditionnement (présence de colinéarité).

Critères de sélection de modèle
1 Akaike Information Criterium (AIC)
AIC = −2 log(`(β̂)) + 2(p + 1)
2 Bayesium Information Criterium (BIC)
BIC = −2 log(`(β̂)) + (p + 1) log(n)
3 Cp de Mallow
SCR
+ 2(p + 1) − n
Cp =
σ̂ 2
Le meilleur modèle sera celui qui aura le plus petit AIC, BIC ou Cp de
Mallow.

Algorithme de sélection de variables
1 Recherche exhaustive : La façon la plus simple de faire est de tester

tous les sous-ensembles de variables possibles. Mais cela devient vite
impossible lorsque le nombre de variables explicatives p est grand.
2 Recherche descendante pas à pas : On part de toutes les variables
et on élimine celle qui provoque la plus faible diminution du R 2 . On
fait cela jusqu’à éliminer toutes les variables, et le nombre de variables
est ensuite choisi par un des critères précédents.
3 Recherche ascendante pas à pas : On procède de façon inverse :
on part du meilleur modèle à une variable et on introduit ensuite les
variables une à une.

Algorithme de sélection de variables
1 Recherche stepwise : C’est une recherche ascendante, qui de plus,

effectue à chaque pas un test de significativité de toutes les variables
utilisées à l’étape courante pour éventuellement en éliminer.
L’algorithme s’arrête lorsqu’on ne peut plus ni ajouter ni supprimer de
variables.
2 Algorithme de Furnival et Wilson : Cet algorithme est peut être le
plus efficace pour sélectionner le meilleur modèle pour un nombre de
variables d fixé. Tout l’intérêt de cet algorithme est de rechercher le
meilleur modèle (selon les critères précédents) sans avoir à explorer
tous les modèles possibles.

Sortie lm() de R
1 Call : la fomule du modèle,
2 Residuals : des statistiques descriptives des résidus,
3 Coefficients : un tableau à deux entrées où les lignes correspondent
aux coeffcients associés aux variables explicatives, et les colonnes,
dans l’ordre, à l’estimation du coefficient, l’écart-type estimé, la
valeur du test de Student de nullité statistique du coefficient et enfin
la p-value associé à ce test, suivie d’un symbole pour lire rapidement
la significativité,
4 Signif. codes : les significations des symboles de niveau de
significativité,
5 Residual standard error : estimation de l’écart-type de l’aléa et degré
de liberté,
6 Multiple R-squared : coeffcient de détermination,
7 Adjusted R-squared : coeffcient de détermination ajusté,
8 F-statistic : valeur de la statistique de Fisher du test de significativité
globale, ainsi que les degrés de liberté et la p-value associée au test

Rappel Modèles Linéaires Multiples

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rappel Modèles Linéaires Multiples

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Modèles linéaires Généralisés

Régression Linéaire Multiple

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 1 / 41

Le modèle de régression linéaire multiple est une généralisation du modèle

p correspond au nombre de variables explicatives. En notant

nous obtenons la définition suivante :

Les hypothèses concernant le modèle sont :

Notons M(X ) le sous espace engendré par 1, X1 , . . . , Xp , les colonnes de

1 On note PM(X ) (Y ) le projeté orthogonal de Y sur M(X ). Puisque

3 Remarquons que Ŷ = PM(X ) (Y ) = PX Y où PX est la matrice de la

et la matrice PX de projection orthogonale sur M(X ) s’écrit :

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 6 / 41

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 7 / 41

Puisque E[ε] = 0, il vient :

Pour la variance, on procède de même :

V(β̃) = V(β̃ − β̂ + β̂) = V(β̃ − β̂) + V(β̂) + 2Cov(β̃ − β̂, β̂)

Comme β̃ est sans biais E(β̃) = E(AY ) = E(A(X β + ε)) = AX β = β

Donc V(β̃) = V(β̃ − β̂) + V(β̂) ou encore

Les résidus sont définis par :

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 11 / 41

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 12 / 41

Comme en régression linéaire simple, un estimateur ”naturel” de la

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 13 / 41

et comme PX ⊥ est la matrice de la projection orthogonale sur un espace

On déduit de cet estimateur σ̂ 2 de la variance résiduelle σ 2 un estimateur

En particulier, un estimateur de l’écart-type de l’estimateur β̂i du i-ème

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 16 / 41

Calculons la variance de l’erreur de prévision. Puisque β̂ dépend

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 17 / 41

détermination R 2 est défini par :

n − 1 SCR n−1 (n−1)R 2 −p

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 18 / 41

Ici nous suppons que

log-vraisemblance. Il est clair qu’il faut minimiser la quantité kY − X βk2 ,

Ceci étant vu, il reste simplement à maximiser log(L(β̂,σ 2 )) par rapport à

Les erreurs étant gaussiennes il en est de même pour le vecteur Y :

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 22 / 41

donc β̂ est un vecteur aléatoire fonction de PX Y , tandis que

est une variable aléatoire fonction de (Y − PX Y ).

où ε ∼ N (0, σ 2 In ). Il s’en suit par le théorème de Cochran que :

σ̂ 2 kPX ⊥ εk2 kPX ⊥ (ε − E[ε])k2

On étudie l’effet de la présence d’une variable explicative Xj dans le

où βj est le paramètre associé à la variable explicative Xj . Sous H0

Si |Tj | ≥ tn−p−1,1−α/2 alors on rejette H0

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 26 / 41

Sous l’hypothèse alternative, au moins un des paramètres β1 , . . . , βq est

yi = β0 + β1 xi1 + . . . + βp xip + εi sous H1

Si Fobs ≥ Fq,n−p−1 (1 − α) on rejette l’hypothèse nulle.

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 28 / 41

H0 β1 = . . . = βp = 0 (le modèle n’est pas significatif)

On définit la plus-value (p-value) par :

p = P(Fp,n−p−1 > Fobs |H0 )

où Fobs est une réalisation de F On rejettera H0 au seuil α ∈ (0, 1) si

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 29 / 41

où tn−p−1 (1 − α/2) est le quantile de niveau (1 − α/2) d’une loi de

1 Normalité des résidus : test de Student (H0 ) : nullité de la moyenne

D doit être proche de 2 si les résidus sont non autocorrélés. D ne suit

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 32 / 41

où ŷj(i) est l’estimation de yj obtenue sans utiliser dans l’échantillon

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 33 / 41

1 La distance de Cook est un indicateur qui permet de comparer les

où ŷj(i) est l’estimation de yj obtenue sans utiliser dans l’échantillon

Lucien D. GNING lucien.gning@univ-thies.snCours de Modèles linéaires Généralisés December 5, 2021 34 / 41