Académique Documents
Professionnel Documents
Culture Documents
Modèle linéaire
Paul Rochet
1 Introduction 3
On veut modéliser une variable Y (variable à expliquer, réponse) en fonction d'une ou plusieurs variables
explicatives X , ..., X (covariables). L'objectif est de prédire ou simplement expliquer Y à partir des
données disponibles X , ..., X . Grossièrement, on cherche une fonction f telle que Y ≈ f (X , ..., X ).
1 p
Dans ce cours, on se limitera au cas simple où f est linéaire (ou ane). La méthode varie selon si les
1 p 1 p
Y = β0 + β1 X1 + ... + βp Xp + ,
où les coecients β , β , ..., β sont des rééls inconnus et est un bruit correspondant à la part
de Y indépendantes des variables explicatives. L'objectif principal est d'estimer les coecients
0 1 p
β , β , ..., β .
0 1 p
de X , ..., X (par ex. si X peut prendre k valeurs possibles, il existe k ×...×k classes diérentes).
On peut alors essayer d'évaluer si chaque variable explicative a une inuence ou non sur Y.
1 p j j 1 p
qui est bien sûr inconnue en pratique. Lorsque Y admet un moment d'ordre 2, l'espérance conditionnelle
minimise l'erreur quadratique E (Y − f (X , ..., X )) . Si le vecteur (Y, X , ..., X ) est Gaussien, on sait
2
que l'espérance conditionnelle est une fonction ane. Dans ce cas, on peut donc se restreindre aux
1 p 1 p
Supposons dans un premier temps que l'on dispose d'une seule variable explicative X. On observe un
échantillon {y , x }
i vériant
i i=1,...,n
yi = β0 + β1 xi + i , i = 1, ..., n.
avec
... , X = ... ... , β = β et = ... .
y1 1 x1 1
0
y=
β 1
y 1 x
n n n
On suppose que les variables explicatives x sont déterministes (non aléatoires). L'alea est uniquement
dû à la présence des bruits . Ainsi, seuls les vecteur y et sont des réalisations des variables aléatoires,
i
X et β sont déterministes (par ailleurs, seuls y et X sont connus du statisticien). On suppose de plus que
i
centrés : E( ) = 0,
non-corrélés : ∀i 6= j, cov( , ) = 0,
i
Ces hypothèses, dites hypothèses faibles du modèle linéaire, sont résumées par les égalités matricielles
E() = 0 et var() = σ I. Les hypothèses fortes du modèle linéaires supposent en plus que est un vecteur
2
Un lienPane entre des variables x et y se traduit par une corrélation linéaire non nulle. En notant
u la moyenne empirique d'une variable u ∈ R , le coecient de corrélation linéaire ou
1 n n
xy − x y
ρ(x, y) = p q ,
2 2 2 2
x −x y −y
y − y sont les variances empiriques de x et y . Le coecient de corrélation de Pearson est compris entre
i i i=1,...,n
2 2
−1 et 1 (on le montre avec l'inégalité de Cauchy-Schwarz). Le lien ane entre x et y est d'autant plus net
que ρ(x, y) est proche de 1 ou −1 (1 pour une relation croissante et −1 pour une relation décroissante).
La régression linéaire peut servir à modéliser certaines relations non-linéaires entre deux variables, en
utilisant des transfomations de variables préalables. Par exemple une relation du type y = αx est β
équivalente à une relation ane entre log(x) et log(y). De même, un lien exponentiel y = αe correspond βx
au modèle linéaire log(y) = log(α) + β log(x). Une relation polynômiale y = P(x) où P est un polynôme
de degré d équivaut à exprimer y comme une fonction linéaire des variables 1, x, x , ..., x , qui entre donc
2 d
Pour mettre en évidence l'existence d'une relation monotone (pas forcément linéaire) entre x et y du type
y = f (x ) + où f est une fonction monotone, on peut utiliser le coecient de corrélation de Spearman
qui se construit à partir des rangs des variables x et y. En notant r ∈ {1, ..., n} le rang de x (on a donc
i i i
x > ... > x , en privilégiant en cas d'égalité l'indice le plus petit) et s le rang de y , le coecient de
i i
rs − r s
ρS (x, y) = ρ(r, s) = p p .
r2 − r2 s2 − s2
L'idée intuitive du coecient de corrélation de Spearman est de dire que si Y est une fonction monotone
de X alors les rangs de x et y verient r = s dans le cas d'une relation croissante, et r = n − s dans le
cas d'une relation décroissante. Dans les deux cas, les variables r et s sont liées linéairement.
2.1 Méthode des moindres carrés ordinaires
Une fois mis en évidence l'existence d'un lien linéaire entre deux variables x et y, l'étape suivante consiste
à évaluer précisément la nature du lien. Dans le modèle
yi = β0 + β1 xi + i ,
on cherche la droite la plus "adaptée" au nuage de point. On dénit l'estimateur des moindres carrés
ordinaires (MCO) β̂ = (β̂ , β̂ ) comme le minimiseur de
0 1
>
n
1X
R(b) = (yi − b0 − b1 xi )2 , b = (b0 , b1 )> ∈ R2 .
n i=1
Proposition 2.1 Le minimiseur β̂ = (β̂0 , β̂1 )> = arg min2 R(b) est unique, donné par
b∈R
xy − x y
β̂1 = et β̂0 = ȳ − β̂1 x̄.
x2 − x2
Preuve. La fonction R(.) est strictement convexe sur R et coercive (càd lim
2
R(b) = ∞ ). Le mini-
miseur β̂ est donc l'unique solution des conditions du premier ordre
kbk→∞
n
∂R 2X
(β̂) = − (yi − β̂0 − β̂1 xi ) = −2 ȳ − β̂0 − β̂1 x̄ = 0,
∂b0 n i=1
n
∂R 2X
(β̂) = − xi (yi − β̂0 − β̂1 xi ) = −2 xy − β̂0 x − β̂1 x2 = 0,
∂b1 n i=1
et on retrouve le résultat.
On montre que β̂ est une estimateur sans biais de β. En eet E(y ) = E(β + β x + ) = β par
hypothèse. On a donc E(y) = β + β x et E(xy) = β x + β x , ce qui donne
i 0 1 i i 0 + β 1 xi
2
0 1 0 1
On peut également calculer la variance de ces estimeurs ainsi que leur covariance. On remarque tout
d'abord que var(y ) = var( ) = σ , var(y) = σ /n = cov(y , y) (par indépendance des y ) et
i i
2 2
i i
1
Pn
cov(xy, y) − x var(y) n i=1 xi cov(yi , y) − x var(y) xσ 2 − xσ 2
cov(β̂1 , y) = = = = 0.
x2 − x2 x2 − x2 n(x2 − x2 )
On déduit
1
Pn 1
Pn 2
var n i=1 (xi − x)yi n2 i=1 (xi − x) var(yi ) (x2 − x2 )σ 2 σ2
var(β̂1 ) = = = = ,
(x − x2 )2
2 (x2 − x2 )2 n(x2 − x2 )2 n(x2 − x2 )
σ2 x2 σ 2 x2 σ 2
var(β̂0 ) = var(y − β̂1 x) = var(y) + x2 var(β̂1 ) − 2x cov(y, β̂1 ) = + = ,
n n(x2 − x2 ) n(x2 − x2 )
−xσ 2
cov(β̂1 , β̂0 ) = cov(β̂1 , y − β̂1 x) = cov(β̂1 , y) − x var(β̂1 ) = .
n(x2 − x2 )
On montrera par la suite que β̂ est optimal parmi les estimateurs linéaires sans biais (parmi tous les
estimateurs sans biais dans le cas Gaussien).
A chaque observation y , correspond une prévision ŷ := β̂ + β̂ x . L'écart ˆ := y − ŷ entre l'observation
et la valeur prédite est appelé résidu. C'est en quelque sorte un estimateur du bruit , qui lui n'est pas
i i 0 1 i i i i
Le dernier paramètre inconnu du modèle est la variance du bruit σ = var( ). Un estimateur sans biais 2
asymptotiquement dans le cas non-Gaussien. Dans cette partie, on se place donc dans le cas Gaussien.
On note 1 = (1, ..., 1) , on sait que
>
y ∼ N (β0 1 + β1 x, σ 2 I).
Les estimateurs β̂ et β̂ sont des transformations linéaires de y, ils sont donc également Gaussiens.
Connaissant leurs espérances et variances, on déduit
0 1
et
!
2 2 2
x σ σ
β̂ ∼ N β ,
0 0 β̂ ∼ N β , 2
. 1 1 2
n(x − x ) 2 n(x − x ) 2
On donnera une preuve de ces armations dans le cas général de la régression linéaire multiple.
On rappelle que la loi de Student à d degrés de liberté, notée T , est le rapport entre une loi normale
standard et la racine carréee d'une loi du χ (d) indépendante renormalisée par d :
d
2
loi N (0, 1)
Td = p .
χ2 (d)/d
On a donc p p
√ x2 − x2 σ √ x2 − x2
n p (β̂0 − β0 ) × = n p (β̂0 − β0 ) ∼ Tn−2
x2 σ σ̂ x2 σ̂
et p p
√ x2 − x2 σ √ x2 − x2
n (β̂1 − β1 ) × = n (β̂1 − β1 ) ∼ Tn−2
σ σ̂ σ̂
On remarque que ces statistiques ont pour seules inconnues et ce qui permet de construire un test
sur une valeur particulière des paramètres. Par exemple, pour tester la nullité de , contre
β0 β1
β1 H0 : β1 = 0
H : β 6= 0 pour mettre en évidence l'existence ou non d'une relation ane entre et , on s'intéresse
à la statistique de test
1 1 X Y
p
√ x2 − x2 β̂1
T= n ,
σ̂
qui suit une loi de Student T sous H . On rejettera donc l'hypothèse nulle au niveau α si |T| est
supérieure au quantile de la loi de Student correspondant t (1 − ). Ce résultat permet également de
n−2 0
α
Ces tests et intervalles de conance sont exacts dans le cas Gaussien et asymptotiquement exacts dans le
cas non-Gaussien, sous des hypothèses faibles. En pratique, on peut souvent raisonnablement considérer
que les tests et intervalles de conance sont valables à partir de n = 50, voire n = 30, même après avoir
rejeté l'hypothèse de normalité des résidus.
2.3 Analyse de la variance
Le vecteur y ∈ R peut se décomposer en une partie expliquée par x et une partie résiduelle. En construi-
n
sant l'estimateur
β̂ = arg min2 ky − b0 1 − b1 xk2 ,
b∈R
où k.k désigne la norme Euclidienne usuelle sur R , on considère en fait la projection orthogonale ŷ =
n
β̂ 1 − β̂ x de y sur l'espace engendré par x et le vecteur constant 1 = (1, ..., 1) . En conséquence, le >
vecteur des résidus ˆ = (ˆ , ..., ˆ ) est orthogonal à x et 1 (on le vérie facilement par le calcul). En
0 1
>
xy − x y
y − y1 = (x − x1) + ˆ,
x2 − x2
le théorême de Pythagore entraîne
(xy − x y)2 (xy − x y)2
ky − y1k2 = kx − x1k2 + kˆ
k2 = n k 2 .
+ kˆ
(x2 − x2 )2 x2 − x2
La quantité ky − y1k est appelée somme des carrés totale (SCT), n(xy − x y) /(x − x ) est la somme
2 2 2 2
des carrés expliquée (SCE) et kˆk = (n − 2)σ̂ est la somme des carrés résiduelle (SCR). Le rapport
2 2
2.4 Prédiction
On suppose maintenant que l'on dispose d'une nouvelle observation x avec laquelle on veut prédire la
valeur y associée. Contrairement aux tests et intervalles de conance sur les paramètres, les intervalles
n+1
de prédictions traités dans cette partie ne sont valables que sous l'hypothèse de normalité des bruits. On
n+1
suppose donc
yn+1 = β0 + β1 xn+1 + n+1 ∼ N (β0 + β1 xn+1 , σ 2 )
et est indépendant des valeurs passées, en particulier de β̂ et σ̂ . On dénit naturellement le prédic-
2
E(ŷn+1 ) = β0 + β1 xn+1
σ 2 (x2 + x2n+1 − 2xxn+1 )
var(ŷn+1 ) = var(β̂0 ) + x2n+1 var(β̂1 ) + 2xn+1 cov(β̂0 , β̂1 ) = = σ2 v
n(x2 − x2 )
yn+1 − ŷn+1 = (β0 − β̂0 ) + (β1 − β̂1 )xn+1 + n+1 ∼ N (0, σ 2 (1 + v)).
y = Xβ + ,
avec β0
On suppose que p < n et que X est de rang p + 1. Sous ces hypothèses, l'estimateur β̂ est l'unique solution
des conditions du premier ordre
∇R(β̂) = −2X> y + 2X> Xβ̂ = 0 ⇐⇒ β̂ = (X> X)−1 X> y.
Proposition 3.1 L'estimateur des MCO β̂ est un estimateur sans biais de β de matrice de variance
var(β̂) = σ 2 (X> X)−1 .
E(β̂) = E((X> X)−1 X> y) = (X> X)−1 X> E(y) = (X> X)−1 X> Xβ = β
var(β̂) = var((X> X)−1 X> y) = (X> X)−1 X> var(y) X(X> X)−1 = σ 2 (X> X)−1 .
Théorème 3.2 (Gauss-Markov) L'estimateur des moindres carrés β̂ est optimal (au sens du coût qua-
dratique) parmi les estimateurs sans biais linéaires en y.
Preuve. Soit β̃ un estimateur sans biais de β, linéaire en y. On a donc β̃ pour une matrice
déterministe A ∈ R telle que,
= Ay
(p+1)×n
= σ 2 (X> X)−1 + σ 2 A(I −X(X> X)−1 X> )A> = var(β̂) + σ 2 A(I −X(X> X)−1 X> )A> .
Il reste à remarquer que la matrice A(I −X(X >
X)−1 X> )A> = var(β̃) − var(β̂) est semi dénie-positive.
En eet, ∀a ∈ R , p+1
a> A(I −X(X> X)−1 X> )A> a = k(I −X(X> X)−1 X> )A> ak2 > 0.
L'optimalité au sens L parmi les estimateurs linéaires sans biais ne nécessite pas la normalité du modèle.
2
Un résultat plus fort est valable dans le cas Gaussien ∼ N (0, σ I) où la variance de β̂ atteint la borne
2
de Cramer-Rao. L'estimateur des moindres carrés est donc optimal parmi tous les estimateurs sans biais
de β dans ce cas.
La matrice Π := X(X X) X utilisée dans la preuve du théorême de Gauss-Markov est la projection
> −1 >
orthogonale sur l'image de X. On le montre simplement en vériant que Π est symétrique et vérie
X
ˆ = y − ŷ = (I −X(X> X)−1 X> )y = (I −X(X> X)−1 X> )(Xβ + ) = (I −X(X> X)−1 X> )
est la projection orthogonale de y sur Im(X) et par conséquent celle de puisque y = Xβ + . Une
⊥
1 1
σ̂ 2 := ky − ŷk2 = k 2 .
kˆ
n−p−1 n−p−1
Im(X) ⊥
. On utilise qu'un réél est égal à sa trace et que tr(AB)
X⊥ X⊥
= tr(BA) :
k2 = E(> Π> > > >
Ekˆ X⊥ ΠX⊥ ) = E( ΠX⊥ ) = E tr( ΠX⊥ ) = E tr(ΠX⊥ ) .
Clairement, la trace (somme des éléments diagonaux) commute avec l'espérance, d'où
k2 = tr ΠX⊥ E(> ) = tr ΠX⊥ σ 2 I = σ 2 tr(ΠX⊥ ).
Ekˆ
La trace (somme des valeurs propres) d'une matrice de projection étant égale à son rang, on obtient
k2 = σ 2 (n−p−1) ⇐⇒ E σ̂ 2 = σ 2 .
Ekˆ
Un résultat plus fort est valable dans le cas Gaussien.
Proposition 3.4 Dans le modèle Gaussien ∼ N (0, σ2 I), les estimateurs β̂ et σ̂2 sont indépendants et
vérient
σ̂ 2
β̂ ∼ N (β, σ 2 (X> X)−1 ) et (n−p−1) ∼ χ2 (n−p−1).
σ2
ˆ = Π ∼ N (0, σ Π ). En exprimant ˆ dans une base orthonormée de Im(X) , on déduit (c'est une
2 ⊥
k 2
kˆ σ̂ 2
= (n−p−1) ∼ χ2 (n−p−1).
σ2 σ2
Il reste à montrer l'indépendance entre β̂ et σ̂ . On a vu que β̂ et ˆ sont non-corrélés et donc indépendants
2
dans le cas Gaussien. Ainsi, σ̂ qui est fonction de ˆ est indépendant de β̂.
2
Remarque 3.5 Dans le cas Gaussien, β̂ est l'estimateur du maximum de vraisemblance. En revanche,
l'estimateur du maximum de vraismeblance de σ2 est diérent, donné par
2 1 n−p−1 2
σ̂MV = ky − ŷk2 = σ̂ .
n n
tend vers 0. La convergence de σ̂ , que ce soit dans L ou même presque sûrement, est vériée dans le
2 2
cas Gaussien sans hypothèse supplémentaire sur X (c'est une conséquence immédiate du théorême 3.4).
On peut se demander si ces résultats restent valables sans la normalité des bruits. Un premier résultat
immédiat est que sous les hypothèses faibles, β̂ reste convergent dans L dès que (X X) tend vers 0.
2 > −1
On peut également montrer que si les sont iid et h := max |Π | tend vers 0, alors β̂ est
asymptotiquement Gaussien. Si de plus X X converge quand n → ∞ vers une matrice inversible M,
i n 16i,j6p+1 X,ij
1 >
alors √
n
loi
n(β̂ − β) −→ N (0, σ 2 M−1 ).
L'hypothèse X X → M est souvent vériée en pratique. Par exemple, elle est vériée presque sûrement
1 >
si l'échantillon {x , ..., x }
n
est issu de réalisations indépendantes de variables aléatoires X , ..., X
de carré intégrable. Dans ce cas, X X converge presque sûrement vers la matrice des moments d'ordre
1i pi i=1,...,n 1 p
1 >
deux, par la loi forte des grands nombres. Ce résultat est important car il conrme que même sous les
n
hypothèses faibles, la plupart des tests du modèle linéaire restent valables asymptotiquement.
3.3 Analyse de la variance
L'analyse de la variance consiste à diviser la variance de y en une partie expliquée par les variables
x , ..., x et une partie résiduelle. Il s'agit de remarquer que
1 p
y1 est la projection orthogonale de y sur l'espace engendré par le vecteur constant 1, noté vec{1}.
X
vec{1} étant un sous espace de Im(X), y1 est également la projection orthogonale de ŷ sur vec{1}
(on le vérie en remarquant que ŷ = y).
ˆ = y − ŷ = (I −X(X X) X )y est la projection orthgonale de y sur Im(X) .
> −1 > ⊥
Le coecient de détermination R qui donne un indicateur de la qualité de la modélisation est déni par
2
Remarque 3.6 Dans le cas univarié, on a vu que le coecient de détermination est égal au carré du
coecient de corrélation de Pearson ρ(x, y). Dans le cas multivarié, le R2 correspond à la valeur maximale
du carré du coecient de Pearson entre y et une combinaison linéaire des variables explicatives :
R2 = sup ρ(y, Xb)2 = ρ(y, ŷ)2 .
b∈Rp+1
3.4 Tests
Le coecient de détermination permet de tester l'existence d'une relation linéaire entre y et les variables
explicatives. Précisément, l'hypothèse nulle est l'absence de relation linéaire, ce qui se traduit par H :
β = ... = β = 0 contre H : ∃j, β 6= 0. Ce test est parfois appelé test de Fisher global.
0
1 p 1 j
Preuve. On rappelle qu'une loi de Fisher à k et k degrés de liberté, que l'on note F , est le rapport
de deux lois du χ indépendantes renormalisées par leur nombres de degrés de liberté :
1 2 k1 ,k2
2
rang) et Im(X) (de dimension n−p−1) sont orthogonaux, les vecteurs ˆ et ŷ − y1 sont donc indépendants
X⊥
0 E E
⊥
et
∼ χ (n−p−1) et
2 2 2 2
kˆ
k kΠ k X⊥ 2kŷ − y1k kΠ k E 2
= 2 2
= ∼ χ (p). 2 2
σ σ σ σ
Remarque 3.8 Sous H1 : ∃βj 6= 0, 1 6 j 6 p, la statistique F tend vers l'inni en probabilité dès que
kΠE (Xβ)k tend vers l'inni (cette hypothèse est très raisonnable en pratique). Dans ce cas, le test est
donc puissant asymptotiquement.
La statistique F permet donc de tester s'il existe au moins une variable pertinente parmi les variables
explicatives. Elle est calculée automatiquement dans la commande summary(lm(y ∼ x)) de R. Ce test
reste valable asymptotiquement dans le cas non-Gaussien, sous des hypothèses raisonnables.
Evidemment, l'existence d'au moins une variable explicative pertinente n'implique pas forcément que
toutes sont pertinentes. Pour tester individuellement chaque variable x , on peut utiliser un test de
Student. Précisemment, on sait que dans le modèle Gaussien, β̂ ∼ N (β, σ (X X) ), et en particulier,
j
2 > −1
β̂j − βj
p ∼ Tn−p−1 .
σ̂ [(X> X)−1 ]jj
Ce résultat permet de tester l'hypothèse nulle H : β = 0 pour vérier la pertinence de β (de manière
générale, on peut tester une hypothèse de la forme H : β = b) et de construire des intervalles de
0 j j
conance. La proposition suivante donne une procédure pour tester une hypothèse ane générale sur les
0 j
paramètres.
Proposition 3.9 Soient A ∈ Rq×(p+1) de rang q 6 p + 1 et b ∈ Rq connus. Sous les hypothèses fortes,
la statistique
(Aβ̂ − b)> [A(X> X)−1 A> ]−1 (Aβ̂ − b)
F=
qσ̂ 2
suit, sous H0 : Aβ = b, une loi de Fisher Fq,n−p−1 .
Preuve. On sait que par hypothèses Aβ̂ − b ∼ N Aβ − b, σ 2 A(X> X)−1 A>
. On déduit que sous H ,0
1 1
v= [A(X> X)−1 A> ]− 2 (Aβ̂ − b)
σ
kvk2 σ2
F= × 2 ∼ Fq,n−p−1 .
q σ̂
Remarque 3.10 Le test des hypothèses β1 = ... = βp = 0 ou encore βp = 0 sont des cas particuliers
du théorême, correspondant respectivement à A = (0, I) ∈ Rp×(p+1) , b = 0 et A = (0, ..., 0, 1), b = 0. Les
hypothèses de la forme βj = βj 0 correspondent également à des valeurs particulières de A et b.
où X est une matrice de rang p + 1 − q dont l'image est inclue dans Im(X) (par exemple, pour tester
l'hypothèse H : β = 0, on étudie le modèle sans la variable x ). On dénit alors la statistique de test
c
0 j j
n−p−1 SCRc − SCR k(I −ΠXc )k2 − k(I −ΠX )k2 k(ΠX − ΠXc )k2
F= = 2
=
q SCR qσ̂ qσ̂ 2
où SCR désigne la somme des carrés résiduelle dans le modèle contraint. Si l'hypothèse H est vraie, F
suit une loi de Fisher F . On obtient la même statistique de test par la proposition 3.9.
c 0
q,n−p−1
3.5 Prediction
On observe un nouveau jeu de variables x , ..., x et on cherche à prédire la valeur y corres-
pondante. On note X = (1, x , ..., x ). Sous l'hypothèse de normalité (qui est essentielle ici),
1,n+1 p,n+1 n+1
ŷn+1 − yn+1
q ∼ Tn−p−1 ,
σ̂ 1 + Xn+1 (X> X)−1 X>
n+1
ce qui permet de construire un intervalle de prédiction, qui n'est valable que sous l'hypothèse de normalité.
Remarque 3.11 La longueur de l'intervalle de prédiction ne tend pas vers zéro quand n tend vers l'inni,
et ce même si les observations nous permettaient d'estimer parfaitement β et σ2 asymptotiquement. Cest
dû au fait que l'intervalle de prédiction sur une nouvelle donnée yn+1 tient compte du bruit n+1 qui est
indépendant du passé et donc pour lequel nous n'avons aucun moyen de prévoir les valeurs futures.
4 Remise en question du modèle
Sur ce graphique, à gauche un diagramme quantile-quantile pour des résidus Gaussiens (les points
sont presque alignés) et à droite pour des résidus uniformes (l'alignement est moins net, notam-
ment pour les valeurs extrêmes).
Homoscédasticité (ou homogénéité) : Le test de Breusch-Pagan (commande bptest du package
lmtest) permet de tester si la variance des bruits est constante. On peut également utiliser le test
de White (commande white.test du package bstats). Graphiquement, l'hétéroscédasticité du
bruit se traduit par une répartition d'ampleurs inégales du nuage de points autour de la droite de
régression.
i ) = σ 2 (1 − hii ).
var(ˆ
Les valeurs h permettent donc de détecter les points y qui sont éloignés de la prédiction ŷ en
moyenne. La matrice Π est parfois appelée hat-matrice (et notée H) du fait que Hy = ŷ.
ii i i
X
Etude des résidus : Une observation atypique y peut être détectée à partir du résidu ˆ . Pour
prendre en compte le fait que les résidus n'ont pas la même variance, on peut eectuer deux types
i i
ˆi
ri = √ .
σ̂ 1 − hii
Sous les hypothèses fortes, la loi de r ne dépend pas des paramètres β et σ . Cependant, le calcul 2
exact de sa loi est dicile car ˆ et σ̂ ne sont pas indépendants. Pour obtenir une normalisation
i
2
qui suit approximativement une loi de Student, on dénit le résidu studentisé par
i
ˆ
Ti = √i ,
σ̂(i) 1 − hii
où σ̂ est l'estimateur de σ obtenu sans la i-ème observation. L'estimateur σ̂ est donc indépen-
2 2 2
pour lesquelles |T | est supérieur à 2 peuvent donc être considérées comme atypiques.
i i n−p−2
i
Distance de Cook : La distance de Cook de y mesure l'écart entre la vraie prédiction ŷ et celle
obtenue en enlevant la i-ème observation (y , x , ..., x ). Elle permet donc d'évaluer l'impact de
i
la i-ème observation sur la régression. Soit X la matrice obtenue en enlevant la i-ème ligne
i 1i pi
X = (1, x , ..., x ) de la matrice X. On suppose ici que n > p + 1 pour que X soit de plein
(−i)
rang. On note β̂ l'estimateur des moindres carrés obtenu à partir de l'échantillon sans la i-ème
i 1i pi (−i)
(i)
observation :
β̂ (i) = (X>
(−i) X(−i) )
−1 >
X(−i) y(−i)
où y = (y , ..., y , y , ..., y ) . De même, on note ŷ = Xβ̂ le vecteur de prédiction
> (i) (i)
est inuente.
i i
Le graphique montre la diérence entre la droite de régression obtenue avec tous les points de
l'échantillon (trait plein) et celle obtenue sans le point inuent du coin haut droit (en pointillés).
Le calcul de la distance de Cook d'une observation ou de σ̂ ne nécessite pas de refaire tous les calculs
2
de la régression dans le modèle sans l'observation i, comme on peut voir dans la proposition suivante.
(i)
On voit en particulier que la distance de Cook permet de synthétiser l'information sur les données in-
uentes contenue dans l'eet levier (via le terme h /1 − h ) et le résidu standardisé r .
ii ii i
dans le modèle sans y (en eet, ŷ = X β̂ ), le rajouter ne modie donc pas l'estimateur des moindres
1 i−1 i i+1 n i i
(i) (i)
carrés. On a donc
i i i
On donne maintenant la preuve de la proposition 3.12. Comme pour le lemme précédent, on utilise que
le vecteur (y − y ) ne contient qu'une coordonnée non nulle. On déduit
0
(i) (i)
X
2
(n−p−2)σ̂(i) = (yj − ŷj )2 = ky − ŷ (i) k2 − (yi − ŷi )2 .
j6=i
En écrivant ky − ŷ (i) 2
+ ŷ − ŷ (i) k2
k = kˆ , on obtient
ˆ2i ˆ2i
2
(n−p−2)σ̂(i) k2 + kŷ − ŷ (i) k2 + 2(ŷ − ŷ (i) )> ˆ −
= kˆ 2
= (n−p−1)σ̂ 2 − ,
(1 − hii ) 1 − hii
4.3 Multicolinéarité
On observe des problèmes de multicolinéarité lorsqu'au moins une variable explicative est très corrélée
aux autres régresseurs. Cela signie d'une certaine façon que l'information apportée par cette variable
est redondante car contenue dans les autres variables. Mathématiquement, la multicolinéarité conduit à
des valeurs propres de X X proches de zéro. Dans ce cas, l'estimateur des moindres carrés β̂ n'est pas
>
Un moyen simple de détecter si une variable x est corrélée au reste des régresseurs est d'eectuer une
régression linéaire de x sur les autres variables explicatives x , k 6= j. On peut alors calculer le coecient
j
de détermination R correspondant et vérier s'il est proche de 1. Le variance ination factor (VIF) est
j k
2
déni par j
1
VIF(xj ) = ,
1 − R2j
le coecient R étant toujours strictement inférieur à 1 lorsque X est de plein rang. On conclut géné-
2
ralement à un problème de multicolinéarité pour x si VIF(x ) > 5, ou de manière équivalente si R > 0.8.
j
2
j j j
En pratique, il faut toujours vérier en premier lieu les problèmes de multicolinéarité lorsque l'on eectue
une régression linéaire. Cela implique de calculer le VIF pour chaque variable explicative. Si jamais
plusieurs variables ont un VIF supérieur à 5, on supprime seulement la variable dont le VIF est le plus
élevé. Puis, on réitère la procédure dans le modèle sans la variable supprimée jusqu'à ce que toutes les
variables explicatives aient des VIFs acceptables.
4.4 Moindres carrés généralisés
On s'intéresse maintenant à la situation où les hypothèses de non-corrélation des bruits n'est pas vériée.
On suppose ici que est centré de matrice de variance σ V, où V est une matrice dénie positive connue.
2
Preuve. 1On se ramène au modèle homoscédastique par une transformation des observations. En posant
z = V− 2 y et W = V X, on obtient le modèle équivalent
− 12
1
z = Wβ + V− 2 .
Le vecteur de bruit V est centré de variance σ I. Par le théorème de Gauss-Markov, on sait que le
− 12 2
L'estimateur β̂ est appelé l'estimateur des moindres carrés généralisés (MCG). Sa variance
G
est donc minimale parmi les estimateurs linéaires sans biais. Dans le cas Gaussien, on vérie facilement
que β̂ est l'estimateur du maximum de vraisemblance.
G
pour lequel la variance de l'erreur est ampliée pour les grandes valeurs de |x |. On a donc dans ce cas
var() = σ V avec V la matrice diagonale ayant pour entrées V = x , i = 1, ..., n.
i
2 2
ii i
5 Analyse de variance et de covariance
L'analyse de variance (ANOVA) a pour objectif d'expliquer une variable aléatoire Y quantitative à par-
tir de variables explicatives qualitatives, appelées facteurs. On compare les moyennes empiriques des
observations de Y pour les diérentes modalités prises par les facteurs.
5.1 Analyse de variance à un facteur
Soit J > 2 modalités A , ..., A , on observe J échantillons indépendants (y de
tailles n , ..., n suivant le modèle
1 J 11 , ..., yn1 1 ), ..., (y1J , ..., ynJ J )
1 J
exemple, on veut évaluer la taille moyenne d'une population en fonction du sexe. On a donc une variable
j=1 j ij j
quantitative y (la taille) et une variable explicative qualitative (le sexe) comprenant deux modalités. On
peut représenter graphiquement les données par des boîtes à moustaches.
Le modèle d'analyse de variance peut s'écrire comme un modèle de régression linéaire multiple avec comme
variable à expliquer y = (y , ..., y , y , ..., y , ..., y , ..., y ) ∈ R et comme variables explicatives > n
les indicatrices des modalités x = 1 = (1, ..., 1, 0, ..., 0) , x = 1 = (0, ..., 0, 1, ..., 1, 0, ..., 0) etc...
11 n1 1 12 n2 2 1J nJ J
> >
y = Xβ + ,
avec β = (µ , ..., µ ) . Le modèle ne contient pas la constante car ajouter celle-ci rendrait le modèle
>
sur-identié avec une matrice X qui ne serait pas de plein rang (le vecteur constant 1 est égal à la somme
1 J
des colonnes x ). On peut cependant reparamétrer le modèle en prenant comme variables explicatives
1, 1 , ...., 1 de manière à retrouver un modèle de régression linéaire avec constante. Avec cette para-
j
L'estimation des paramètres µ se fait naturellement par les moyennes empiriques sur chaque modalité
j
nj
1 X
µ̂j = y .j = yij
nj i=1
Proposition 5.1 L'estimateur µ̂ = (µ̂1 , ..., µ̂J )> est l'estimateur des moindres carrés du modèle de ré-
gression linéaire correspondant. Il ne dépend pas du choix de la paramétrisation.
Preuve. Soit X = (1 , le modèle de régression linéaire correspondant est
A1 , ..., 1AJ )
y = Xµ + ,
où µ = (µ , ..., µ ) . Les variables 1 , ..., 1 sont clairement orthogonales dans R , la matrice X X est
> n >
donc diagonale avec pour diagonale n , ..., n . On vérie alors facilement par le calcul que
1 J A1 AJ
1 J
1
Pn1
...
n1 i=1 yi1
µ̂ = (X> X)−1 X> y = .
1
PnJ
nJ i=1 yiJ
où γ̂ est l'estimateur des moindres carrés, est indépendant du choix de la matrice C. En eet,
Cγ̂ = C(W> W)−1 W> y = (C> X> XC)−1 C> X> y = (X> X)−1 X> y = µ̂.
J nj
1 XX
σ̂ 2 = (yij − µ̂j )2 .
n − J j=1 i=1
La renormalisation se fait par n−J et non n−J−1 car le modèle ne contient pas la constante.
On s'intéresse maintenant à des tests d'hypothèses. On se place maintenant sous l'hypothèse forte de
normalité des bruits . La première question à se poser est de savoir si la variable y est dépendante du
facteur A. Cela revient à tester l'égalité simultanée des moyennes µ , soit l'hypothèse H : µ = ... = µ
ij
où on rappelle µ̂ = y , on a bien
0 1 J 0 1 J−1 µ̂ 1 j=1 j Aj
j .j
et
J nj
J X nj
J X
X X X
kŷ − y1k2 = nj (y .j − y)2 , ky − y1k2 = (yij − y)2 ky − ŷk2 = (yij − y .j )2
j=1 j=1 i=1 j=1 i=1
Dans ce cadre, la quantité SCT est parfois appelée la variance totale, SCE la variance interclasses et
1 1
On peut également être amené à tester seulement l'égalité entre deux moyennes µ et µ . Dans ce cas,
n
On a vu comment tester l'égalité simultanée de toutes les moyennes et l'égalité de deux moyennes. On s'in-
téresse maintenant à tester une hypothèse de la forme H : µ = µ , ..., µ = µ où (j , j ), ..., (j , j ) 0 0
est une collection de paires d'indices diérents de {1, ..., J} (attention, on impose évidemment j 6= j
0 j1 j10 jq jq0 1 1 q q
0
mais pas nécessairement j 6= j ). Pour tester ce genre d'hypothèses, deux procédures sont envisageables.
k k
Un premier moyen est d'appliquer la correction de Bonferroni. En notant T la statistique de test pour
k l
q q
!
[ X
a a
P |Tk | > tn−J (1 − a2 ) = qa,
P ∃k, |Tk | > tn−J (1 − 2) =P |Tk | > tn−J (1 − 2) 6
k=1 k=1
où t (.) désigne la fonction quantile de la loi de Student T . On déduit que la procédure de test qui
consiste à rejeter H : µ = µ , ..., µ = µ s'il existe un k pour lequel |T | > t (1 − ) a une erreur
n−J n−J
α
On peut également eectuer un test exact pour cette hypothèse en utilisant l'écriture du modèle de ré-
gression linéaire. On remarque en eet que l'hypothèse H : µ = µ , ..., µ = µ correspond à un cas
particulier de la proposition 3.9, où A est une matrice de taille J × q et b = 0.
0 j1 j10 jq jq0
la normalité des données, qui peut être testée au préalable par un moyen classique (test de Shapiro-
0 1 J j j
Wilk par exemple). Si les données ne sont pas Gaussiennes, le test d'homogénéité de Levene (commande
levene.test de la library car) est préférable. Il est construit à partir des variables z = |y − y |, en
considérant la statistique
ij ij .j
P J 2
n−J j=1 nj (z .j − z)
F=
J − 1 Jj=1 ni=1
P P j
(zij − z .j )2
qui suit approximativement sous H 0 : σ12 = ... = σJ2 , une loi de Fisher F J−1,n−J .
Remarque 5.4 Le test de Brown-Forsythe utilise la médiane au lieu de la moyenne y.j pour construire
zij ,
ce qui peut parfois conduire à un test plus robuste quand la loi des observations est très diérente
d'une loi normale.
paramètres, µ représente l'eet général, α l'eet du niveau j du premier facteur, δ l'eet du niveau k
j k j. n =
k=1 jk .k j=1 jk j=1 j. k=1 .k
du second facteur et γ l'eet de l'intéraction entre les niveaux j et k des deux facteurs.
j k
jk
L'eet d'intéraction existe quand le niveau d'un facteur modie l'inuence de l'autre facteur sur la va-
riable Y. Dans l'exemple utilisé précédemment, la taille moyenne dans une population est modélisée en
tenant compte du sexe. Si l'on ajoute un deuxième facteur (par exemple l'âge séparé en trois modalités
"enfant", "adolescent"' et "adulte"), on peut évaluer l'intéraction entre les facteurs en mesurant par
exemple si l'écart moyen de taille entre hommes et femmes et le même chez les adolescents et chez les
adultes.
Le modèle y = µ+α +δ +γ + est sur-identié, on impose donc les contraintes sur les paramètres
ijk j k jk ijk
K
X J
X K
X J
X
αk = δj = 0 , γjk = 0, ∀j = 1, ..., J , γjk = 0, ∀k = 1, .., K.
k=1 j=1 k=1 j=1
On peut vérier que ces contraintes diminuent de J + K + 1 le nombre de degrés de liberté des paramètres.
Dans ce modèle, il y a J × K paramètres à estimer, autant que de classes formées par les diérents
croisements des modalités A et B . En notant j k
et
njk J njk K njk J K njk
1 X 1 XX 1 XX 1 XXX
y .jk = yijk , y ..k = yijk , y .j. = yijk y= yijk ,
njk i=1 n.k j=1 i=1 nj. i=1
n j=1 i=1
k=1 k=1
sont les coecients β = µ+α +δ +γ pour j = 1, ..., J et k = 1, ..., K. Les estimateurs µ̂, α̂ , δ̂ et γ̂
Aj ∩Bk j k
correspondent ici aussi à l'estimation des moindres carrés. On a en particulier β̂ = y = µ̂+α̂ +δ̂ +γ̂ .
jk j k jk j k jk
jk .jk j k jk
Proposition 5.5 Si le plan d'expérience est équilibré, c'est-à-dire que njk = JK
n
pour tout j, k (le nombre
d'observations dans chaque classe est identique), on a la décomposition suivante
J X njk
K X J K J K
X nX nX n XX
(yijk − y)2 = (y .j. − y)2 + (y ..k − y)2 + (y .jk − y .j. − y ..k + y)2
j=1 k=1 i=1
J j=1 K JK j=1
k=1 k=1
| {z } | {z } | {z } | {z }
SCT SCA SCB SCAB
J X njk
K X
X
+ (yijk − y .jk )2
j=1 k=1 i=1
| {z }
SCR
Preuve. Soit E le sous-espace de R de dimension J×K engendré par les indicatrices 1 , j = 1, ..., J, k =
n
1, ..., K et E (resp. E ) l'espace engendré par les indicatrices 1 des modalités A (resp. les indicatrices
AB jk
et Π
J
X K
X J X
X K
ΠA (y −y1) = (y .j. −y)1Aj , ΠB (y −y1) = (y ..k −y)1Bk AB (y −y1) = (y .jk −y)1Aj ∩Bk .
j=1 k=1 j=1 k=1
On déduit
J X njk
K X
X
SCT = (yijk − y)2 = ky − y1k2
j=1 k=1 i=1
J X njk
K X
X
SCR = (yijk − y .jk )2 = k(I −ΠAB )(y − y1)k2
j=1 k=1 i=1
J
nX
SCA = (y − y)2 = kΠA (y − y1)k2
J j=1 .j.
K
nX
SCB = (y ..k − y)2 = kΠB (y − y1)k2
K
k=1
J K
n XX
SCAB = (y .jk − y .j. − y ..k + y)2 = k(ΠAB − ΠA − ΠB )(y − y1)k2
JK j=1
k=1
ce qui après simplication, équivaut à montrer que hΠ A (y − y1), ΠB (y − y1)i = 0 . On vérie bien
J K
n X X
hΠA (y − y1), ΠB (y − y1)i = (y.j. − y) (y ..k − y)
JK j=1
k=1
J K K J
n X X X X
= y.j. y ..k − Jy y ..k − Ky y.j. + JKy 2
JK j=1 j=1
k=1 k=1
n
= (2JKy 2 − 2JKy 2 ) = 0.
JK
n
PJ PK
n − JK JK j=1 k=1 (y .jk − y .j. − y ..k + y)2 n − JK SCAB
FAB = PJ PK Pnjk =
(J − 1)(K − 1) j=1 k=1 i=1 (yijk − y .jk )
2 (J − 1)(K − 1) SCR
suit sous H une loi de Fisher F . Lorsque le plan n'est pas équilibré, la décomposition de
la proposition 4.4 n'est plus valable. Pour tester l'inuence de chaque facteur séparemment, l'idée reste
0 (J−1)(K−1),n−JK
permet également de tester H : α = ... = α = 0 et sa loi reste identique au cas équilibré. En revanche,
tester l'interaction entre les facteurs n'est plus aussi directe. En eet, les vecteurs Π (y−y) et Π (y−y) ne
0 1 J
sont pas nécessairement orthogonaux quand le plan est déséquilibré. Le moyen le plus simple pour tester
A B
la présence d'interaction dans le modèle d'analyse de variance à deux facteurs est sans doute d'utiliser la
représentation par le modèle de régression linéaire. Le modèle s'écrit
y = Xβ + ,
y = Xc βc + ,
pour rendre le modèle identiable). Le modèle initial contient JK paramètres et le modèle contraint n'en
c A1 AJ B1 BK−1 c 1 J 1 K−1 BK
qui suit sous l'hypothèse nulle d'absence d'interaction une loi de Fisher F . Cette statis-
tique n'a pas d'expression simpliée quand le plan n'est pas équilibré.
(J−1)(K−1),n−JK
Le modèle d'analyse de variance peut se généraliser à un nombre quelconque k de facteurs ayant respecti-
vement J , ..., J modalités. Il est toujours possible de réprésenter le modèle par un modèle de régression
linéaire où les variables explicatives sont les indicatrices des intersections entre les diérentes modalités
1 k
y = Xβ + ,
où X = (1 , x , ...., 1 , x ) et β = (β , β , ..., β , β ) . Ici, le support des variables colonnes x , ..., x
>
est restreint à leurs modalités, x = (x , ..., x , 0, ..., 0) , x = (0, ..., 0, x , ..., x , 0, ..., 0) etc...
A1 1 AJ J 01 11 0J 1J 1 J
> >
1 11 1n1 2 21 2n2
Pour représenter graphiquement les données, on peut utiliser un nuage de points en distinguant les points
(par des formes ou couleurs diérentes) selon leur modalité, par exemple comme sur le graphique suivant.
On distingue ainsi les données selon l'appartenance à la première modalité (cercles) ou à la seconde
modalité (triangles). L'analyse de covariance permet alors de tester plusieurs hypothèses, en comparant
le modèle à des modèles contraints n'intégrant que l'eet de X, que l'eet de A ou que l'eet d'interaction.
Pour tester l'interaction entre les variables explicatives A et X, on considère dans un premier temps
l'hypothèse nulle H : β = ... = β . S'il n'y a pas d'interaction, les pentes de la régression
(1)
(1)
n−2J SCRc − SCR
F(1) =
J−1 SCR
suit, sous H : β = ... = β , une loi de Fisher F
(1)
0 11 1J . J−1,n−2J
Si l'interaction n'est pas signicative, on peut alors vouloir tester l'eet de X dans le modèle
contraint précédent par le biais de l'hypothèse plus forte H : β = 0. Le modèle contraint s'écrit (2)
Enn, si aucun des deux tests précédents n'est signicatif, on peut vouloir tester l'eet du facteur
A. On considère comme modèle initial y = β + et comme modèle contraint y = β +
pour tester l'hypothèse H : β = ... = β . La statistique de test est donc
ij 0j ij ij 0 ij
(3)
0 01 0J
(3) (2)
n−J SCRc − SCRc
F(3) = (2)
,
J−1 SCRc
qui suit sous H une loi de Fisher F
(3)
0 J−1,n−J .
6 Sélection de modèle
Les méthodes de sélection de modèle ont pour objectif d'éliminer les variables non-pertinentes du modèle.
Cela comprend les variables X non-corrélées avec la réponse Y et les variables redondantes, ce qui se
traduit par un coecient β nul (ou proche de zéro). Cette remarque est également valable pour la
j
variable constante 1, qui doit être considérée comme une variable explicative comme les autres, pouvant
j
possibles. Pour un modèle m ⊆ {1, x , ..., x }, on note Π le projecteur orthogonal sur l'espace engendré
1 p
par les variables x ∈ m et |m| le cardinal de m. Le prédicteur correspondant au modèle m est donc
1 p m
= Π y.
j
(m)
ŷ m
Méthode descendante (backward elimination) : On part du modèle comprenant toutes les variables
explicatives. A chaque étape, la variable ayant la plus grande p-value du test de Student (ou de
Fisher) de nullité du paramètre est supprimée du modèle si la p-value est supérieure à un seuil
choisi à l'avance (généralement 0.10 ou 0.05). Attention, il est important d'éliminer les variables
une par une. La procédure s'arrête lorsque toutes les variables sont signicatives.
Méthode ascendante (forward selection) : On eectue la régression linéaire de y sur chacune des
variables explicatives séparément. On conserve la variable la plus pertinente, c'est-à-dire, celle dont
la p-value est la plus faible. On réitère le procédé en introduisant les variables une par une et en
ne conservant que la variable dont l'apport est le plus signicatif. On s'arrête dès qu'aucune des
variables pas encore introduites n'est jugée signicative.
Méthode pas-à-pas (stepwise selection) : On part soit du modèle global, soit du modèle sans
variables et on évalue à chaque fois la signicativité de chaque variable supprimée ou rajoutée au
modèle. On s'arrête dès que le modèle ne peut être modié sans améliorer la signicativité.
L'utilisation des tests pour la sélection de variables ne permet que de comparer, à chaque étape, deux
modèles emboîtés (c'est-à-dire pour lesquels un des modèles contient toutes les variables de l'autre). Ces
critères sont limités car ils permettent seulement de juger de la pertinence de chaque variable individuel-
lement. Or, le choix du meilleur modèle doit tenir compte de la signicativité des variables et de leurs
interactions. Il est donc souvent préférable d'utiliser un critère universel qui permet de comparer des
modèles de manière plus globale.
6.2 Coecient de détermination
Le coecient de détermination d'un modèle m est la quantité
kŷ (m) − y1k2
R2 (m) = ,
ky − y1k2
qui évalue la part de y expliquée par le modèle. Utiliser le coecient de détermination pour comparer
plusieurs modèles (en choisissant le modèle avec le R le plus grand) va conduire à choisir le modèle
2
complet, qui colle le plus aux données. Ce critère ne tient pas compte d'un possible sur-ajustement et
pour cette raison, n'est souvent pas approprié pour la sélection de modèle.
6.3 Coecient de détermination ajusté
Si on s'intéresse à la relation stochastique sous-jacente
Y = E(Y|X) +
entre les variables, on peut considérer que le coecient de détermination R est une estimation du R
2 2
Le R ajusté quantie la part du modèle expliquée par les variables explicatives en tenant compte du
2
nombre de variables utilisées, privilégiant les modèles contenant peu de variables. On choisit le modèle
dont le R est le plus élevé. Ce critère est beaucoup plus judicieux que le R classique, qui lui privilégiera
2 2
6.4 Cp de Mallows
Dans une optique de prédiction, on peut considérer que le meilleur modèle m est celui qui minimise
l'erreur de prédiction
r(m) := EkXβ − Πm yk2 .
L'erreur r(m) est inconnue en pratique mais elle peut être estimée.
Proposition 6.1 L'erreur quadratique vaut
r(m) = k(I −Πm )Xβk2 + σ 2 |m|.
Remarque 6.2 L'écriture du risque r(m) = k(I −Πm )Xβk2 + σ2 |m| est appelée décomposition biais-
variance. Le carré du biais est la partie déterministe k(I −Πm )Xβk2 . C'est elle qui pose le plus de problème
pour évaluer le meilleur modèle. La variance EkΠm k2 = σ2 |m| ne pose pas de problème majeur pour le
choix du modèle.
Lorsqu'on fait de la sélection de modèle, on ne cherche pas à exprimer la vraisemblance comme une
fonction des paramètres mais plutôt comme une fonction du modèle m. Si seule la loi du bruit est connue,
évaluer la vraisemblance d'un modèle m nécessite d'estimer les paramètres, ce qui entraîne un biais.
Pour évaluer la log-vraisemblance, ce biais est asymptotiquement de l'ordre du nombre de paramètres à
estimer, à savoir |m|. Le critère AIC, qui utilise une version asymptotiquement débiaisée de l'estimateur
de la log-vraisemblance, est déni par
2
AIC(m) = 2|m| − 2 log(V(σ̂m , β̂m , X, y)),
Remarque 6.3 Dans le cas Gaussien, les critères AIC et Cp de Mallows sont équivalents.
Le critère AIC se justie asymptotiquement mais pas pour des échantillons de petites tailles. Il existe une
version corrigée du critère, plus adaptée aux petits échantillons,
2|m|(|m| + 1)
AICc (m) = AIC(m) + .
n − |m| − 1
6.6 Critère BIC
Le critère BIC (Bayesian Information Criterion), déni par
2
BIC(m) = 2|m| log(n) − 2 log(V(σ̂m , β̂m , X, y))
est une version modiée du critère AIC motivée par l'utilisation d'un a priori sur le paramètre β. Schwarz,
qui a introduit ce critère, a montré que l'inuence de l'a priori était négligeable asymptotiquement ce qui
justie que le critère n'en dépend pas. Le facteur log(n) dans la pénalité a pour conséquence de favoriser,
plus que les autres critères, les modèles avec moins de paramètres.
6.7 Critère PRESS de validation croisée
La validation croisée est un des moyens les plus ecaces de juger de la qualité d'un modèle. Le principe de
la validation croisée est d'estimer les paramètres à partir d'un sous-échantillon des données et d'évaluer
leurs performances de prédiction sur les données mises de côté. La version la plus simple est le critère
PRESS (prediction error sum of square), pour lequel une seule observation est laissée de côté. Soit ŷ (i)
la prédiction de y estimée dans le modèle m à partir des données sans y , le critère PRESS est déni par
i i
m,i
n
(i)
X
PRESS(m) = (ŷm,i − yi )2 .
i=1
On retient bien sûr le modèle avec le PRESS le plus faible. D'après le lemme 3.8, on montre que le critère
PRESS est également donné par
n
X ˆ2m,i
PRESS(m) = ,
i=1
(1 − hm,ii )2
En pratique, on chosit un de ces critères pour retenir un modèle nal. Si le nombre de variables explicatives
dans le modèle complet est grand, le calcul du critère pour les 2 sous-modèles peut vite devenir très
p+1
coûteux. Dans ce cas, on peut se contenter de faire une recherche pas-à-pas du meilleur modèle en enlevant
et ajoutant les variables les plus pertinentes une par une, ce qui permet de ne calculer le critère que pour
un petit nombre de modèles. Cette approche est nettement moins coûteuse en temps de calcul mais ne
garantit pas de sélectionner le meilleur modèle pour le critère choisi.
7 Méthodes robustes d'estimation
Dans le modèle de régression linéaire Gaussien y = Xβ + , on a vu que l'estimateur des moindres carrés
est le meilleur estimateur sans biais de β. On peut souvent améliorer l'estimation en recherchant un
estimateur de β biaisé, pour lequel l'erreur quadratique est plus faible que celle des moindres carrés. Les
méthodes de sélection de modèle peuvent conduire à un estimateur biaisé de β. Par exemple, si la variance
de β̂ est élevée, il peut être préférable d'estimer β par zéro, même si celui-ci est non nul. Cela entraîne
un biais qui est compensé par une plus forte diminution de la variance. Dans cette section, on s'intéresse
j j
L'idée est de faire une régression sur des combinaisons linéaires bien choisies des variables w , de manière
à optimiser l'information tout en réduisant la dimension du modèle. Une composante est une combinaison
j
... . . . ...
w11 ... wp1
W= ,
Du point de vue de l'ACP, l'information d'une composante est donnée par sa norme. La première com-
posante principale c = Wλ est la composante de norme maximale (dénie au signe près),
1 1
Si celle-ci n'est pas unique, on en choisit une arbitrairement parmi les maximiseurs. La composante
obtenue c = Wλ = P λ w détermine la variable explicative privilégiée par l'ACP. La deuxième
p
non nulles et v , ..., v une famille orthogonale de vecteurs propres associés que l'on complète si nécessaire
1 r
par v , ..., v pour former une base orthonormée de R . On veut montrer que λ = v pour j = 1, ..., r.
1 r
p
Soit λP∈ R tel que kλk = 1. On décompose λ dans la base v , ..., v , ce qui donne λ = P hλ, v iv
r+1 p j j
p p
avec hλ, v i = 1. On a
1 p j=1 j j
p 2
j=1 j
p
X p
X
λ> W> Wλ = hλ, vj i2 γj 6 γ1 hλ, vj i2 = γ1 .
j=1 j=1
Elle est bien un vecteur propre de WW de valeur propre associée γ . On réitère la preuve pour la
>
construction de λ . Sous les contraintes v λ = 0 et kλk = 1, le vecteur λ s'écrit dans la base v , ..., v ,
1
>
2 1 1 p
hλ, v iv avec
X X p p
2
λ= hλ, v i = 1. j j j
j=2 j=2
On montre de la même façon que précédemment que le maximum de λ W Wλ sous ces contraintes est > >
atteint en λ = v , et ainsi de suite. La matrice WW étant symétrique, les vecteurs propres c , ..., c
>
La variable à expliquer est le vecteur recentré y − y1, les paramètres à estimer sont les coecients α
et les variables explicatives sont les composantes principales c , ..., c . On choisira de ne retenir dans le
j
modèle que les composantes principales les plus pertinentes. Il y a deux avantages majeurs à utiliser les
1 r
composantes principales comme variables explicatives. Premièrement, les composantes principales sont
orthogonales, ce qui permet de juger de la pertinence de chacune des composantes sans tenir compte des
autres (contrairement au cas général où la pertinence d'une variable doit être testée en tenant compte
des autres variables du modèle). Deuxièmement, les composantes principales sont classées par ordre
d'importance, la sélection de variables se fait donc en choisissant un rang k à partir duquel les composantes
c , j > k sont jugées non-pertinentes (on peut éventuellement prendre k = 0). Cela réduit à un maximum
de p + 1 modèles à tester. On peut retenir par exemple le modèle avec le PRESS le plus faible.
j
Une fois le seuil k déterminé, les paramètres α , ..., α sont estimés par les moindres carrés. Du fait de
l'orthogonalité des composantes, l'estimateur des moindres carrés s'exprime très simplement. En eet, en
1 k
1
γ1 hc1 , y − y1i
...
α̂(k) = (C>
(k) C(k) )
−1 >
C(k) (y − y1) = .
1
γk hck , y − y1i
On obtient la prédiction
k k k
ACP
X X 1 X 1
ŷ(k) = y1 + α̂j cj = y1 + hcj , y − y1icj = y1 + hy, cj icj .
j=1 j=1
γ j γ
j=1 j
Remarque 7.2 Si k = r = p, la prédiction obtenue par l'ACP est celle des moindres carrés car les
composantes cj et la constante 1 engendrent entièrement Im(X). De plus, on voit dans la formule de
α̂(k) que l'ajout ou le retrait d'une composante cj dans le modèle retenu ne modie pas la valeur des
estimateurs α̂j 0 pour j 0 6= j , ce qui s'explique simplement par l'orthogonalité des composantes.
La décomposition de y dans la base c , ..., c permet de classer les estimations des coecients par ordre
décroisssant des variances. En eet, les variances des projections de y dans les directions c /kc k sont
1 r
données par,
j j
cj 1 cj 1 c>j cj σ2
var y, = 2 var ,y = 2 var(y) = .
kcj k γj kcj k γj kcj k kcj k γj
Classer les composantes principales par valeurs propres γ décroissantes est donc un moyen de privilégier
les directions de faibles variances pour la prédiction.
j
2
λ1 = arg maxp y − y1, Wλ .
λ∈R
kλk=1
Contrairement à l'ACP où les composantes ne sont déterminées qu'en fonction de l'information des
variables explicatives, la régression PLS tient compte également de la réponse pour construire les compo-
santes. L'idée est de maximiser l'information apportée par les variables explicatives et leurs interactions
avec y. La deuxième composante de la régression PLS est construite de la même façon, en imposant
qu'elle soit orthogonale à la première. On dénit donc c = Wλ avec
2 2
2
λ2 = arg maxp y − y1, Wλ .
λ∈R
kλk=1
>
c1 Wλ=0
Le procédé peut être itéré jusqu'à obtenir r composantes, qui sont orthogonales par construction. On
choisit alors un seuil k à partir duquel les composantes de sont plus intégrées au modèle. On peut utiliser
ici aussi le critère PRESS pour choisir le meilleur seuil k.
7.3 Régression Ridge
Lorsqu'il y a des corrélations entre les variables explicatives, la matrice X X a des valeurs propres proches
>
de zéro et l'estimateur des moindres carrés β̂ n'est pas satisfaisant, du fait d'une forte variance. Pour
contrôler la variance de l'estimateur, un moyen simple est de pénaliser les grandes valeurs de β̂. C'est le
principe de la régression ridge, on dénit l'estimateur par
β̂κridge ∈ arg min ky − Xbk2 + κkbk2 ,
p+1
b∈R
Si κ > 0, la fonction R(b) = ky − Xbk + κkbk est strictement convexe et coercive. L'estimateur
Preuve. 2 2
∂
R(β̂κridge ) = −2X> y + 2X> Xβ̂κridge + 2κβ̂κridge = 0 ⇐⇒ β̂κridge = (X> X + κ I)−1 X> y.
∂b
Si kb k 6 τ = kβ̂
0 ridge 2
κ k , alors
ky − Xb0 k2 − ky − Xβ̂κridge k2 > κ kβ̂κridge k2 − kb0 k2 > 0 =⇒ ky − Xb0 k2 > ky − Xβ̂κridge k2 .
L'estimateur Ridge est donc solution de deux problèmes d'optimisation duaux : le minimiseur du critère
pénalisé ou du critère sous contrainte.
Contrairement à l'estimateur des moindres carrés, l'estimateur Ridge est bien déni même si la matrice
des régresseurs n'est pas de plein rang. Par ailleurs, l'estimateur Ridge est biaisé, mais de variance plus
faible que l'estimateur des moindres carrés lorsque celui-ci existe. Précisemment,
biais(β̂ ) = E(β̂ − β) = (X X + κ I) X X − I β = −κ(X X + κ I) β
ridge
κ
ridge
κ
> −1 > > −1
On a utilisé pour la dernière ligne le fait que (X X + κ I) et X X commutent car elles sont diagonali-
> −1 >
sables dans la même base. Si on s'intéresse à l'erreur quadratique, appliquer la trace à la décomposition
biais-variance E[(β̂ − β)(β̂ − β) ] = var(β̂ ) + biais(β̂ )biais(β̂ ) nous donne
ridge
κ
ridge
κ
> ridge
κ
ridge
κ
ridge >
κ
ridge
) + kbiais(β̂
2 ridge ridge 2
Ekβ̂ − βk = tr var(β̂
κ κ)k . κ
Soit φ , ..., φ une base orthonormée de vecteurs propres de X X et γ > ... > γ les valeurs propres
>
et kbiais(β̂
p p
X γj X hβ, φj i2
tr var(β̂κridge ) = σ 2 ridge 2
= κ2
κ )k .
j=0
(γj + κ)2 j=0
(γj + κ)2
On voit bien que la variance de l'estimateur Ridge une fonction décroissante de κ alors que le carré
du biais est une fonction croissante. Le paramètre κ permet donc de faire un compromis entre biais et
variance. En pratique, le choix du paramètre κ se fait généralement par validation croisée.
Remarque 7.4 Si X est de plein rang, la limite en zéro, limκ→0 β̂κridge , est égale à l'estimateur des
moindres carrés β̂ . Si X n'est pas de plein rang, la limite limκ→0 β̂κridge existe et est égale à l'image de y
par l'inverse généralisé (ou opérateur de Moore-Penrose) de X,
lim β̂κridge = X† y = arg min kbk sous la contrainte Xb = ΠX y.
κ→0 p+1 b∈R
p
X
β̂κlasso = arg min
p+1
ky − Xbk2 + κ |bj |,
b∈R
j=0
où κ > 0 est un paramètre à déterminer. Comme pour le Ridge, l'estimateur lasso est également solution
du problème dual
p
X
β̂κlasso = arg min ky − Xbk2 sous la contrainte |bj | 6 τ,
b∈Rp+1
j=0
pour un τ = τ (κ) > 0. L'argument est le même que pour la preuve du théorème 7.3.
Le lasso est principalement utilisé pour construire un estimateur parcimonieux (c'est-à-dire dont certaines
composantes sont nulles). Une interprétation graphique de ce phénomène est donnée dans le dessin suivant,
qui compare les régressions Ridge et lasso.
Les ellipses représentent les courbes de niveaux de la fonction b 7→ ky − Xbk . La solution au problème
2
d'optimisation sous contraintes est le point d'intersection avec la boule pour chaque norme. On voit que
l'estimateur lasso a une composante nulle, contrairement à l'estimateur Ridge.
Remarque 7.5 Du fait de la sparsité de la solution, la méthode lasso peut être utilisée dans une op-
tique de sélection de variables. En revanche, il n'existe pas de formule analytique pour l'estimateur lasso
(contrairement au Ridge), le calcul de l'estimateur se fait numériquement par des algorithmes d'optimi-
sation convexe.