Vous êtes sur la page 1sur 30

Master 2 Ingnierie Mathmatique

Cours de Rgression

Table des matires

1 Introduction 3

2 Rgression linaire simple 4

2.1 Mthode des moindres carrs ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


2.2 Tests sur les paramtres du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Rgression linaire multiple 9

3.1 Mthode des moindres carrs ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9


3.2 Proprits asymptotiques des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.6 Vrication des hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.7 Dtection d'observations atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.8 Multicolinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.9 Moindres carrs gnraliss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Analyse de variance et de covariance 16

4.1 Analyse de variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16


4.2 Analyse de variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5 Slection de modle 22

5.1 Slection par tests d'hypothse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22


5.2 Coecient de dtermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.3 Coecient de dtermination ajust . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.4 Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Critre AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.6 Critre BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.7 Critre PRESS de validation croise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6 Mthodes robustes d'estimation 26

6.1 Analyse en composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26


6.2 Moindres carrs partiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.3 Rgression Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.4 Rgression lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7 Rgression non-paramtrique 30
1 Introduction

On veut modliser une variable Y (variable expliquer, rponse) en fonction d'une ou plusieurs variables
explicatives X1 , ..., Xp (covariables). L'objectif est de prdire ou simplement expliquer Y partir des
donnes disponibles X1 , ..., Xp . Grossirement, on cherche une fonction f telle que Y f (X1 , ..., Xp ).
Dans ce cours, on se limitera au cas simple o f est linaire (ou ane). La mthode varie selon si les
variables sont qualitatives ou quantitatives.

 Rgression linaire : Y et X1 , ..., Xp quantitatives.


On suppose un lien linaire entre les variables de la forme

Y = 0 + 1 X1 + ... + p Xp + ,

o les coecients 0 , 1 , ..., p sont des rls inconnus et  est un bruit correspondant la part de Y
indpendantes des variables explicatives. L'objectif principal est d'estimer les coecients 0 , 1 , ..., p .

 Analyse de variance (ANOVA) : Y quantitative, X1 , ..., Xp qualitatives.


Expliquer Y revient attribuer une valeur moyenne dans chaque classe dnie partir des valeurs de
X1 , ..., Xp (par ex. si Xj peut prendre kj valeurs possibles, il existe k1 ... kp classes direntes). On
peut alors essayer d'valuer si chaque variable explicative a une inuence ou non sur Y.

 Analyse de covariance (ANCOVA) : Y quantitative, X1 , ..., Xp qualitatives et quantitatives.


Les valeurs direntes des variables explicatives qualitatives dnissent des classes dans lesquelles on
eectue la rgression linaire de Y sur les variables explicatives quantitatives.

Lorsque Y est qualitative et les variables explicatives X1 , ..., Xp sont la fois qualitatives et quantitatives,
on peut utiliser des mthodes similaires pour modliser un lien entre les variables. On peut par exemple
cherche valuer la probabilit que Y appartienne une classe conditionnellement X1 , ..., Xp en sup-
posant une relation linaire entre le logarithme de la probabilit et les variables explicatives (rgression
logistique). Cette situation ne sera cependant pas traite dans ce cours.

De manire gnrale, la meilleure approximation de Y (pour le cot quadratique) par une fonction des
Xj est donne par l'esprance conditionnelle

f (X1 , ..., Xp ) = E(Y|X1 , ..., Xp ),

qui est bien sr inconnue en pratique. Lorsque Y admet


 un moment d'ordre 2, l'esprance conditionnelle
minimise l'erreur quadratique E (Y f (X1 , ..., Xp ))2 . Si le vecteur (Y, X1 , ..., Xp ) est Gaussien, on sait


que l'esprance conditionnelle est une fonction ane. Dans ce cas, on peut donc se restreindre aux
fonctions f linaires en 1, X1 , ..., Xp ,

f (X1 , ..., Xp ) = 0 + 1 X1 + ... + p Xp ,

ce qui justie le terme rgression linaire.


2 Rgression linaire simple

Supposons dans un premier temps que l'on dispose d'une seule variable explicative X. On observe un
chantillon {yi , xi }i=1,...,n vriant

yi = 0 + 1 xi + i , i = 1, ..., n.

Le modle s'crit sous la forme matricielle

y = X + 

avec
y1 1 x1   1
y = ... , X = .. .. , = .. .
0
. . et  = .

1
yn 1 xn n
On suppose que les variables explicatives xi sont dterministes (non alatoires). L'alea est uniquement
d la prsence des bruits i . Ainsi, seuls les vecteur y et  sont des ralisations des variables alatoires,
X et sont dterministes (par ailleurs, seuls y et X sont connus du statisticien). On suppose de plus que
les bruits i sont

 centrs : E(i ) = 0,
 non-corrls : i 6= j, cov(i , j ) = 0,
 de variances gales (homoscdastiques) : var(i ) = 2 < .

Ces hypothses, dites hypothses faibles du modle linaire, sont rsumes par E() = 0 et var() =
2 I. Les hypothses fortes du modle linaires supposent en plus que les bruits sont Gaussiens et donc
indpendants car non-corrls.
Un lienPane entre des variables x et y se traduit par une corrlation linaire non nulle. En notant
u = n1 i=1 ui la moyenne empirique d'une variable u Rn , le coecient de corrlation linaire ou
n

coecient de Pearson est dni par


xy x y
(x, y) = p q ,
2 2 2 2
x x y y
Pn Pn Pn
o xy = n1 i=1 xi yi , x2 = n1 i=1 x2i et y 2 = n1 i=1 yi2 . La quantit xy x y correspond la covariance
empirique entre x et y , c'est--dire la covariance de l'chantillon (xi , yi )i=1,...,n . Les quantits x2 x2 et
y 2 y 2 sont les variances empiriques de x et y . Le coecient de corrlation de Pearson est compris entre
1 et 1 (on le montre avec l'ingalit de Cauchy-Schwarz). Le lien ane entre x et y est d'autant plus net
que (x, y) est proche de 1 ou 1 (1 pour une relation croissante et 1 pour une relation dcroissante).

La rgression linaire peut servir modliser certaines relations non-linaires entre deux variables, en
utilisant des transfomations de variables pralables. Par exemple une relation du type y = x est
quivalente une relation ane entre log(x) et log(y). De mme, un lien exponentiel y = ex correspond
au modle linaire log(y) = log() + log(x). Une relation polynmiale y = P(x) o P est un polynme
de degr d quivaut exprimer y comme une fonction linaire des variables 1, x, x2 , ..., xd , qui entre donc
dans le cadre de la rgression linaire (multiple).

Pour mettre en vidence l'existence d'une relation monotone (pas forcment linaire) entre x et y du type
yi = f (xi ) + i o f est une fonction monotone, on peut utiliser le coecient de corrlation de Spearman
qui se construit partir des rangs des variables x et y . En notant ri {1, ..., n} le rang de xi (on a donc
xr1 > ... > xrn , en privilgiant en cas d'galit l'indice le plus petit) et si le rang de yi , le coecient de
corrlation de Spearman est dni par
rs r s
S (x, y) = (r, s) = p p .
r2 r2 s2 s2
L'ide intuitive du coecient de corrlation de Spearman est de dire que si Y est une fonction monotone
de X alors les rangs de x et y verient r = s dans le cas d'une relation croissante, et r = n s dans le
cas d'une relation dcroissante. Dans les deux cas, les variables r et s sont lies linairement.

2.1 Mthode des moindres carrs ordinaires


Une fois mis en vidence l'existence d'un lien linaire entre deux variables x et y , l'tape suivante consiste
valuer prcisment la nature du lien. Dans le modle

yi = 0 + 1 xi + i ,

cela se rsume simplement estimer les paramtres 0 et 1 correspondent respectivement l'ordonne


l'origine (intercept) et la pente de la droite qui dcrit la relation linaire. Pour estimer ces paramtres,
on cherche la droite la plus "adapte" au nuage de point. On dnit l'estimateur des moindres carrs
ordinaires (MCO) = (0 , 1 )> comme le minimiseur de
n
1X
R(b) = (yi b0 b1 xi )2 , b = (b0 , b1 )> R2 .
n i=1

Proposition 2.1 Le minimiseur = (0 , 1 )> = arg min2 R(b) est unique, donn par
bR

xy x y
1 = et 0 = y 1 x.
x2 x2

On montre que est une estimateur sans biais de . En eet E(yi ) = E(0 + 1 xi + i ) = 0 + 1 xi par
hypothse. On a donc E(y) = 0 + 1 x et E(xy) = 0 x + 1 x2 , ce qui donne

E(xy x y) E(xy) E(x y) 1 (x2 x2 )


E(1 ) = = = = 1
x2 x2 x2 x2 x2 x2
E(0 ) = E(y) E(1 )x = 0 + 1 x 1 x = 0 .

On peut galement calculer la variance de ces estimeurs ainsi que leur covariance. On remarque tout
d'abord que var(yi ) = var(i ) = 2 , var(y) = 2 /n = cov(yi , y) (par indpendance des yi ) et
1
Pn
cov(xy, y) x var(y) n i=1 xi cov(yi , y) x var(y) x 2 x 2
cov(1 , y) = 2
= 2
= = 0.
x2 x x2 x n(x2 x2 )
On dduit
1
Pn  1
Pn 2
var n i=1 (xi x)yi n2 i=1 (xi x) var(yi ) (x2 x2 ) 2 2
var(1 ) = = = = ,
(x2 x2 )2 (x2 x2 )2 n(x2 x2 )2 n(x2 x2 )
2 x2 2 x2 2
var(0 ) = var(y 1 x) = var(y) + x2 var(1 ) 2x cov(y, 1 ) = + = ,
n n(x2 x2 ) n(x2 x2 )
x 2
cov(1 , 0 ) = cov(1 , y 1 x) = cov(1 , y) x var(1 ) = .
n(x2 x2 )

On montrera par la suite que est optimal parmi les estimateurs linaires sans biais (parmi tous les
estimateurs sans biais dans le cas Gaussien).

A chaque observation yi , correspond une prvision yi := 0 + 1 xi . L'cart i := yi yi entre l'observation


et la valeur prdite est appel rsidu. C'est en quelque sorte un estimateur du bruit i , qui lui n'est pas
observ. On montre facilement que les rsidus i sont centrs
i ) = E(yi yi ) = E(0 + 1 xi + i 0 1 xi ) = 0,
E(
et de moyenne empirique nulle
n n
1X 1X
i = (yi yi ) = y 0 1 x = 0.
n i=1 n i=1

Le dernier paramtre inconnu du modle est la variance du bruit 2 = var(i ). Un estimateur sans biais
de 2 est donn par
n n
1 X 1 X 2
2 := (yi yi )2 =  .
n 2 i=1 n 2 i=1 i
Dans le cas Gaussien  N (0, 2 I), on montrera que n2 2
2 suit une loi du chi 2 (n 2) degrs de
libert, note 2 (n 2).

2.2 Tests sur les paramtres du modle


On s'intresse maintenant tester la nullit des paramtres 0 et 1 . Thoriquement, ces tests ne sont
valides que sous l'hypothse forte de normalit des bruits. Cependant, ils restent gnralement valables
asymptotiquement dans le cas non-Gaussien. Dans cette partie, on se place donc dans le cas Gaussien.
On note 1 = (1, ..., 1)> , on sait que
y N (0 1 + 1 x, 2 I).
Les estimateurs 0 et 1 sont des transformations linaires de y , ils sont donc galement Gaussiens.
Connaissant leurs esprances et variances, on dduit
!
x2 2 2
 
0 N 0 , et 1 N 1 , .
n(x2 x2 ) n(x2 x2 )

On admettra dans un premier temps les deux proprits suivantes


 la variable alatoire n2
2 suit une loi (n 2).
2 2

 les variables et sont indpendantes.


2

On donnera une preuve de ces armations dans le cas gnral de la rgression linaire multiple.
On rappelle que la loi de Student d degrs de libert, note Td , est le rapport entre une loi normale
standard et la racine carree d'une loi du 2 (d) indpendante renormalise par d :
loi N (0, 1)
Td = p .
2 (d)/d
On a donc p p
x2 x2 x2 x2
n p (0 0 ) = n p (0 0 ) Tn2
x2 x2
et p p
x2 x2 x2 x2
n (1 1 ) = n (1 1 ) Tn2

On remarque que ces statistiques ont pour seules inconnues 0 et 1 ce qui permet de construire un test
sur une valeur particulire des paramtres. Par exemple, pour tester la nullit de 1 , H0 : 1 = 0 contre
H1 : 0 6= 0 pour mettre en vidence l'existence ou non d'une relation ane entre X et Y, on s'intresse
la statistique de test p
x2 x2 1
T= n ,

qui suit une loi de Student Tn2 sous H0 . On rejettera donc l'hypothse nulle au niveau si |T| est
suprieure au quantile de la loi de Student correspondant tn2 (1 2 ). Ce rsultat permet galement de
construire des intervalles de conance pour 0 et 1 , par exemple

tn2 (1 2 ) tn2 (1 2 )
P 1 q 6 1 6 1 + q = 1 .
2 2 2 2
n(x x ) n(x x )

Ces tests et intervalles de conance sont exacts dans le cas Gaussien et asymptotiquement exacts dans le
cas non-Gaussien, sous des hypothses faibles. En pratique, on peut souvent raisonnablement considrer
que les tests et intervalles de conance sont valables partir de n = 50, voire n = 30, mme aprs avoir
rejet l'hypothse de normalit des rsidus.

2.3 Analyse de la variance


Le vecteur y Rn peut se dcomposer en une partie explique par x et une partie rsiduelle. En construi-
sant l'estimateur
= arg min2 ky b0 1 b1 xk2 ,
bR

o k.k dsigne la norme Euclidienne usuelle sur Rn , on considre en fait la projection orthogonale y =
0 1 1 x de y sur l'espace engendr par x et le vecteur constant 1 = (1, ..., 1)> . En consquence, le
vecteur des rsidus  = ( 1 , ..., n )> est orthogonal x et 1 (on le vrie facilement par le calcul). En
rcrivant l'galit y = 0 1 + 1 x +  comme
xy x y
y y1 = (x x1) + ,
x2 x2
le thorme de Pythagore entrane

(xy x y)2 (xy x y)2


ky y1k2 = kx x1k2 + k
k2 = n k 2 .
+ k
(x2 x2 )2 x2 x2

La quantit ky y1k2 est appele somme des carrs totale (SCT), n(xy x y)2 /(x2 x2 ) est la somme
des carrs explique (SCE) et kk2 = (n 2) 2 est la somme des carrs rsiduelle (SCR). Le rapport
SCE (xy x y)2
R2 := = = (x, y)2
SCT (x x2 )(y 2 y 2 )
2

est appel coecient de dtermination. Il est un indicateur, compris entre 0 et 1, de la qualit de la


rgression. Il est proche de zro lorsque les variables y et x ne sont pas lies linairement. Sous l'hypothse
de normalit des bruits, il peut tre utilis pour tester l'existence d'une relation ane entre x et y , en
remarquant que 1 R2 = (n 2) 2 /ky y1k2 et

R2 n(xy x y)2 n(x2 x2 )12


(n 2) = = = T2 ,
1 R2 (x2 x2 ) 2 2

o T est la statistique de Student utilise pour tester H0 : 1 = 0 (voir prcdemment). Sous H0 , la


statistique de test (n 2)R2 /(1 R2 ) est donc le carr d'une loi de Student Tn2 qui correspond une
loi de Fisher 1 et n 2 degrs de libert.

2.4 Prdiction
On suppose maintenant que l'on dispose d'une nouvelle observation xn+1 avec laquelle on veut prdire la
valeur yn+1 associe. Contrairement aux tests et intervalles de conance sur les paramtres, les intervalles
de prdictions traits dans cette partie ne sont valables que sous l'hypothse de normalit des bruits. On
suppose donc
yn+1 = 0 + 1 xn+1 + n+1 N (0 + 1 xn+1 , 2 )
et n+1 est indpendant des valeurs passes, en particulier de et 2 . On dnit naturellement le prdic-
teur yn+1 = 0 + 1 xn+1 , qui est Gaussien d'esprance et variance

E(yn+1 ) = 0 + 1 xn+1
2 (x2 + x2n+1 2xxn+1 )
var(yn+1 ) = var(0 ) + x2n+1 var(1 ) + 2xn+1 cov(0 , 1 ) = = 2 v
n(x2 x2 )

Par indpendance entre yn+1 et yn+1 , on dduit

yn+1 yn+1 = (0 0 ) + (1 1 )xn+1 + n+1 N (0, 2 (1 + v)).

Puisque 2 est indpendant de et yn+1 , la statistique

yn+1 yn+1 yn+1 yn+1


=
1+v 1 + v
suit une loi de Student n 2 degrs de libert. On obtient nalement l'intervalle de conance

P yn+1 1 + v tn2,1 2 6 yn+1 6 yn+1 + 1 + v tn2,1 2 = 1 .
3 Rgression linaire multiple

On s'intresse maintenant modliser une variable Y en fonction de plusieurs variables explicatives


X1 , ..., Xp . Le modle est une gnralisation de la rgression linaire simple. On observe des ralisations
indpendantes {yi , x1,i , ..., xp,i }i=1,...,n , avec

yi = 0 + 1 x1,i + ... + p xp,i + i , i = 1, ..., n,

o comme prcdemment, les i sont centrs, de mme variance 2 < et non-corrls. Le modle s'crit
sous forme matricielle
y = X + ,
avec
0
y1 1 x1,1 ... xp,1 1
.. .. .. .. , = 1 .. .
..

y= . , X= . . . . .. et  = .

.


yn 1 x1,n ... xp,n n
p

3.1 Mthode des moindres carrs ordinaires


Comme dans le cas de la rgression simple, on cherche estimer et 2 . L'estimateur des MCO est
dni comme l'unique minimiseur de

R(b) = ky Xbk2 , b Rp+1 .

On suppose que p < n et que X est de rang p + 1. Sous ces hypothses, l'estimateur est l'unique solution
des conditions du premier ordre

R() = 2X> y + 2X> X = 0 = (X> X)1 X> y.

On remarque que X> X est inversible du fait que X est de plein rang.

Proposition 3.1 L'estimateur des MCO est un estimateur sans biais de de matrice de variance
var() = 2 (X> X)1 .

Thorme 3.2 (Gauss-Markov) L'estimateur des moindres carrs est optimal (au sens du cot qua-
dratique) parmi les estimateurs sans biais linaires en y .

L'optimalit au sens L2 ne ncessite pas la normalit du modle. Un rsultat plus fort est valable dans
le cas Gaussien  N (0, 2 I) o la variance de atteint la borne de Cramer-Rao. L'estimateur des
moindres carrs est donc optimal parmi tous les estimateurs sans biais de dans ce cas.

La matrice X := X(X> X)1 X> utilise dans la preuve du thorme de Gauss-Markov est la projection
orthogonale sur l'image de X. On le montre simplement en vriant que X est symtrique et vrie
2X = X et Im(X ) = Im(X). Ainsi, le vecteurs des prvisions

y = X = X(X> X)1 X> y,

est la projection orthogonale de y sur Im(X). C'est en quelque sorte la part de y Rn explique par les
variables 1, x1 , ..., xp (les colonnes de X). De mme, le vecteur des rsidus

 = y y = (I X(X> X)1 X> )y = (I X(X> X)1 X> )(X + ) = (I X(X> X)1 X> )
est la projection orthogonale de y sur Im(X) et par consquent celle de  puisque y = X + . Une
consquence immdiate est que les vecteurs et  sont non-corrls. En eet,
h i
> = (X> X)1 X> E > (I X(X> X)1 X> ) = 0.
 
cov(, ) = E ( )

La norme du vecteur des rsidus permet de construire un estimateur de 2 par


1 1
2 := ky yk2 = k 2 .
k
np1 np1

Proposition 3.3 L'estimateur 2 est sans biais.

Preuve. On a vu que  = X  o X = I X(X> X)1 X> est la matrice de projection orthogonale sur
Im(X) . On utilise qu'un rl est gal sa trace et que tr(AB) = tr(BA) :

k2 = E(> > > > >


   
Ek X X ) = E( X ) = E tr( X ) = E tr(X  ) .

Clairement, la trace (somme des lments diagonaux) commute avec l'esprance, d'o

k2 = tr X E(> ) = tr X 2 I = 2 tr(X ).


   
Ek

La trace (somme des valeurs propres) d'une matrice de projection tant gale son rang, on obtient

k2 = 2 (np1) E 2 = 2 . 

Ek

Un rsultat plus fort est valable dans le cas Gaussien.

Proposition 3.4 Dans le modle Gaussien  N (0, 2 I), les estimateurs et 2 sont indpendants et
vrient
2
N (, 2 (X> X)1 ) et (np1) 2 (np1).
2

Il est intressant de remarquer que dans le cas Gaussien, est l'estimateur du maximum de vraisemblance.
En revanche, l'estimateur du maximum de vraismeblance de 2 est dirent, donn par

2 1 np1 2
MV = ky yk2 = .
n n

3.2 Proprits asymptotiques des estimateurs


On s'intresse maintenant au comportement des estimateurs quand n tend vers l'inni. Sous les hypo-
thses fortes de la rgression, les lois de et 2 sont connues ce qui permet de dduire facilement leur
comportement asymptotique. La convergence de dans L2 est soumise la seule condition que (X> X)1
tend vers 0. La convergence de 2 , que ce soit dans L2 ou mme presque srement, est vrie dans le
cas Gaussien sans hypothse supplmentaire sur X (c'est une consquence immdiate du thorme 3.4).
On peut se demander si ces rsultats restent valables sans la normalit des bruits. Un premier rsultat
immdiat est que sous les hypothses faibles, reste convergent dans L2 ds que (X> X)1 tend vers 0.
On peut galement montrer que si les i sont iid et hn := max16i,j6p+1 |X,ij | tend vers 0, alors est
asymptotiquement Gaussien. Si de plus n1 X> X converge quand n vers une matrice inversible M,
alors loi
n( ) N (0, 2 M1 ).
L'hypothse n1 X> X M est souvent vrie en pratique. Par exemple, elle est vrie presque srement
si l'chantillon {x1i , ..., xpi }i=1,...,n est issu de ralisations indpendantes de variables alatoires X1 , ..., Xp
de carr intgrable. Dans ce cas, n1 X> X converge presque srement vers la matrice des moments d'ordre
deux, par la loi forte des grands nombres. Ce rsultat est important car il conrme que mme sous les
hypothses faibles, la plupart des tests du modle linaire restent valables asymptotiquement.
3.3 Analyse de la variance
L'analyse de la variance consiste diviser la variance de y en une partie explique par les variables
x1 , ..., xp et une partie rsiduelle. Il s'agit de remarquer que
 y = X(X> X)1 X> y = X y est la projection orthogonale de y sur Im(X).
 y1 est la projection orthogonale de y sur l'espace engendr par le vecteur constant 1, not vec{1}.
 vec{1} tant un sous espace de Im(X), y1 est galement la projection orthogonale de y sur vec{1} (on
le vrie en remarquant que y = y ).
  = y y = (I X(X> X)1 X> )y est la projection orthgonale de y sur Im(X) .
Ainsi, en dcomposant y y1 = y y1 + , le thorme de Pythagore nous donne

ky y1k2 = ky y1k2 + k
k 2 .
| {z } | {z } |{z}
SCT SCE SCR

Le coecient de dtermination R2 qui donne un indicateur de la qualit de la modlisation est dni par

SCE ky y1k2
R2 := = .
SCT ky y1k2

Dans le cas univari, on a vu que le coecient de dtermination est gal au carr du coecient de
corrlation de Pearson (x, y). Dans le cas multivari, le R2 correspond la valeur maximale du carr du
coecient de Pearson entre y et une combinaison linaire des variables explicatives :

R2 = sup (y, Xb)2 .


bRp+1

3.4 Tests
Le coecient de dtermination permet de tester l'existence d'une relation linaire entre y et les variables
explicatives. Prcisment, l'hypothse nulle est l'absence de relation linaire, ce qui se traduit par H0 :
1 = ... = p = 0 contre H1 : j, j 6= 0.

Proposition 3.5 Dans le modle Gaussien o  N (0, 2 ), la statistique


np1 R2 np1 SCE
F= 2
=
p 1R p SCR
suit, sous H0 : 1 = ... = p = 0, une loi de Fisher p et np1 degrs de libert.

La statistique F permet donc de tester s'il existe au moins une variable pertinente parmi les variables
explicatives. Elle est calcule automatiquement dans la commande summary(lm(y x)) de R. Ce test
reste valable asymptotiquement dans le cas non-Gaussien, sous des hypothses raisonnables.
Evidemment, l'existence d'au moins une variable explicative pertinente n'implique pas forcment que
toutes sont pertinentes. Pour tester individuellement chaque variable xj , on peut utiliser un test de
Student. Prcisemment, on sait que dans le modle Gaussien, N (, 2 (X> X)1 ), et en particulier,

j j
p Tnp1 .
[(X> X)1 ]jj

Ce rsultat permet de tester l'hypothse nulle H0 : j = 0 pour vrier la pertinence de j (de manire
gnrale, on peut tester une hypothse de la forme H0 : j = b) et de construire des intervalles de
conance. Le thorme suivant donne une procdure pour tester une hypothse ane gnrale sur les
paramtres.
Proposition 3.6 Soient A Rq(p+1) de rang q 6 p + 1 et b Rq connus. Sous les hypothses fortes,
la statistique
(A b)> [A(X> X)1 A> ]1 (A b)
F=
q 2
suit, sous H0 : A = b, une loi de Fisher Fq,np1 .

Le test des hypothses 1 = ... = p = 0 ou encore p = 0 sont des cas particuliers du thorme,
correspondant respectivement A = (0, I) Rp(p+1) , b = 0 et A = (0, ..., 0, 1), b = 0. Les hypothses de
la forme j = j 0 correspondent galement des valeurs particulires de A et b.
Ce genre d'hypothse sur les paramtres revient considrer un modle contraint

y = Xc c + ,

o Xc est une matrice de rang p + 1 q dont l'image est inclue dans Im(X) (par exemple, pour tester
l'hypothse H0 : j = 0, on tudie le modle sans la variable xj ). On dnit alors la statistique de test

np1 SCRc SCR k(I Xc )k2 k(I X )k2 k(X Xc )k2


F= = 2
=
q SCR q q 2
o SCRc dsigne la somme des carrs rsiduelle dans le modle contraint. Si l'hypothse H0 est vraie, F
suit une loi de Fisher Fq,np1 . On obtient la mme statistique de test par le thorme 3.6.

3.5 Prediction
On observe un nouveau jeu de variables x1,n+1 , ..., xp,n+1 et on cherche prdire la valeur yn+1 corres-
pondante. On note Xn+1 = (1, x1,n+1 , ..., xp,n+1 ). Sous l'hypothse de normalit (qui est essentielle ici),
la prdiction yn+1 = Xn+1 suit une loi normale N (Xn+1 , 2 Xn+1 (X> X)1 X>
n+1 ) et est indpendante
de yn+1 = Xn+1 + n+1 . On montre alors facilement que

yn+1 yn+1
q Tnp1 ,
Xn+1 (X> X)1 X>
n+1

ce qui permet de construire un intervalle de prdiction, qui n'est valable que sous l'hypothse de normalit.

3.6 Vrication des hypothses


La pluparts des rsultats de la rgression linaires reposent sur les hypothses de normalit, homoscdas-
ticit et non-corrlations des rsidus. Il est donc utile de pouvoir vrier la validit de ces hypothses.

 Normalit : Pour vrier si les bruits i sont Gaussiens, on eectue un test de normalit sur les rsi-
dus i . En eet, la normalit de  entrane la normalit de . Plusieurs tests existent comme le test de
Shapiro-Wilk (commande shapiro.test sour R) ou encore le test de Lilliefors (commande lillie.test
du package nortest). Le diagramme quantile-quantile (ou qq-plot) permet galement de vrier gra-
phiquement la normalit des rsidus.

 Homoscdasticit (ou homognit) : Le test de Breusch-Pagan (commande bptest du package lmtest)


permet de tester si la variance des bruits est constante. On peut galement utiliser le test de White
(commande white.test du package bstats). Graphiquement, l'htroscdasticit du bruit se traduit
par une rpartition d'ampleurs ingales du nuage de points autour de la droite de rgression.
 Non-corrlation : Le test de Breusch-Godfrey (commande bgtest du package lmtest) permet de tester
une corrlation l'ordre 1 ou suprieur des bruits i . Pour tester une corrlation l'ordre 1, on peut
galement utiliser la statistique de Durbin-Watson (commande dwtest du package lmtest), dnie par
Pn
i i1 )2
(
D = i=2Pn 2 .
i=1 
i
On montre facilement que D est comprise entre 0 et 4 mais sa loi sous l'hypothse nulle de non-
corrlation n'est pas une loi usuelle. Une rgle de dcision couramment utilise est de conclure qu'il n'y
a pas de corrlation entre i et i+1 si la statistique de Durbin-Watson est comprise entre 1 et 3.

3.7 Dtection d'observations atypiques


Les observations atypiques (outliers) sont les observations qui s'loignent particulirement de la valeur
attendue estime par le modle. Il existe plusieurs outils permettant de dtecter des observations aty-
piques. Une fois une valeur aberrante dtecte, on peut choisir de la supprimer (par exemple si on conclut
que celle-ci est de une erreur de mesure) an d'amliorer l'estimation.

 Eet levier : Mme si les bruits i sont homoscdastiques, les rsidus i n'ont gnralement pas les
mmes variances. En eet, en notant hij , i, j = 1, ..., p + 1 les entres de la matrice de projection
X = X(X> X)1 X> , l'galit  = (I X ) entrane
i ) = 2 (1 hii ).
var(
Les valeurs hii permettent donc de dtecter les points yi qui sont loigns de la prdiction yi en moyenne.
La matrice X est parfois appele hat-matrice (et note H) du fait que Hy = y .

 Etude des rsidus : Une observation atypique yi peut tre dtecte partir du rsidu i . Pour prendre en
compte le fait que les rsidus n'ont pas la mme variance, on peut eectuer deux types de normalisation.
Le rsidu standardis i correspond la valeur

ri = i .
1 hii
Sous les hypothses fortes, la loi de ri ne dpend pas des paramtres et 2 . Cependant, le calcul
exact de sa loi est dicile car i et 2 ne sont pas indpendants. Pour obtenir une normalisation qui
suit approximativement une loi de Student, on dnit le rsidu studentis par

Ti = i ,
(i) 1 hii
o (i)
2
est l'estimateur de 2 obtenu sans la i-me observation. L'estimateur (i)
2
est donc indpendant
de i et la statistique Ti suit approximativement une loi de Student Tnp2 . Les observations pour
lesquelles |Ti | est suprieur 2 peuvent donc tre considres comme atypiques.

 Distance de Cook : La distance de Cook de yi mesure l'cart entre la vraie prdiction y et celle
obtenue en enlevant la i-me observation (yi , x1i , ..., xpi ). Elle permet donc d'valuer l'impact de la
i-me observation sur la rgression. Soit X(i) la matrice obtenue en enlevant la i-me ligne Xi =
(1, x1i , ..., xpi ) de la matrice X. On suppose ici que n > p + 1 pour que X(i) soit de plein rang. On
note (i) l'estimateur des moindres carrs obtenu partir de l'chantillon sans la i-me observation :
(i) = (X>
(i) X(i) )
1 >
X(i) y(i)

o y(i) = (y1 , ..., yi1 , yi+1 , ..., yn )> . De mme, on note y (i) = X (i) le vecteur de prdiction associ.
On dnit alors la distance de Cook de l'observation i par
1 ky (i) yk2
Di = .
p+1 2
Une grande distance de Cook Di signie que l'ajout de la i-me observation modie considrablement
la rgression. En pratique, on peut utiliser le seuil Di > 1 pour dcider que l'observation yi est inuente.

Le calcul de la distance de Cook d'une observation o de (i)


2
ne ncessite pas de refaire tous les calculs
de la rgression dans le modle sans l'observation i, comme on peut voir dans la proposition suivante.

Proposition 3.7 La distance de Cook Di vrie


1 hii 2i 1 hii
Di = = r2 .
2
p + 1 (1 hii ) 2 p + 1 1 hii i
De plus, l'estimateur de la variance (i)
2
obtenu dans le modle sans la i-me observation est donn par
2i
 
2 1
(i) = (np1) 2 .
np2 1 hii

On voit en particulier que la distance de Cook permet de synthtiser l'information sur les donnes in-
uentes contenue dans l'eet levier (via le terme hii /1 hii ) et le rsidu standardis ri .

3.8 Multicolinarit
On observe des problmes de multicolinarit lorsqu'au moins une variable explicative est trs corrle
aux autres rgresseurs. Cela signie d'une certaine faon que l'information apporte par cette variable
est redondante car contenue dans les autres variables. Mathmatiquement, la multicolinarit conduit
des valeurs propres de X> X proches de zro. Dans ce cas, l'estimateur des moindres carrs n'est pas
performant car sa variance 2 (X> X)1 explose.

Un moyen simple de dtecter si une variable xj est corrle au reste des rgresseurs est d'eectuer une
rgression linaire de xj sur les autres variables explicatives xk , k 6= j . On peut alors calculer le coecient
de dtermination R2j correspondant et vrier s'il est proche de 1. Le variance ination factor (VIF) est
dni par
1
VIF(xj ) = ,
1 R2j
le coecient R2j tant toujours strictement infrieur 1 lorsque X est de plein rang. On conclut gn-
ralement un problme de multicolinarit pour xj si VIF(xj ) > 5, ou de manire quivalente si R2j > 0.8.

En pratique, il faut toujours vrier en premier lieu les problmes de multicolinarit lorsque l'on efectue
une rgression linaire. Cela implique de calculer le VIF pour chaque variable explicative. Si jamais
plusieurs variables ont un VIF suprieur 5, on supprime seulement la variable dont le VIF est le plus
lev. Puis, on ritre la procdure dans le modle sans la variable supprime jusqu' ce que toutes les
variables explicatives aient des VIFs acceptables.

3.9 Moindres carrs gnraliss


On s'intresse maintenant la situation o les hypothses de non-corrlation des bruits n'est pas vrie.
On suppose ici que  est centr de matrice de variance 2 V, o V est une matrice dnie positive connue.
Dans ce modle, le thorme de Gauss-Markov n'est plus valable.

Proposition 3.8 Dans le modle de rgression linaire y = X +  avec E() = 0 et var() = 2 V,


l'estimateur linaire sans biais de de variance minimale est donn par
G = (X> V1 X)1 X> V1 y.
L'estimateur G est appel l'estimateur des moindres carrs gnraliss (MCG). Sa variance

var(G ) = (X> V1 X)1

est donc minimale parmi les estimateurs linaires sans biais. Dans le cas Gaussien, on vrie facilement
que G est l'estimateur du maximum de vraisemblance.
4 Analyse de variance et de covariance

L'analyse de variance (ANOVA) a pour objectif d'expliquer une variable alatoire Y quantitative par-
tir de variables explicatives qualitatives, appeles facteurs. On compare les moyennes empiriques des
observations de Y pour les direntes modalits prises par les facteurs.

4.1 Analyse de variance un facteur


Soit J > 2 modalits A1 , ..., AJ , on observe J chantillons indpendants (y11 , ..., yn1 1 ), ..., (y1J , ..., ynJ J ) de
tailles n1 , ..., nJ suivant le modle

yij = j + ij , j = 1, ..., J , i = 1, ..., nj .


PJ
On note n = j=1 nj . L'observation yij correspond une ralisation de Y dans la modalit Aj . Par
exemple, on veut valuer la taille moyenne d'une population en fonction du sexe. On a donc une variable
quantitative y (la taille) et une variable explicative qualitative (le sexe) comprenant deux modalits. On
peut reprsenter graphiquement les donnes par des botes moustaches.

Le modle d'analyse de variance peut s'crire comme un modle de rgression linaire multiple avec comme
variable expliquer y = (y11 , ..., yn1 1 , y12 , ..., yn2 2 , ..., y1J , ..., ynJ J )> Rn et comme variables explicatives
les indicatrices des modalits x1 = 1A1 = (1, ..., 1, 0, ..., 0)> , x2 = 1A2 = (0, ..., 0, 1, ..., 1, 0, ..., 0)> etc...
En notant  = (11 , ..., n1 1 , ..., 1J , ..., nJ J )> et X = (1A1 , ..., 1AJ ) RnJ , on a bien

y = X + ,

avec = (1 , ..., J )> . Le modle ne contient pas la constante car ajouter celle-ci rendrait le modle
sur-identi avec une matrice X qui ne serait pas de plein rang (le vecteur constant 1 est gal la somme
des colonnes xj ). On peut cependant reparamtrer le modle en prenant comme variables explicatives
1, 1A2 , ...., 1AJ de manire retrouver un modle de rgression linaire avec constante. Avec cette para-
mtrisation, on doit dnir 0 = 1 et j = j+1 1 pour j = 1, ..., J 1.

L'estimation des paramtres j se fait naturellement par les moyennes empiriques sur chaque modalit
nj
1 X
j = y .j = yij
nj i=1

Proposition 4.1 L'estimateur = (1 , ..., J )> est l'estimateur des moindres carrs du modle de r-
gression linaire correspondant. Il ne dpend pas du choix de la paramtrisation.
En supposant les ij centrs, non-corrls et de mme variance 2 , l'estimateur de 2 est celui de la
rgression linaire, donn par
J nj
1 XX
2 = (yij j )2 .
n J j=1 i=1

La renormalisation se fait par nJ et non nJ1 car le modle ne contient pas la constante.

On s'intresse maintenant des tests d'hypothses. On se place maintenant sous l'hypothse forte de
normalit des bruits ij . Premirement, une question naturelle dans ce modle est de savoir si les modalits
ont une inuence sur la variable y . Cela revient tester l'galit simultane des moyennes j , soit
l'hypothse H0 : 1 = ... J .

Proposition 4.2 La statistique


PJ 2
nJ j=1 nj (y .j y)
F= PJ Pnj
J 1 j=1 i=1 (yij y .j )2

suit, sous H0 : 1 = ... = J une loi de Fisher FJ1,nJ .

Dans le cas particulier de l'analyse de variance, la dcomposition SCT = SCE + SCR s'crit donc
nj
J X J nj
J X
X X X
2 2
(yij y) = nj (y .j y) + (yij y .j )2
j=1 i=1 j=1 j=1 i=1
| {z } | {z } | {z }
SCT SCE SCR

Dans ce cadre, la quantit n1 SCT est parfois appele la variance totale, 1


n SCE la variance interclasses et
n SCR la variance intraclasses.
1

On peut galement tre amen tester seulement l'galit entre deux moyennes j et j 0 . Dans ce cas,
on peut utiliser un test de Student.

Proposition 4.3 La statistique


j 0
T= qj
n1j + n1 0
j

suit, sous H0 : j = j 0 une loi de Student TnJ .

On a vu comment tester l'galit simultane de toutes les moyennes et l'galit de deux moyennes. On
s'intresse maintenant tester une hypothse de la forme H0 : j1 = j10 , ..., jq = jq0 o (j1 , j10 ), ..., (jq , jq0 )
est une collection de paires d'indices dirents de {1, ..., J} (attention, on impose videmment jk 6= jk0
mais pas ncessairement jk 6= jl ). Pour tester ce genre d'hypothses, deux procdures sont envisageables.
Un premier moyen est d'appliquer la correction de Bonferroni. En notant Tk la statistique de test pour
l'hypothse H0 : jk = jk0 , k = 1, ..., q , on utilise que, pour un niveau a ]0, 1[ donn,
q q
!
[ X
P k, |Tk | > tnJ (1 a2 ) = P |Tk | > tnJ (1 a2 ) P |Tk | > tnJ (1 a2 ) = qa,
  
6
k=1 k=1

o tnJ (.) dsigne la fonction quantile de la loi de Student TnJ . On dduit que la procdure de test qui
consiste rejeter H0 : j1 = j10 , ..., jq = jq0 s'il existe un k pour lequel |Tk | > tnJ (1 2q

) a une erreur
de premire espce infrieure .
On peut galement eectuer un test exact pour cette hypothse en utilisant l'criture du modle de r-
gression linaire. On remarque en eet que l'hypothse H0 : j1 = j10 , ..., jq = jq0 correspond un cas
particulier du thorme 3.6, o A est une matrice de taille J q et b = 0.

Le test de Bartlett (commande bartlett.test sous R) permet de vrier l'hypothse d'homoscdasticit


H0 : 12 = ... = J2 o j2 reprsente la variance de Y dans la modalit Aj . Le test de Bartlett ncessite
la normalit des donnes, qui peut tre teste au pralable par un moyen classique (test de Shapiro-
Wilk par exemple). Si les donnes ne sont pas Gaussiennes, le test d'homognit de Levene (commande
levene.test de la library car) est prfrable. Il est construit partir des variables zij = |yij y .j |, en
considrant la statistique
PJ 2
nJ j=1 nj (z .j z)
F=
J 1 Jj=1 ni=1
P P j
(zij z .j )2
qui suit approximativement sous H0 : 12 = ... = J2 , une loi de Fisher FJ1,nJ .
Le test de Brown-Forsythe utilise la mdiane au lieu de la moyenne y .j pour construire zij , ce qui peut
parfois conduire un test plus robuste quand la loi des observations est trop dirente de la loi normale.

4.2 Analyse de variance deux facteurs


On suppose maintenant que la variable y dpend de deux facteurs, nots A et B ayant respectivement J et
K modalits. En prsence de plusieurs facteurs, le problme de l'intractions entre les facteurs apparat.
On observe les observations suivantes

yijk = + j + k + jk + ijk , j = 1, ..., J, k = 1, ..., K, i = 1, ..., njk

o les ijk sont iid de loi N (0, 2 ). Le nombre njk est le nombre d'observations qui sont simultanment
PK PJ PJ PK
de modalits Aj et Bk . On note nj. = k=1 njk , n.k = j=1 njk et n = j=1 nj. = k=1 n.k . Parmi les
paramtres, reprsente l'eet gnral, j l'eet du niveau j du premier facteur, k l'eet du niveau k
du second facteur et jk l'eet de l'intraction entre les niveaux j et k des deux facteurs.

L'eet d'intraction existe quand le niveau d'un facteur modie l'inuence de l'autre facteur sur la va-
riable Y. Dans l'exemple utilis prcdemment, la taille moyenne dans une population est modlise en
tenant compte du sexe. Si l'on ajoute un deuxime facteur (par exemple l'ge spar en trois modalits
"enfant", "adolescent"' et "adulte"), on peut valuer l'intraction entre les facteurs en mesurant par
exemple si l'cart moyen de taille entre hommes et femmes et le mme chez les adolescents et chez les
adultes.

Le modle yijk = +j +k +jk +ijk est sur-identi, on impose donc les contraintes sur les paramtres
K
X J
X K
X J
X
k = j = 0 , jk = 0, j = 1, ..., J , jk = 0, k = 1, .., K.
k=1 j=1 k=1 j=1

On peut vrier que ces contraintes diminuent de J + K + 1 le nombre de degrs de libert des paramtres.
Dans ce modle, il y a J K paramtres estimer, autant que de classes formes par les dirents
croisements des modalits Aj et Bk . En notant
njk J njk K njk J K njk
1 X 1 XX 1 XX 1 XXX
y .jk = yijk , y ..k = y ijk , y .j. = y ijk et y = yijk ,
njk i=1 n.k j=1 i=1 nj. i=1
n j=1 i=1
k=1 k=1

les paramtres sont estims par

= y , j = y .j. y , k = y ..k y et jk = y .jk y .j. y ..k + y.


La prdiction yijk est naturellement la moyenne sur la classe Aj Bk , yijk = + j + k + jk = y .jk .
Comme pour l'analyse de variance un facteur, le modle peut s'crire comme un modle de rgression
linaire particulier. On peut par exemple considrer le modle quivalent
J X
X K
y= jk 1Aj Bk + ,
j=1 k=1

o 1Aj Bk Rn est l'indicatrice des modalits Aj et Bk simultanment. Les paramtres correspondants


sont les coecients jk = +j +k +jk pour j = 1, ..., J et k = 1, ..., K. Les estimateurs , j , k et jk
correspondent ici aussi l'estimation des moindres carrs. On a en particulier jk = y .jk = +j +k +jk .

Proposition 4.4 Si le plan d'exprience est quilibr, c'est--dire que njk = JK


n
pour tout j, k (le nombre
d'observations dans chaque classe est identique), on a la dcomposition suivante
J X njk
K X J K J K
X nX nX n XX
(yijk y)2 = (y .j. y)2 + (y ..k y)2 + (y .jk y .j. y ..k + y)2
j=1 k=1 i=1
J j=1 K JK j=1
k=1 k=1
| {z } | {z } | {z } | {z }
SCT SCA SCB SCAB
J X njk
K X
X
+ (yijk y .jk )2
j=1 k=1 i=1
| {z }
SCR

An de tester l'inuence du facteur A, on considre la statistique


n
PJ 2
n JK J j=1 (y .j. y) n JK SCA
FA = PJ PK Pnjk =
J1 j=1 k=1 i=1 (yijk y .jk )
2 J 1 SCR

qui suit, sous H0 : 1 = ... = J = 0, une loi de Fisher FJ1,nJK . La procdure est bien sr galement
valable pour tester l'inuence du facteur B par l'hypothse H0 : 1 = ... = K = 0. Enn, pour tester la
prsence d'interaction entre les facteurs et l'hypothse H0 : jk = 0, j, k , la statistique
n
PJ PK
n JK JK j=1 k=1 (y .jk y .j. y ..k + y)2 n JK SCAB
FAB = PJ PK Pnjk =
(J 1)(K 1) j=1 k=1 i=1 (yijk y .jk )
2 (J 1)(K 1) SCR

suit sous H0 une loi de Fisher F(J1)(K1),nJK . Lorsque le plan n'est pas quilibr, la dcomposition de
la proposition 4.4 n'est plus valable. Pour tester l'inuence de chaque facteur sparemment, l'ide reste
la mme. Pour le facteur A par exemple, la statistique
PJ 2
n JK j=1 nj. (y .j. y)
FA = PJ PK Pnjk
J1 j=1 k=1 i=1 (yijk y .jk )
2

permet galement de tester H0 : 1 = ... = J = 0 et sa loi reste identique au cas quilibr. En revanche,
tester l'interaction entre les facteurs n'est plus aussi directe. En eet, les vecteurs A (yy) et B (yy) ne
sont pas ncessairement orthogonaux quand le plan est dsquilibr. Le moyen le plus simple pour tester
la prsence d'interaction dans le modle d'analyse de variance deux facteurs est sans doute d'utiliser la
reprsentation par le modle de rgression linaire. Le modle s'crit

y = X + ,

o X = (1A1 B1 , ..., 1A1 BK , ..., 1AJ B1 , ..., 1AJ BK ) et = (11 , ..., 1K , ..., J1 , ..., JK )> . L'absence d'in-
teraction signie que les observations sont issues du modle contraint

y = Xc c + ,
o Xc = (1A1 , ..., 1AJ , 1B1 , ..., 1BK1 ) et c = (1 , ..., J , 1 , ..., K1 )> (la variable 1BK n'est pas incluse
pour rendre le modle identiable). Le modle initial contient JK paramtres et le modle contraint n'en
contient plus que J + K 1, on a donc q = JK (J + K 1) = (J 1)(K 1) pour les notations du
thorme 3.6. On regarde alors la statistique
n JK SCRc SCR
FAB = ,
(J 1)(K 1) SCR
qui suit sous l'hypothse nulle d'absence d'interaction une loi de Fisher F(J1)(K1),nJK . Cette statistique
n'a pas d'expression simplie quand le plan n'est pas quilibr.

4.3 Analyse de covariance


Lorsque les variables explicatives contiennent galement des variables quantitatives, on parle d'analyse
de covariance (ANCOVA). On dnit alors un modle de rgression linaire entre Y et les variables
explicatives quantitatives pour chaque classe dtermine par les direntes modalits des facteurs. Pour
simplier, on considre la situation o on dispose d'un seul facteur A J modalits et une variable
explicative quantitative X, mais l'ide se gnralise facilement plusieurs variables. Le modle s'crit

yij = 0j + 1j xij + ij , j = 1, ..., J, i = 1, ..., nj

o les ij sont iid de loi N (0, 2 ). La forme matricielle est donne par

y = X + ,

o X = (1A1 , x1 , ...., 1AJ , xJ ) et = (01 , 11 , ..., 0J , 1J )> . Ici, le support des variables colonnes x1 , ..., xJ
est restreint leurs modalits, x1 = (x11 , ..., x1n1 , 0, ..., 0)> , x2 = (0, ..., 0, x21 , ..., x2n2 , 0, ..., 0)> etc...
Pour reprsenter graphiquement les donnes, on peut utiliser un nuage de points en distinguant les points
(par des formes ou couleurs direntes) selon leur modalit, par exemple comme sur le graphique suivant.

On distingue ainsi les donnes selon l'appartenance la premire modalit (cercles) ou la seconde
modalit (triangles). L'analyse de covariance permet alors de tester plusieurs hypothses, en comparant
le modle des modles contraints n'intgrant que l'eet de X, que l'eet de A ou que l'eet d'interaction.
 Pour tester l'interaction entre les variables explicatives A et X, on considre dans un premier temps
(1)
l'hypothse nulle H0 : 11 = ... = 1J . S'il n'y a pas d'interaction, les pentes de la rgression de Y sur
X sont toutes identiques. Le modle contraint s'crit donc yij = 0j + 1 xij + ij qui comprend J + 1
paramtres estimer. On a ici q = JK J 1 et la statistique de test
(1)
nJK SCRc SCR
F(1) =
JKJ1 SCR
(1)
suit, sous H0 : 11 = ... = 1J , une loi de Fisher FJKJ1,nJK .
 Si l'interaction n'est pas signicative, on peut alors vouloir tester l'eet de X dans le modle contraint
(2)
prcdent par le biais de l'hypothse plus forte H0 : 1 = 0. Le modle contraint s'crit alors yij =
0j + ij . C'est le modle d'analyse de variance un facteur, qui comprend J paramtres estimer, le
modle initial tant ici yij = 0j + 1 xij + ij . La statistique de test est donc
(2) (1)
nJK+J+1 SCRc SCRc
F(2) = (1)
,
J(K1) SCRc
(2)
et suit sous H0 une loi de Fisher FJ(K1),nJK+J+1 .

 Enn, si aucun des deux tests prcdents n'est signicatif, on peut vouloir tester l'eet du facteur A.
On considre comme modle initial yij = 0j + ij et comme modle contraint yij = 0 + ij pour tester
(3)
l'hypothse H0 : 01 = ... = 0J . La statistique de test est donc
(3) (2)
nJ(K1) SCRc SCRc
F(3) = (2)
,
J1 SCRc
(3)
qui suit sous H0 une loi de Fisher FJ1,nJ(K1) .
5 Slection de modle

Les mthodes de slection de modle ont pour objectif d'identier les variables pertinentes du modle,
c'est--dire celles qui apportent de l'information sur Y. Si une des variables explicatives Xj n'apporte pas
d'information supplmentaire sur Y (ce qui se traduit par j = 0), il est videmment prfrable de ne pas
l'inclure dans le modle. Il est donc judicieux de s'autoriser liminer des variables du modles initial si
celles-ci sont juges non pertinentes. Paradoxalement, la suppression d'une variable Xj peut parfois tre
bnque mme si celle-ci est corrle avec Y. Pour s'en convaincre, on peut remarquer par exemple que
l'erreur quadratique de j vaut var(j ) = 2 [(X> X)1 ]jj alors que l'erreur commise en excluant xj du
modle, ce qui revient estimer j par zro, est E(j 0)2 = j2 . Il est donc prfrable, au sens du cot
quadratique, de ne pas inclure la variable xj dans le modle si 2 [(X> X)1 ]jj > j2 . Cette remarque est
galement valable pour la variable constante 1, qui doit tre considre comme une variable explicative
comme les autres, pouvant tre supprime du modle si elle est juge non pertinente.
La slection de modle prsente plusieurs avantages. Premirement, elle permet de fournir une interpr-
tation sur l'existence ou non d'un lien entre les variables (par exemple, observer exprimentalement que
la vitesse d'un objet en chute libre ne dpend pas directement de sa masse). Deuximement, diminuer
la dimension du modle permet de diminuer la variance de la prdiction. Enn, limiter le nombre de
variables est un bon moyen d'viter le sur-ajustement des donnes.
Le modle global contient donc p + 1 variables explicatives, et on peut considrer comme modle potentiel
tout modle obtenu avec un sous-ensemble m {1, x1 , ..., xp } de ces variables. Il y a donc 2p+1 modles
possibles. Pour un modle m {1, x1 , ..., xp }, on note m le projecteur orthogonal sur l'espace engendr
par les variables xj m et |m| le cardinal de m. Le prdicteur correspondant au modle m est donc
y (m) = m y .

5.1 Slection par tests d'hypothse


Pour chaque variable explicative, la question se pose de savoir s'il est prfrable de l'inclure ou non au
modle. Il existe de nombreuses mthodes permettant de slectionner les variables pertinentes. Un premier
outil pratique permettant de juger de la pertinence de xj est de tester l'hypothse H0 : j = 0. Il existe
alors plusieurs faons de faire, qui ne conduisent pas forcment au mme modle nal.

 Mthode descendante (backward elimination) : On part du modle comprenant toutes les variables
explicatives. A chaque tape, la variable ayant la plus grande p-value du test de Student (ou de Fi-
sher) de nullit du paramtre est supprime du modle si la p-value est suprieure un seuil choisi
l'avance (gnralement 0.10 ou 0.05). Attention, il est important d'liminer les variables une par une.
La procdure s'arrte lorsque toutes les variables sont signicatives.

 Mthode ascendante (forward selection) : On eectue la rgression linaire de y sur chacune des variables
explicatives sparment. On conserve la variable la plus pertinente, c'est--dire, celle dont la p-value
est la plus faible. On ritre le procd en introduisant les variables une par une et en ne conservant
que la variable dont l'apport est le plus signicatif. On s'arrte ds qu'aucune des variables pas encore
introduites n'est juge signicative.

 Mthode pas--pas (stepwise selection) : On part soit du modle global, soit du modle sans variables
et on value chaque fois la signicativit de chaque variable supprime ou rajoute au modle. On
s'arrte ds que le modle ne peut tre modi sans amliorer la signicativit.
L'utilisation des tests pour la slection de variables ne permet que de comparer, chaque tape, deux
modles embots (c'est--dire pour lesquels un des modles contient toutes les variables de l'autre). Ces
critres sont limits car ils permettent seulement de juger de la pertinence de chaque variable individuel-
lement. Or, le choix du meilleur modle doit tenir compte de la signicativit des variables et de leurs
interactions. Il est donc souvent prfrable d'utiliser un critre universel qui permet de comparer des
modles de manire plus globale.
5.2 Coecient de dtermination
Le coecient de dtermination d'un modle m est la quantit
ky (m) y1k2
R2 (m) = ,
ky y1k2
qui value la part de y explique par le modle. Utiliser le coecient de dtermination pour comparer
plusieurs modles (en choisissant le modle avec le R2 le plus grand) va conduire choisir le modle
complet, qui colle le plus aux donnes. Ce critre ne tient pas compte d'un possible sur-ajustement et
pour cette raison, n'est souvent pas appropri pour la slection de modle.

5.3 Coecient de dtermination ajust


Si on s'intresse la relation stochastique sous-jacente
Y = E(Y|X) + 
entre les variables, on peut considrer que le coecient de dtermination R2 est une estimation du R2
thorique dni par
var(E(Y|X)) var(Y) var() var()
R2th = = =1 .
var(Y) var(Y) var(Y)
En remplaant les quantit var() et var(Y) par leurs estimateurs sans biais du modle, on obtient le
coecient de dtermination ajust
ky y (m) k2 /(n |m|) (n 1)R2 (m) |m| + 1
R2a (m) = 1 2
= .
ky y1k /(n 1) n |m|
Le R2 ajust quantie la part du modle explique par les variables explicatives en tenant compte du
nombre de variables utilises, privilgiant les modles contenant peu de variables. On choisit le modle
dont le R2a est le plus lev. Ce critre est beaucoup plus judicieux que le R2 classique, qui lui privilgiera
toujours le modle contenant toutes les variables.

5.4 Cp de Mallows
Dans une optique de prdiction, on peut considrer que le meilleur modle m est celui qui minimise
l'erreur de prdiction
r(m) := EkX m yk2 .
L'erreur r(m) est inconnue en pratique mais elle peut tre estime.

Proposition 5.1 L'erreur quadratique vaut


r(m) = k(I m )Xk2 + 2 |m|.
Elle est estime sans biais par
r(m) := ky y (m) k2 + (2|m| n) 2 .

L'criture du risque r(m) = k(I m )Xk2 + 2 |m| est appele dcomposition biais-variance. Le carr
du biais est la partie dterministe k(I m )Xk2 . C'est elle qui pose le plus de problme pour valuer le
meilleur modle. La variance Ekm k2 = 2 |m| ne pose pas de problme majeur pour le choix du modle.
Le Cp de Mallows d'un modle m est dni par
ky y (m) k2
Cp(m) = + 2|m| n.
2
On slectionne le modle dont le Cp de Mallows est le plus faible. On voit bien par la proposition 5.1 que
cela revient chercher le modle qui minimise l'estimateur sans biais du risque r(m).
5.5 Critre AIC
Le critre d'information d'Akaike (AIC) est construit partir de la vraisemblance du modle et ncessite
donc de connatre la loi du bruit , que l'on ne suppose pas forcment normale ici (historiquement, la
motivation derrire le critre d'Akaike est de minimiser la divergence de Kullback avec la vraie loi des
observations, ce qui dans ce cadre est quivalent maximiser la vraisemblance). Soit f ( 2 , .) la densit
de  (qui dpend du paramtre inconnu 2 ), la vraisemblance associe au modle de rgression est

f ( 2 , ) = f ( 2 , y X) := V( 2 , , X, y).

Lorsqu'on fait de la slection de modle, on ne cherche pas exprimer la vraisemblance comme une
fonction des paramtres mais plutt comme une fonction du modle m. Si seule la loi du bruit est connue,
valuer la vraisemblance d'un modle m ncessite d'estimer les paramtres, ce qui entrane un biais.
Pour valuer la log-vraisemblance, ce biais est asymptotiquement de l'ordre du nombre de paramtres
estimer, savoir |m|. Le critre AIC, qui utilise une version asymptotiquement dbiaise de l'estimateur
de la log-vraisemblance, est dni par
2
AIC(m) = 2|m| 2 log(V(m , m , X, y)),

o m
2
et m sont les estimateurs du maximum de vraisemblance de 2 et pour le modle m. Le meilleur
modle est celui qui minimise le critre AIC. Dans le cas Gaussien, les critres AIC et Cp de Mallows
sont quivalents.
Le critre AIC se justie asymptotiquement mais pas pour des chantillons de petites tailles. Il existe une
version corrige du critre, plus adapte aux petits chantillons,
2|m|(|m| + 1)
AICc (m) = AIC(m) + .
n |m| 1

5.6 Critre BIC


Le critre BIC (Bayesian Information Criterion), dni par
2
BIC(m) = 2|m| log(n) 2 log(V(m , m , X, y))

est une version modie du critre AIC motive par l'utilisation d'un a priori sur le paramtre . Schwarz,
qui a introduit ce critre, a montr que l'inuence de l'a priori tait ngligeable asymptotiquement ce qui
justie que le critre n'en dpend pas. Le facteur log(n) dans la pnalit a pour consquence de favoriser,
plus que les autres critres, les modles avec moins de paramtres.

5.7 Critre PRESS de validation croise


La validation croise est un des moyens les plus ecaces de juger de la qualit d'un modle. Le principe de
la validation croise est d'estimer les paramtres partir d'un sous-chantillon des donnes et d'valuer
leurs performances de prdiction sur les donnes mises de ct. La version la plus simple est le critre
(i)
PRESS (prediction error sum of square), pour lequel une seule observation est laisse de ct. Soit ym,i
la prdiction de yi estime dans le modle m partir des donnes sans yi , le critre PRESS est dni par
n
(i)
X
PRESS(m) = (ym,i yi )2 .
i=1

On retient bien sr le modle avec le PRESS le plus faible. D'aprs le lemme 3.8, on montre que le critre
PRESS est galement donn par
n
X 2m,i
PRESS(m) = ,
i=1
(1 hm,ii )2
o m,i est le rsidu de la i-me observation, estim dans le modle m et hm,ii l'entre diagonale de la
matrice de projection sur l'espace engendr par les variables xj m. Ce critre produit en gnral de
trs bons rsultats.
En pratique, on chosit un de ces critres pour retenir un modle nal. Si le nombre de variables explicatives
dans le modle complet est grand, le calcul du critre pour les 2p+1 sous-modles peut vite devenir trs
coteux. Dans ce cas, on peut se contenter de faire une recherche pas--pas du meilleur modle en enlevant
et ajoutant les variables les plus pertinentes une par une, ce qui permet de ne calculer le critre que pour
un petit nombre de modles. Cette approche est nettement moins coteuse en temps de calcul mais ne
garantit pas de slectionner le meilleur modle pour le critre choisi.
6 Mthodes robustes d'estimation

Dans le modle de rgression linaire Gaussien y = X + , on a vu que l'estimateur des moindres


carrs est le meilleur estimateur sans biais de . Il s'avre que l'on peut souvent amliorer l'estimation
en recherchant un estimateur de biais, pour lequel l'erreur quadratique est plus faible que celle des
moindres carrs. Les mthodes de slection de modle peuvent conduire un estimateur biais de . Par
exemple, si la variance de j est leve, il peut tre prfrable d'estimer j par zro, mme si celui-ci est
non nul. Cela entrane un biais qui est compens par une plus forte diminution de la variance. Dans cette
section, on s'intresse d'autres mthodes d'estimation, plus robustes aux problmes de multicolinarit
et de sur-ajustement.
Les mthodes dcrites dans cette section ne ncessite pas que la matrice de rgression X soit de plein
rang. On relache donc cette hypothse dornavant. En particulier, le nombre d'observations peut tre
infrieur au nombre de variables explicatives.

6.1 Analyse en composantes principales


L'analyse en composantes principales (ACP) recherche les directions qui rsument le mieux l'information
des variables explicatives. On travaille avec les variables standardises
xj xj 1
wj = q , j = 1, ..., p.
x2j x2j

L'ide est de faire une rgression sur des combinaisons linaires bien choisies des variables wj , de manire
optimiser l'information
Pp Pp composante est une combinaison
tout en rduisant la dimension du modle. Une
linaire c = j=1 j wj Rn des variables standardises telle que j=1 2j = 1. On note W la matrice
construite partir des variables standardises

w11 . . . wp1
W = ... ..
.
.. ,
.

w1n ... wpn

et r = rang(W) = dim(Im(W)). Une composante est un vecteur c = W avec kk2 = 1.


Du point de vue de l'ACP, l'information d'une composante est donne par sa norme. La premire com-
posante principale c1 = W1 est la composante de norme maximale (dnie au signe prs),

1 = arg maxp kWk2 = arg maxp > W> W.


R R
kk=1 kk=1

C'est la direction qui est privilgie par l'ACP. Si celle-ci n'estP


pas unique, on en choisit une arbitrairement
p
parmi les maximiseurs. La composante obtenue c1 = W1 = j=1 1j wj dtermine la variable explicative
privilgie par l'ACP. La deuxime composante principale c2 = W2 est la composante orthogonale c1
de norme maximale
2 = arg maxp > W> W.
R
kk=1
>
1 =0

On choisira de l'intgrer ou non au modle, suivant l'information supplmentaire apporte. On construit


ensuite la troisime composante principale orthogonale aux deux premires de la mme faon, et ainsi de
suite jusqu' obtenir r composantes.

Thorme 6.1 Les vecteurs 1 , ..., r sont des vecteurs propres de la matrices W> W associs aux valeurs
propres non nulles 1 , ..., r classes dans l'ordre croissant. De plus, les composantes principales c1 , ..., cr
sont des vecteurs propres de la matrice WW> , qui ont pour valeurs propres 1 , ..., r . En particulier, les
composantes principales forment une base orthogonale de Im(W).
Du fait de la standardisation des variables explicatives, le modle de l'ACP peut s'crire
r
X
y y1 = j cj + ( 1).
j=1

La variable expliquer est le vecteur recentr y y1, les paramtres estimer sont les coecients j et
les variables explicatives sont les composantes principales c1 , ..., cr . On peut choisir de ne retenir dans le
modle que les composantes principales les plus pertinentes. Il y a deux avantages majeurs utiliser les
composantes principales comme variables explicatives. Premirement, les composantes principales sont
orthogonales, ce qui permet de juger de la pertinence de chacune des composantes sans tenir compte des
autres (contrairement au cas gnral o la pertinence d'une variable doit tre test en prsence des autres
variables du modle). Deuximement, les composantes principales sont classes par ordre d'importance,
la slection de variables se fait donc en choisissant un rang k partir duquel les composantes cj , j > k
sont juges non-pertinentes (on peut ventuellement prendre k = 0). Cela rduit un maximum de p + 1
modles tester. On peut retenir par exemple le modle avec le PRESS le plus faible.
Une fois le seuil k dtermin, les paramtres 1 , ..., k sont estims par les moindres carrs. Du fait de
l'orthogonalit des composantes, l'estimateur des moindres carrs s'exprime trs simplement. En eet, en
notant C(k) = (c1 , ..., ck ), on vrie facilement que
1
1 hc1 , y y1i

(k) = (C> 1 >


C(k) (y y1) = ..
(k) C(k) ) . .

1
k hck , y y1i

On obtient la prdiction
k k k
ACP
X X 1 X 1
y(k) = y1 + j cj = y1 + hcj , y y1icj = y1 + hy, cj icj .
j=1

j=1 j

j=1 j

Si k = r, la prdiction obtenue par l'ACP est celle des moindres carrs car les composantes cj et la
constante 1 engendrent entirement Im(X). De plus, on voit dans la formule de (k) que l'ajout ou le
retrait d'une composante cj dans le modle retenu ne modie pas la valeur des estimateurs j 0 pour
j 0 6= j , ce qui s'explique simplement par l'orthogonalit des composantes.
La dcomposition de y dans la base c1 , ..., cr permet de privilgier les directions de faibles variances. En
eet, les variances des projections de y dans les directions cj /kcj k sont classes par ordre croissant,


cj 1
cj 1 c>j cj 2
var y, = 2 var , y y1 = 2 var(y y1) = (n 1) .
kcj k j kcj k j kcj k kcj k j

Classer les composantes principales par valeurs propres j dcroissantes est donc un moyen de privilgier
les directions de faibles variances pour la prdiction.

6.2 Moindres carrs partiels


Comme l'ACP, la rgression par moindres carrs partiels, ou rgression PLS (partial least squares) fait
intervenir les variables explicatives standadises wj . Le principe de la rgression PLS est similaire
celui de l'ACP. L'objectif est de chosir des directions privilgier pour dnir le modle, de manire
maximiser l'information tout en minimisant la dimension du modle.
Les composantes de la rgression PLS sont choisies en maximisant la corrlation avec y . Prcisment, on
dnit la premire composante c1 = W1 par

2
1 = arg maxp y y1, W .
R
kk=1
Contrairement l'ACP o les composantes ne sont dtermines qu'en fonction de l'information des
variables explicatives, la rgression PLS tient compte galement de la rponse pour construire les compo-
santes. L'ide est de maximiser l'information apporte par les variables explicatives et leurs interactions
avec y . La deuxime composante de la rgression PLS est construite de la mme faon, en imposant
qu'elle soit orthogonale la premire. On dnit donc c2 = W2 avec

2
2 = arg maxp y y1, W .
R
kk=1
> >
1 W W=0

Le procd peut tre itr jusqu' obtenir r composantes, qui sont orthogonales par construction. On
choisit alors un seuil k partir duquel les composantes de sont plus intgres au modle. On peut utiliser
ici aussi le critre PRESS pour choisir le meilleur seuil k .

6.3 Rgression Ridge


Lorsqu'il y a des corrlations entre les variables explicatives, la matrice X> X a des valeurs propres proches
de zro et l'estimateur des moindres carrs n'est pas satisfaisant, du fait d'une forte variance. Pour
contrler la variance de l'estimateur, un moyen simple est de pnaliser les grandes valeurs de . C'est le
principe de la rgression ridge, on dnit l'estimateur par

ridge arg min ky Xbk2 + kbk2 ,


bRp+1

o > 0 est un paramtre dterminer.

Thorme 6.2 Si > 0, l'estimateur ridge est unique donn par


ridge = (X> X + I)1 X> y.

Il est galement l'unique solution du problme d'optimisation sous contrainte


ridge = arg min ky Xbk2 sous la contrainte kbk2 6 ,
bRp+1

o = k(X> X + I)1 X> yk2 .

L'estimateur Ridge est donc solution de deux problmes d'optimisation duaux : le minimiseur du critre
pnalis ou du critre sous contrainte.
Contrairement l'estimateur des moindres carrs, l'estimateur Ridge est bien dni mme si la matrice
des rgresseurs n'est pas de plein rang. Par ailleurs, l'estimateur Ridge est biais, mais de variance plus
faible que l'estimateur des moindres carrs lorsque celui-ci existe. Prcisemment,

biais(ridge ) = E(ridge ) = (X> X + I)1 X> X I = (X> X + I)1


 

var(ridge ) = (X> X + I)1 X> var(y)X(X> X + I)1 = 2 (X> X + I)2 X> X

On a utilis pour la dernire ligne le fait que (X> X + I)1 et X> X commutent car elles sont diagonali-
sables dans la mme base. Si on s'intresse l'erreur quadratique, appliquer la trace la dcomposition
biais-variance E[(ridge )(ridge )> ] = var(ridge ) + biais(ridge )biais(ridge )> donne

Ekridge k2 = tr var(ridge ) + kbiais(ridge )k2 .


 

Soit 0 , ..., p une base orthonorme de vecteurs propres de X> X et 0 > ... > p les valeurs propres
associes (qui, on rappelle, sont positives), les termes prcdents s'crivent
p p
X j X h, j i2
tr var(ridge ) = 2 et biais ridge 2 2
 
2
k ( )k = .
j=0
(j + ) j=0
(j + )2
On voit bien que la variance de l'estimateur Ridge une fonction dcroissante de alors que le carr
du biais est une fonction croissante. Le paramtre permet donc de faire un compromis entre biais et
variance. En pratique, le choix du paramtre se fait gnralement par validation croise. On a dans les
cas extrmes :
 Si X est de plein rang, la limite en zro, lim0 ridge , est gale l'estimateur des moindres carrs
. Si X n'est pas de plein rang, la limite lim0 ridge existe et est gale l'image de y par l'inverse
gnralis (ou oprateur de Moore-Penrose) de X,

lim ridge = X y.
0

 En l'inni, on voit facilement que la limite lim+ ridge est nulle.

6.4 Rgression lasso


La rgression lasso (least absolute shrinkage and selection operator) est base sur la mme ide que la
rgression ridge, en remplaant la norme Euclidienne de la pnalit par la norme `1 . L'estimateur lasso
est donc dni par
Xp
lasso 2
= arg min ky Xbk + |bj |,
bRp+1
j=0

o > 0 est un paramtre dterminer. Comme pour le Ridge, l'estimateur lasso est galement solution
du problme dual
p
X
lasso = arg min
p+1
ky Xbk2 sous la contrainte |bj | 6 ,
bR
j=0

pour un = () > 0.
Le lasso est principalement utilis pour construire un estimateur parcimonieux (dont certaines compo-
santes sont nulles). Une interprtation graphique de ce phnomne est donne dans le dessin suivant, qui
compare les rgressions Ridge et lasso.

Les ellipses reprsentent les courbes de niveaux de la fonction b 7 ky Xbk2 . La solution au problme
d'optimisation sous contraintes est le point d'intersection avec la boule pour chaque norme. On voit que
l'estimateur lasso a une composante nulle, contrairement l'estimateur Ridge.
Du fait de la sparsit de la solution, la mthode lasso peut tre utilise dans une optique de slection de
variables. En revanche, il n'existe pas de formule analytique pour l'estimateur lasso (contrairement au
Ridge), le calcul de l'estimateur se fait numriquement par des algorithmes d'optimisation convexe.
7 Rgression non-paramtrique

Vous aimerez peut-être aussi