Regression PDF

Universit Rennes 2
Master de Statistique
Anne 2012/2013
Premier Semestre
Rgression linaire
Arnaud Guyader
Ce cours est tir des quatre premiers chapitres du livre de Pierre-Andr Cornillon et Eric Matzner-
Lber, Rgression avec R, paru chez Springer en 2010.
Table des matires
1 La rgression linaire simple 1

1.1 Modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Moindres Carrs Ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Calcul des estimateurs de 1 et 2 . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Quelques proprits des estimateurs 1 et 2 . . . . . . . . . . . . . . . . . 4
1.2.3 Calcul des rsidus et de la variance rsiduelle . . . . . . . . . . . . . . . . . 7
1.2.4 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Interprtations gomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Reprsentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Le coefficient de dtermination R2 . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Cas derreurs gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . . . . . 11
1.4.2 Rappels sur les lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 Lois des estimateurs et rgions de confiance . . . . . . . . . . . . . . . . . . 13
1.4.4 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7 Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 La rgression linaire multiple 29

2.1 Modlisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2 Estimateurs des Moindres Carrs Ordinaires . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Calcul de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 Quelques proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.3 Rsidus et variance rsiduelle . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.4 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3 Interprtation gomtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6 Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3 Le modle gaussien 49
3.1 Estimateurs du Maximum de Vraisemblance . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Lois des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.1 Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.2 Nouvelles proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.3 Intervalles et rgions de confiance . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.4 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
i
ii Table des matires
3.3.2 Tests entre modles embots . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.3 Test de Student de signification dun coefficient . . . . . . . . . . . . . . . . 60
3.3.4 Test de Fisher global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.5 Lien avec le Rapport de Vraisemblance Maximale . . . . . . . . . . . . . . . 60
3.4 Estimation sous contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7 Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4 Validation du modle 81
4.1 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.1 Rsidus et valeurs aberrantes . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.2 Analyse de la normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.3 Analyse de lhomoscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.4 Analyse de la structure des rsidus . . . . . . . . . . . . . . . . . . . . . . . 85
4.2 Analyse de la matrice de projection . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3 Autres mesures diagnostiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
A Annales 93
B Rappels dalgbre 131

B.1 Quelques dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B.2 Quelques proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B.2.1 Les matrices n p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B.2.2 Les matrices carres n n . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B.2.3 Les matrices symtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
B.2.4 Les matrices semi-dfinies positives . . . . . . . . . . . . . . . . . . . . . . . 132
B.3 Proprits des inverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
B.4 Proprits des projections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
B.4.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
B.4.2 Exemple de projection orthogonale . . . . . . . . . . . . . . . . . . . . . . . 133
B.4.3 Trace et lments courants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
B.5 Drivation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
C Rappels de probabilit 135

C.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
C.2 Vecteurs alatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
C.3 Tables des lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
C.3.1 Loi Normale X N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
C.3.2 Loi de Student X T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
C.3.3 Loi du Khi-deux ddl X 2 . . . . . . . . . . . . . . . . . . . . . . . . 139
C.3.4 Loi de Fisher 1 , 2 ddl X F21 . . . . . . . . . . . . . . . . . . . . . . . 140
D Quelques donnes 141
Bibliographie 143
Arnaud Guyader - Rennes 2 Rgression

Chapitre 1
La rgression linaire simple
Introduction
Commenons par un exemple afin de fixer les ides. Pour des raisons de sant publique, on sin-
tresse la concentration dozone O3 dans lair (en microgrammes par millilitre). En particulier,
on cherche savoir sil est possible dexpliquer le taux maximal dozone de la journe par la
temprature T12 midi. Les donnes sont :
Temprature 12h 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 max 115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.8
Table 1.1 10 donnes journalires de temprature et dozone.
Dun point de vue pratique, le but de cette rgression est double :

ajuster un modle pour expliquer O3 en fonction de T12 ;
prdire les valeurs dO3 pour de nouvelles valeurs de T12 .
Avant toute analyse, il est intressant de reprsenter les donnes, comme sur la figure 1.1.
100 110 120 130
O3
90
80
10 15 20 25 30
T12
Figure 1.1 10 donnes journalires de temprature et dozone.
Pour analyser la relation entre les xi (temprature) et les yi (ozone), nous allons chercher une
fonction f telle que :
yi f (xi ).
Pour prciser le sens de , il faut se donner un critre quantifiant la qualit de lajustement de la

fonction f aux donnes. Il conviendra aussi de se donner une classe de fonctions F dans laquelle
est suppose vivre la vraie fonction inconnue.
2 Chapitre 1. La rgression linaire simple
Le problme mathmatique peut alors scrire de la faon suivante :

n
X
arg min L(yi f (xi )),
f F
i=1
o n reprsente le nombre de donnes disponibles (taille de lchantillon) et L(.) est appele fonction
de cot ou fonction de perte (Loss en anglais).
1.1 Modlisation
Dans de nombreuses situations, en premire approche, une ide naturelle est de supposer que la
variable expliquer y est une fonction affine de la variable explicative x, cest--dire de chercher
f dans lensemble F des fonctions affines de R dans R. Cest le principe de la rgression linaire
simple. On suppose dans la suite disposer dun chantillon de n points (xi , yi ) du plan.
Dfinition 1.1 (Modle de rgression linaire simple)

Un modle de rgression linaire simple est dfini par une quation de la forme :
i {1, . . . , n} yi = 1 + 2 xi + i
Les quantits i viennent du fait que les points ne sont jamais parfaitement aligns sur une droite.
On les appelle les erreurs (ou bruits) et elles sont supposes alatoires. Pour pouvoir dire des choses
pertinentes sur ce modle, il faut nanmoins imposer des hypothses les concernant. Voici celles
que nous ferons dans un premier temps :

(H1 ) : E[i ] = 0 pour tout indice i
(H)
(H2 ) : Cov(i , j ) = ij 2 pour tout couple (i, j)
Les erreurs sont donc supposes centres, de mme variance (homoscdasticit) et non corrles
entre elles (ij est le symbole de Kronecker, i.e. ij = 1 si i = j, ij = 0 si i 6= j). Notons que le
modle de rgression linaire simple de la dfinition 1.1 peut encore scrire de faon vectorielle :
Y = 1 1 + 2 X + ,
o :
le vecteur Y = [y1 , . . . , yn ] est alatoire de dimension n,
le vecteur 1 = [1, . . . , 1] est le vecteur de Rn dont les n composantes valent toutes 1,
le vecteur X = [x1 , . . . , xn ] est un vecteur de dimension n donn (non alatoire),
les coefficients 1 et 2 sont les paramtres inconnus (mais non alatoires !) du modle,
le vecteur = [1 , . . . , n ] est alatoire de dimension n.
Cette notation vectorielle sera commode notamment pour linterprtation gomtrique du pro-
blme. Nous y reviendrons en Section 1.3 et elle sera dusage constant en rgression linaire mul-
tiple, cest pourquoi il convient dores et dj de sy habituer.
1.2 Moindres Carrs Ordinaires

Les points (x
Pi , yi ) tant donns, le but est maintenant de trouver une fonction affine f telle que
la quantit ni=1 L(yi f (xi )) soit minimale. Pour pouvoir dterminer f , encore faut-il prciser la
fonction de cot L. Deux fonctions sont classiquement utilises :
le cot absolu L(u) = |u| ;

1.2. Moindres Carrs Ordinaires 3
le cot quadratique L(u) = u2 .

Les deux ont leurs vertus, mais on privilgiera dans la suite la fonction de cot quadratique. On
parle alors de mthode destimation par moindres carrs (terminologie due Legendre dans un
article de 1805 sur la dtermination des orbites des comtes).
Dfinition 1.2 (Estimateurs des Moindres Carrs Ordinaires)

On appelle estimateurs des Moindres Carrs Ordinaires (en abrg MCO) 1 et 2 les valeurs
minimisant la quantit :
n
X
S(1 , 2 ) = (yi 1 2 xi )2 .
i=1
Autrement dit, la droite des moindres carrs minimise la somme des carrs des distances verticales
des points (xi , yi ) du nuage la droite ajuste y = 1 + 2 x.
1.2.1 Calcul des estimateurs de 1 et 2

La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun
problme, comme nous allons le voir maintenant.
Proposition 1.1 (Estimateurs 1 et

2 )
Les estimateurs des MCO ont pour expressions :
1 = y 2 x
,
avec : Pn Pn
(xi x)(yi y) (xi x
)yi
2 = i=1
Pn 2
= Pi=1
n .
i=1 (xi x
) )2
i=1 (xi x
Preuves. La premire mthode consiste remarquer que la fonction S(1 , 2 ) est strictement
convexe, donc quelle admet un minimum en un unique point (1 , 2 ), lequel est dtermin en
annulant les drives partielles de S. On obtient les quations normales :
n

S X

1 = 2
(yi 1 2 xi ) = 0
i=1
Xn

S

2 = 2
xi (yi 1 2 xi ) = 0
i=1
La premire quation donne :

n
X n
X
1 n + 2 xi = yi
i=1 i=1
do lon dduit immdiatement :
1 = y 2 x
, (1.1)
o x
et y sont comme dhabitude les moyennes empiriques des xi et des yi . La seconde quation
donne :
n
X n
X n
X
1 xi + 2 x2i = xi y i
i=1 i=1 i=1
Rgression Arnaud Guyader - Rennes 2

et en remplaant 1 par son expression (1.1), nous avons :

P P P P
x i y i x i y
x i (y i y
) (xi x
)(yi y)
2 = P 2 P =P =P . (1.2)
xi xi x xi (xi x ) (xi x
)(xi x)
La seconde mthode consiste appliquer la technique de Gauss de rduction des formes quadra-
tiques, cest--dire dcomposer S(1 , 2 ) en somme de carrs, carrs quil ne restera plus qu
annuler pour obtenir les estimateurs 1 et 2 . Dans notre cas, aprs calculs, ceci scrit :
n
! Pn
2
X (xi x)(yi y) 2
2 i=1
Pn
S(1 , 2 ) =n (1 (
y 2 x
)) + (xi x) 2
i=1 (xi x)2
i=1
n
! P !
X ( ni=1 (xi x)(yi y))2
2
+ (yi y) 1 Pn P ,
)2 ni=1 (yi y)2
i=1 (xi x
i=1
o apparaissent deux carrs et un troisime terme indpendant de 1 et 2 : ce dernier est donc

incompressible. Par contre, le second est nul si et seulement si 2 = 2 . Ceci tant fait, le premier
est alors nul si et seulement si 1 = 1 .

P
Lexpression (1.2) de 2 suppose que le dnominateur ni=1 (xi x )2 est non nul. Or ceci ne peut
arriver que si tous les xi sont gaux, situation sans intrt pour notre problme et que nous ex-
cluons donc a priori dans toute la suite.
Remarques :
1. La relation 1 = y 2 x
montre que la droite des MCO passe par le centre de gravit du
nuage (
x, y).
2. Les expressions obtenues pour 1 et 2 montrent que ces deux estimateurs sont linaires par
rapport au vecteur Y = [y1 , . . . , yn ] .
3. Lestimateur 2 peut aussi scrire comme suit (exercice !) :
P
(xi x
)i
2 = 2 + P . (1.3)
)2
(xi x
Si cette dcomposition nest pas intressante pour le calcul effectif de 2 puisquelle fait
intervenir les quantits inconnues 2 et i , elle lest par contre pour dmontrer des proprits
thoriques des estimateurs (biais et variance). Son avantage est en effet de mettre en exergue
la seule source dala du modle, savoir les erreurs i .
Avant de poursuivre, notons que le calcul des estimateurs des moindres carrs est purement dter-
ministe : il ne fait en rien appel aux hypothses (H1 ) et (H2 ) sur le modle. Celles-ci vont en fait
servir dans la suite expliciter les proprits statistiques de ces estimateurs.
1.2.2 Quelques proprits des estimateurs 1 et 2

Sous les seules hypothses (H1 ) et (H2 ) de centrages, dcorrlations et homoscdasticits des er-
reurs i du modle, on peut dj donner certaines proprits des estimateurs 1 et 2 des moindres
carrs.

Thorme 1.1 (Estimateurs sans biais)

1 et 2 sont des estimateurs sans biais de 1 et 2 .
Preuve. Partons de lcriture (1.3) pour 2 :

P
(xi x
)i
2 = 2 + P .
)2
(xi x
Dans cette expression, seuls les bruits i sont alatoires, et puisquils sont centrs, on en dduit
bien que E[2 ] = 2 . Pour 1 , on part de lexpression :
1 = y 2 x
,
do lon tire :
E[1 ] = E[y ] xE[2 ] = 1 + x2 x2 = 1 .

On peut galement exprimer variances et covariance de nos estimateurs.
Thorme 1.2 (Variances et covariance)

Les variances des estimateurs sont :
2
P 2 2

x 1 x
2
Var(1 ) = P i
= 2
+P & Var(2 ) = P ,
n (xi x )2 n )2
(xi x )2
(xi x
tandis que leur covariance vaut :
2x
Cov(1 , 2 ) = P .
)2
(xi x
Preuve. On part nouveau de lexpression de 2 utilise dans la preuve du non-biais :

P
(xi x)i
2 = 2 + P ,
(xi x)2
or les erreurs i sont dcorrles et de mme variance 2 donc la variance de la somme est la somme
des variances : P
)2 2
(xi x 2
Var(2 ) = P = P .
( (xi x)2 )2 (xi x)2
Par ailleurs, la covariance entre y et 2 scrit :
P P P
yi (xi x
)i 2 (xi x
)
Cov(y , 2 ) = Cov , P 2
= P = 0,
n (xi x
) n (xi x)2
do il vient pour la variance de 1 :

P
yi 2 2 2
x
Var(1 ) = Var 2 x
= +P 2 y , 2 ),
xCov(
n n (xi x )2
cest--dire : P
2 2 2
x 2 x2i
Var(1 ) = +P = P .
n (xi x )2 )2
n (xi x
Enfin, pour la covariance des deux estimateurs :
2x
Cov(1 , 2 ) = Cov(
y 2 x
, 2 ) = Cov(
y , 2 ) x
Var(2 ) = P .
)2
(xi x


Remarques :
1. On a vu que la droite des MCO passe par le centre de gravit du nuage ( x, y). Supposons
celui-ci fix et x
positif, alors il est clair que si on augmente la pente, lordonne lorigine
va baisser et vice versa, on retrouve donc bien le signe ngatif pour la covariance entre 1 et
2 .
2. En statistique infrentielle, la variance dun estimateur dcrot typiquement de faon inver-
sement proportionnelle la taille de lchantillon, cest--dire en 1/n. En dautres termes, sa

prcision est gnralement en 1/ n. Ceci ne saute pas aux yeux si lon considre par exemple
lexpression obtenue pour la variance de 2 :
2
Var(2 ) = P .
)2
(xi x
Pour comprendre que tout se passe comme dhabitude, il suffit de considrer que les xi
sont eux-mmes alatoires, avec cart-type x . Dans ce cas trs gnral, le dnominateur est
dordre nx2 et lon retrouve bien une variance en 1/n.
Les estimateurs des moindres carrs sont en fait optimaux en un certain sens, cest ce que prcise
le rsultat suivant.
Thorme 1.3 (Gauss-Markov)

Parmi les estimateurs sans biais linaires en y, les estimateurs j sont de variances minimales.
P P
Preuve. Lestimateur des MCO scrit 2 = ni=1 pi yi , avec pi = (xi x
)/ (xi x)2 . Considrons

un autre estimateur 2 linaire en yi et sans biais, cest--dire :
n
X
2 = i y i .
i=1
P P
Montrons que i = 0 et i xi = 1. Lgalit
X X X X X
E(2 ) = 1 i + 2 i x i + i E(i ) = 1 i + 2 i x i
P 2 . Lestimateur 2 est sans biais donc E(2 ) = 2 pour tout 2 , cest--dire

est vraie
P pour tout
que i = 0 et i xi = 1. Montrons que Var(2 ) Var(2 ) :
Var(2 ) = Var(2 2 + 2 ) = Var(2 2 ) + Var(2 ) + 2Cov(2 2 , 2 ).
Or :
P
2 i (xi x ) 2
Cov(2 2 , 2 ) = Cov(2 , 2 ) Var(2 ) = P P = 0,
)2
(xi x )2
(xi x
P P
la dernire galit tant due aux deux relations i = 0 et i xi = 1. Ainsi :
Var(2 ) = Var(2 2 ) + Var(2 ).
Une variance est toujours positive, donc :
Var(2 ) Var(2 ).
Le rsultat est dmontr. On obtiendrait la mme chose pour 1 .

Remarque. Comme nous le verrons au chapitre suivant, on peut en fait montrer un peu mieux :
au sens de la relation dordre sur les matrices symtriques relles, la matrice de covariance de
= [1 , 2 ] est infrieure celle de nimporte quel autre estimateur = [1 , 2 ] sans biais et
linaire en y.

1.2.3 Calcul des rsidus et de la variance rsiduelle
150
yi = 1 + 2 xi i
100
O3
50
0
0 5 10 15 20 25 30 35
T12 xi
Figure 1.2 Reprsentation des individus.
Dans R2 (espace des variables xi et yi ), 1 est lordonne lorigine et 2 la pente de la droite

ajuste. Cette droite minimise la somme des carrs des distances verticales des points du nuage
la droite ajuste. Notons yi = 1 + 2 xi lordonne du point de la droite des moindres carrs
dabscisse xi , ou valeur ajuste. les rsidus sont dfinis par (cf. figure 1.2) :
i = yi yi = yi 1 2 xi = (yi y) 2 (xi x
). (1.4)
Par construction, la somme des rsidus est nulle :
X X X
i == (yi y) 2 (xi x
) = 0.
i i i
Notons maintenant que les variances et covariance des estimateurs 1 et 2 tablies en section
prcdente ne sont pas pratiques car elles font intervenir la variance 2 des erreurs, laquelle est en
gnral inconnue. Nanmoins, on peut en donner un estimateur sans biais grce aux rsidus.
Thorme 1.4 (Estimateur

P non biais de 2 )
n
2 = i=1 2i /(n 2) est un estimateur sans biais de 2 .
La statistique
Preuve. Rcrivons les rsidus en constatant que 1 = y 2 x

et 1 = y 2 x
, ce qui donne :
i = 1 + 2 xi + i 1 2 xi
+ 2 xi + i y + 2 x
= y 2 x 2 xi
= (2 2 )(xi x) + (i ).
En dveloppant et en nous servant de lcriture vue plus haut :
P
(xi x
)i
2 = 2 + P ,
(xi x)2
nous avons :
X X X X
2i = (2 2 )2 (xi x)2 + (i )2 + 2(2 2 ) (xi x)(i )
X X X
= (2 2 )2 )2 +
(xi x (i )2 2(2 2 )2 (xi x )2 .
Prenons-en lesprance :
X X X
E i 2 = E (i )2 )2 Var(2 ) = (n 2) 2 .
(xi x

Bien sr, lorsque n est grand,P cet estimateur diffre trs peu de lestimateur empirique de la
variance des rsidus, savoir ni=1 2i /n.

1.2.4 Prvision
Un des buts de la rgression est de faire de la prvision, cest--dire de prvoir la variable expliquer
y en prsence dune nouvelle valeur de la variable explicative x. Soit donc xn+1 une nouvelle valeur,
pour laquelle nous voulons prdire yn+1 . Le modle est toujours le mme :
yn+1 = 1 + 2 xn+1 + n+1
avec E[n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, . . . , n. Il est naturel de prdire

la valeur correspondante via le modle ajust :
yn+1 = 1 + 2 xn+1 .
Deux types derreurs vont entacher notre prvision : la premire est due la non-connaissance de
n+1 , la seconde lincertitude sur les estimateurs 1 et 2 .
Proposition 1.2 (Erreur de prvision)

Lerreur de prvision n+1 = (yn+1 yn+1 ) satisfait les proprits suivantes :
(
E[n+1 ] = 0
1 P(x n+1 x)2
n+1 ) = 2 1 +
Var( n + n
(x i x)2
.
i=1
Preuve. Pour lesprance, il suffit dutiliser le fait que n+1 est centre et que les estimateurs 1
et 2 sont sans biais :
E[n+1 ] = E[1 1 ] + E[2 2 ]xn+1 + E[n+1 ] = 0.

Nous obtenons la variance de lerreur de prvision en nous servant du fait que yn+1 est fonction
de n+1 seulement tandis que yn+1 est fonction des autres erreurs (i )1in :
Var( yn+1 ) = 2 + Var(

n+1 ) = Var (yn+1 yn+1 ) = Var(yn+1 ) + Var( yn+1 ).
Calculons le second terme :

yn+1 ) = Var 1 + 2 xn+1 = Var(1 ) + x2n+1 Var(2 ) + 2xn+1 Cov 1 , 2
Var (
P 2
2 xi 2
= P + xn+1 2xn+1 x

)2
(xi x n
P
2 )2
(xi x 2 2
= P +x + xn+1 2xn+1 x
)2
(xi x n

2 1 (xn+1 x )2
= + P .
n )2
(xi x
Au total, on obtient bien :

2 1 (xn+1 x)2
Var(
n+1 ) = 1+ + P .
n )2
(xi x

Ainsi la variance augmente lorsque xn+1 sloigne du centre de gravit du nuage. Autrement dit,
faire de la prvision lorsque xn+1 est loin de x est prilleux, puisque la variance de lerreur de
prvision peut tre trs grande ! Ceci sexplique intuitivement par le fait que plus une observation
xn+1 est loigne de la moyenne x et moins on a dinformation sur elle.

1.3. Interprtations gomtriques 9
1.3 Interprtations gomtriques

1.3.1 Reprsentation des variables
Si nous abordons le problme dun point de vue vectoriel, nous avons deux vecteurs notre dis-
position : le vecteur X = [x1 , . . . , xn ] des n observations pour la variable explicative et le vecteur
Y = [y1 , . . . , yn ] des n observations pour la variable expliquer. Ces deux vecteurs appartiennent
au mme espace Rn : lespace des variables.
Si on ajoute cela le vecteur 1 = [1, . . . , 1] , on voit tout dabord que par lhypothse selon laquelle
tous les xi ne sont pas gaux, les vecteurs 1 et X ne sont pas colinaires : ils engendrent donc un
sous-espace de Rn de dimension 2, not M(X). On peut projeter orthogonalement le vecteur Y
sur le sous-espace M(X), notons provisoirement Y ce projet. Puisque (1, X) forme une base de
M(X), il existe une unique dcomposition de la forme Y = 1 1 + 2 X. Par dfinition du projet
orthogonal, Y est lunique vecteur de M(X) minimisant la distance euclidienne kY Y k, ce qui
revient au mme que de minimiser son carr. Or, par dfinition de la norme euclidienne, cette
quantit vaut :
Xn
kY Y k2 = (yi (1 + 2 xi ))2 ,
i=1
ce qui nous ramne la mthode des moindres carrs ordinaires. On en dduit que 1 = 1 , 2 = 2
y1 , . . . , yn ] , avec les expressions de 1 , 2 et Y vues prcdemment.
et Y = Y = [
2 X X
1 1 Y
y1
M(X) 1
Figure 1.3 Reprsentation de la projection dans lespace des variables.
Autrement dit, dans Rn , 1 et 2 sinterprtent comme les coordonnes de la projection orthogo-

nale Y de Y sur le sous-espace de Rn engendr par 1 et X (voir figure 1.3).
Remarques :
1. Cette vision gomtrique des choses peut sembler un peu abstraite, mais cest en fait lap-
proche fconde pour comprendre la rgression multiple, comme nous le verrons dans les
chapitres suivants.
2. Nous avons suppos que 1 et X ne sont pas colinaires. En gnral, ces vecteurs ne sont pas
orthogonaux (sauf si x = 0), ce qui implique que 1 1 nest pas la projection orthogonale
de Y sur 1 (laquelle vaut y1), et que 2 X nest pas la projection orthogonale de Y sur X
(laquelle vaut hY,Xi
kXk2
X).

1.3.2 Le coefficient de dtermination R2

Nous conservons les notations du paragraphe prcdent, avec Y = [
y1 , . . . , yn ] la projection ortho-
gonale du vecteur Y sur M(X) et
= Y Y = [
1 , . . . , n ]
le vecteur des rsidus dj rencontrs en section 1.2.3. Le thorme de Pythagore donne alors
directement :
kY y1k2 = kY y1k2 + kk2

n
X n
X Xn
2 2
(yi y) = yi y) +
( 2i
i=1 i=1 i=1
SCT = SCE + SCR,
o SCT (respectivement SCE et SCR) reprsente la somme des carrs totale (respectivement
explique par le modle et rsiduelle). Ceci peut se voir comme une formule typique de dcom-
position de la variance. Elle permet en outre dintroduire le coefficient de dtermination de faon
naturelle.
Dfinition 1.3 (Coefficient de dtermination R2 )

Le coefficient de dtermination R2 est dfini par :
SCE kY y1k2 k2
k SCR
R2 = = = 1 =1 .
SCT kY y1k 2 kY y1k2 SCT
On voit sur la figure 1.3 que R2 correspond au cosinus carr de langle . De faon schmatique,
on peut diffrencier les cas suivants :
Si R2 = 1, le modle explique tout, langle vaut zro et Y est dans M(X), cest--dire que
yi = 1 + 2 xi pour tout i : les points de lchantillon sont parfaitement aligns sur la droite des
moindres carrs ; P
Si R2 = 0, cela veut dire que ( yi y)2 = 0, donc yi = y pour tout i. Le modle de rgression
linaire est inadapt puisquon ne modlise rien de mieux que la moyenne ;
Si R2 est proche de zro, cela veut dire que Y est quasiment dans lorthogonal de M(X), le
modle de rgression linaire est inadapt, la variable x nexplique pas bien la variable rponse
y (du moins pas de faon affine).
De faon gnrale, linterprtation est la suivante : le modle de rgression linaire permet dexpli-
quer 100 R2 % de la variance totale des donnes.
Remarques :
1. On peut aussi voir R2 comme le carr du coefficient de corrlation empirique entre les xi et
les yi (cf. exercice 1.2) :
Pn !2
(xi x
)(yi y)
R2 = pPn i=1 pPn = 2X,Y .
)2
i=1 (xi x )2
i=1 (yi y
2. Sur la figure 1.3 est not un angle droit entre les vecteurs 1 et Y y1. On vrifie en effet
facilement que ces deux vecteurs sont orthogonaux puisque y1 nest rien dautre que le projet
orthogonal de Y sur (la droite vectorielle engendre par) le vecteur 1 (exercice).

1.4. Cas derreurs gaussiennes 11
1.4 Cas derreurs gaussiennes

Mieux que les expressions des estimateurs et celles de leurs variances, on aimerait connatre leurs
lois : ceci permettrait par exemple dobtenir des rgions de confiance et deffectuer des tests dhy-
pothses. Dans cette optique, il faut bien entendu faire une hypothse plus forte sur notre modle,
savoir prciser la loi des erreurs. Nous supposerons ici que les erreurs sont gaussiennes. Les
hypothses (H1 ) et (H2 ) deviennent ds lors :

(H1 ) : i N (0, 2 )
(H)
(H2 ) : i mutuellement indpendants
Le modle de rgression simple devient un modle paramtrique, o les paramtres (1 , 2 , 2 )
sont valeurs dans R R R+ . La loi des i tant connue, les lois des yi sen dduisent :
i {1, . . . , n} yi N (1 + 2 xi , 2 ),
et les yi sont mutuellement indpendants puisque les i le sont. Nous pouvons donc calculer la
vraisemblance de lchantillon et les estimateurs qui maximisent cette vraisemblance. Cest lobjet
de la section suivante.
1.4.1 Estimateurs du maximum de vraisemblance

La vraisemblance vaut
n n
" #
1 1 X
L(1 , 2 , 2 ) = exp 2 (yi 1 2 xi )2
2 2 2
i=1
n
1 1
= exp 2 S(1 , 2 )
2 2 2
Ce qui donne pour la log-vraisemblance :
n 1
log L(1 , 2 , 2 ) = log (2 2 ) 2 S(1 , 2 ).
2 2
Nous voulons maximiser cette quantit par rapport aux trois variables (1 , 2 , 2 ). Les deux pre-
mires variables napparaissent que dans le terme en S(1 , 2 ), quil faut donc minimiser. Or on
a dj vu que cette quantit est minimale lorsquon considre les estimateurs des moindres carrs,
cest--dire pour 1 = 1 et 2 = 2 . Bilan : les estimateurs du maximum de vraisemblance de 1
et 2 sont gaux aux estimateurs des moindres carrs.
Ceci tant vu, il reste simplement maximiser log L(1 , 2 , 2 ) par rapport 2 . Calculons donc
la drive par rapport 2 :
n
X
log L(1 , 2 , 2 ) n 1 1 , 2 ) = n + 1
= + S( (yi 1 2 xi )2
2 2 2 2 4 2 2 2 4
i=1
Do lon dduit que lestimateur du maximum de vraisemblance de 2 est diffrent de lestimateur

2 vu prcdemment et vaut :
n
2 1X 2

mv = i .
n
i=1
Lestimateur du maximum de vraisemblance de 2 est donc biais. On a en effet E[ 2 ]=

mv n2 2
n ,
mais ce biais est dautant plus ngligeable que le nombre dobservations est grand.
Avant de passer aux lois des estimateurs et aux intervalles de confiance qui sen dduisent, faisons
quelques rappels sur les lois usuelles dans ce contexte.

1.4.2 Rappels sur les lois usuelles

Outre la sacro-sainte gaussienne, trois lois seront dusage constant dans la suite : la loi du 2 , la
loi de Student et la loi de Fisher.
Figure 1.4 Densit dun 250 (trait gras) et densit dune N (50, 100) (trait fin).
Dfinition 1.4 (Loi du 2 )

Soit X1 , . . . , XP
n des variables alatoires i.i.d. suivant une loi normale centre rduite. La loi de la
variable X = ni=1 Xi2 est appele loi du 2 n degrs de libert (ddl), not X 2n .
On a E[X] = n et Var(X) = 2n. Lorsque n est grand, on sait par le Thorme Central Limite que
X suit approximativement une loi normale de moyenne n et de variance 2n : X 2n). Ainsi,
N (n,
pour n grand, environ 95% des valeurs de X se situent dans lintervalle [n 2 2n, n + 2 2n]. Ceci
est illustr figure 3.1 pour n = 50 ddl.
Dfinition 1.5 (Loi de Student)

Soit Z une variable alatoire suivant une loi normale centre rduite et X une variable suivant une
loi du 2 n degrs de libert, avec Z et X indpendantes. La loi de la variable T = Z est
X/n
appele loi de Student n degrs de libert et on note T Tn .
Figure 1.5 Densit dune T10 (trait gras) et densit dune N (0, 1) (trait fin).
Lorsque n = 1, T suit une loi de Cauchy et na donc pas desprance (ni, a fortiori, de variance).
n
Pour n = 2, T est centre mais de variance infinie. Pour n 3, T est centre et de variance n2 .

Dautre part, lorsque n devient grand, on sait par la Loi des Grands Nombres que le dnominateur
tend presque srement vers 1. De fait, on peut montrer que pour n grand, T tend en loi vers
une gaussienne centre rduite : T N (0, 1). Ceci est illustr figure 1.5 pour n = 10 ddl. Par
consquent, lorsque n sera grand, on pourra remplacer les quantiles dune loi de Student Tn par
ceux dune loi N (0, 1) (cf. tables en Annexe C.3).
Dfinition 1.6 (Loi de Fisher)

Soit U1 une variable alatoire suivant une loi du 2 n1 degrs de libert et U2 une variable
alatoire suivant une loi du 2 n2 degrs de libert, avec U1 et U2 indpendantes. La loi de la
variable F = U 1 /n1 n1
U2 /n2 est appele loi de Fisher (n1 , n2 ) degrs de libert et on note F Fn2 .
Pour n2 > 2, la variance dune loi de Fisher Fnn21 est n2 /(n2 2). Dans la suite, typiquement, n2
sera grand, de sorte qu nouveau la Loi des Grands Nombres implique que U2 /n2 tend vers 1.
Dans ce cas, F peut se voir comme un chi-deux normalis par son degr de libert : F 2n1 /n1 .
Ceci est illustr figure 1.6 pour n1 = 2 et n2 = 10.
2 (trait gras) et densit dun 22

Figure 1.6 Densit dune F10 2 (trait fin).
1.4.3 Lois des estimateurs et rgions de confiance

Nous allons maintenant voir comment les lois prcdentes interviennent dans nos estimateurs. Afin
de faciliter la lecture de cette partie, fixons les notations suivantes :
2 x
1 X 2
c = P 2 =
i
(xi x)2 n2
P 2 P 2
xi xi
12 = 2 P 2
1 = 2 P
n (xi x )2 n (xi x )2
2
2
22 = P 22 = P
.
(xi x)2 )2
(xi x
Comme nous lavons vu, 12 , 22 et c sont les variances et covariance des estimateurs des moindres
12 et
carrs ordinaires. les quantits 22 correspondent quant elles aux estimateurs des variances

de 1 et 2 .
Proprits 1.1 (Lois des estimateurs avec variance connue)

Les lois des estimateurs des MCO avec variance 2 connue sont :


1 1
(i) = 2
N , V o = et
2 2
P
1 x2i /n
x 1 12 c
V =P = 2 .
)2
(xi x
x 1 c 22
(n 2) 2
(ii) 2n2 , loi du 2 (n 2) degrs de libert.

2
(iii) et
2 sont indpendants.
Remarque. Ces proprits, comme celles venir, ne sont pas plus faciles montrer dans le cadre
de la rgression linaire simple que dans celui de la rgression linaire multiple. Cest pourquoi
nous reportons les preuves au Chapitre 3.
Le problme des proprits ci-dessus vient de ce quelles font intervenir la variance thorique 2 ,
gnralement inconnue. La faon naturelle de procder est de la remplacer par son estimateur 2.
Les lois intervenant dans les estimateurs sen trouvent de fait lgrement modifies.
Proprits 1.2 (Lois des estimateurs avec variance estime)

Les lois des estimateurs des MCO avec variance 2 estime sont :
1 1
(i) Tn2 , o Tn2 est une loi de Student (n 2) degrs de libert.

1
2 2
(ii) Tn2 .

2
1
(iii) ( ) V 1 ( ) Fn2
2
, loi de Fisher de paramtres (2, n 2).
22
Ces dernires proprits nous permettent de donner des intervalles de confiance (IC) ou des r-
gions de confiance (RC) des estimateurs. En effet, la valeur ponctuelle dun estimateur est de peu
dintrt en gnral et il est intressant de lui associer un intervalle de confiance. Les rsultats sont
donns pour un gnral, en pratique on prend typiquement = 0, 05.
4
2

0
2
2
4
4 2 0 2 4
1
Figure 1.7 Comparaison entre ellipse de confiance et rectangle de confiance.

Proprits 1.3 (Intervalles et rgions de confiance)

(i) IC(1 ) : 1 tn2 (1 /2)1 , o tn2 (1 /2) est le quantile de niveau (1 /2) dune
loi de Student Tn2 .
(ii) IC(2 ) : 2 tn2 (1 /2)
2 .
(iii) RC() : Une rgion de confiance simultane pour 1 et 2 au niveau (1 ) est
1 2 1 1 )(2 2 ) +
X
2 2

2
n(1 1 ) + 2n
x ( x i (2 2 ) fn2 (1 ),
2
2
2 (1 ) est le quantile de niveau (1 ) dune loi F 2 .
o fn2 n2
(iv) Un intervalle de confiance de 2 est donn par :

(n 2)2 2
(n 2)
, ,
cn2 (1 /2) cn2 (/2)
o cn2 (1 /2) est le quantile de niveau (1 /2) dune loi 2n2 .
Remarque : Le point (iii) donne la rgion de confiance simultane des paramtres (1 , 2 ) de la

rgression, appele ellipse de confiance, tandis que (i) et (ii) donnent des intervalles de confiance
pour 1 et 2 pris sparment. La figure 1.7 montre la diffrence entre ces deux notions.
1.4.4 Prvision
En matire de prvision dans le cas derreurs gaussiennes, les rsultats obtenus en section 1.2.4
pour lesprance et la variance sont toujours valables. De plus, puisque yn+1 est linaire en 1 , 2
et n+1 , on peut prciser sa loi :

2 1 (xn+1 x )2
yn+1 yn+1 N 0, 1 + + P .
n )2
(xi x
A nouveau on ne connat pas 2 et on lestime donc par

2 . Comme (yn+1 yn+1 ) et
2 (n 2)/ 2
sont indpendants, on peut noncer un rsultat donnant des intervalles de confiance pour yn+1 .
Proposition 1.3 (Loi et intervalle de confiance pour la prdiction)
Avec les notations et hypothses prcdentes, on a :
yn+1 yn+1
q Tn2 ,
1 (x
Pn+1 x)2

1+ n + x)2
(xi
do lon dduit lintervalle de confiance suivant pour yn+1 :

" s #
1 (xn+1 x )2
1+ + P
yn+1 tn2 (1 /2) .
n )2
(xi x
Nous retrouvons ainsi la remarque dj faite : plus le point prvoir admet pour abscisse xn+1
une valeur loigne de x
, plus lintervalle de confiance sera grand.
Plus prcisment, la courbe dcrite pas les limites de ces intervalles de confiance lorsque xn+1
et y = 1 + 2 x. Pour sen persuader, il suffit deffectuer le
varie est une hyperbole daxes x = x
changement de variables
X =xx
Y = y (1 + 2 x)

do il ressort quun point (X, Y ) est dans la rgion de confiance ci-dessus si et seulement si
X2 Y 2
2 1,
a2 b
avec
a = 1 + n1 (tn2 (1 /2)
)2
1
P
b= 1+ n )2
(xi x
ce qui dfinit bien lintrieur dune hyperbole. En particulier, le centre de cette hyperbole est tout
bonnement le centre de gravit du nuage de points.
1.5 Exemple
Nous allons traiter les 50 donnes journalires prsentes en Annexe D. La variable expliquer
est la concentration en ozone, note O3, et la variable explicative est la temprature midi, note
T12. Les donnes sont traites avec le logiciel R.
> a <- lm(O3 T12)

> summary(a)
Call:
lm(formula = O3 T12)
Residuals:
Min 1Q Median 3Q Max
-45.256 -15.326 -3.461 17.634 40.072
Coefficients :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31.4150 13.0584 2.406 0.0200 *
T12 2.7010 0.6266 4.311 8.04e-05 ***
-
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 20.5 on 48 degrees of freedom
Multiple R-Squared: 0.2791, Adjusted R-squared: 0.2641
F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-05
Les sorties du logiciel donnent les valeurs estimes 1 et 2 des paramtres, leurs cart-types
1 et
2 , les statistiques de tests sous lhypothse H0 : i = 0. Nous rejetons H0 pour les deux
paramtres estims.
1.6 Exercices
Exercice 1.1 (QCM)
1. Lors dune rgression simple, si le R2 vaut 1, les points sont-ils aligns ?
A. Non ;
B. Oui ;
C. Pas obligatoirement.
2. La droite des MCO dune rgression simple passe-t-elle par le point (
x, y) ?

1.6. Exercices 17
A. Toujours ;
B. Jamais ;
C. Parfois.
3. Nous avons effectu une rgression simple, nous recevons une nouvelle observation xN et
nous calculons la prvision correspondante yN . La variance de la valeur prvue est minimale
lorsque
A. xN = 0 ;
B. xN = x;
C. Aucun rapport.
4. Le vecteur Y est-il orthogonal au vecteur des rsidus estims ?
A. Toujours ;
B. Jamais ;
C. Parfois.
Exercice 1.2 (R2 et corrlation empirique)

Rappeler la formule dfinissant le coefficient de dtermination R2 et la dvelopper pour montrer
quil est gal au carr du coefficient de corrlation empirique entre x et y, not x,y , cest--dire
quon a :
Pn !2
2 2 i=1 (xi x)(yi y)
R = x,y = pPn pPn
2 )2
i=1 (x i x
) i=1 (yi y
Exercice 1.3 (Poids des pres et des fils)

Ltude statistique ci-dessous porte sur les poids respectifs des pres et de leur fil an.
Pre 65 63 67 64 68 62 70 66 68 67 69 71
Fils 68 66 68 65 69 66 68 65 71 67 68 70
Voici les rsultats numriques que nous avons obtenus :

12
X 12
X 12
X 12
X 12
X
pi = 800 p2i = 53418 pi fi = 54107 fi = 811 fi2 = 54849.
i=1 i=1 i=1 i=1 i=1
1. Calculez la droite des moindres carrs du poids des fils en fonction du poids des pres.
2. Calculez la droite des moindres carrs du poids des pres en fonction du poids des fils.
3. Montrer que le produit des pentes des deux droites est gal au carr du coefficient de corr-
lation empirique entre les pi et les fi (ou encore au coefficient de dtermination).
Exercice 1.4 (Hauteur dun arbre)

Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction
de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (dia-
mtre,hauteur) et effectu les calculs suivants : x
= 4.53, y = 8.65 et
20 20 20
1 X 1 X 1 X
)2 = 10.97
(xi x (yi y)2 = 2.24 (xi x
)(yi y) = 3.77
20 20 20
i=1 i=1 i=1
1. On note y = 0 + 1 x la droite de rgression. Calculer 0 et 1 .

2. Donner et commenter une mesure de la qualit de lajustement des donnes au modle.

Exprimer cette mesure en fonction des statistiques lmentaires. Commenter le rsultat.
3. On donne les estimations de lcart-type de 0 ,
0 = 1.62, et de 1 ,
1 = 0.05. On sup-
pose les perturbations i gaussiennes, centres, de mme variance et indpendantes. Tester
H0 : j = 0 contre H1 : j 6= 0 pour j = 0, 1. Pourquoi ce test est-il intressant dans notre
contexte ? Que pensez-vous du rsultat ?
Exercice 1.5 (Droite de rgression et points atypiques)

Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent
une preuve A note sur 20. A la fin de la formation, elles subissent une preuve B de niveau
identique. Les rsultats sont donns dans le tableau suivant :
Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4
Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19
1. Reprsenter le nuage de points. Dterminer la droite de rgression. Calculer le coefficient de

dtermination. Commenter.
2. Deux stagiaires semblent se distinguer des autres. Les supprimer et dterminer la droite de
rgression sur les dix points restants. Calculer le coefficient de dtermination. Commenter.
Exercice 1.6 (La hauteur des eucalyptus)

On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x
(en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant
reprsent figure 1.8. On a obtenu (
x, y) = (47, 3; 21, 2) et :
n
X n
X n
X
2
(xi x
) = 102924 (yi y)2 = 8857 (xi x
)(yi y) = 26466
i=1 i=1 i=1
28
hauteur
26
24
22
20
18
16
14
12
Circonfrence
10
20 30 40 50 60 70 80
Figure 1.8 Nuage de points pour les eucalyptus.
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur

la figure 1.8.

1.6. Exercices 19
2. Calculer le coefficient de dtermination R2 . Commenter la qualit de lajustement des donnes

au modle.
P
3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors ni=1 (yi yi )2 = 2052. Si
on suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance
2 , en dduire un estimateur non biais 2 de 2 .
4. Donner un estimateur 2 de la variance de 1 .
1
5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 6= 0.
Exercice 1.7 (Forrest Gump for ever)

On appelle frquence seuil dun sportif amateur sa frquence cardiaque obtenue aprs trois quarts
dheure dun effort soutenu de course pied. Celle-ci est mesure laide dun cardio-frquence-
mtre. On cherche savoir si lge dun sportif a une influence sur sa frquence seuil. On dispose
pour cela de 20 valeurs du couple (xi , yi ), o xi est lge et yi la frquence seuil du sportif. On a
obtenu (
x, y) = (35, 6; 170, 2) et :
n
X n
X n
X
)2 = 1991
(xi x (yi y)2 = 189, 2 (xi x
)(yi y) = 195, 4
i=1 i=1 i=1
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + .

au modle.
Pn
3. Avec ces estimateurs, la somme des carrs des rsidus vaut i )2 = 170. Si on
i=1 (yi y
suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance 2 ,
en dduire un estimateur non biais 2 de 2 .
2
5. Tester lhypothse H0 : 2 = 0 contre H1 : 2 6= 0 pour un risque de 5%. Conclure sur la
question de linfluence de lge sur la frquence seuil.
Exercice 1.8 (Comparaison destimateurs)

Nous considrons le modle statistique suivant :
yi = xi + i , i = 1, , n,
o nous supposons que les perturbations i sont telles que E[i ] = 0 et Cov(i , i ) = 2 i,j .
1. En revenant la dfinition des moindres carrs, montrer que lestimateur des moindres carrs
de vaut
Pn
xi y i
= Pi=1n 2 .
i=1 xi
2. Montrer que la droite passant par lorigine et le centre de gravit du nuage de points est
y = x, avec
Pn
yi
= Pni=1 .
i=1 xi
3. Montrer que et sont tous deux des estimateurs sans biais de .

4. On rappelle lingalit de Cauchy-Schwarz : si u = [u1 , . . . , un ] et v = [v1 , . . . , vn ] sont deux

vecteurs de Rn , alors leur produit scalaire est (en valeur absolue) plus petit que le produit
de leurs normes, cest--dire :
v v
Xn u u X n u n
uX
t
|hu, vi| kuk kvk u i vi ui t
2 vi2 ,

i=1 i=1 i=1
avec galit si et seulement si u et v sont colinaires. Grce cette ingalit, montrer que
sauf dans le cas o tous les xi sont gaux. Ce rsultat tait-il prvisible ?
V ( ) > V ()
Exercice 1.9 (Intervalles de confiance vs Rgion de confiance)

On considre le modle de rgression linaire simple y = 1 + 2 x + . Soit un chantillon
(xi , yi )1i100 de statistiques rsumes
100
X 100
X 100
X 100
X
xi = 0 x2i = 400 xi yi = 100 yi = 100 2 = 1.

i=1 i=1 i=1 i=1
1. Exprimer les intervalles de confiance 95% pour 1 et 2 .

2. Donner lquation de la rgion de confiance 95% de (1 , 2 ). (Rappel : lensemble des
2 2
points (x, y) tels que (xx
a2
0)
+ (yy
b2
0)
1 est lintrieur dune ellipse centre en (x0 , y0 ),
dont les axes sont parallles ceux des abscisses et des ordonnes, et de sommets (x0 a, 0)
et (0, y0 b).)
3. Reprsenter sur un mme graphique les rsultats obtenus.
Exercice 1.10 (Rgression simple)

On dispose de n points (xi , yi )1in et on sait quil existe une relation de la forme : yi = axi +b+i ,
o les erreurs i sont des variables centres, dcorrles et de mme variance 2 .
1. Rappeler les formules des estimateurs des moindres carrs a et b, ainsi que leurs variances
respectives.
2. Dans cette question, on suppose connatre b, mais pas a.
(a) En revenant la dfinition des moindres carrs, calculer lestimateur a
des moindres
carrs de a.
(b) Calculer la variance de a
. Montrer quelle est infrieure celle de a
.
3. Dans cette question, on suppose connatre a, mais pas b.
(a) En revenant la dfinition des moindres carrs, calculer lestimateur b des moindres
carrs de b.
(b) Calculer la variance de b. Montrer quelle est infrieure celle de b.
Exercice 1.11 (Forces de frottement et vitesse)

Au 17me sicle, Huygens sest intress aux forces de rsistance dun objet en mouvement dans un
fluide (eau, air, etc.). Il a dabord mis lhypothse selon laquelle les forces de frottement taient
proportionnelles la vitesse de lobjet, puis, aprs exprimentation, selon laquelle elles taient
proportionnelles au carr de la vitesse. On ralise une exprience dans laquelle on fait varier la
vitesse x dun objet et on mesure les forces de frottement y. Ensuite, on teste la relation existant
entre ces forces de frottement et la vitesse.
1. Quel(s) modle(s) testeriez-vous ?

1.6. Exercices 21
2. Comment feriez-vous pour dterminer le modle adapt ?
Exercice 1.12 (Prix dun appartement en fonction de sa superficie)

En juin 2005, on a relev dans les petites annonces les superficies (en m2 ) et les prix (en euros) de
108 appartements de type T3 louer sur lagglomration de Rennes (cf. figure 1.9).
1000
800
prix
600
400
50 60 70 80 90 100 110 120
superficie
Figure 1.9 Prix de location des appartements en fonction de leur superficie.
1. Daprs le listing du tableau 1.2, donner une estimation du coefficient de corrlation entre le
prix et la superficie dun appartement T3.
2. Proposer un modle permettant dtudier la relation entre le prix des appartements et leur
superficie. Prciser les hypothses de ce modle.
Coefficients:
(Intercept) 134.3450 45.4737 2.954 0.00386
Superficie 6.6570 0.6525 10.203 < 2e-16

F-statistic: 104.1 on 1 and 106 DF, p-value: < 2.2e-16
Table 1.2 Prix en fonction de la superficie : rsultats de la rgression linaire simple (sortie R).
3. Daprs le tableau 1.2, est-ce que la superficie joue un rle sur le prix des appartements de
type 3 ? Considrez-vous ce rle comme important ?
4. Quelle est lestimation du coefficient (coefficient de la superficie dans le modle) ? Comment
interprtez-vous ce coefficient ?
5. La superficie moyenne des 108 appartements est de 68.74 m2 et le prix moyen des apparte-
ments est de 591.95 euros. Quel est le prix moyen dun mtre carr ? Pourquoi ce prix moyen
est diffrent de lestimation de ?

6. Dans lchantillon dont on dispose, comment savoir quels sont les appartements bon march
du seul point de vue de la surface ?
Exercice 1.13 (Total Least Squares (TLS))

Nous avons un nuage de points observs (xi , yi ) pour i = 1, , n, et nous cherchons un couple
x, y) vrifiant la relation linaire suivante
(
y =
x,
p
tel que la norme matricielle k[x, y] [
x, y]kF soit minimale (rappel : kAkF = Tr(AA )).
1. Que reprsente la norme matricielle k[x, y] [
x, y]kF dun point de vue gomtrique ?
2. Supposons pour simplifier que x = y = 0, cest--dire que le centre de gravit du nuage de
points est en lorigine du repre. Quel rapport voyez-vous entre TLS et ACP ?
1.7 Corrigs
Exercice 1.1 (QCM)
Cest le B.A.-BA.
Exercice 1.2 (R2 et corrlation empirique)

Le coefficient R2 scrit
Pn 2 xi y
2 Pn 2 x 2 xi y
2
kY y1k
2 i=1 1 + i=1 y
+
R2 = = Pn = Pn
kY y1k2 i=1 (y i y
) 2 )2
i=1 (yi y
P P P
22 ni=1 (xi x ) 2 [ ni=1 (xi x )(yi y)]2 ni=1 (xi x )2
= Pn = P P
)2
i=1 (yi y [ ni=1 (xi x )2 ]2 ni=1 (yi y)2
P
[ ni=1 (xi x)(yi y)]2
= Pn P = 2x,y ,
i=1 (xi x)2 ni=1 (yi y)2
et la messe est dite.
Exercice 1.3 (Poids des pres et des fils)

1. La droite des moindres carrs du poids des fils en fonction du poids des pres scrit (cf.
figure 1.10 gauche) : f =
1 +
2 p = 35.8 + 0.48p.
2. La droite des moindres carrs du poids des fils en fonction du poids des pres scrit (cf.
figure 1.10 droite) : p = 1 + 2 f = 3.38 + 1.03f .
3. Le produit des pentes des deux droites est
P
(f i )(pi p) 2
f
2 2 = P
2
Pn
2
= R2 ,
(fi f ) ( i=1 (pi p) )
o R2 est le coefficient de dtermination, carr du coefficient de corrlation linaire.

1.7. Corrigs 23
Figure 1.10 Nuages de points et droites de rgression pour les poids des pres et des fils.
Exercice 1.4 (Hauteur dun arbre)

Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction
de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (dia-
mtre,hauteur) et effectu les calculs suivants : x
= 4.53, y = 8.65 et
20 20 20
1 X 1 X 1 X
)2 = 10.97
(xi x (yi y)2 = 2.24 (xi x
)(yi y) = 3.77
20 20 20
i=1 i=1 i=1
1. Les estimateurs de la droite des moindres carrs y = 0 + 1 x sont respectivement :

P
(xi x)(yi y)
1 = P 0.344
)2
(xi x
et
0 = y 1 x
7.09
2. Une mesure de la qualit de lajustement des donnes au modle est donne par le coefficient
de dtermination R2 , dont on a vu quil correspond au carr du coefficient de corrlation
linaire empirique :
Pn !2
(x i x
)(y i y
)
R2 = pPn i=1 pPn 0.58.
)2
i=1 (xi x )2
i=1 (yi y
Le modle de rgression linaire simple explique donc un peu plus de la moiti de la variance
prsente dans les donnes.
3. Sous H0 , on sait que
0
T18 ,

0
loi de Student 18 degrs de libert. Pour un niveau de confiance de 95%, on compare donc
la valeur absolue obtenue dans notre cas particulier, savoir |0 /
0 | 4.38 au quantile
t18 (0.975) 2.1. On en dduit quon rejette lhypothse selon laquelle 0 serait nul. De
mme pour le test dhypothse sur 1 , ce qui donne la statistique de test :

1
6.88 > 2.1
1
donc on rejette galement lhypothse selon laquelle 1 serait nul.

A priori, un arbre de diamtre nul a une hauteur gale zro, donc on aurait pu sattendre
ce que le coefficient 0 soit nul. Ceci est en contradiction avec le rsultat du test dhypothse
ci-dessus, mais il ny a rien dtonnant a : le modle de rgression propos est pertinent
dans lintervalle considr,
cest--dire pour des arbres de hauteur moyenne 8.65 pieds, avec
un cart-type gal 2.24 1.5, non pour des arbres tout petits.
Exercice 1.5 (Droite de rgression et points aberrants)

Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent
une preuve A note sur 20. A la fin de la formation, elles subissent une preuve B de niveau
identique. Les rsultats sont donns dans le tableau suivant :
Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4
Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19
1. Pour lexplication de la note B partir de la note A, la droite de rgression (cf. figure 1.11
gauche) est donne par y = 1 + 2 x, o :
Pn
(x x)(yi y)

2 = i=1 Pn i 0.11
i=1 i x
(x )2
et 1 = y 2 x
12.0 Le coefficient de dtermination vaut :
P
( n (xi x )(yi y))2
R2 = Pn i=1 P 0, 01
( i=1 (xi x)2 ) ( ni=1 (yi y)2 )
Le modle de rgression linaire expliquerait donc 1% de la variance des donnes, ce qui est
trs faible.
2. Si on supprime les deux derniers stagiaires, on obtient cette fois (cf. figure 1.11 droite)
y = 1 + 2 x = 5.47 + 0.90x et R2 0.81. Sans ces deux stagiaires, le modle de r-
gression linaire expliquerait donc 81% de la variance des donnes, ce qui le rend tout fait
pertinent. Les deux derniers stagiaires correspondent ce quon appelle des points aberrants.
Figure 1.11 Droites de rgression et points aberrants.

Cet exercice est corrig en annexe (dcembre 2009).

1.7. Corrigs 25
Exercice 1.7 (Forrest Gump for ever)

1. La mthode des moindres carrs ordinaires donne pour estimateur de 2 :
Pn
(x x )(yi y)
Pn i
2 = i=1 0, 098.
)2
i=1 (xi x
Et pour estimateur de 1 :
1 = y 2 x
173.7.
2. Le coefficient de dtermination R2 est gal au carr du coefficient de corrlation linaire entre

les variables x et y, ce qui donne :
Pn
2 (xi x
( )(yi y))2
R = Pn i=1 P 0, 101.
)2 ) ( ni=1 (yi y)2 )
( i=1 (xi x
On en conclut que 10% de la variance des frquences seuils yi est explique par lge. Ce
modle de rgression linaire simple ne semble donc pas efficace.
2 de 2 est tout simplement :
3. Un estimateur non biais
Pn Pn
2 i=1 (yi yi )2 (yi yi )2

= = i=1 9.44.
n2 18
22 de la variance de 2 est alors donn par :

4. Un estimateur
2

22 = Pn
0, 0047.
)2
i=1 (xi x
5. On sait que lestimateur centr et normalis de 2 suit une loi de Student (n 2) = 18

degrs de libert :
2 2
T18 ,

2

donc sous lhypothse H0 : 2 = 0, ceci se simplifie en 22 T18 , et cette statistique de test
donne ici :
0, 098
t = T () 1.43 > 2.101 = t18 (0.025).
0, 0047
Ainsi on accepte lhypothse H0 selon laquelle la pente de la droite de rgression est nulle.
Ceci signifie quau vu des donnes dont nous disposons, on serait tent de considrer que
lge na pas dinfluence sur la frquence seuil. Vu la valeur du coefficient de dtermination,
il faut toutefois tenir compte du fait que le modle nexplique pas grand-chose...
Exercice 1.8 (Comparaison destimateurs)

Nous considrons le modle statistique
yi = xi + i , i = 1, , n,
o nous supposons que les perturbations i sont telles que E[i ] = 0 et Cov(i , i ) = 2 i,j .
1. Par dfinition, lestimateur des moindres carrs de vrifie
n
X
= arg min (yi xi )2 = arg min S().

i=1

Cette fonction S est strictement convexe et admet donc un unique minimum au point o sa
drive sannule :
n n n
!
X X X
2
S () = 2 xi (yi xi ) = 2 xi xi y i .
i=1 i=1 i=1
Ceci mne bien :

Pn
xi y i
= Pi=1
n 2 .
i=1 xi
2. La droite passant par lorigine et le centre de gravit (

x, y) du nuage de points admet pour

quation y = x, o
Pn
y yi
= = Pni=1 .
x i=1 xi
3. Commencons par rcrire les estimateurs obtenus grce la relation yi = xi + i . Pour le

premier, ceci donne :
Pn
xi i
= + Pi=1n 2 ,
i=1 xi
et pour le second :
Pn
i
= + ni=1 .
P
x
i=1 i
Puisque par hypothse les erreurs sont centres (i.e. E[i ] = 0), il en dcoule que E[]
=
E[ ] = , cest--dire que les deux estimateurs sont sans biais.
4. On rutilise les expressions prcdentes des estimateurs pour cette question. Puisque les
erreurs sont dcorrles, la variance de vaut
Pn
x2i 2 2
V () = Pi=1 = P n 2.
n 2 2
i=1 xi i=1 xi
La variance de vaut quant elle
n 2
V ( ) = Pn .
( i=1 xi )2
Lingalit de Cauchy-Schwarz dit que la valeur absolue du produit scalaire de deux vecteurs
est infrieure ou gale au produit de leurs normes, cest--dire : pour tous vecteurs u =
[u1 , . . . , un ] et v = [v1 , . . . , vn ] de Rn , |hu, vi| kuk kvk, ou encore en passant aux carrs :
n
!2 n
! n !
X X X
2 2
ui vi ui vi ,
i=1 i=1 i=1
avec galit si et seulement si u et v sont colinaires. En prenant u = [x1 , . . . , xn ] et

avec galit si et seulement si u et v sont
v = [1, . . . , 1] , on en dduit que V ( ) V (),
colinaires, cest--dire si et seulement si tous les xi sont gaux. Puisque les deux estimateurs
sont linaires en y et que est celui des moindres carrs, ce rsultat nest pas tonnant si
lon repense au thorme de Gauss-Markov.

1.7. Corrigs 27
Exercice 1.9 (Intervalles de confiance vs Rgion de confiance) P P

1. Il sort des statistiques rsumes que 1 = y 2 x = 1 et 2 = ( xi yi )/( x2i ) = 1/4. La
droite des moindres carrs a donc pour quation y = 1 + x/4. Les estimateurs des variances
se calculent facilement
P 2
2 2
xi 2
1 1

1 = P = = 1 =
(xi x)2 n n 100 10
tandis que
2
1 1
22 = P
2
=
2 = .
(xi x) 400 20
Le quantile dordre 0.975 dune Student 98 degrs de libert est peu prs le mme que
celui dune Student 100 degrs de libert, cest--dire environ 1.984 que lon va arrondir
2. Lintervalle de confiance 95% pour 1 est donc
IC(1 ) = [1 2
1 , 1 + 2
1 ] = [0.8; 1.2]
et pour 2
IC(2 ) = [2 2
2 , 2 + 2
2 ] = [0.15; 1.35]
Figure 1.12 Intervalles de confiance vs Rgion de confiance.
2. Avec les notations du cours, la rgion de confiance simultane 95% est lensemble des points
(1 , 2 ) tels que
1 1 )2 + 2n 1 )(2 2 ) +
X
2

2 )2 f 2 (0.95).
n(1 x (1 x i (2 n2
22
Le quantile dordre 0.95 dune loi de Fisher (2,100) degrs de libert tant gal 3.09, nous
arrondirons nouveau et prendrons f98 2 (0.95) 3, de sorte que nous obtenons comme rgion
de confiance lensemble des points (1 , 2 ) tels que

1 (1 1)2 (2 1/4)2
100(1 1)2 + 400(2 1/4)2 3 2 + 2 1.
2 6 6
10 20
La rgion de
confiance est donc lintrieur
dune ellipse de centre (1 , 2 ) = (1, 1/4) et de
sommets (1 6/10, 0) et (0, 1/4 6/20), cest--dire (1.24, 0), (0, 0.37), (0.76, 0), (0, 0.13).

3. Les rsultats obtenus sont reprsents figure 1.12.
Exercice 1.10 (Rgression simple)

Cet exercice est corrig en annexe, sujet de dcembre 2010.
Exercice 1.11 (Forces de frottement et vitesse)

Exercice 1.12 (Prix dun appartement en fonction de sa superficie)


Chapitre 2
La rgression linaire multiple
Introduction
La modlisation de la concentration dozone dans latmosphre voque au Chapitre 1 est relati-
vement simpliste. En effet, dautres variables peuvent expliquer cette concentration, par exemple
le vent qui pousse les masses dair. Ce phnomne physique est connu sous le nom dadvectance
(apport dozone) ou de dilution. Dautres variables telles le rayonnement, la prcipitation, etc.,
ont une influence certaine sur la concentration dozone. Lassociation Air Breizh mesure ainsi en
mme temps que la concentration dozone dautres variables susceptibles davoir une influence sur
celle-ci (voir Annexe D). Voici quelques-unes de ces donnes :
T12 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
V 9.25 -6.15 -4.92 11.57 -6.23 2.76 10.15 13.5 21.27 13.79
N12 5 7 6 5 2 7 4 6 1 4
O3 115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.8
Table 2.1 10 donnes journalires de temprature, vent, nbulosit et ozone.
La variable V est une variable synthtique. En effet, le vent est normalement mesur en degrs
(direction) et mtres par seconde (vitesse). La variable V que nous avons cre est la projection
du vent sur laxe Est-Ouest, elle tient donc compte la fois de la direction et de la vitesse.
Pour analyser la relation entre la temprature T , le vent V , la nbulosit midi N et lozone O3 ,

nous allons chercher une fonction f telle que :
O3i f (Ti , Vi , Ni ).
Afin de prciser , il va falloir dfinir comme au Chapitre 1 un critre quantifiant la qualit de

lajustement de la fonction f aux donnes, ou inversement le cot de non-ajustement. Cette no-
tion de cot permet dapprhender de manire aise les problmes dajustement conomique dans
certains modles, do son nom.
Minimiser un cot ncessite aussi la connaissance de lespace sur lequel on minimise, cest--dire
la classe de fonctions F dans laquelle nous supposerons que se trouve la vraie fonction inconnue.
Le problme mathmatique peut scrire de la faon suivante :
n
X
arg min L(yi f (xi )), (2.1)
f F
i=1
30 Chapitre 2. La rgression linaire multiple
o n reprsente le nombre de donnes analyser, L(.) est appele fonction de cot, ou de perte,
et xi est une variable vectorielle pour tout i. La fonction de cot sera la mme que celle utilise
prcdemment, cest--dire le cot quadratique. En ce qui concerne le choix de la classe F, par
analogie avec le chapitre prcdent, nous utiliserons la classe suivante :

X p
F = f : RP R, f (x1 , , xp ) = j xj .

j=1
En gnral, avec cette convention dcriture, x1 est constant gal 1 et 1 correspond lordonne
lorigine. On parle de rgression linaire en raison de la linarit de f en les paramtres 1 , . . . , p ,
non en les variables explicatives xj . Par exemple, ce modle inclut les fonctions polynomiales dune
seule variable x si lon prend x1 = 1, x2 = x, . . . , xp = xp1 .
Ce chapitre est donc la gnralisation naturelle du prcdent, mais nous allons cette fois manipuler
sytmatiquement des vecteurs et des matrices la place des scalaires.
2.1 Modlisation
Le modle de rgression linaire multiple est une gnralisation du modle de rgression simple
lorsque les variables explicatives sont en nombre quelconque. Nous supposons donc que les donnes
collectes suivent le modle suivant :
yi = 1 xi1 + 2 xi2 + + p xip + i , i = 1, . . . , n (2.2)
o :
les xij sont des nombres connus, non alatoires, la variable xi1 valant souvent 1 pour tout i ;
les paramtres j du modle sont inconnus, mais non alatoires ;
les i sont des variables alatoires inconnues.
Remarque. Du fait que la constante appartient gnralement au modle, beaucoup dauteurs

crivent plutt le modle sous la forme :
yi = 0 + 1 xi1 + 2 xi2 + + p xip + i , i = 1, . . . , n
de sorte que p correspond toujours au nombre de variables explicatives. Avec notre convention
dcriture (2.2), si xi1 vaut 1 pour tout i, p est le nombre de paramtres estimer, tandis que le
nombre de variables explicatives est, proprement parler, (p 1).
En utilisant lcriture matricielle de (2.2) nous obtenons la dfinition suivante :
Dfinition 2.1 (Modle de rgression linaire multiple)

Un modle de rgression linaire est dfini par une quation de la forme :
Y = X +
o :
Y est un vecteur alatoire de dimension n,
X est une matrice de taille n p connue, appele matrice du plan dexprience,
est le vecteur de dimension p des paramtres inconnus du modle,
est le vecteur de dimension n des erreurs.

2.2. Estimateurs des Moindres Carrs Ordinaires 31
Les hypothses concernant le modle sont

(H1 ) : rg(X) = p
(H)
(H2 ) : E[] = 0, Var() = 2 In
Lhypothse (H2 ) signifie que les erreurs sont centres, de mme variance (homoscdasticit) et
non corrles entre elles.
Notation. On notera X = [X1 | . . . |Xp ], o Xj est le vecteur de taille n correspondant la j-me

variable. La i-me ligne de la matrice X sera quant elle note xi = [xi1 , . . . , xip ]. Ainsi lquation
(2.2) scrit aussi :
i {1, . . . , n} yi = xi + i
2.2 Estimateurs des Moindres Carrs Ordinaires

Comme pour la rgression linaire simple, nous allons considrer ici une fonction de cot quadra-
tique, do la dnomination de Moindres Carrs Ordinaires (MCO).
Dfinition 2.2 (Estimateur des MCO)

Lestimateur des moindres carrs est dfini comme suit :
2
n
X p
X
= arg minp yi j xij = arg minp kY Xk2 . (2.3)
R R
i=1 j=1
Dans la suite de cette section, nous allons donner lexpression de lestimateur ainsi que certaines
de ses proprits.
2.2.1 Calcul de
Pour dterminer , une mthode consiste se placer dans lespace des variables, comme on la fait
au Chapitre 1, Section 1.3.1. Rappelons brivement le principe : Y = [y1 , . . . , yn ] est le vecteur des
variables expliquer. La matrice du plan dexprience X = [X1 | . . . |Xp ] est forme de p vecteurs
colonnes (la premire colonne tant gnralement constitue de 1). Le sous-espace de Rn engendr
par les p vecteurs colonnes de X est appel espace image, ou espace des solutions, et not M(X).
Il est de dimension p par lhypothse (H1 ) et tout vecteur de cet espace est de la forme X, o
est un vecteur de Rp :
X = 1 X1 + + p Xp
M (X) Y
X
X
X X
M(X)
Figure 2.1 Reprsentation de X dans lespace des variables.

Selon le modle de la Dfinition 2.1, le vecteur Y est la somme dun lment de M(X) et dun
bruit lment de Rn , lequel na aucune raison dappartenir M(X). Minimiser kY Xk2 revient
chercher un lment de M(X) qui soit le plus proche de Y au sens de la norme euclidienne
classique. Cet unique lment est, par dfinition, le projet orthogonal de Y sur M(X). Il sera
not Y = PX Y , o PX est la matrice de projection orthogonale sur M(X). Il peut aussi scrire
sous la forme Y = X , o est lestimateur des MCO de . Lespace orthogonal M(X), not

M (X), est souvent appel espace des rsidus. En tant que supplmentaire orthogonal, il est de
dimension n p = dim(Rn ) dim(M(X)).
Proposition 2.1 (Expression de )

Lestimateur des Moindres Carrs Ordinaires a pour expression :
= (X X)1 X Y,
et la matrice PX de projection orthogonale sur M(X) scrit :
PX = X(X X)1 X .
Remarque. Lhypothse (H1 ) assure que la matrice X X est bien inversible. Supposons en effet
quil existe un vecteur de Rp tel que (X X) = 0. Ceci impliquerait que kXk2 = (X X) = 0,
donc X = 0, do = 0 puisque rg(X) = p. Autrement dit, la matrice symtrique X X est dfinie
positive.
Preuve. On peut prouver ce rsultat de plusieurs faons.

1. Par diffrentiation : on cherche Rp qui minimise la fonction
S() = kY Xk2 = (X X) 2Y X + kY k2 .
Or S est de type quadratique en , avec X X symtrique dfinie positive, donc le problme

admet une unique solution : cest le point o le gradient de S est nul. Ceci scrit (voir
Annexe, section B.5) :
= 2 X X 2Y X = 0 (X X) = X Y.
S()
La matrice X X tant inversible par (H1 ), ceci donne = (X X)1 X Y . Puisque par dfini-
tion Y = PX Y = X = X(X X)1 X Y et que cette relation est valable pour tout Y Rn ,
on en dduit que PX = X(X X)1 X .
2. Par projection : une autre faon de procder consiste dire que le projet orthogonal Y = X
est dfini comme lunique vecteur tel que (Y Y ) soit orthogonal M(X). Puisque M(X)
est engendr par les vecteurs X1 , . . . , Xp , ceci revient dire que (Y Y ) est orthogonal
chacun des Xi :

hX1 , Y X i = 0

..
.
=0
hXp , Y X i
= 0, do lon dduit bien lexpres-
Ces p quations se regroupent en une seule : X (Y X )

sion de , puis celle de PX .


Dornavant nous noterons PX = X(X X)1 X la matrice de projection orthogonale sur M(X) et
PX = (I PX ) la matrice de projection orthogonale sur M (X). La dcomposition
Y = Y + (Y Y ) = PX Y + (I PX )Y = PX Y + PX Y
nest donc rien de plus quune dcomposition orthogonale de Y sur M(X) et M (X).
Achtung ! La dcomposition
Y = X = 1 X1 + + p Xp
signifie que les i sont les coordonnes de Y dans la base (X1 , . . . , Xp ) de M(X). Il ne faudrait
pas croire pour autant que les i sont les coordonnes des projections de Y sur les Xi : ceci nest
vrai que si la base (X1 , . . . , Xp ) est orthogonale, ce qui nest pas le cas en gnral.
Rappels sur les projecteurs. Soit P une matrice carre de taille n. On dit que P est une matrice
de projection si P 2 = P . Ce nom est d au fait que pour tout vecteur x de Rn , P x est la projection
de x sur Im(P ) paralllement Ker(P ). Si en plus de vrifier P 2 = P , la matrice P est symtrique,
alors P x est la projection orthogonale de x sur Im(P ) paralllement Ker(P ), cest--dire que
dans la dcomposition x = P x + (x P x), les vecteurs P x et (x P x) sont orthogonaux. Cest
ce cas de figure qui nous concernera dans ce cours. Toute matrice symtrique relle tant diago-
nalisable en base orthonorme, il existe une matrice orthogonale U (i.e. U U = In , ce qui signifie
que les colonnes de U forment une base orthonorme de Rn ) et une matrice diagonale telles que
P = U U . On voit alors facilement que la diagonale de est compose de p 1 et de (n p) 0,
o p est la dimension de Im(P ), espace sur lequel on projette. Des rappels et complments sur les
projections sont donns en Annexe, section B.4.
Revenons nos moutons : on a vu que PX = X(X X)1 X . On vrifie bien que PX2 = PX et que
PX est symtrique. Ce qui prcde assure galement que Tr(PX ) = p et Tr(PX ) = n p. Cette
dernire remarque nous sera utile pour construire un estimateur sans biais de 2 . Dautre part, la
matrice PX est souvent note H (comme Hat) dans la littrature anglo-saxonne, car elle met des
chapeaux sur les vecteurs : PX Y = Y . De fait, les lements de PX sont nots (hij )1i,jn .
2.2.2 Quelques proprits

Comme en rgression simple, lestimateur obtenu est sans biais. On obtient de plus une expression
trs simple pour sa matrice de covariance Var(). On rappelle que la matrice de covariance du
ou matrice de variance-covariance, ou matrice de dispersion, est par dfinition :
vecteur alatoire ,
= E[( E[])(
Var() E[])
] = E[ ] E[]
E[]
.
Puisque est de dimension p, elle est de dimension p p. De plus, pour pour toute matrice A de
taille m p et tout vecteur B de dimension m dterministes, on a : E[A + B] = AE[] + B et

Var(A + B) = AVar()A . Ces proprits lmentaires seront constamment appliques dans la
suite.
Proposition 2.2 (Biais et matrice de covariance)

Lestimateur des moindres carrs est sans biais, i.e. E[]
= , et sa matrice de covariance est :
= 2 (X X)1 .
Var()

Preuve. Pour le biais il suffit dcrire :
E[]
= E[(X X)1 X Y ] = (X X)1 X E[Y ] = (X X)1 X E[X + ],
et puisque E[] = 0, il vient :

E[]
= (X X)1 X X = .
Pour la variance, on procde de mme :
= Var((X X)1 X Y ) = (X X)1 X Var(Y )X(X X)1 ,

Var()
or Var(Y ) = Var(X + ) = Var() = 2 In , donc :
= 2 (X X)1 X X(X X)1 = 2 (X X)1 .

Var()

Lestimateur des MCO est optimal en un certain sens. Cest ce que prcise le rsultat suivant,
gnralisation de celui vu en rgression linaire simple.
Thorme 2.1 (Gauss-Markov)

Lestimateur des MCO est de variance minimale parmi les estimateurs linaires sans biais de .
Remarques :
1. Linaire signifie linaire par rapport Y , cest--dire de la forme AY o A est une matrice
(p, n) : en ce sens, lestimateur des MCO est bien linaire puisque = (X X)1 X Y .
2. Rappelons quil existe une relation dordre partielle entre matrices symtriques relles : dire
que S1 S2 signifie que S = (S2 S1 ) est une matrice symtrique relle positive, cest--dire
que pour tout vecteur x, on a x S1 x x S2 x. Ceci revient encore dire que les valeurs
propres de S sont toutes suprieures ou gales 0.
Preuve. Nous allons montrer que, pour tout autre estimateur de linaire et sans biais, Var()

Var(), o lingalit entre matrices de variance-covariance est comprendre au sens prcis ci-
dessus. Rappelons la formule gnrale pour la matrice de covariance de la somme deux vecteurs
alatoires U et V :
Var(U + V ) = Var(U ) + Var(V ) + Cov(U, V ) + Cov(V, U ),
o Cov(U, V ) = E[U V ] E[U ]E[V ] = Cov(V, U ) . Dcomposons ainsi la variance de :
= Var( + )
Var() = Var( )
+ Var()
+ Cov( ,
)
+ Cov(,
).

Les variances tant semi-dfinies positives, si nous montrons que Cov( ,

)
= 0, nous aurons
fini la dmonstration. Puisque est linaire, = AY . De plus, nous savons quil est sans biais,
cest--dire E[]
= pour tout , donc AX = I. La covariance devient :
Cov( ,
)
= Cov(AY, (X X)1 X Y ) Var()

= 2 AX(X X)1 2 (X X)1 = 0.


2.2.3 Rsidus et variance rsiduelle

Les rsidus sont dfinis par
1 , . . . , n ] = Y Y = (I PX )Y = PX Y = PX ,
= [
car Y = X + et X M(X). On peut alors noncer les rsultats suivants.
Proprits 2.1 (Biais et Variance de et Y )
Sous le jeu dhypothses (H), on a :
1. E[] = 0.
2. Var() = 2 PX .
3. E[Y ] = X.
4. Var(Y ) = 2 PX .
5. Cov( , Y ) = 0.
Preuve.
1. E[
] = E[PX ] = PX E[] = 0.
2. Var() = PX Var()PX = PX Var()PX = 2 PX PX = 2 PX .
3. E[Y ] = E[X ]
= X, car est sans biais.
= XVar()X
4. Var(Y ) = Var(X ) = 2 X(X X)1 X = 2 PX .
5. Rappelons que la covariance entre deux vecteurs alatoires est une application bilinaire et
que Cov(U, U ) = Var(U ). Ici, ceci donne :
, Y ) = Cov(
Cov( , Y ) = Cov( ) = Cov(PX Y, Y ) 2 PX
, Y ) Var(
et puisque Var(Y ) = 2 In , nous avons :
, Y ) = PX Var(Y ) 2 PX = 0.
Cov(

Comme en rgression linaire simple, un estimateur naturel de la variance rsiduelle est donn
par :
n n
1X 1X 2 1
(yi yi )2 = k2 .
i = k
n n n
i=1 i=1
Malheureusement on va voir que cet estimateur est biais. Ce biais est nanmoins facile corriger,
comme le montre le rsultat suivant. Cest une bte gnralisation du rsultat obtenu en rgression
linaire simple, en remplaant n 2 par n p.
Proposition 2.3
k2
k SCR
2 =
La statistique np = np est un estimateur sans biais de 2 .
Preuve. Nous calculons E[k

k2 ]. Ruse de sioux : puisque cest un scalaire, il est gal sa trace,
ce qui donne :
E[k
k2 ] = E[Tr(k
k2 )] = E[Tr(
)],
P
et puisque pour toute matrice A, on a Tr(AA ) = Tr(A A) = i,j a2ij , il vient :
E[k
k2 ] = E[Tr(
)] = Tr(E[
]) = Tr(Var(
)) = Tr( 2 PX ).
Et comme PX est la matrice de la projection orthogonale sur un espace de dimension (n p), on
a bien :
E[kk2 ] = (n p) 2 .

2 de la variance rsiduelle 2 un estimateur

On dduit de cet estimateur de 2 de la variance

2 1
Var() = (X X) :
k2
k SCR 1
2 (X X)1 =
2 = (X X)1 = (X X) .
np np
En particulier, un estimateur de lcart-type de lestimateur j du j-me coefficient de la rgression

est tout simplement :
q
[(X X)1 ]jj .
j =
Afin dallger les notations, on crira parfois

j pour
j .
2.2.4 Prvision
Un des buts de la rgression est de proposer des prdictions pour la variable expliquer y lorsque
nous avons de nouvelles valeurs de x. Soit donc xn+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour
laquelle nous voudrions prdire yn+1 . Cette variable rponse est dfinie par yn+1 = xn+1 + n+1 ,
avec E[n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, . . . , n.
La mthode naturelle est de prdire la valeur correspondante grce au modle ajust, soit : yn+1 =
Lerreur de prvision est nouveau dfinie par n+1 = yn+1 yn+1 = x ( )
xn+1 . + n+1 .
n+1
Deux types derreurs vont alors entacher notre prvision : la premire due lincertitude sur n+1 ,

lautre lincertitude inhrente lestimateur .
Proposition 2.4 (Erreur de prvision)

Lerreur de prvision n+1 = (yn+1 yn+1 ) satisfait les proprits suivantes :

E[n+1 ] = 0
n+1 ) = 2 (1 + xn+1 (X X)1 xn+1 ).
Var(
Preuve. Comme E[n+1 ] = 0 et puisque est un estimateur sans biais de , il est clair que
E[n+1 ] = E[xn+1 ( )
+ n+1 ] = x ( E[])
n+1
+ E[n+1 ] = 0.
Autrement dit, en moyenne, notre estimateur ne se trompe pas. Calculons la variance de lerreur de
prvision. Puisque dpend uniquement des variables alatoires (i )1in , dont n+1 est dcorrle,
il vient :
= 2 + x Var()x
n+1 ) = Var(n+1 + xn+1 ( ))
Var ( n+1
n+1
= 2 (1 + xn+1 (X X)1 xn+1 ).

Nous retrouvons bien lincertitude dobservation 2 laquelle vient sajouter lincertitude destima-
tion. Enfin, comme en rgression linaire simple, on peut prouver quen prsence de la constante,
cette incertitude est minimale au centre de gravit des variables explicatives, cest--dire lorsque
xn+1 = [1, x2 , . . . , xp ] et quelle vaut encore 2 (1 + 1/n) (voir exercice 2.7).

2.3. Interprtation gomtrique 37
2.3 Interprtation gomtrique
M (X)
0
Y = X

y1
M(X) 1
Figure 2.2 Reprsentation des variables.
partir de la figure 2.2, le thorme de Pythagore donne :
SCT = SCE + SCR

kY k 2
= kY k2 + k
k2
2 + kY X k
= kX k 2.
Si la constante fait partie du modle (ce qui est gnralement le cas), alors nous avons, toujours
par Pythagore :
SCT = SCE + SCR

kY y1k 2
= kY y1k2 + k
k2
Variation totale = V. explique par le modle + V. rsiduelle.
Dfinition 2.3
Le coefficient de dtermination R2 est dfini par :
kY k2 k2
k SCR
R2 = cos2 0 = 2
= 1 2
=1 ,
kY k kY k SCT
ou plus souvent, si la constante fait partie du modle, par :
V. explique par le modle kY y1k2 k2

k SCR
R2 = cos2 = = = 1 =1 .
Variation totale kY y1k 2 kY y1k2 SCT
Ce coefficient mesure le cosinus carr de langle entre les vecteurs Y et Y pris lorigine ou pris
en y1. Nanmoins, on peut lui reprocher de ne pas tenir compte de la dimension de lespace de
projection M(X), do la dfinition du coefficient de dtermination ajust.

Dfinition 2.4
Le coefficient de dtermination ajust Ra2 est dfini par :
n k k2 n SCR n
Ra2 = 1 2
=1 =1 (1 R2 ),
n p kY k n p SCT np
ou plus souvent, si la constante fait partie du modle, par :
n1 k2
k n 1 SCR n1
Ra2 = 1 =1 =1 (1 R2 ).
n p kY y1k2 n p SCT np
Avec le logiciel R, le coefficient de dtermination R2 est appel Multiple R-Squared, tandis que
le coefficient de dtermination ajust Ra2 est appel Adjusted R-Squared (cf. infra).
2.4 Exemple
Nous allons traiter les 50 donnes journalires prsentes en Annexe D. La variable expliquer est
la concentration en ozone note O3 et les variables explicatives sont la temprature T12, le vent Vx
et la nbulosit Ne12. Les donnes sont traites avec le logiciel R.
> a <- lm(O3 T12+Vx+Ne12,data=DONNEE)

> summary(a)
Call:
lm(formula = O3 T12 + Vx + Ne12, data = DONNEE)
Residuals:
-29.0441 -8.4833 0.7857 7.7011 28.2919
Coefficients :
(Intercept) 84.5483 13.6065 6.214 1.38e-07 ***
T12 1.3150 0.4974 2.644 0.01118 *
Vx 0.4864 0.1675 2.903 0.00565 **
Ne12 -4.8935 1.0270 -4.765 1.93e-05 ***
-
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Les interprtations des sorties sont similaires celles obtenues pour la rgression simple. Noter
que le Residual standard error correspond lcart-type rsiduel, cest--dire .
2.5 Exercices
Exercice 2.1 (Rgression simple et Rgression multiple)
Soit un chantillon de n couples (xi , yi )1in pour le modle de rgression linaire simple y =
1 + 2 x + .
1. Rappeler les formules de 1 et 2 vues au Chapitre 1.

2.5. Exercices 39
2. Rappeler la formule de = [1 , 2 ] vue au Chapitre 2.

3. Retrouver le rsultat de la question 1 partir de celui de la question 2.
4. Rappeler les formules des variances et covariance de 1 et 2 vues au Chapitre 1.
5. Rappeler la formule de la matrice de covariance de vue au Chapitre 2.
6. Retrouver le rsultat de la question 4 partir de celui de la question 5.
Exercice 2.2 (Rle de la constante)

Soit X une matrice de dimensions n p. Soit Y la projection orthogonale dun vecteur Y de Rn
sur lespace engendr par les colonnes de X. On note 1 le vecteur de Rn uniquement compos de
la valeur 1.
1. Exprimer le produit scalaire hY, 1i en fonction des yi .
2. Soit = Y Y et supposons que la constante fait partie du modle, cest--dire que la
premire colonne de X est 1. Que vaut h , 1i ?
P P
3. En dduire que lorsque la constante fait partie du modle, ni=1 yi = ni=1 yi .
Exercice 2.3 (Le R2 et les modles embots)

Soit Z une matrice (n, q) de rang q et soit X une matrice (n, p) de rang p compose des q vecteurs
colonnes de Z et de p q autres vecteurs linairement indpendants. Nous considrons les deux
modles suivants :
Y = Z +
Y = X +
Supposons pour simplifier que la constante ne fait partie daucun modle. Notons respectivement
PX et PZ les projections orthogonales sur les sous-espaces M(X) et M(Z) engendrs par les
p colonnes de X et les q colonnes de Z. Notons enfin PXZ la projection orthogonale sur le
sous-espace M(X) M(Z) , orthogonal de M(Z) dans M(X), autrement dit :

R = M(X) M(X) = M(Z) M(X) M(Z)
n
M(X) .
1. Exprimer kPX Y k2 en fonction de kPZ Y k2 et kPXZ Y k2 .

2 et R2 .
2. Comparer alors les coefficients de dtermination des deux modles, cest--dire RZ X
3. De faon gnrale, quen dduire quant lutilisation du R2 pour le choix de variables ?
Exercice 2.4 (Deux variables explicatives)

On examine lvolution dune variable rponse yi en fonction de deux variables explicatives xi et
zi . Soit X = (1 x z) la matrice n 3 du plan dexprience.
1. Nous avons obtenu les rsultats suivants :

25 0 0 0.04 0 0
X X = ? 9.3 5.4 (X X)1 = 0 0.1428 0.0607 .
? ? 12.7 0 0.0607 0.1046
(a) Donner les valeurs manquantes.

(b) Que vaut n ?
(c) Calculer le coefficient de corrlation linaire empirique entre x et z.

2. La rgression linaire de Y sur (1, x, z) donne
Y = 1.61 + 0.61x + 0.46z + , k2 = 0.3.

SCR = k
(a) Dterminez la moyenne empirique y.

(b) Calculer la somme des carrs explique (SCE), la somme des carrs totale (SCT), le
coefficient de dtermination et le coefficient de dtermination ajust.
Exercice 2.5 (Rgression sur variables orthogonales)

Nous considrons le modle de rgression linaire
Y = X + ,
o Y Rn , X est une matrice de taille n p compose de p vecteurs orthogonaux, Rp et

Rn . Considrons Z la matrice des q premires colonnes de X et U la matrice des (p q)
dernires colonnes de X. Nous avons obtenu par les MCO les estimations suivantes :
YX = 1X X1 + + pX Xp
YZ = Z X1 + + Z Xq
1 q
YU = q+1
U
Xq+1 + + pU Xp .
Notons galement SCE(A) la norme au carr de PA Y .

1. Montrer que SCE(X) = SCE(Z) + SCE(U ).
2. Donner lexpression de 1X en fonction de Y , X1 et kX1 k.
3. En dduire que X = Z .
1 1
Exercice 2.6 (Rgression sur variables centres)

Y = X + , (2.4)
o Y Rn , X est une matrice de taille n p de rang p, Rp et Rn . La premire colonne de

X est le vecteur constant 1. X peut donc scrire X = [1, Z] o Z = [X2 , . . . , Xp ] est la matrice
n (p 1) des (p 1) derniers vecteurs colonnes de X. Le modle peut donc scrire sous la forme :
Y = 1 1 + Z(1) + ,
o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire

coordonne.
1. Donner P1 , matrice de projection orthogonale sur le sous-espace engendr par le vecteur 1.
2. En dduire la matrice de projection orthogonale P1 sur le sous-espace 1 orthogonal au
vecteur 1.
3. Calculer P1 Z.
4. En dduire que lestimateur de des Moindres Carrs Ordinaires du modle (2.4) peut tre
obtenu en minimisant par les MCO le modle suivant :
Y = Z
(1) + , (2.5)
o Y = P1 Y et Z = P1 Z.

2.5. Exercices 41
5. Ecrire la SCR estime dans le modle (2.5) en fonction des variables du modle (2.5). Vri-
fier que la SCR du modle (2.5) est identique celle qui serait obtenue par lestimation du
modle (2.4).
Exercice 2.7 (Minimisation de lerreur de prvision)

1. Soit un chantillon de n couples de rels (xi , yi )1in pour le modle de rgression linaire
simple yi = 0 + 1 xi + i , o les erreurs i sont supposes centres dcorrles et de mme
variance 2 . On estime = (0 , 1 ) par la mthode des moindres carrs ordinaires, ce qui
donne = (0 , 1 ).
(a) Soit xn+1 une nouvelle valeur de la variable explicative pour laquelle on veut prdire la
variable rponse yn+1 . Quappelle-t-on erreur de prvision ? Rappeler sa variance telle
quelle est nonce dans le chapitre sur la rgression linaire simple.
(b) Rappeler sa variance telle quelle est nonce dans le chapitre sur la rgression linaire
multiple.
(c) Retrouver le rsultat de la question 1a partir de celui de la question 1b.
(d) A partir du rsultat de la question 1a, trouver pour quelle valeur de xn+1 la variance
de lerreur de prvision est minimale. Que vaut alors cette variance ?
2. Le but de cette partie est de gnraliser le rsultat de la question 1d. Nous considrons
dsormais un chantillon (xi , yi )1in , o xi = [1, zi ] avec zi = [xi1 , . . . , xip ]. En notant 1 le
vecteur de taille n uniquement compos de 1, nous adoptons lcriture matricielle :

1 x11 x1p 1 z1
X = ...
.. .. .. = .. .. = 1 Z Z = 1 Z ,
. . . . . 1 p
1 xn1 xnp 1 zn
o Z est donc une matrice de taille n p. Les moyennes de ses colonnes Z1 , . . . , Zp sont
= [
regroupes dans le vecteur ligne x p ]. Enfin, on considre comme prcdemment
x1 , . . . , x
le modle de rgression linaire
yi = 0 + 1 xi1 + + p xip + i = xi + i ,
o les erreurs i sont supposes centres indpendantes et de mme variance 2 . Matricielle-

ment, ceci scrit donc Y = X + , avec X donne ci-dessus et suppose telle que X X est
inversible.
(a) Ecrire la matrice X X sous forme de 4 blocs faisant intervenir Z, x
et la taille n de
lchantillon.
(b) On rappelle la formule dinversion matricielle par blocs : Soit M une matrice inversible
telle que

T U
M =
V W
avec T inversible, alors Q = W V T 1 U est inversible et linverse de M est :

1
T + T 1 U Q1 V T 1 T 1 U Q1
M 1 = .
Q1 V T 1 Q1
Ecrire la matrice (X X)1 sous forme de 4 blocs dpendant de n, x

et 1 , o =
1
nZ Z x .
x


(c) Soit xn+1 = [1, zn+1 ] une nouvelle donne. Montrer que la variance de lerreur de pr-
vision est gale

1 1
Var(n+1 ) = 2 1 + + (zn+1 x ) 1 (zn+1 x
) .
n n
(d) On admet pour linstant que = n1 Z Z x

x est symtrique dfinie positive (on rappelle
que S est symtrique dfinie positive si S = S et si pour tout vecteur x non nul,
x Sx > 0). Pour quelle nouvelle donne xn+1 la variance de lerreur de prvision est-elle
minimale ? Que vaut alors cette variance ?
(e) Justifier le fait que si X X est inversible, alors est bien symtrique dfinie positive.
Exercice 2.8 (QCM)

Ce questionnaire fait appel non seulement au cours, mais galement certains des rsultats vus
dans les exercices qui prcdent.
1. Nous avons effectu une rgression multiple, une des variables explicatives est la constante,
la somme des rsidus calculs vaut :
A. 0 ;
B. Approximativement 0 ;
C. Parfois 0.
2. Le vecteur Y est-il orthogonal au vecteur des rsidus estims
?
A. Oui ;
B. Non ;
C. Seulement si 1 fait partie des variables explicatives.
3. Un estimateur de la variance de , estimateur des MC de , vaut :
A. 2 (X X)1 ;
2 (X X)1 ;
B.
2 (XX )1 .
C.
4. Une rgression a t effectue et le calcul de la SCR a donn la valeur note SCR1. Une
variable est ajoute, le calcul de la SCR a donn une nouvelle valeur note SCR2. Nous
savons que :
A. SCR1 SCR2 ;
B. SCR1 SCR2 ;
C. Cela dpend de la variable ajoute.
5. Une rgression a t effectue et un estimateur de la variance rsiduelle a donn la valeur
note 12 . Une variable est rajoute et un estimateur de la variance rsiduelle vaut maintenant
2
2 . Nous savons que :

A. 12 22 ;
B. 2
1 22 ;
C. On ne peut rien dire.
2.6 Corrigs
Exercice 2.1 (Rgression simple et Rgression multiple)
On dispose donc dun chantillon de n points (xi , yi )1in .
1. On a vu au Chapitre 1 que les estimateurs des MCO ont pour expressions :
1 = y 2 x
,

2.6. Corrigs 43
avec Pn Pn
(xi x)(yi y) (xi x
)yi
2 = i=1
Pn 2
= Pi=1
n .
i=1 (xi x
) )2
i=1 (xi x
2. Conformment aux conventions du Chapitre 2, on note X la matrice n 2 dont la premire

colonne est uniquement compose de 1 et la seconde est compose des xi . De mme, Y =
[y1 , . . . , yn ] est un vecteur colonne de taille n. On a vu que lestimateur = [1 , 2 ] des
moindres carrs scrit alors :
= (X X)1 X Y
3. Les calculs de (X X)1 et de X Y donnent :
P
1 1 x2i n
x n
Py
(X X) XY = P 2 ,
n xi n 2 x
2 n
x n xi y i
do : P P
1 y x2i x xi y i
(X X)1 X Y = P P
)2
(xi x xi yi n
xy
Il suffit alors de voir que
X X
xi yi n
xy = (xi x
)(yi y)
pour vrifier que la seconde composante de ce vecteur correspond bien la formule de 2 de

la premire question. Pour la premire composante, on crit :
P P P P
y x2i x xi y i )2 x
y (xi x ( xi yi n
xy)
P = P = y 2 x

)2
(xi x )2
(xi x
et la messe est dite.
4. Les formules des variances de 1 et 2 vues au Chapitre 1 sont
2
P 2 2
xi 2 ) = P
Var(1 ) = P & Var( ,
n (xi x )2 )2
(xi x
tandis que leur covariance vaut :
2 x

Cov(1 , 2 ) = P .
)2
(xi x
5. La matrice de covariance de est tout bonnement

=
Var() 2 (X X)1
6. Pour retrouver le rsultat de la question 4 partir de celui de la question 5, il suffit de voir

que P 2
1 1 xi /n x
(X X) = P .
)2
(xi x x 1
Exercice 2.2 (Rle de la constante)

Soit X(n,p) une matrice de rang p. Soit Y la projection dun vecteur Y de Rn sur lespace engendr
par les colonnes de X. On note 1 le vecteur de Rn uniquement compos de 1.
1. Par dfinition du produit scalaire usuel dans Rn , on a tout simplement :
X
hY, 1i = yi

2. Puisque Y est la projection orthogonale de Y sur le sous-espace engendr par les colonnes de
X, le vecteur = Y Y est orthogonal toutes les colonnes de X. En particulier, si lune
dentre elles est constante et vaut c1 (c suppos non nul), on en dduit que :
, c1i = 0 h
h , 1i = 0.
Autrement dit, lorsque la constante fait partie du modle, la somme des rsidus vaut 0.
3. Dire que la constante fait partie du modle signifie typiquement que la premire colonne de
X est le vecteur 1. Daprs la question prcdente, on sait que dans ce cas :
X X
, 1i = 0
h yi = yi .
Ainsi, lorsque la constante fait partie du modle, la moyenne des observations yi est la mme
que celle de leurs valeurs ajustes.
Exercice 2.3 (Le R2 et les modles embots)

1. Par le thorme de Pythagore, on a :
kPX Y k2 = kPZ Y k2 + kPXZ Y k2 .
2. Si la constante ne fait partie daucun modle, alors dans le premier modle, le R2 vaut :
2 kPZ Y k2
RZ = ,
kY k2
et dans le second :
2 kPX Y k2 kPZ Y k2 + kPXZ Y k2 kPZ Y k2 2

RX = = = RZ .
kY k2 kY k2 kY k2
3. Ceci montre la chose suivante : ds lors que deux modles sont embots, le coefficient de
dtermination du plus gros sera suprieur celui du plus petit. Autrement dit, ds que lon
ajoute une ou des variables un modle, on amliore le pourcentage de variation explique,
mme si les variables explicatives supplmentaires ne sont pas pertinentes ! En ce sens, le co-
efficient de dtermination ajust est prfrable, ayant au moins le mrite de tenir compte des
dimensions des diffrents modles. Plus prcisment, nous verrons au Chapitre 3 comment
effectuer des tests dhypothses entre modles embots.
Exercice 2.4 (Deux variables explicatives)

On examine lvolution dune variable y en fonction de deux variables exognes x et z. On dispose
de n observations de ces variables. On note X = [1 x z] o 1 est le vecteur constant et x, z sont
les vecteurs des variables explicatives.
1. Nous avons obtenu les rsultats suivants :

25 0 0 0.04 0 0
X X = ? 9.3 5.4 (X X)1 = 0 0.1428 0.0607 .
? ? 12.7 0 0.0607 0.1046
(a) Les 3 valeurs manquantes se dduisent de la symtrie de la matrice X X.

(b) Puisque X = [1 x z], il vient n = (X X)1,1 = 25.

2.6. Corrigs 45
(c) Le coefficient de corrlation linaire empirique entre x et z se dduit lui aussi de la ma-
trice X X. On remarque tout dabord que les moyennes empiriques sont nulles puisque
(X X)1,2 (X X)1,3
x
= =0= = z
n n
Par consquent
P P
(xi x
)(zi z) xi zi (X X)2,3
rx,z =p p = qP qP = p p
)2 (zi z)2
(xi x x2i zi2 (X X)2,2 (X X)3,3
ce qui donne
5.4
rx,z = 0.5
9.3 12.7
2. La rgression linaire de Y sur (1, x, z) donne
Y = 1.61 + 0.61x + 0.46z +

, k2 = 0.3.
SCR = k
(a) Puisque la constante fait partie du modle, la moyenne empirique des rsidus est nulle :

= 0. On en dduit que
y = 1.6 + 0.61 z + = 1.6

x + 0.46
(b) Puisque la constante fait partie du modle, la somme des carrs explique par le modle
est X X
SCE = kY y1k2 = (yi y)2 = (0.61xi + 0.46zi )2
cest--dire
X X X
SCE = kY y1k2 = 0.612 x2i + 2 0.61 0.46 xi zi + 0.462 zi2
ce qui se calcule nouveau grce la matrice X X :
SCE = kY y1k2 = 0.612 (X X)2,2 + 2 0.61 0.46(X X)2,3 + 0.462 (X X)3,3 = 9.18
La somme des carrs totale est alors immdiate, en vertu de la sacro-sainte formule de
dcomposition de la variance :
SCT = SCE + SCR = 9.18 + 0.3 = 9.48
Le coefficient de dtermination vaut donc

SCE
R2 = 0.968
SCT
Autrement dit, 97% de la variance des donnes est explique par ce modle de rgression.
Le coefficient de dtermination ajust est peine diffrent :
n1
Ra2 = 1 (1 R2 ) 0.965
np
et on vrifie bien la relation gnrale selon laquelle Ra2 < R2 .

Exercice 2.5 (Rgression sur variables orthogonales)

Y = X + ,
o Y Rn , X est une matrice de taille n p compose de p vecteurs orthogonaux, Rp et

Rn . Considrons Z la matrice des q premires colonnes de X et U la matrice des p q dernires
colonnes de X. Nous avons obtenu par les MCO les estimations suivantes :
YX = 1X X1 + + pX Xp
YZ = Z X1 + + Z Xq
1 q
YU = q+1
U
Xq+1 + + pU Xp .
Notons galement SCE(A) la norme au carr de PA Y .

1. Nous avons :
YX = PX Y = (PZ + PZ )PX Y = PZ PX Y + PZ PX Y,
or dune part PZ PX = PZX = PZ , dautre part
PZ PX = PZ X = PU
projection orthogonale sur le sous-espace engendr par les colonnes de U puisque les colonnes
de X sont orthogonales. Au total, on obtient la dcomposition orthogonale YX = YZ + YU
et le thorme de Pythagore assure donc que SCE(X) = SCE(Z) + SCE(U ).
2. Pour lexpression de 1X , on part tout simplement de la formule gnrale
X = (X X)1 X Y
Puisque les colonnes de X sont orthogonales, la matrice X X est diagonale, de termes diago-
naux kXi k2 . Par ailleurs, X Y est un vecteur colonne de taille p, dont les coordonnes sont
les produits scalaires Xi Y = hXi , Y i. Ainsi

hX1 , Y i hXp , Y i hX1 , Y i
X
= 2
,..., 2
1X = .
kX1 k kXp k kX1 k2
3. La premire colonne de Z tant X1 , le raisonnement prcdent appliqu 1X montre que

1X = 1Z . Ainsi, lorsque les variables explicatives sont orthogonales, effectuer une rgression
multiple revient effectuer p rgression simples. En pratique, nanmoins, il arrive rarement
que les variables explicatives soient effectivement orthogonales...
Exercice 2.6 (Rgression sur variables centres)

Y = X + , (2.6)
o Y Rn , X est une matrice de taille n p de rang p, Rp et Rn . La premire colonne de

X est le vecteur constant 1. X peut ainsi scrire X = [1, Z], o Z = [X2 , . . . , Xp ] est la matrice
n (p 1) des (p 1) derniers vecteurs colonnes de X. Le modle peut donc scrire sous la forme :
Y = 1 1 + Z(1) + ,
o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire

coordonne.

2.6. Corrigs 47
1. La matrice de la projection orthogonale sur le sous-espace engendr par le vecteur 1 scrit

1 1
P1 = 1(1 1)1 1 = 11 = J,
n n
o J = 11 est la matrice n n compose uniquement de 1.
2. La matrice de projection orthogonale P1 sur le sous-espace 1 orthogonal au vecteur 1 est
donc : P1 = I n1 J.
3. On a ainsi P1 Z = Z n1 JZ. Si on note x n les moyennes empiriques des colonnes
2 , . . . , x
X2 , . . . , Xn , P1 Z est donc la matrice n(p1) dont les colonnes sont X2 x2 1, . . . , Xn
xn 1.
Autrement dit P1 Z est la matrice (individus variables) pour laquelle chaque variable xi
a t centre.
4. Lestimateur de des Moindres Carrs Ordinaires du modle (2.6) est dfini par
= arg minp kY Xk2 .

R
] , ceci peut encore scrire :

En dcomposant le vecteur sous la forme = [1 , (1)
(1 , (1) ) = arg min kY 1 1 Z(1) k2 .

1 R,(1) Rp1
Puisque P1 + P1 = In , il vient :
(1 , (1) ) = arg min k(P1 Y 1 1 P1 Z(1) ) + (P1 Y P1 Z(1) )k2 .

1 R,(1) Rp1
Le premier vecteur entre parenthses est dans le sous-espace engendr par le vecteur 1, le
second dans son orthogonal, donc par Pythagore :
(1 , (1) ) = arg min kP1 Y 1 1 P1 Z(1) k2 + kP1 Y P1 Z(1) k2 .

1 R,(1) Rp1
Or P1 Y = y1, P1 Y = Y y1 = Y et P1 Z = Z,
donc ceci se rcrit :
(1 , (1) ) = arg min y 1 1 1 Z(1) 1k2 + kY Z

k (1) k2 .
1 R,(1) Rp1
Minimiser cette somme de deux termes en (1 , (1) ) revient commencer par minimiser le
second terme en (1) , ce qui fournit (1) , et prendre ensuite
1 = y Z (1) .
Or la minimisation du premier terme revient chercher lestimateur des moindres carrs

ordinaires pour le modle suivant :
Y = Z
(1) + , (2.7)
o Y = P1 Y et Z = P1 Z.
5. La SCR estime dans le modle (2.7) est
X n
SCR = kY Y k2 = (yi yi )2 .
i=1
Or pour tout i, yi = yi y et :
i = 2 x
y i2 + + p x
ip = 2 (xi2 x
2 ) + + p (xip x
p ),

do :
n
X
SCR = (yi y 2 (xi2 x
2 ) p (xip x
p ))2 .
i=1
Lorsque la constante appartient au modle, la somme des rsidus est nulle, donc :

y = Y = 1 + 2 x
2 + + p x
p ,
ce qui, report dans lquation prcdente, donne :

n
X
SCR = (yi (1 + 2 xi2 + + p xip )2 .
i=1
Autrement dit, la SCR du modle (2.7) est identique celle qui serait obtenue par lestima-
tion du modle (2.6). Mazel tov !
Exercice 2.7 (Minimisation de lerreur de prvision)

Cet exercice est corrig en annexe (sujet de dcembre 2012).
Exercice 2.8 (QCM)

AABBC.

Chapitre 3
Le modle gaussien
Introduction
Rappelons le contexte du chapitre prcdent. Nous avons suppos un modle de la forme :
yi = xi + i = 1 xi1 + 2 xi2 + + p xip + i , i = 1, . . . , n
que nous avons rcrit en termes matriciels :
Yn1 = Xnp p1 + n1
o les dimensions sont indiques en indices. Les hypothses concernant le modle taient :

(H1 ) : rg(X) = p
(H)
(H2 ) : E[] = 0, Var() = 2 In
Dans tout ce chapitre, comme ce fut le cas en fin de Chapitre 1, nous allons faire une hypothse
plus forte, savoir celle de gaussianit des rsidus. Nous supposerons donc dsormais :

(H1 ) : rg(X) = p
(H)
(H2 ) : N (0, 2 In )
Ceci signifie que les rsidus sont indpendants et identiquement distribus. Lintrt de supposer
la gaussianit des rsidus est de pouvoir en dduire les lois de nos estimateurs, donc de construire
des rgions de confiance et des tests dhypothses.
3.1 Estimateurs du Maximum de Vraisemblance

Nous allons commencer par faire le lien entre lestimateur du maximum de vraisemblance et lesti-
mateur des moindres carrs vu au chapitre prcdent. Commenons par remarquer que les yi sont
eux-mmes gaussiens :
i N (0, 2 ) yi = xi + i N (xi , 2 )
et mutuellement indpendants puisque les erreurs i le sont. La vraisemblance sen dduit :

n n " n
#
Y 1 1 X 2
2
L(Y, , ) = fY (yi ) = exp 2 y i xi
2 2 2
i=1 i=1
n
1 1 2
= exp 2 kY Xk
2 2 2
50 Chapitre 3. Le modle gaussien
Do lon dduit la log-vraisemblance :

n n 1
log L(Y, , 2 ) = log 2 log 2 2 kY Xk2 .
2 2 2
On cherche les estimateurs mv et 2 qui maximisent cette log-vraisemblance. Il est clair quil faut
mv
minimiser la quantit kY Xk2 , ce qui est justement le principe des moindres carrs ordinaires,
donc :
mv = = (X X)1 X Y.
Une fois ceci fait, on veut maximiser sur R+ une fonction de la forme (x) = a + b log x + xc , ce
qui ne pose aucun souci en passant par la drive :
2 )
L(Y, , n 1
= 2,
+ 4 kY X k
2 2 2 2
do il vient :
2
kY X k
2

mv = .
n
2
kY X k
2 =
Si lon compare ce quon a obtenu au chapitre prcdent, o nous avons not np
2
lestimateur de la variance , nous avons donc :
2 np 2

mv =
.
n
On voit donc que lestimateur 2 du maximum de vraisemblance est biais, mais dautant moins
mv
que le nombre de variables explicatives est petit devant le nombre n dobservations. Dans la suite,
nous continuerons considrer lestimateur 2 des moindres carrs vu au chapitre prcdent et
nous conserverons aussi la notation adopte pour les rsidus i , de sorte que :
Pn 2
2 2i
i=1 k2
k kY X k

= = = .
np np np
3.2 Lois des estimateurs

Nous commenons cette section par un rappel sur les vecteurs gaussiens.
3.2.1 Quelques rappels

Un vecteur alatoire Y de Rn est dit gaussien si toute combinaison linaire de ses composantes
est une variable alatoire gaussienne. Ce vecteur admet alors une esprance = E[Y ] et une
matrice de variance-covariance Y = E[(Y )(Y ) ] qui caractrisent compltement sa loi.
On note dans ce cas Y N (, Y ). On montre alors que les composantes dun vecteur gaussien
Y = [Y1 , , Yn ] sont indpendantes si et seulement si Y est diagonale.
Soit Y N (, Y ) un vecteur gaussien. Il admet une densit f sur Rn si et seulement si sa matrice

de dispersion Y est inversible, auquel cas :
1 1 1
f (y) = p e 2 (y) Y (y)
(2)n/2 det(Y )
Dans ce cas, on montre aussi la proprit suivante.

3.2. Lois des estimateurs 51
Proposition 3.1 (Vecteur gaussien et Loi du 2 )

Soit Y N (, Y ) un vecteur gaussien. Si Y est inversible, alors
(Y ) 1 2
Y (Y ) n
loi du chi-deux n degrs de libert.
Le thorme de Cochran, trs utile dans la suite, assure que la dcomposition dun vecteur gaussien
sur des sous-espaces orthogonaux donne des variables indpendantes dont on peut expliciter les lois.
Thorme 3.1 (Cochran)

Soit Y N (, 2 In ), M un sous-espace de Rn de dimension p, P la matrice de projection or-
thogonale sur M et P = In P la matrice de projection orthogonale sur M . Nous avons les
proprits suivantes :
(i) P Y N (P , 2 P ) et P Y N (P , 2 P ) ;
(ii) les vecteurs P Y et P Y = (Y P Y ) sont indpendants ;
2 2
(iii) kP (Y)k
2 2p et kP (Y2)k 2np .
Nous pouvons appliquer ce rsultat dans notre cadre, comme nous allons le voir en section suivante.
3.2.2 Nouvelles proprits

Notons au pralable que, pour ce qui nous concerne, la gaussianit des rsidus implique celle du
vecteur Y :
N (0, 2 In ) Y = X + N (X, 2 In ).
Proprits 3.1 (Lois des estimateurs avec variance connue)

Sous les hypothses (H), nous avons :
(i) est un vecteur gaussien de moyenne et de variance 2 (X X)1 : N (, 2 (X X)1 ) ;
(ii) et
2 sont indpendants ;
2
(iii) (n p) 2 2np .
Preuve.
(i) Nous avons vu que = (X X)1 X Y = (X X)1 X (X + ), or par hypothse
N (0, 2 In ) est un vecteur gaussien. On en dduit que est lui aussi un vecteur gaussien, sa
loi est donc entirement caractrise par la donne de sa moyenne et de sa matrice de dispersion,
lesquelles ont t calcules au Chapitre 2 (Proposition 2.2).
(ii) Comme dans le chapitre prcdent, notons M(X) le sous-espace de Rn engendr par les
colonnes de X et PX = X(X X)1 X la projection orthogonale sur ce sous-espace. On peut
noter que :
= (X X)1 X Y = (X X)1 X (X(X X)1 X )Y = (X X)1 X PX Y,
donc est un vecteur alatoire fonction de PX Y , tandis que :
k2
k kY PX Y k2
2 =
=
np np
est une variable alatoire fonction de (Y PX Y ). Par le thorme de Cochran, nous savons que
les vecteurs PX Y et (Y PX Y ) sont indpendants, il en va donc de mme pour toutes fonctions
de lun et de lautre.

(iii) En notant PX la projection orthogonale sur M (X), sous-espace de dimension (n p) de

Rn , on a :
= (Y PX Y ) = PX Y = PX (X + ) = PX ,

o N (0, 2 In ). Il sensuit par le thorme de Cochran que :
2
kPX k2 kPX ( E[])k2
(n p) = = 2np .
2 2 2

Bien entendu le premier point du rsultat prcdent nest pas satisfaisant pour obtenir des rgions
de confiance sur car il suppose la variance 2 connue, ce qui nest pas le cas en gnral. La
proposition suivante pallie cette insuffisance.
Proprits 3.2 (Lois des estimateurs avec variance inconnue)

Sous les hypothses (H) :
j j j j
(i) pour j = 1, . . . , p, nous avons Tj = q = Tnp .
[(X X)1 ]jj

j
(ii) Soit R une matrice de taille q p de rang q (q p) alors :
1 1 q
2
(R( )) R(X X)1 R R( ) Fnp .
q

Cautious ! Lcriture (X X)1 jj signifie le j-me terme diagonal de la matrice (X X)1 , et
non linverse du j-me terme diagonal de la matrice (X X). Afin dallger les critures, nous
1
crirons souvent (X X)jj au lieu de (X X)1 jj .

Preuve.
(i) Daprs la proposition prcdente, on sait dune part que j N (j , 2 (X X)1jj ), dautre
2
part que (n p) 2 2np et enfin que j et

2 sont indpendants. Il reste alors crire Tj sous
la forme :
j
q j
(X X)1
jj
Tj =

pour reconnatre une loi de Student Tnp .
(ii) Commenons par remarquer que la matrice carre R(X X)1 R de taille q est inversible
puisque (X X)1 est de rang plein dans Rp , avec p q. En tant que transforme linaire
dun vecteur gaussien, R est un vecteur gaussien de moyenne R et de matrice de covariance
2 R(X X)1 R . On en dduit que :
1
(R( )) R(X X)1 R 1 R( ) 2 .
q
2
2
2 en se souvenant que (n p) 2 2np et du fait que et 2 sont
Il reste remplacer 2 par
indpendants. On obtient bien alors la loi de Fisher annonce.

De ces rsultats vont dcouler les rgions de confiance de la section suivante. Auparavant, donnons
un exemple illustrant le second point que lon vient dtablir.

3.2. Lois des estimateurs 53
Exemple. Considrons le cas p = q = 2 et la matrice R = I2 , de sorte que

1 1
R( ) = .
2 2
Si la constante fait partie du modle, X est la matrice n2 dont la premire colonne est uniquement
compose de 1 et la seconde est compose des xi , si bien que
P
1 n xi n P n
x
XX= P P P =
)2
(xi x xi x2i nx x2i
et le point (ii) scrit

1 2
X
2 2

2
n( 1 1 ) + 2n
x ( 1 1 )( 2 2 ) + x i (2 2 ) Fn2 ,
2
2
qui est exactement le rsultat de la Proprit 1.3 (iii), permettant de construire une ellipse de
confiance pour = (1 , 2 ). Plus gnralement, si p = q et R = Ip , nous avons
1 p
( ) (X X)( ) Fnp ,
2
p
dfinissant un ellipsode de confiance centr en pour . Ce rsultat est la base de la distance

de Cook dfinie en Chapitre 4, Section 4.3.
3.2.3 Intervalles et rgions de confiance

Les logiciels et certains ouvrages donnent des intervalles de confiance (IC) pour les paramtres pris
sparment. Cependant ces intervalles de confiance ne tiennent pas compte de la dpendance des
paramtres, ce qui conduirait construire plutt des rgions de confiance (RC). Nous allons donc
traiter les deux cas, en considrant que 2 est inconnu.
Thorme 3.2 (Intervalles et Rgions de Confiance)

(i) Pour tout j {1, , p}, un intervalle de confiance de niveau (1 ) pour j est :
q q

j tnp (1 /2) 1
(X X)jj , j + tnp (1 /2)
(X X)jj ,1
o tnp (1 /2) est le quantile de niveau (1 /2) dune loi de Student Tnp .
(ii) Un intervalle de confiance de niveau (1 ) pour 2 est :

(n p)2 2
(n p)
, ,
cnp (1 /2) cnp (/2)
o cnp (1 /2) est le quantile de niveau (1 /2) dune loi 2np .

(iii) Une rgion de confiance de niveau (1 ) pour q (q p) paramtres j nots (j1 , , jq )
est lensemble des (j1 , , jq ) tels que
1 q
(R( )) (R(X X)1 R )1 (R( )) fnp (1 ), (3.1)
2
q
o R est la matrice de taille q p dont tous les lments sont nuls sauf les Ri,ji , qui valent 1,
q q
et fnp (1 ) est le quantile de niveau (1 ) dune loi de Fisher Fnp .
Preuve. Il suffit dappliquer les rsultats de la Proposition 3.2.


Exemple. Considrons p 2, q = 2 et la matrice R dfinie comme suit :

1 0 0 0 0
R= ,
0 1 0 0 0
de sorte que
1 1
R( ) = .
2 2
Si on note cij le terme gnral de (X X)1 , le point (iii) permet dobtenir une rgion de confiance
simultane RC(1 , 2 ) pour (1 , 2 ) :
( )
c22 (1 1 )2 2c12 (1 1 )(2 2 ) + c11 (2 2 )2
(1 , 2 ) R :
2 2
fnp (1 ) .
2 (c11 c22 c212 )
2
Cette rgion de confiance est une ellipse qui tient compte de la corrlation entre 1 et 2 . La figure
3.1 permet de faire le distinguo entre intervalles de confiance considrs sparment pour 1 et 2
et rgion de confiance simultane pour (1 , 2 ).
4
2

0
2
2
4
4 2 0 2 4
1
Figure 3.1 Comparaison entre ellipse et rectangle de confiance.
3.2.4 Prvision
Soit xn+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour laquelle nous voulons prdire la variable
expliquer yn+1 dfinie par :
yn+1 = xn+1 + n+1
avec n+1 N (0, 2 ) indpendant des (i )1in . A partir des n observations prcdentes, nous
avons pu calculer un estimateur de . Nous nous servons de cet estimateur pour prvoir yn+1
par :

yn+1 = xn+1 .

3.3. Tests dhypothses 55
Pour quantifier lerreur de prvision (yn+1 yn+1 ), on utilise la dcomposition :

+ n+1 ,
yn+1 yn+1 = xn+1 ( )
qui est la somme de deux variables gaussiennes indpendantes puisque est construit partir des
(i )1in . On en dduit que (yn+1 yn+1 ) est une variable gaussienne, dont moyenne et variance
ont t calcules au chapitre prcdent, ce qui donne :
yn+1 yn+1 N (0, 2 (1 + xn+1 (X X)1 xn+1 ))
Mieux, nous pouvons maintenant donner un intervalle de confiance pour yn+1 .
Proposition 3.2 (Intervalle de Confiance pour la prvision)

Un intervalle de confiance de niveau (1 ) pour yn+1 est donn par :
h q q i
1
1 + xn+1 (X X) xn+1 , xn+1 tnp (/2)
xn+1 + tnp (/2) 1
1 + xn+1 (X X) xn+1
Preuve. Daprs ce qui a t dit auparavant, on a :

yn+1 yn+1
q N (0, 1).
1 + xn+1 (X X)1 xn+1
On procde donc comme dhabitude en faisant intervenir

:
yn+1 yn+1

yn+1 yn+1 1+xn+1 (X X)1 xn+1
q =

.

1 + xn+1 (X X)1 xn+1
On remarque que le numrateur suit une loi normale centre rduite, le dnominateur est la racine
dun chi-deux (n p) ddl divis par (n p). Il reste voir que numrateur et dnominateur
+ n+1 et
sont indpendants, or yn+1 yn+1 = xn+1 ( ) est indpendant la fois de (cf.
Proprits 3.1) et de n+1 (puisque
ne dpend que des (i )1in ). On en conclut que :
yn+1 yn+1
q Tnp ,

1 + xn+1 (X X)1 xn+1
do se dduit lintervalle de confiance de lnonc.

Aprs avoir explicit les lois de nos estimateurs et les intervalles ou rgions de confiance associs,
tout est prt pour construire des tests dhypothses. Cest ce que nous allons faire dans la section
suivante.
3.3 Tests dhypothses

3.3.1 Introduction
Reprenons lexemple de la prvision des pics dozone vu en dbut de Chapitre 2. Nous avons dcid
de modliser les pics dozone O3 par la temprature midi T , le vent V (ou plus prcisment sa
projection sur laxe Est-Ouest) et la nbulosit midi N . Il parat alors raisonnable de se poser
par exemple les questions suivantes :
1. Est-ce que la valeur de O3 est influence par la variable vent V ?

2. Y a-t-il un effet nbulosit ?

3. Est-ce que la valeur de O3 est influence par le vent V ou la temprature T ?
Rappelons que le modle utilis est le suivant :
O3i = 1 + 2 Ti + 3 Vi + 4 Ni + i
En termes de tests dhypothses, les questions ci-dessus se traduisent comme suit :

1. correspond H0 : 3 = 0, contre H1 : 3 6= 0.
2. correspond H0 : 4 = 0, contre H1 : 4 6= 0.
3. correspond H0 : 2 = 3 = 0, contre H1 : 2 6= 0 ou 3 6= 0.
Ces tests dhypothses reviennent tester la nullit dun ou plusieurs paramtres en mme temps.
Si lon teste plusieurs paramtres la fois, on parle de nullit simultane des coefficients. Ceci
signifie que, sous lhypthse H0 , certains coefficients sont nuls, donc les variables correspondant
ceux-ci ne sont pas utiles pour la modlisation du phnomne. Ce cas de figure revient comparer
deux modles embots, lun tant un cas particulier de lautre.
Le plan dexprience priv de ces variables sera not X0 et les colonnes de X0 engendreront un
sous-espace not M0 = M(X0 ). De mme, pour allger les notations, nous noterons M = M(X)
lespace engendr par les colonnes de X. Le niveau de risque des tests sera fix de faon classique
.
3.3.2 Tests entre modles embots

Rappelons tout dabord le modle :

(H1 ) : rg(X) = p
Y = X + sous les hypothses (H)
(H2 ) : N (0, 2 In )
En particulier, cela veut dire que E[Y ] = X M, sous-espace de dimension p de Rn engendr

par les p colonnes de X. Pour faciliter les notations, on suppose vouloir tester la nullit simultane
des q = (p p0 ) derniers coefficients du modle (avec q p of course !). Le problme scrit alors
de la faon suivante :
H0 : p0 +1 = = p = 0 contre H1 : j {p0 + 1, , p} : j 6= 0.
Que signifie H0 : p0 +1 = = p = 0 en termes de modle ? Si les q derniers coefficients sont

nuls, le modle devient

(H1 ) : rg(X0 ) = p0
Y = X0 0 + 0 sous les hypothses (H)
(H2 ) : 0 N (0, 2 In )
La matrice X0 , de taille n p0 , est compose des p0 premires colonnes de X et 0 est un vecteur

colonne de taille p0 . Puisque X est suppose de rang p, il est clair que X0 est de rang p0 , donc
les colonnes de X0 engendrent un sous-espace M0 de Rn de dimension p0 . Ce sous-espace M0 est
bien videmment aussi un sous-espace de M. Sous lhypothse nulle H0 , lesprance de Y , savoir
E[Y ] = X0 0 , appartiendra ce sous-espace M0 .
Maintenant que les hypothses du test sont fixes, il faut proposer une statistique de test. Nous
allons voir une approche gomtrique et intuitive de laffaire.

Approche gomtrique
Considrons le sous-espace M0 . Nous avons crit que sous H0 : E[Y ] = X0 0 M0 . Dans ce cas,
la mthode des moindres carrs consiste projeter Y non plus sur M et obtenir Y , mais sur M0
et obtenir Y0 . Visualisons ces diffrentes projections sur la figure 3.2.
Y
Y0
M0
M
Figure 3.2 Reprsentation des projections.
Lide intuitive du test, et donc du choix de conserver ou non H0 , est la suivante : si la projection
Y0 de Y dans M0 est proche de la projection Y de Y dans M, alors il semble intuitif de conserver
lhypothse nulle. En effet, si linformation apporte par les deux modles est peu prs la mme,
il vaut mieux conserver le modle le plus petit : cest le principe de parcimonie.
Il faut videmment quantifier le terme proche. Pour ce faire, nous pouvons utiliser la distance
euclidienne entre Y0 et Y , ou son carr kY Y0 k2 . Mais cette distance sera variable selon les
donnes et les units de mesures utilises. Pour nous affranchir de ce problme dchelle, nous
k2 =
allons standardiser cette distance en la divisant par la norme au carr de lerreur estime k
2
kY Y k = (n p) 2
. Les vecteurs alatoires (Y Y0 ) et nappartenant pas des sous-espaces
de mme dimension, il faut encore diviser chaque terme par son degr de libert respectif, soit
q = p p0 et n p. Toute cette tambouille nous mne la statistique de test suivante :
kY Y0 k2 /q kY Y0 k2 /(p p0 )
F = = .
kY Y k2 /(n p) kY Y k2 /(n p)
Pour utiliser cette statistique de test, il faut connatre au moins sa loi sous H0 . Remarquons quelle
correspond au rapport de deux normes au carr. Nous allons dterminer la loi du numrateur, celle
du dnominateur et constater leur indpendance. En notant P (resp. P0 ) la matrice de projection
orthogonale sur M (resp. M0 ), nous savons que :
Y Y0 = P Y P0 Y,
or M0 M donc P0 Y = P0 P Y et :
Y Y0 = P Y P0 P Y = (In P0 )P Y = P0 P Y.

Nous en dduisons que (Y Y0 ) M

0 M, donc que (Y Y0 ) (Y Y ) puisque (Y Y ) M .

La figure 3.2 permet de visualier ces notions dorthogonalit de faon gomtrique. Les vecteurs
alatoires (Y Y0 ) et (Y Y ) sont lments despaces orthogonaux, cest--dire quils ont une co-
variance nulle. Puisque tout est gaussien, ils sont donc indpendants et les normes du numrateur
et du dnominateur sont indpendantes galement.
Le thorme de Cochran nous renseigne par ailleurs sur les lois des numrateur et dnominateur.
Pour le dnominateur :
1 1 1 1
2
kY Y k2 = 2 kP Y k2 = 2 kP (X + )k2 = 2 kP k2 2np ,

et pour le numrateur :
1
kP P (Y X)k2 2q .
2 0
Sous H0 , le paramtre de dcentrage kP0 P Xk2 est nul puisque dans ce cas X M0 .
Nous avons alors la loi de F sous H0 :

q
F Fnp .
Notons une criture quivalente souvent utilise, donc importante :
n p SCR0 SCR q
F = Fnp .
q SCR
La relation kY Y0 k2 = (SCR0 SCR) peut se voir facilement en utilisant la figure 3.2 et en

appliquant le thorme de Pythagore :
kY Y0 k2 = kY P Y + P Y P0 Y k2 = kP Y + (In P0 )P Y k2 = kP Y + P0 P Y k2
= kP Y k2 + kP0 P Y k2
= kY Y k2 + kY Y0 k2 ,
cest--dire :
kY Y0 k2 = kY Y0 k2 kY Y k2 = SCR0 SCR.
Rsumons ce qui prcde.
Proposition 3.3 (Test entre modles embots)
Sous lhypothse H0 , on a la statistique de test suivante
n p kY Y0 k2 n p SCR0 SCR q
F = = Fnp ,
q
kY Y k 2 q SCR
loi de Fisher (q, n p) degrs de libert.
Preuve. Alternativement la preuve gomtrique ci-dessus, il est possible de dmontrer ce rsultat

en appliquant brutalement la Proprit 3.2 (ii) avec pour R la matrice qp dfinie par blocs comme
suit : R = [0|Iq ]. On sait en effet que
1 1 q
2
(R( )) R(X X)1 R R( ) Fnp .
q


Sous lhypothse H0 , il vient R = 0, donc
R( ) = [p0 +1 , . . . , p ] .
0 ], la formule dinversion matricielle par blocs (B.2) rappele
Dautre part, si lon note X = [X0 |X
en Annexe assure que
1
R(X X)1 R =X (In P0 )X
0
0
de sorte que
1
(R( )) R(X X)1 R R( ) = [p0 +1 , . . . , p ]X 0 [p +1 , . . . , p ]
(I P0 )X
0 0
Puisque (In P0 ) est le projecteur (orthogonal) sur M

0 , il est idempotent, donc
1
(R( )) R(X X)1 R R( ) = k(In P0 )X
0 [p +1 , . . . , p ] k2
0
Il faut maintenant voir que
Y = X = 1 X1 + + p Xp = (1 X1 + + p Xp0 ) + (p0 +1 Xp0 +1 + + p Xp )
tandis que, via M0 M, on a P0 P = P0 donc

= (1 P0 X1 + + p P0 Xp )+(p +1 P0 Xp +1 + + p P0 Xp )
Y0 = P0 Y = P0 P Y = P0 Y = P0 (X ) 0 0 0
et puisque P0 X1 = X1 , . . . , P0 Xp0 = Xp0 , il vient
Y0 = (1 X1 + + p Xp0 ) + (p0 +1 P0 Xp0 +1 + + p P0 Xp )
Ainsi
Y Y0 = (p0 +1 Xp0 +1 + + p Xp ) (p0 +1 P0 Xp0 +1 + + p P0 Xp )
ou encore
Y Y0 = (In P0 )(p0 +1 Xp0 +1 + + p Xp )
cest--dire
0 [p +1 , . . . , p ] .
Y Y0 = (In P0 )X 0
Il reste se souvenir que

kY Y k2
2 =

np
pour arriver au rsultat voulu.

Remarque. En supposant que la constante fait partie des deux modles (ou ne fait partie daucun
dentre eux), la statistique de test prcdente peut aussi scrire en fonction des coefficients de
dtermination respectifs R2 et R02 comme suit (exercice) :
n p R2 R02
F = .
q 1 R2
Ainsi, si lon dispose des coefficients de dtermination dans deux modles embots, il suffit de
calculer cette statistique et de la comparer au quantile dune loi de Fisher pour effectuer le test
dhypothse.
Nous allons maintenant expliciter cette statistique de test dans deux cas particuliers.

3.3.3 Test de Student de signification dun coefficient

Nous voulons tester H0 : j = 0 contre H1 : j 6= 0, appel test bilatral de significativit de j .
Selon ce quon vient de voir, la statistique de test est :
kY Y0 k2
F = .
2

Nous rejetons H0 si lobservation de la statistique de test, note F (w), est telle que :
1
F (w) > fnp (1 ),
1 (1 ) est le quantile dordre (1 ) dune loi de Fisher 1 et (n p) degrs de libert.
o fnp
Ce test est en fait quivalent au test de Student (n p) degrs de libert qui permet de tester
H0 : j = 0 contre H1 : j 6= 0, avec cette fois la statistique de test :
j
T = ,

j
q
o (X X)1 2
j = j = jj est lcart-type estim de j . On peut en effet montrer que F = T
(voir exercice 3.3). Nous rejetons H0 si lobservation de la statistique de test, note T (w), est telle
que :
|T (w)| > tnp (1 /2),
o tnp (1 /2) est le quantile dordre (1 /2) dune loi de Student (n p) degrs de libert.
Cest sous cette forme que le test de significativit dun coefficient apparat dans tous les logiciels de
statistique. Il est donc compltement quivalent au test gnral que nous avons propos, lorsquon
spcialise celui-ci la nullit dun seul coefficient.
3.3.4 Test de Fisher global

Si des connaissances a priori du phnomne assurent lexistence dun terme constant dans la r-
gression, alors pour tester linfluence des autres rgresseurs (non constants) sur la rponse Y , on
regarde si E[Y ] = 1 . En dautres termes, on teste si tous les coefficients sont nuls, except la
constante.
Ce test est appel test de Fisher global. Dans ce cas Y0 = y1 et nous avons la statistique de test
suivante :
kY y1k2 /(p 1) p1
F = Fnp .
2
kY Y k /(n p)
On peut aussi lexprimer partir du coefficient de dtermination R2 vu au Chapitre 2 :
np R2
F = .
p 1 1 R2
Ce test est appel le test du R2 par certains logiciels statistiques.
3.3.5 Lien avec le Rapport de Vraisemblance Maximale

Nous allons maintenant faire le lien entre le test gnral que nous avons propos et le test du
rapport de vraisemblance maximale. Nous avons vu en dbut du chapitre que la vraisemblance
scrit de la faon suivante :
n/2
2 1 1 2
L(Y, , ) = exp 2 kY Xk .
2 2 2

Cette vraisemblance est maximale lorsque = est lestimateur des MCO et que 2 = 2
mv =
2
||Y X || /n. Nous avons alors :

sup L(Y, , 2 ) = L(Y, , 2
mv )
,2
!n/2
n n
= e 2
2
2||Y X ||
n n/2 n
= e 2 ,
2SCR
o SCR correspond la somme des carrs rsiduels, cest--dire SCR = ||Y X || 2 . Sous lhy-
pothse H0 , nous obtenons de faon vidente le rsultat suivant :
n/2
n n
2
sup L0 (Y, 0 , ) = e 2 = L0 (Y, 0 ,
02 ),
,2 2SCR0
o SCR0 correspond la somme des carrs rsiduels sous H0 , cest--dire SCR0 = ||Y X0 0 ||2 ,
02 = SCR0 /n. On dfinit alors le test du Rapport de Vraisemblance Maximale par la rgion
et
critique :
( )
L0 (Y, 0 ,
02 )
D = Y R : =n
< 0 .

L(Y, , 2 ) mv
La statistique du Rapport de Vraisemblance Maximale vaut donc ici :

SCR0 n/2
= .
SCR
Le test du Rapport de Vraisemblance Maximale rejette H0 lorsque la statistique est infrieure
une valeur 0 dfinie de faon avoir le niveau du test gal . Il reste connatre la distribution
(au moins sous H0 ) de . Dfinissons, pour positif, la fonction g suivante :
g() = 2/n 1.
La fonction g est dcroissante donc < 0 si et seulement si g() > g(0 ). Cette fonction g va
nous permettre de nous ramener des statistiques dont la loi est connue. Nous avons en effet :
SCR0 SCR np SCR0 SCR
g() > g(0 ) > g(0 ) > f0 ,
SCR p p0 SCR
o f0 est dtermin par :

np SCR0 SCR
PH0 > f0 = ,
p p0 SCR
q q
cest--dire f0 = fnp (1 ), quantile de la loi de Fisher Fnp (cf. section prcdente). Le test
du Rapport de Vraisemblance Maximale est donc quivalent au test qui rejette H0 lorsque la
statistique :
np SCR0 SCR
F =
p p0 SCR
est suprieure f0 , o f0 la valeur du quantile dordre (1 ) de la loi de Fisher (p p0 , n p)
degrs de libert. Ainsi le test gomtrique que nous avons propos est quivalent au test du
Rapport de Vraisemblance Maximale.

3.4 Estimation sous contraintes

Lespace des solutions est M. Tous les vecteurs de M peuvent scrire comme combinaisons li-
naires des vecteurs colonnes de X. Il arrive parfois que nous souhaitions imposer des contraintes
linaires , par exemple que la premire coordonne de soit gale 1. Nous supposerons en
gnral que nous imposons q contraintes linairement indpendantes , ce qui scrit sous la
forme : R = r, o Rqp est une matrice de rang q < p et r un vecteur de taille q.
Proprits 3.3
Lestimateur des Moindres Carrs Ordinaires sous contrainte, not c , vaut :
c = + (X X)1 R [R(X X)1 R ]1 (r R).

Preuve. Nous voulons minimiser S() sous la contrainte R = r. Ecrivons le lagrangien :
L = S() (R r).
Les conditions de Lagrange permettent dobtenir un minimum :

L
= 2X Y + 2X X c R
= 0,

L = Rc r = 0,

Multiplions gauche la premire galit par R(X X)1 , nous obtenons
2R(X X)1 X Y + 2R(X X)1 X X c R(X X)1 R

= 0
2R(X X)1 X Y + 2Rc R(X X)1 R = 0
2R(X X)1 X Y + 2r R(X X)1 R = 0.
:
Nous obtenons alors pour

= 2 R(X X)1 R 1 r R(X X)1 X Y .

par cette expression dans la premire quation :

Remplaons ensuite
1
2X Y + 2X X c 2R R(X X)1 R r R(X X)1 X Y = 0,
do nous dduisons c :
1
c = (X X)1 X Y + (X X)1 R R(X X)1 R
(r R)
1
= + (X X)1 R R(X X)1 R
(r R).

3.5 Exemple
Nous allons traiter 50 donnes journalires prsentes en annexe. La variable expliquer est la
concentration en ozone note O3 et les variables explicatives sont la temprature T12, le vent Vx et
la nbulosit Ne12.
> a <- lm(O3 T12+Vx+Ne12,data=DONNEE)

> summary(a)

3.6. Exercices 63
Call:
lm(formula = O3 T12 + Vx + Ne12, data = DONNEE))
Residuals:
-29.0441 -8.4833 0.7857 7.7011 28.2919
Coefficients :
(Intercept) 84.5483 13.6065 6.214 1.38e-07 ***
T12 1.3150 0.4974 2.644 0.01118 *
Vx 0.4864 0.1675 2.903 0.00565 **
Ne12 -4.8935 1.0270 -4.765 1.93e-05 ***
-
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Pour tous les coefficients pris sparment, nous refusons au seuil = 5% lhypothse H0 : j = 0.
La dernire ligne de la sortie du logiciel donne la statistique du test de Fisher global : Tous les
coefficients sont nuls sauf la constante. Nous avions 50 observations, nous avons estim 4 para-
mtres et donc les degrs de libert de la loi de Fisher sont bien (3,46). Nous refusons nouveau
H0 . De faon gnrale, il est clair qu moins davoir propos nimporte quoi comme rgresseurs,
ce test est toujours rejet...
3.6 Exercices
Exercice 3.1 (QCM)
1. Nous pouvons justifier les MC quand N (0, 2 I) via lapplication du maximum de vrai-
semblance :
A. Oui ;
B. Non ;
C. Aucun rapport entre les deux mthodes.
2. Y a-t-il une diffrence entre les estimateurs des MC et e du maximum de vraisemblance ?
A. Oui ;
B. Non ;
C. Pas toujours, cela dpend de la loi des erreurs.
2 des MC et
3. Y a-t-il une diffrence entre les estimateurs e2 du maximum de vraisemblance
2
quand N (0, I) ?
A. Oui ;
B. Non ;
C. Pas toujours, cela dpend de la loi des erreurs.
4. Le rectangle form par les intervalles de confiance de niveau individuels de 1 et 2 cor-
respond la rgion de confiance simultane de niveau de la paire (1 , 2 ).
A. Oui ;
B. Non ;
C. Cela dpend des donnes.

5. Nous avons n observations et p variables explicatives, nous supposons que suit une loi
normale, nous voulons tester H0 : 2 = 3 = 4 = 0. Quelle va tre la loi de la statistique de
test ?
A. Fp3,np ;
B. F3,np ;
C. Une autre loi.
Exercice 3.2 (Analyse de sorties logiciel)

Nous voulons expliquer la concentration de lozone sur Rennes en fonction des variables T9, T12,
Ne9, Ne12 et Vx. Les sorties donnes par R sont ( une vache prs) :
Coefficients :
(Intercept) 62 10 1 0
T9 -4 2 -5 0
T12 5 0.75 3 0
Ne9 -1.5 1 4 0.13
Ne12 -0.5 0.5 5 0.32
Vx 0.8 0.15 5.3 0
-
Residual standard error: 16 on 124 degrees of freedom
F-statistic: 6 on 7 and 8 DF, p-value: 0
1. Complter approximativement la sortie ci-dessus.

2. Rappeler la statistique de test et tester la nullit des paramtres sparment au seuil de 5 %.
3. Rappeler la statistique de test et tester la nullit simultane des paramtres autres que la
constante au seuil de 5 %.
4. Les variables Ne9 et Ne12 ne semblent pas influentes et nous souhaitons tester la nullit
simultane de Ne9 et Ne12 . Proposer un test et leffectuer partir des rsultats numriques
suivants :
Coefficients :
(Intercept) 66 11 6 0
T9 -5 1 -5 0
T12 6 0.75 8 0
Vx 1 0.2 5 0
-
Exercice 3.3 (Equivalence du test T et du test F )

On souhaite montrer lquivalence entre les tests de Student et de Fisher pour la nullit dun
paramtre. On considre donc le modle Y = X + sous les hypothses classiques, pour lequel
on veut tester la nullit du dernier coefficient p .

3.6. Exercices 65
1. Rappeler la statistique T du test de Student sous lhypothse H0 : p = 0.

2. Donner la statistique F du test de Fisher pour les modles embots correspondants.
3. Soit Tn une variable suivant une loi de Student n degrs de libert. Rappeler sa dfinition
et en dduire la loi suivie par la variable Fn = Tn2 .
4. On note la matrice du plan dexprience sous forme bloc X = [X0 |Xp ], o X0 = [X1 | . . . |Xp1 ]
est la matrice n (p 1) des (p 1) premires colonnes de X, et Xp est sa dernire colonne.
Ecrire la matrice X X sous forme de 4 blocs.
5. Grce la formule dinversion matricielle par blocs, en dduire que
[(X X)1 ]pp = (Xp (In P0 )Xp )1
o P0 est la matrice nn de projection orthogonale sur lespace M0 engendr par les colonnes
de X0 .
6. En notant Y et Y0 les projets orthogonaux de Y sur M et M0 , et en justifiant le fait que
Y0 = P0 Y = P0 P Y = P0 Y
montrer que
Y Y0 = p (In P0 )Xp
7. En dduire que F = T 2 et conclure.
Exercice 3.4 (Un modle 3 variables explicatives)

On considre un modle de rgression de la forme :
yi = 1 + 2 xi,2 + 3 xi,3 + 4 xi,4 + i , 1 i n.
Les xi,j sont supposes non alatoires. Les erreurs i du modle sont supposes alatoires indpen-
dantes gaussiennes centres de mme variance 2 . On pose comme dhabitude :

1 x1,2 x1,3 x1,4 y1 1
2
X = ... .. ..
.
. . , Y = .. , =
3 .
1 xn,2 xn,3 xn,4 yn 4
Un calcul prliminaire a donn

50 0 0 0 100
0 20 15 4 50
X X = 0 15 30 10
,
X Y =
40 , Y Y = 640.
0 4 10 40 80
On admettra que
1
20 15 4 1100 560 30
15 30 10 = 1 560 784 140 .
13720
4 10 40 30 140 375
estimateur des moindres carrs de , la somme des carrs des rsidus P50
1. Calculer , 2i ,
i=1
et donner lestimateur de 2 .
2. Donner un intervalle de confiance pour 2 , au niveau 95%. Faire de mme pour 2 (on donne
c1 = 29 et c2 = 66 pour les quantiles dordre 2,5% et 97,5% dun chi-deux 46 ddl).

3 (0, 95) =
3. Tester la validit globale du modle (2 = 3 = 4 = 0) au niveau 5% (on donne f46
2.80 pour le quantile dordre 95% dune Fisher (3,46) ddl).
4. On suppose x51,2 = 1, x51,3 = 1 et x51,4 = 0, 5. Donner un intervalle de prvision 95%
pour y51 .
Exercice 3.5 (Modle de Cobb-Douglas)

Nous disposons pour n entreprises de la valeur du capital Ki , de lemploi Li et de la valeur ajoute
Vi . Nous supposons que la fonction de production de ces entreprises est du type Cobb-Douglas :
Vi = Li Ki ,
soit en passant en logarithmes :
log Vi = + log Li + log Ki . (3.2)
Le modle linaire associ est :
log Vi = + log Li + log Ki + i ,
o les i sont supposes i.i.d. de loi N (0, 2 ).

1. Ecrivez le modle sous la forme matricielle Y = Xb + en prcisant Y , X et b. Rappelez
lexpression de lestimateur des MCO b. Donnez sa matrice de variance-covariance. Donnez
un estimateur sans biais de 2 et un estimateur sans biais de Var(b).
2. Pour 1658 entreprises, nous avons obtenu par les MCO les rsultats suivants :

log Vi = 3.136 + 0.738 log Li + 0.282 log Ki
R2 = 0.945

SCR = 148.27.
Nous donnons aussi :

0.0288 0.0012 0.0034
(X X)1 = 0.0012 0.0016 0.0010
0.0034 0.0010 0.0009
2 et une estimation de Var(b).

Calculez
3. Donnez un intervalle de confiance au niveau 95% pour . Mme question pour .
4. Testez au niveau 5% H0 : = 0, contre H1 : > 0.
5. Nous voulons tester lhypothse selon laquelle les rendements dchelle sont constants (une
fonction de production F est rendement dchelle constant si R+ , F (L, K) =
F (L, K)). Quelles sont les contraintes vrifies par le modle lorsque les rendements dchelle
sont constants ? Tester au niveau 5% H0 : les rendements sont constants, contre H1 : les ren-
dements sont croissants.
Exercice 3.6 (Modle deux variables explicatives)

On considre le modle de rgression suivant :
yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.

3.6. Exercices 67
Les xi,j sont des variables exognes du modle, les i sont des variables alatoires indpendantes,
de loi normale centre admettant la mme variance 2 . En posant :

1 x1,2 x1,3 y1
X = ... .. .. et Y = .. ,

. . .
1 xn,2 xn,3 yn
on a observ :

30 20 0 15
X X = 20 20 0 , X Y = 20 , Y Y = 59.5.
0 0 10 10
1. Dterminer la valeur de n, la moyenne des xi,3 , le coefficient de corrlation des xi,2 et des
xi,3 .
2. Estimer 1 , 2 , 3 , 2 par la mthode des moindres carrs ordinaires.
3. Calculer pour 2 un intervalle de confiance 95% et tester lhypothse 3 = 0.8 au niveau
10%.
4. Tester 2 + 3 = 3 contre 2 + 3 6= 3, au niveau 5%.
5. Que vaut y, moyenne empirique des yi ? En dduire le coefficient de dtermination ajust
Ra2 .
6. Construire un intervalle de prvision 95% de yn+1 connaissant : xn+1,2 = 3 et xn+1,3 = 0, 5.
Exercice 3.7 (Modle htroscdastique)

On considre n observations y1 , . . . , yn dune variable dfinie sur une certaine population, et n
kuplets xi (xi = [xi1 , . . . , xik ]) correspondant aux valeurs prises par k autres variables sur les
mmes lments de cette population. On suppose que pour tout i, yi est la valeur prise par une
variable alatoire Yi , et quil existe Rk pour lequel :

Yi N xi , i2 1 i n,
o :
reprsente un vecteur de Rk : = [1 , . . . , k ] ,
Les Yi sont supposes indpendantes entre elles.
Enfin, les valeurs i2 des variances dpendent de lappartenance p sous-populations des lments
sur lesquels les variables sont observes. En regroupant les indices des Yi selon ces sous-populations,
on posera :
I1 = {1, . . . , n1 }, indices des n1 lments de la premire sous-population ;
I2 = {n1 + 1, . . . , n1 + n2 }, indices des n2 lments de la deuxime sous-population ;
... ;
I = {n1 + . . . + n1 + 1, . . . , n1 + . . . + n1 + n }, indices des n lments de la -me sous-
population ;
... ;
Ip = {n1 + . . . + np1 + 1, . . . , n}, indices des np lments de la dernire sous-population.
On admettra lhypothse suivante : si i I , i2 = 2 . Autrement dit, pour les n1 variables

correspondant aux lments de la premire sous-population la valeur est 2 , pour les n2 variables
correspondant aux lments de la deuxime sous-population la valeur est 2 2 , etc., jusqu p 2
pour la variance des variables correspondant aux lments de la dernire sous-population. On veut
estimer et 2 par la mthode du maximum de vraisemblance. On notera , 2 ces estimateurs.


1. Que vaut fYi (yi ), fYi reprsentant la densit de la loi normale N xi , i2 ?
2. Montrer que et 2 sont solutions du systme dquations :
( Pp 1 P
xi )2 = n 2
iI (yiP
=1 P
p 1 (3.3)
j = 1, . . . , k =1 iI (yi xi ) xij = 0.
3. Montrer que le systme (3.3) quivaut :

kA (Y X)k2 = n 2
(3.4)
X A2 (Y X) = 0.
o k.k2 reprsente la norme euclidienne usuelle dans Rn , X la matrice (n k) du plan

dexprience, Y le vecteur (n 1) des observations yi , A la matrice (n n) diagonale dont
llment (i, i) vaut 1l si i Il .

4. En supposant que X A2 X est inversible, exprimer et 2.
2 = kV k2 , o V suit une loi gaussienne centre.
5. Montrer que n
h i
6. En dduire que E kV k2 est la trace de la matrice de variance-covariance de V .
2 /(n k) est un estimateur sans biais de 2 .
7. Montrer que n
8. On note X la matrice (n k) forme par les lignes dindices I de X, suppose de rang
plein, Y le vecteur colonne (n 1) des composantes dindices I de Y . En posant =
(X X )1 X Y , montrer que est un estimateur sans biais de .
9. Que peut-on dire de la diffrence des matrices de variance-covariance de et de ?

On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en
centimtres) 1m30 du sol et de la racine carre de celle-ci. On a relev n = 1429 couples (xi , yi ),
le nuage de points tant reprsent figure 3.3. On considre donc le modle de rgression suivant :
28
hauteur
26
24
22
20
18
16
14
12
Circonfrence
10
20 30 40 50 60 70 80
Figure 3.3 Nuage de points pour les eucalyptus.

yi = 1 + 2 xi + 3 xi + i , 1 i n.

3.6. Exercices 69
Les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme
variance 2 . En posant :

1 x1 x1 y1
X = ... ... .. et Y = .. ,

. .

1 xn xn yn
on a observ :

? ? 9792 30310
X X = ? 3306000 ? , X Y = 1462000 , Y Y = 651900.
? 471200 67660 209700
1. Dterminer les ? dans la matrice X X.
2. Que vaut la circonfrence moyenne empirique x?
3. Le calcul donne (en arrondissant !)

1 4.646 0.101 1.379 16.8
X X = 0.101 0.002 0.030 et (X X)1 X Y = 0.30 .
1.379 0.030 0.411 7.62
Que valent les estimateurs 1 , 2 , 3 par la mthode des moindres carrs ? Grce au calcul
de quelques points, reprsenter la courbe obtenue sur la figure 3.3.
4. Calculer lestimateur de 2 pour les moindres carrs.
5. Calculer pour 3 un intervalle de confiance 95%.
6. Tester lhypothse 2 = 0 au niveau de risque 10%.
7. Que vaut la hauteur moyenne empirique y ? En dduire le coefficient de dtermination ajust
Ra2 .
8. Construire un intervalle de prvision 95% de yn+1 connaissant xn+1 = 49.
10. Des deux intervalles prcdents, lequel est le plus grand ? Pouvait-on sy attendre ?
Exercice 3.9 (Consommation de gaz)

Mr Derek Whiteside de la UK Building Research Station a collect la consommation hebdomadaire
de gaz et la temprature moyenne externe de sa maison au sud-est de lAngleterre pendant une
saison. Une rgression pour expliquer la consommation de gaz en fonction de la temprature est
ralise avec le logiciel R. Les rsultats numriques sont les suivants.
Residuals:
-0.97802 -0.11082 0.02672 0.25294 0.63803
Coefficients:
(Intercept) 4.72385 0.12974 ? < 2e-16 ***
Temp -0.27793 ? -11.04 1.05e-11 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


1. Donner le modle et les hypothses de la rgression.

2. Complter le tableau.
3. Soit Z une variable alatoire de loi de Student de degr de libert 28. Quelle est la probabilit
que |Z| soit suprieure 11.04 ?
4. Prciser les lments du test correspondant la ligne Temp du tableau (H0 , H1 , la statistique
de test, sa loi sous H0 , la rgle de dcision).
5. Interprter le nombre Multiple R-Squared: 0.8131 du tableau.
6. Donner une estimation de la variance du terme derreur dans le modle de rgression simple.
7. Expliquer et interprter la dernire ligne du tableau :
F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11.
Voyez-vous une autre faon dobtenir cette p-value ?
8. Pensez-vous que la temprature extrieure a un effet sur la consommation de gaz ? Justifiez
votre rponse.
Exercice 3.10 (Tests)

Nous nous intressons au modle Y = X + sous les hypothses classiques. Nous avons obtenu
sur 21 donnes :
y = 6.683(2.67) + 0.44(2.32) x1 + 0.425(2.47) x2 + 0.171(2.09) x3 + 0.009(2.24) x4 ,

R2 = 0.54
o, pour chaque coefficient, le nombre entre parenthses reprsente la valeur absolue de la statis-
tique de test.
1. Quelles sont les hypothses utilises ?
2. Tester la nullit de 1 au seuil de 5%.
3. Pouvez-vous tester H0 : 3 = 1 contre H1 : 3 6= 1 ?
4. Tester la nullit simultane des paramtres associs aux variables x1 , . . . , x4 au seuil de 5%.
Exercice 3.11 (Moindres carrs ordinaires)

1. Nous considrons le modle de rgression linaire
Y = X + ,
o Y Rn , X est une matrice de taille n p de rang p, Rp et N (0, 2 In ).

(a) Quappelle-t-on estimateur des moindres carrs de ? Rappeler sa formule.
(b) Quelle est linterprtation gomtrique de Y = X (faites un dessin) ?
(c) Rappeler esprances et matrices de covariance de , Y et .
2. Nous considrons dornavant un modle avec 4 variables explicatives (la premire variable
tant la constante). Nous avons observ :

100 20 0 0 60
20 20 0 0
X X = , X Y = 20 , Y Y = 159.
0 0 10 0 10
0 0 0 1 1
(a) Estimer et 2 .

3.6. Exercices 71

(b) Donner un estimateur de la variance de .
(c) Donner un intervalle de confiance pour 2 , au niveau 95%.
(d) Calculer un intervalle de prvision de yn+1 au niveau 95% connaissant : xn+1,2 = 3,
xn+1,3 = 0.5 et xn+1,4 = 2.
Exercice 3.12 (Moindres carrs pondrs)

On suppose le modle suivant
Y = X + ,
o X est la matrice (n p) du plan dexprience, = [1 , . . . , p ] un vecteur de Rp , Y le vecteur

(n 1) des observations yi , le vecteur (n 1) des erreurs i supposes centres et de matrice de
covariance Var() = 2 2 , o est une matrice (n n) diagonale dont llment (i, i) vaut i > 0.
Dans ce modle, les valeurs i sont supposes connues, mais les paramtres et 2 sont inconnus.
1. On considre le modle transform Y = X + , o :
Y = [y1 , . . . , yn ] , avec yi = yi /i ;
X est la matrice (n p) de terme gnrique xij = xij /i ;
= [1 , . . . , n ] , avec i = i /i ;
(a) Donner les relations entre X (respectivement Y , ), X (respectivement Y , ) et .
(b) Dterminer la moyenne et la matrice de covariance du vecteur alatoire .

(c) En supposant X 2 X inversible, dterminer lestimateur des moindres carrs de
. Prciser son biais et sa matrice de covariance.
2 de 2 .
(d) Proposer un estimateur sans biais
2. En revenant au modle initial Y = X + , on suppose maintenant les erreurs i gaussiennes,
plus prcisment N (0, 2 2 ).
(a) Donner la vraisemblance L(Y, , 2 ) du modle.
(b) En dduire que les estimateurs au maximum de vraisemblance mv et 2 sont solutions
mv
de :
1 (Y X) 2 = n 2
X 2 (Y X) = 0.
(c) En dduire les relations entre mv et dune part, entre 2 et

mv 2 dautre part.
(d) Prciser alors la loi de . Que dire de celle de
2 ?
3. Supposons maintenant le modle classique de rgression linaire Y = X + , avec les erreurs
centres et de matrice de covariance Var() = 2 In . Nanmoins, on nobserve pas comme
dhabitude les xi et yi , mais des moyennes par classe. Spcifiquement, les n donnes sont
rparties en L classes C1 , . . . , CL deffectifs respectifs connus n1 , . . . , nL et on a seulement
accs aux moyennes par classe, savoir pour tout {1, . . . , L} :
1 X 1 X
y = yi & x
j = xij
n n
iC iC
P
(a) En notant = 1
n iC i , vrifier que le modle peut se mettre sous la forme Y =
+
X .
(b) Donner la moyenne et la matrice de covariance de
.
(c) Dduire des questions prcdentes des estimateurs de et 2 .

Exercice 3.13 (Octopuss Garden)

On cherche mettre en uvre une stratgie de prdiction du poids utile du poulpe, cest--dire
son poids viscr, partir de son poids non viscr. Cest en effet le poulpe viscr qui est
commercialis. Pour cela, un chantillon de poulpes a t collect en 2003 lors des oprations de
pche dans les eaux mauritaniennes. Vu limportante diffrence de poids entre les poulpes mles
et les poulpes femelles, on tudie ici uniquement les donnes concernant 240 poulpes femelles.
2000
1500
Poids viscr
1000
500
0
0 500 1000 1500 2000 2500

Poids non viscr
Figure 3.4 Poids de poulpe viscr en fonction du poids non viscr (en grammes).
1. Lensemble de ces donnes est reprsent figure 3.4.

(a) Proposer un modle reliant le poids viscr et le poids non viscr dun poulpe.
(b) Rappeler les formules des estimateurs des paramtres du modle.
(Intercept) -2.312146 5.959670 -0.388 0.698
Poids non viscr 0.853169 0.007649 111.545 <2e-16

F-statistic: 1.244e+04 on 1 and 238 DF, p-value: < 2.2e-16
Table 3.1 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple
(sortie R).
(c) A partir du tableau 3.1, donner les estimations numriques des paramtres du modle.
(d) Que reprsente la valeur 0.698 du tableau 3.1 ? Comment la retrouver ( peu prs)
partir de -0.388 et de la table de la loi normale donne en annexe (faire un dessin).
(e) Au vu de cette valeur 0.698, proposer un autre modle reliant les poids viscr et non
viscr.
2. De faon gnrale, considrons un chantillon de n couples de rels (xi , yi ) suivant le modle
yi = xi + i , o les erreurs i sont supposes gaussiennes indpendantes centres et de mme
variance 2 .
(a) Dterminer lestimateur de minimisant la somme des carrs des carts au modle.

3.6. Exercices 73
(b) Retrouver le rsultat prcdent partir de la formule gnrale de lestimateur de r-

gression linaire multiple en considrant la projection du vecteur Y = [y1 , . . . , yn ] sur
la droite vectorielle engendre par le vecteur X = [x1 , . . . , xn ] .
(c) En dduire la variance de . Proposer un estimateur non biais 2 de 2 .
Poids non viscr 0.85073 0.00436 195.1 <2e-16

Table 3.2 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple
avec le modle simplifi (sortie R).
(d) Les rsultats de lanalyse de ce nouveau modle sont fournis dans le tableau 3.2. Localiser
et
2 dans ce tableau.
(e) On veut prdire le poids viscr dun poulpe de poids non viscr x0 . Quelle est la
variance de lerreur de prvision ? Donner un intervalle de confiance 90% autour de la
prvision.
Exercice 3.14 (Comparaison de modles)

On effectue une rgression de y sur deux variables explicatives x et z partir dun chantillon de n
individus, cest--dire que X = [1, x, z], o 1 est le vecteur de taille n compos de 1. On a obtenu
le rsultat suivant :
5 3 0
X X = 3 3 1 .
0 1 1
1. Que vaut n ?
2. Que vaut le coefficient de corrlation linaire empirique entre x et z ?
3. La rgression par moindres carrs ordinaires a donn le rsultat suivant
yi = 1 + 3xi + 4zi + i
et la somme des carrs rsiduelle vaut k k2 = 3.
(a) Exprimer X Y en fonction de (X X) et , et calculer X Y . En dduire y.
(b) Calculer kY k2 . En dduire kY k2 .
(c) Calculer la somme des carrs totale kY y1k2 , le coefficient de dtermination R2 et le
coefficient de dtermination ajust.
4. On sintresse maintenant au modle priv du rgresseur z, cest--dire Y = X0 0 + 0 , o
X0 = [1, x].
(a) Dterminer X0 X0 et X0 Y . En dduire 0 .
(b) Calculer kY0 k2 .
(c) Justifier lgalit kY0 k2 + k
0 k2 = kY k2 + k
k2 . En dduire k 0 k2 , le coefficient de
2
dtermination R0 et le coefficient de dtermination ajust.
5. On veut maintenant comparer les deux modles prcdents.
(a) Effectuer un test de Fisher entre ces deux modles grce aux coefficients de dtermina-
tion. Quen concluez-vous au niveau de risque 5% ?
(b) Proposer un autre moyen darriver au mme rsultat.

3.7 Corrigs
Exercice 3.1 (QCM)
ACABB.
Exercice 3.2 (Analyse de sorties logiciel)

1. Les rsultats sont dans lordre :
6.2, 0.8, 6.66, 1.5, 1, 41, 5, 124.
2. La statistique de test de nullit du paramtre se trouve dans la troisime colonne, nous
conservons H0 pour les paramtres associs Ne9 et Ne12, et la rejetons pour les autres.
3. La statistique de test de nullit simultane des paramtres autres que la constante vaut
np R2 124 0.6233
F () = = 41
p 1 1 R2 5 1 0.6233
Nous rejetons H0 .
4. Nous sommes en prsence de modles embots, nous pouvons appliquer la formule vue dans
le cours :
np R2 R02
F =
p p0 1 R2
124 0.6233 0.5312
= 15.
2 1 0.6233
Nous rejettons H0 , i.e. nous conservons le premier modle. Ainsi, bien que considrs spa-
rment, les paramtres associs Ne9 et Ne12 ntaient pas significativement diffrents de 0,
ce test montre quil serait imprudent de rejeter ces deux variables en mme temps.
Ceci nest pas tonnant : les variables Ne9 et Ne12 sont fortement corrles (peu de change-
ment de nbulosit en 3 heures), si bien que lorsque lune est dans le modle, lautre apporte
peu dinformation supplmentaire. Or le test de Student de nullit dun coefficient teste jus-
tement la pertinence dune variable lorsque toutes les autres sont prsentes. Le test de Fisher,
par contre, nous apprend que linformation apporte par ces variables nest pas ngligeable.
Au total, la solution serait donc de conserver lune des deux variables et de supprimer lautre.
Dernire remarque : la preuve de la Proposition 3.3 montre que le test de Fisher entre mo-
dles embots est li aux rgions de confiance simultanes dfinies par la Proprit 3.2 (ii).
Dans notre cas prcis, la conclusion est la suivante : si lon traait le rectangle de confiance
95% issu des intervalles de confiance de Ne9 et Ne12 , alors le point (0, 0) serait dans ce
rectangle. Par contre, il ne serait pas dans lellipse de confiance 95%. On voit donc sur cet
exemple la pertinence des rgions de confiance simultanes lorsquon a affaire des variables
trs corrles.
Exercice 3.3 (Equivalence du test T et du test F )

1. Sous lhypothse H0 : p = 0, le test de Student scrit
p
T = Tnp

p
p est lestimateur de lcart-type de p , cest--dire
o
q

p =
p = (X X)1 p,p .

3.7. Corrigs 75
2. Sous lhypothse H0 : p = 0, le test de Fisher scrit
kY Y0 k2 1
F = Fnp
2

o Y0 est le projet orthogonal de Y sur le sous-espace engendr par les (p 1) premires

colonnes de X.
3. Soit Z N (0, 1) indpendante de Sn 2n , alors par dfinition
Z
Tn = p Tn ,
Sn /n
loi de Student n degrs de libert. Il suffit alors de voir que Z 2 suit une loi du chi-deux
un seul degr de libert pour en dduire que
Z2
Fn = Tn2 = Fn1 ,
Sn /n
loi de Fisher 1 et n degrs de libert. En particulier, les quantiles dune loi de Fisher 1
et n degrs de libert sont les carrs des quantiles dune loi de Student n degrs de libert.
4. Avec les notations de lnonc, la matrice X X sous forme blocs comme suit

X0 X0 X0 Xp
X X = .
Xp X0 Xp Xp
5. La formule dinversion matricielle par blocs (B.2) rappele en Annexe donne alors pour le
dernier coefficient diagonal
1 1
[(X X)1 ]pp = Xp Xp Xp X0 (X0 X0 )1 X0 Xp = Xp (In X0 (X0 X0 )1 X0 )Xp
do
1
= Xp (In P0 )Xp
[(X X)1 ]pp
o P0 = X0 (X0 X0 )1 X0 est la matrice n n de projection orthogonale sur lespace M0
engendr par les (p 1) colonnes de X0 .
6. Puisque les (p 1) colonnes de X0 correspondent aux p premires colonnes de X, il est clair
que M0 est un sous-espace de M donc que P0 P = P0 . Puisque par dfinition Y0 = P0 Y et
Y = P Y , on en dduit que
Y0 = P0 Y = P0 P Y = P0 Y .
Dcomposons Y sur la base des p vecteurs de M
Y = X = 1 X1 + + p1 Xp1 + p Xp
alors par linarit de P0 et puisque P0 Xj = Xj pour tout j {1, . . . , p 1}
Y0 = P0 Y = P0 (1 X1 + + p1 Xp1 + p Xp ) = 1 X1 + + p1 Xp1 + p P0 Xp
de sorte que
Y Y0 = p Xp p P0 Xp = p (In P0 )Xp

7. La question prcdente permet dcrire
kY Y0 k2 = kp (In P0 )Xp k2 = p2 ((In P0 )Xp ) ((In P0 )Xp ) = p2 Xp (In P0 )Xp
la dernire galit venant de ce que (In P0 ) est la projection orthogonale sur M

0
(In P0 ) (In P0 ) = (In P0 )2 = (In P0 ).
La comparaison montre bien que F = T 2 . En dautres termes, les deux tests de nullit du
coefficient p sont compltement quivalents. Notons cependant que si on veut effectuer un
test unilatral, cest Student qui simpose.
Exercice 3.4 (Un modle 3 variables explicatives)

1. Lestimateur des moindres carrs de est donn par = (X X)1 X Y . La matrice (X X)1
a la mme forme que X X, cest--dire diagonale par blocs avec pour premier bloc diagonal
le coefficient ((X X)1 )1,1 = 1/50 et comme second bloc diagonal la matrice 3 3 donne
dans lnonc :
1100 560 30
1 560 784 140 .
13720
30 140 375
Il en rsulte que
2
2.55

0.57 .
1.89
P50
La somme des carrs des rsidus 2i
i=1 scrit encore
k2 = kY Y k2 = kY k2 kY k2 ,
k
cette dernire relation dcoulant de Pythagore. Le premier terme ne pose pas problme
puisque kY k2 = Y Y = 640. Pour le second, il suffit de remarquer que
2 = (X X) = Y X 458.
kY k2 = kX k
k2 182. On en dduit que lestimateur de 2

Ainsi la somme des carrs des rsidus vaut k
vaut
k2
k
2 =
3.96.
46
2. Puisquon sait que :
2 2 2 2
= q Tn4 = T46 ,

2 (X X)1
2,2
on en dduit quun intervalle de confiance 95% pour 2 est :

q q

I(2 ) = 2 t46 (0.975) 1
(X X)2,2 ; 2 + t46 (0.975) 1
(X X)2,2 ,
cest--dire :
h p p i
I(2 ) 2.55 2.0 3.96 1100/13720; 2.55 + 2.0 3.96 1100/13720 [1.42; 3.68].

3.7. Corrigs 77
Un intervalle de confiance 95% pour 2 est :

2 46 2 46 2 k2 k
k k2
I( ) = , = , ,
c2 c1 c2 c1
o c1 et c2 sont tels que P(c1 246 c2 ) = 0.95. En loccurrence, on trouve c1 29 et
c2 66, ce qui donne I( 2 ) [2.76; 6.28].
3. Le test de validit globale du modle au niveau 5% peut se faire via la statistique de Fisher.
Sous lhypothse de nullit de tous les coefficients sauf la constante, on a en effet :
n p kY y1k2 46 kY y1k2 3
F () = = F46
p1 kY Y k2 3 kY Y k2
Or y = 100/50 = 2 se lit sur la premire coordonne du vecteur X Y , et la constante faisant
partie du modle, il vient
kY y1k2 = kY k2 k
y 1k2 = kY k2 50
y 2 458 200 = 258.
Dautre part, on a dj vu que kY Y k2 182. Do F () 21.7. Or le quantile dordre 0.95
dune Fisher (3, 46) degrs de libert vaut environ 2.81. Lhypothse (2 = 3 = 4 = 0)
est donc rejete.
4. En notant x51 = [1, 1, 1, 0.5], la valeur prdite pour y51 est :
y51 = x51 6.07
et un intervalle de prvision 95% pour y51 est :
q q
I(y51 ) = y51 t46 (0.975) 1 1
1 + x51 (X X) x51 ,
1 + x51 (X X) x51 ; y51 + t46 (0.975)
soit I [1.61; 10.53].
Exercice 3.5 (Modle de Cobb-Douglas)

1. Avec les notations

log V1 1 log L1 log K1 1
Y =
..
X = ...
.. ..
b= = ...

. . .
log Vn 1 log Ln log Kn n
le modle scrit sous la forme matricielle Y = Xb + . Lestimateur des MCO b scrit

alors comme dhabitude b = (X X)1 XY . Sa matrice de variance-covariance est Var(b) =
2 (X X)1 . En notant Y = X b, un estimateur sans biais de 2 est
kY Y k2
2 =
,
n3
et un estimateur sans biais de Var(b) est
2 (X X)1 .
2 se dduit de la somme des carrs rsiduelle :
2. Lestimateur
SCR 148.27
2 =
= 0.09
n3 1655
Une estimation de Var(b) est donc

0.0288 0.0012 0.0034
V (b) = 0.09 (X X)1 = 0.09 0.0012 0.0016 0.0010 .
0.0034 0.0010 0.0009


= q Tn3 = T1655 ,

(X X)1
2,2
on en dduit quun intervalle de confiance 95% pour est :

q q

I() = t1655 (0.975) 1
(X X)2,2 ; + t1655 (0.975) 1
(X X)2,2 ,
cest--dire :
h i
I() 0.738 1.96 0.09 0.0016; 0.738 + 1.96 0.09 0.0016 [0.71; 0.76].
De mme, un intervalle de confiance 95% pour est

h i
I() 0.282 1.96 0.09 0.0009; 0.282 + 1.96 0.09 0.0009 [0.26; 0.30].
4. Sous H0 : = 0, on sait que

= q Tn3 = T1655 .

(X X)1
3,3
On obtient une statistique de test gale

0.282
T () = 31.3 > 1.645 = t1655 (0.95),
0.09 0.0009
quantile dordre 0.95 dune loi de Student 1655 degrs de libert. Nous rejetons donc
lhypothse H0 .
5. Puisque V = F (L, K) = L K , il vient directement
F (L, K) = + L K = + F (L, K).
Donc dire que le rendement dchelle est constant, cest encore dire que + = 1. A contrario,
les rendements sont croissants si F (L, K) > F (L, K), cest--dire que + > 1. Nous
allons donc tester au niveau 5% H0 : + = 1, contre H1 : + > 1.
Sous lhypothse H0 , nous savons que
+ 1
Tn3 = T1655 ,

+

dont le quantile dordre 0.95 est 1.645. Il nous suffit donc de calculer . Or de faon
+
gnrale, on a la dcomposition :
Var( + ) = Var()
+ Var( ),
) + 2Cov(,
q
donc lestimateur cherch est
+
=
+ ), o :
Var(
+ ) = Var(
Var( ) + Var(
) + 2Cov(
, ),
quantits qui se dduisent de la matrice V (b) calcule prcdemment. Ceci donne

+ ) 0.09(0.0016 + 0.0009 2 0.001) = 4.5 105 .
Var(

3.7. Corrigs 79
On en dduit que la statistique de test vaut

0.738 + 0.282 1
T () = 2.98 > 1.645
4.5 105
En conclusion, lhypothse selon laquelle les rendements seraient constants est refuse. Au
niveau 5%, on accepte lhypothse selon laquelle ils sont croissants.
Exercice 3.6 (Modle deux variables explicatives)

Exercice 3.7 (Modle htroscdastique)


Exercice 3.9 (Consommation de gaz)

Exercice 3.10 (Tests)

Exercice 3.11 (Moindres carrs ordinaires)

Exercice 3.12 (Moindres carrs pondrs)

Exercice 3.13 (Octopuss Garden)

Exercice 3.14 (Comparaison de modles)


Chapitre 4
Validation du modle
Introduction
En prsence dun chantillon de n observations (xi , yi )1in valeurs dans Rp R, les grandes
tapes de la rgression linaire sont les suivantes :
1. Modlisation. Nous considrons un modle de la forme :
i {1, , n} yi = 1 xi1 + 2 xi2 + + p xip + i = xi + i ,
qui se rcrit sous forme matricielle :
Yn1 = Xnp p1 + n1 ,
sous les hypothses :

(H1 ) : rg(X) = p
(H)
(H2 ) : N (0, 2 In )
2. Estimation. Nous estimons alors les paramtres et 2 par la mthode des moindres
carrs, laquelle est grosso modo quivalente la mthode du maximum de vraisemblance,
ce qui donne les estimateurs et
2 . Des lois de et
2 , nous avons dduit des intervalles
et/ou rgions de confiance pour et 2 , et avons pu construire des tests dhypothses.
3. Validation. Les deux premiers points tant acquis, il sagit dans ce chapitre de valider nos
hypothses. Autant la vrification de (H1 ) ne pose pas problme, autant celle de (H2 ) savre
dlicate. Nous nous contenterons donc de donner quelques pistes.
4.1 Analyse des rsidus

Lexamen des rsidus constitue une tape primordiale de la rgression linaire. Cette tape tant
essentiellement fonde sur des mthodes graphiques, il est difficile davoir des rgles strictes de
dcision. Lobjectif de cette partie est de prsenter ces mthodes graphiques. Commenons par
rappeler les dfinitions des diffrents rsidus.
4.1.1 Rsidus et valeurs aberrantes

Les erreurs i sont estimes par i = yi yi . En notant H = PX = X(X X)1 X la matrice de
projection et hij son terme gnrique, nous avons :
82 Chapitre 4. Validation du modle
Erreurs Rsidus
E[i ] = 0 E[i ] = 0
Var() = 2 I ) = 2 (I H)
Var(
i ) = 2 (1 hii ), qui dpend donc de i. Afin dliminer

Il sensuit que la variance de i est Var(
cette non-homognit des variances des rsidus, nous prfrerions utiliser les rsidus normaliss :
i
ri = .
1 hii
Mais est inconnu, il convient donc de le remplacer par

, ce qui donne des rsidus dits standar-
diss :
i
ti = .
1 hii

Puisquon a simplement remplac par son estime , on pourrait croire que ces rsidus suivent
une loi de Student : patatras, il nen est rien ! Cest pourquoi nous utiliserons plutt les rsidus
studentiss, souvent appels studentized residuals dans les logiciels et dfinis par :

ti = i ,
(i) 1 hii

o
(i) est lestimateur de dans le modle linaire priv de lobservation i.
Ces rsidus ti suivent bien une loi de Student (cf. Thorme 4.1 ci-aprs). Ils sont construits selon
la logique de validation croise (en abrg VC, ou plus prcisment mthode du leave-one-out),
cest--dire comme suit :
1. Dans un premier temps, nous estimons les paramtres et 2 laide de tous les individus
sauf le ime , nous obtenons ainsi les estimateurs (i) et 2 ;
(i)
2. Dans un second temps, nous considrons que la ime observation xi = [xi1 , . . . , xip ] est une
nouvelle observation et nous prvoyons yi par yip de faon classique : yip = xi (i) .
Le chapitre prcdent permet alors de prciser la loi suivante :
yi yip
q Tnp1 ,

(i) 1 + xi (X(i)
X )1 x
(i) i
loi de Student (n p 1) ddl puisque les estimateurs (i) et 2 sont construits partir de (n 1)
(i)
observations. Nous allons maintenant montrer que les rsidus studentiss par validation croise ti
correspondent exactement ces erreurs de prvision normalises.
Thorme 4.1
Si la matrice X est de plein rang et si la suppression de la ligne i ne modifie pas le rang de la
matrice, alors les rsidus studentiss par validation croise vrifient :
yi yi yi yip
ti = i = = q Tnp1 .
(i) 1 hii
(i) 1 hii
(i) 1 + xi (X(i)
X )1 x
(i) i

4.1. Analyse des rsidus 83
Preuve. Nous considrons la matrice X du plan dexprience, de taille n p, X(i) la matrice X

prive de la ime ligne xi , donc de taille (n 1) p, et Y(i) le vecteur Y priv de sa ime coordonne,
donc de taille (n 1) 1. Nous aurons alors besoin des ingrdients matriciels suivants, dont la
vrification est laisse au lecteur :
1. Lemme dinversion matricielle : Soit M une matrice symtrique inversible de taille p p
et u et v deux vecteurs de taille p, alors :
1 M 1 uv M 1
M + uv = M 1 .
1 + u M 1 v
2. X X = X(i)
X
(i) + xi xi .
3. X Y = X(i)
Y
(i) + xi yi .
4. hii = xi (X X)1 xi .
Dans notre situation, le lemme dinversion matricielle scrit :
(X X)1 xi xi (X X)1
(X(i) X(i) )1 = (X X xi xi )1 = (X X)1 + ,
1 xi (X X)1 xi
et la relation sur hii ci-dessus donne :
1
(X(i) X(i) )1 = (X X)1 + (X X)1 xi xi (X X)1 .
1 hii
Calculons alors la prvision yip , o (i) est lestimateur de obtenu sans la ime observation :
yip = xi (i) = xi (X(i)

X(i) )1 X(i)
Y(i)

(X X)1 xi xi (X X)1
= xi (X X)1 + X Y xi y i
1 hii
hii h2ii
= xi + xi hii yi yi
1 hii 1 hii
1 hii
= yi yi .
1 hii 1 hii
On dduit de cette dernire relation que i = yi yi = (1 hii )(yi yip ), do il vient :
p
i (1 hii )(yi yip )
ti = = .
(i) 1 hii

(i)
X )1
Pour terminer, remarquons quen multipliant la relation obtenue ci-dessus pour (X(i) (i)

gauche par xi et droite par xi , on obtient :
h2ii
xi (X(i)

X(i) )1 xi = hii + .
1 hii
hii 1
1 + xi (X(i)

X(i) )1 xi = 1+ = ,
1 hii 1 hii
ce qui permet dtablir lgalit :
yi yi yi yip
ti = i = = q .
(i) 1 hii
(i) 1 hii
(i) 1 + xi (X(i)
X )1 x
(i) i
Le rsultat sur la loi de lerreur de prvision vu au chapitre prcdent sapplique alors directement
et ceci achve la preuve.

En conclusion, bien que les rsidus utiliss soient souvent les i , ceux-ci nont pas la mme variance
selon lobservation i et sont donc dconseiller. Afin de remdier cette htroscdasticit, nous
prfrerons utiliser les rsidus studentiss ti pour dtecter des valeurs aberrantes.
Remarque. Dun point de vue algorithmique, et contrairement aux ti , les ti semblent coteux
puisque chacun ncessite le calcul de
(i) . On peut en fait montrer la relation :
s
np1
ti = ti ,
n p t2i
qui assure quon ne paie rien de plus en temps de calcul remplacer les ti par les ti (voir par
exemple larticle dAtkinson [2]). Notons aussi sur cette formule que les ti sont une fonction crois-
sante des ti . En dautres termes, les plus grandes valeurs des rsidus studentiss correspondent aux
plus grandes valeurs des rsidus standardiss.
Une valeur aberrante est une observation qui est mal explique par le modle et qui conduit un
rsidu lev en ce point. Nous pouvons donc la dfinir grce aux rsidus studentiss ti .
Dfinition 4.1
Une donne aberrante est un point (xi , yi ) pour lequel le rsidu studentis par validation croise ti
est lev compar au seuil donn par la loi de Student : |ti | tnp1 (1 /2).
Remarque. En pratique, si = 5% et (n p 1) 30, alors tnp1 (1 /2) 2.
Gnralement, les donnes aberrantes sont dtectes en traant les ti squentiellement ou en fonc-
tion dautres variables (yi , xi , yi , etc.). La dtection des donnes aberrantes ne dpend que de la
valeur des rsidus. Ces reprsentations graphiques permettent de sassurer aussi de la validit du
modle.
3
2
2
1
1
3 2 1 0
0
1
2
5 10 15 20 2 4 6 8 10
(a) (b)
Figure 4.1 Rsidus studentiss corrects (figure a) et rsidus studentiss avec un individu aberrant
vrifier, signal par une flche, et un second moins important (figure b).
La figure 4.1(a) montre un ajustement satisfaisant o aucune structure ne se dgage des rsidus et
o aucun rsidu nest plus grand que la valeur test 2. Remarquons quen thorie % des individus
possdent des valeurs aberrantes. Nous cherchons donc plutt les rsidus dont les valeurs absolues
sont nettement au-dessus de tnp1 (1 /2) 2. Ainsi, en figure 4.1(b), nous nous intresserons
seulement lindividu dsign par une flche.

4.1.2 Analyse de la normalit

Lhypothse de normalit est difficile vrifier. Notons dj que si les erreurs i sont indpendantes
de loi normale N (0, 2 ), les rsidus studentiss ti suivent eux une loi de Student et ne sont pas
indpendants. Nanmoins, si n p, cette loi de Student est quasiment une loi normale.
Laspect quasi gaussien des ti peut alors tre examin de plusieurs faons. Un histogramme est
la mthode la plus grossire. Citons aussi le graphique comparant les quantiles des rsidus estims
lesprance des mmes quantiles sous lhypothse de normalit. Ce type de graphique est appel
Q-Q plot (ou diagramme quantile-quantile).
4.1.3 Analyse de lhomoscdasticit

Il nexiste pas de procdure prcise pour vrifier lhypothse dhomoscdasticit. Nous proposons
plusieurs graphiques possibles pour dtecter une htroscdasticit. Il est recommand de tracer
les rsidus studentiss ti en fonction des valeurs ajustes yi , cest--dire tracer les couples de points
yi , ti ). Si une structure apparat (tendance, cne, vagues), lhypothse dhomoscdasticit risque
(
fort de ne pas tre vrifie. Voyons cela sur un graphique.
3
3.0
2
2.5
1
2.0
0
1.5
|ti |
ti
1
1.0
2
0.5
3
0.0
1 2 3 4 1 2 3 4
yi yi
Figure 4.2 Htroscdasticit des rsidus.
Sur la figure 4.2, lajustement nest pas satisfaisant car la variabilit des rsidus augmente avec
la valeur de yi , on parle de cne de variance croissante. Le second graphique reprsente la valeur
absolue du rsidu avec une estimation de la tendance des rsidus. Cette estimation de la tendance
est obtenue par un lisseur, ici lowess. Ce lisseur, qui est aussi nomm loess, est le plus utilis
pour obtenir ce type de courbe. Il consiste en une rgression par polynmes locaux itre.
Nous voyons que la tendance est croissante, donc que la variance des rsidus augmente le long
de laxe des abscisses. Ce deuxime graphique permet de reprer plus facilement que le premier
les changements de variance ventuels dans les rsidus. Le choix de laxe des abscisses est trs
important et permet (ou non) de dtecter une htroscdasticit. Dautres choix que yi en abscisse
peuvent savrer plus pertinents selon le problme : ce peuvent tre le temps, lindice...
4.1.4 Analyse de la structure des rsidus

Par lhypothse (H2 ), les erreurs i sont supposes tre indpendantes, mais ceci est bien sr im-
possible vrifier puisque ces erreurs sont inconnues : nous navons accs quaux rsidus i , or
ceux-ci ne sont pas indpendants, ils ne sont mme pas dcorrls puisque Var( ) = 2 (I H).
Dun point de vue graphique, une reprsentation des rsidus judicieuse pourra nanmoins per-
mettre de suspecter quelques cas de non-indpendance et de complter lanalyse obtenue par des

tests. Si lon souponne une structuration temporelle (autocorrlation des rsidus), un graphique
temps en abscisse, rsidus en ordonne sera tout indiqu. Si lon souponne une structuration spa-
tiale, un graphique possible consiste en une carte sur laquelle en chacun des points de mesure,
on reprsente un cercle ou un carr (selon le signe du rsidu estim) de taille variable (selon la
valeur absolue du rsidu estim). Ce type de graphique (voir figure 4.3) permettra peut-tre de
dtecter une structuration spatiale (agrgats de ronds ou de carrs, ou au contraire alternance des
ronds/carrs). Si une structuration est observe, un travail sur les rsidus et en particulier sur leur
covariance est alors ncessaire.
Exemple. Le but ici est dexpliquer une variable Y , le nombre de plantes endmiques observes,
par trois variables : la surface de lunit de mesure, laltitude et la latitude. Les rsidus studentiss
sont reprsents sur la carte gographique des emplacements de mesure (figure 4.3). On observe
des agrgats de rsidus positifs ou ngatifs qui semblent indiquer quune structuration spatiale
reste prsente dans les rsidus.
Sur cet exemple, une simple reprsentation des rsidus en fonction de yi ou de lindice i de lob-
servation napporte que peu dinformation. Il importe donc dinsister ici sur le choix adquat de la
reprsentation graphique des rsidus.
21
2.5 1.5 0.5 0.5 1.5 2.5
26 38
13 22
25 Nevada
14
20
24 Californie
8 23 34
4 3 16
10 5 19
7
6
17
18 Mexique
11
2 12 30
15 1
9
Figure 4.3 Exemple de rsidus studentiss structurs spatialement.
Lutilisation dun lisseur peut permettre de dgager une ventuelle structuration dans les rsidus
(voir figure 4.4) et ce de manire aise et rapide, ce qui est primordial. Il est cependant difficile,
voire impossible, de discerner entre une structuration due un oubli dans la modlisation de la
moyenne et une structuration due une mauvaise modlisation de la variance (voir figure 4.4).
Un autre type de structuration des rsidus peut tre d une mauvaise modlisation. Supposons
que nous ayons oubli une variable intervenant dans lexplication de la variable Y . Cet oubli se
retrouvera forcment dans les rsidus, qui sont par dfinition les observations moins les estima-
tions par le modle. Lhypothse dabsence de structuration (Cov(i , j ) = 0 i 6= j) risque de ne
pas tre vrifie. En effet, la composante oublie dans le modle va sadditionner au vrai bruit et
devrait apparatre dans le dessin des rsidus.
Une forme quelconque de structuration dans le graphe des rsidus sera annonciatrice dun mauvais

2
2
1
1
0
0
1
1
2
2
0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5
(a) (b)
Figure 4.4 Tendance sinusodale due des bruits autorgressifs dordre 1, i = i1 + i

(variance mal modlise, graphique a) ou une composante explicative non prise en compte :
x2 = 0.2 sin(3x) (moyenne mal modlise, graphique b).
ajustement du modle. Une fois dtecte une structuration, il suffit, si lon peut dire, dajouter
au modle une variable explicative possdant la mme structuration. Voyons cela sur un exemple
graphique.
La figure (4.5) montre les graphiques dun modle linaire y = + 1 x1 + alors que le vrai
modle est deux variables y = + 1 x1 + 2 x2 + . Lajustement nest pas satisfaisant puis-
quune tendance linaire dcroissante se dgage des rsidus de la troisime reprsentation. Notons
limportance du choix de laxe des abscisses : les deux premiers graphiques, reprsentant les mmes
rsidus, ne laissent pas souponner cette tendance dcroissante. Le modle linaire propos nest
donc pas judicieux, il serait bon dajouter la variable oublie x2 .
3
3
2
2
1
1
0
0
1
1
2
0 10 20 30 40 50 0.0 0.5 1.0 1.5 2.0 2 1 0 1 2

Indice yi x2
Figure 4.5 Rsidus studentiss avec une tendance dcroissante due loubli dune variable x2
dans le modle. Les rsidus studentiss sont reprsents comme fonctions du numro de lobserva-
tion (indice), de lestimation du modle yi et comme fonction de x2 .
Malgr tout, ce type de diagnostic peut tre insuffisant. Une autre mthode plus prcise, mais fas-
tidieuse, consiste regarder, variable explicative par variable explicative, si la variable considre
agit bien de manire linaire sur la variable expliquer. Ce type danalyse sera men avec des rsi-
dus appels rsidus partiels (ou rsidus partiels augments) ou encore via des rgressions partielles.
Ces graphiques permettent de constater si une variable candidate est bien utile au modle et, le cas
chant, de trouver dventuelles fonctions non linaires de variables explicatives dj prsentes.
Rappelons quune fonction non linaire f fixe dune variable explicative xj est considre comme
une variable explicative part entire xp+1 = f (xj ).

En conclusion, il est impratif de tracer un graphique avec en ordonne les rsidus et en abs-
cisse : soit yi , soit le numro i de lobservation, soit le temps ou tout autre facteur potentiel de
non-indpendance. Idalement, ce type de graphique permettra : de vrifier lajustement global,
de reprer les points aberrants, de vrifier les hypothses concernant la structure de variance du
vecteur .
Dautres graphiques, tels ceux prsentant la valeur absolue des rsidus en ordonne, permettront
de regarder la structuration de la variance. Lanalyse des rsidus permet de dtecter des diffrences
significatives entre les valeurs observes et les valeurs prdites. Cela permet donc de connatre les
points mal prdits et les faiblesses du modle en termes de moyenne ou de variance.
Cependant, ceci ne nous renseigne nullement sur la robustesse des estimateurs par rapport lajout
ou la suppression dune observation. La section suivante propose quelques critres en ce sens.
4.2 Analyse de la matrice de projection

Nous souhaiterions maintenant avoir une mesure synthtique du poids dune observation sur sa
propre prvision par le modle. Cette prvision utilise la matrice de projection orthogonale sur
lespace engendr par les colonnes de X, savoir PX = H = X(X X)1 X . En effet, nous avons
vu que Y = PX Y = HY . Commenons par donner quelques proprits trs gnrales sur les
matrices de projection orthogonale.
Proprits 4.1 (Proprits dune matrice de projection orthogonale)
Soit H = PX la matrice n n de projection orthogonale sur le sous-espace M de dimension p
engendr par les colonnes de X. Alors :
P
1. Tr(H) = ni=1 hii = p.
P P 2
2. i j hij = p.
3. Pour tout i {1, . . . , n}, 0 hii 1.
4. Si hii = 0 ou 1, alors hij = 0 pour tout j diffrent de i.
5. pour tout j diffrent de i, 0.5 hij 0.5.
Preuve.
1. La trace dun projecteur vaut la dimension de lespace sur lequel seffectue la projection,
donc Tr(H) = p.
2. Ce second point dcoule de la proprit H 2 = H, do Tr(H 2
P P) =2p, de la symtrie de H et

du fait que pour toute matrice A, Tr(AA ) = Tr(A A) = i j aij .
3. Puisque les matrices H et H 2 sont gales, nous avons en particulier hii = (H 2 )ii . Cela scrit,
en utilisant la symtrie de H :
n
X X X
hii = hij hji = h2ii + h2ij hii (1 hii ) = h2ij .
j=1 j6=i j6=i
La quantit de droite de la dernire galit est positive, donc le troisime point est dmontr.
4. Cette proprit se dduit directement de lquation prcdente.
P
5. Nous pouvons crire : hii (1 hii ) = h2ij + k6=i,j h2ik . La quantit de gauche est maximum
lorsque hii = 0.5 et vaut alors 0.25. Le dernier point est ainsi prouv.


4.2. Analyse de la matrice de projection 89
Il suffit maintenant de remarquer que :

n
X X
yi = hij yj = hii yi + hij yj ,
j=1 j6=i
pour sapercevoir que hii reprsente en quelque sorte le poids de lobservation yi sur sa propre
prdiction yi . Ainsi :
si hii = 1, hij = 0 pour tout j 6= i, et yi est entirement dtermin par yi , puisque yi = yi ;
si hii = 0, hij = 0 pour tout j 6= i donc yi = 0, et yi na aucune influence sur yi ;
plus gnralement, si hii est grand, yi influe fortement sur yi , comme en tmoigne la formule
prcdemment tablie :
yi yi = (1 hii )(yi yip ),
qui montre la variation dans la prdiction de yi selon que lon prend en compte ou non la ime
observation.
P
Puisque Tr(PX ) = hii = p, la moyenne des hii est gale p/n. Ceci permet de quantifier quelque
peu la notion de grand.
Dfinition 4.2 (Point levier)

Un point (xi , yi ) est appel point levier si :
hii > 2p/n selon Hoaglin & Welsch (1978) ;
hii > 3p/n pour p > 6 et n p > 12 selon Velleman & Welsch (1981) ;
hii > 0.5 selon Huber (1981).
Remarque. Si la constante fait partie du modle (i.e. la plupart du temps), on peut affiner la
Proprit 4.1, puisque les termes diagonaux hii sont en fait tous suprieurs 1/n. Il est galement
possible de prouver que hii correspond dune certaine faon la distance du point xi au centre
de gravit x
du nuage de points (xi )1in de lchantillon. Pour plus de dtails sur ces points, on
pourra consulter le livre de Antoniadis, Berruyer et Carmona, Rgression non linaire et applica-
tions, Economica (1992), pages 36-40.
0.05 0.10 0.15 0.20 0.25 0.30 0.35
5
4
3
hii
yi
2
1
0
0 1 2 3 4 5 0 10 20 30 40 50
xi Indice
Figure 4.6 Exemple dun point levier, figur par la flche, pour un modle de rgression simple.
Quantification par hii de la notion de levier. La ligne en pointills longs reprsente le seuil de 2p/n,
celle en pointills courts le seuil de 3p/n.
Pour un modle de rgression simple dont le nuage de points est reprsent sur la figure 4.6, le
point dsign par une flche est un point levier. Sa localisation sur laxe x diffre des autres points
et son poids hii est prpondrant et suprieur aux valeurs seuils de 2p/n et 3p/n.

Remarque. Le point de la figure 4.6 est levier mais pas aberrant puisquil se situe dans le pro-
longement de la droite de rgression et sera donc proche de sa prvision par le modle (rsidu faible).
En conclusion, lanalyse des rsidus permet de trouver des valeurs atypiques en fonction de la
valeur de la variable expliquer, tandis que lanalyse de la matrice de projection permet de trouver
des individus atypiques en fonction des valeurs des variables explicatives (observations loignes
de x
). Dautres critres vont combiner ces deux analyses, cest ce que nous allons voir maintenant.
4.3 Autres mesures diagnostiques

La distance de Cook mesure linfluence de lobservation i sur lestimation du paramtre . Pour
btir une telle mesure, il suffit de considrer la distance entre le coefficient estim et le coefficient
(i) que lon estime en enlevant lobservation i (cf. Section 4.1.1, mthode du leave-one-out). Si la
distance est grande, alors lobservation i influence beaucoup lestimation de , puisque la laisser
ou lenlever conduit des estimations trs diffrentes lune de lautre. De manire gnrale, et
(i) tant dans Rp , une distance btie sur un produit scalaire scrit :
q

d((i) , ) = ((i) )
Q((i) ),

o Q est une matrice symtrique dfinie positive. De nombreux choix sont possibles. Si nous
revenons la rgion de confiance simultane de donne au Chapitre 3, nous obtenons en prenant
R = Ip et = 5% :

1
RC () = Rp : ( )
(X
X)( ) f p (0.95) .
np
2
p
Cette quation donne une rgion de confiance pour autour de et permet de dire que, en
moyenne, dans 95% des cas, la distance entre et (selon la matrice Q = (X X)/p 2 ) est inf-
p
rieure fnp (0.95). Par analogie, nous pouvons utiliser cette distance, appele distance de Cook,
pour mesurer linfluence de lobservation i sur le modle.
Dfinition 4.3 (Distance de Cook)

La distance de Cook pour la ime observation est dfinie par :
1 (X X)((i) ).

Ci = ( )
2 (i)
p
Il est possible de lexprimer de manire plus concise comme suit :
hii (yi yip )2 hii 2i 1 hii 2
Ci = = = t .
2
p p(1 hii )2
2 p 1 hii i
Remarque. Il y a dans cette terminologie un lger abus de langage, puisque la distance de Cook
est en fait le carr dune distance.
Preuve. Nous allons utiliser les rsultats tablis dans la preuve du thorme 4.1. Par dfinition,
nous avons :
(i) = (X(i)

X(i) )1 X(i)

Y(i) ,
or en utilisant le lemme dinversion matricielle pour (X(i) X )1 et le fait que X Y
(i) (i) (i) = X Y xi yi ,
on obtient :
1 (X X)1 xi xi (X X)1
(i) = (X X) + X Y xi y i ,
1 hii

4.3. Autres mesures diagnostiques 91
ce qui donne en dveloppant :

1 hii
(i) = (X X)1 xi yi + (X X)1 xi xi (X X)1 xi yi ,
1 hii 1 hii
cest--dire tout simplement :

i
(i) = (X X)1 xi ,
1 hii
et puisquon a vu dans la preuve du thorme 4.1 que i = (1 hii )(yi yip ), on en dduit que :
(i) = (yi yip )(X X)1 xi .
Il suffit dappliquer cette expression et le fait que hii = xi (X X)1 xi pour obtenir la deuxime
expression de la distance de Cook :
hii (yi yip )2

Ci = .
2
p
La troisime expression de la distance de Cook dcoule alors de la relation dj mentionne i =
(1 hii )(yi yip ). Pour la dernire expression, il suffit dappliquer la dfinition de ti .

Une observation influente est donc une observation qui, enleve, conduit une grande variation
dans lestimation des coefficients, cest--dire une distance de Cook leve. Pour juger si la dis-
p p
tance Ci est leve, Cook (1977) propose le seuil fnp (0.1) comme souhaitable et le seuil fnp (0.5)
comme proccupant. Certains auteurs citent comme seuil la valeur 1, qui est une approximation
p
raisonnable de fnp (0.5) lorsque p et n p sont tous deux grands.
Remarquons sur lexpression

1 hii 2
Ci = t .
p 1 hii i
que la distance de Cook peut tre vue comme la contribution de deux termes. Le premier,
hii /(1 hii ), est dautant plus grand que le point est levier tandis que le second, t2i , est dau-
tant plus grand que le point est aberrant.
Exemple. Pour le modle de rgression simple de la figure 4.6, nous avons trac sur la figure 4.7 :
la droite des moindres carrs, les rsidus studentiss par validation croise, les distances de Cook.
Nous voyons que des points ayant de forts rsidus (loigns de la droite) possdent des distances
de Cook leves (cas des points 4, 6, 12, 29, 44 et 45). Le point 51, bien quayant un rsidu faible
puisquil se situe dans le prolongement de laxe du nuage, apparat comme ayant une distance de
Cook relativement forte (la 8me plus grande). Ceci illustre bien que la distance de Cook opre
un compromis entre points aberrants et points leviers. Notons enfin que, dans notre cas prcis, les
2 (0.5) 0.7 et f 2 (0.1) 0.11, ce dernier figurant en pointill
seuils de la distance de Cook sont f49 49
sur la figure 4.7. Sur ce graphique, les distances de Cook semblent assez bien rparties au niveau
hauteur et aucun point ne se dtache nettement.
Exemple (suite). En utilisant les mmes 50 points, on remplae simplement le point levier 51
par un point franchement aberrant(cf. figure 4.8 au centre, son rsidu t51 tant trs lev). Malgr
la position de ce point 51 lintrieur du nuage des xi , la distance de Cook est leve et ceci
uniquement cause de son caractre aberrant. Bien entendu un point peut tre la fois levier et
p 2 (0.5) 0.7, semble assez conservateur : en pratique,
aberrant. Le seuil de fnp (0.5), ici gal f49

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

51
+ 6
6
5
49
2
4 44
distance de Cook
45
4
49
1
49
+
44 51
3
+
yi
+ 4
+
+ +++++
0
ti
+ 29
2
+
++++++++ 12 44 51
1
6
++ ++ +
+++ + 45 +
1 +4 ++ +++ 12
+ ++++ 29
+
++++
2
45
0
+++ 12 + 29
0 1 2 3 4 5 0 1 2 3 4 5 0 10 20 30 40 50
xi xi Indice
Figure 4.7 Exemple du point levier (numro 51). Les points associs aux 8 plus grandes valeurs
de la distance de Cook sont numrots ainsi que leurs distances de Cook et leurs rsidus studentiss.
La droite en trait plein est la droite ajuste par MCO.
on pourrait en effet se poser la question de la suppression de ce point 51.
0.00 0.05 0.10 0.15 0.20 0.25 0.30

49 6 49
2
+ 44 51
4
3
44
+
1
distance de Cook
+ ++++
+
0
+ + +
2
+ +
+ ++ ++
1
y
+ + + 12 49
+ + 45 45
t
+6 + ++ + + 29
2
+ + 6
1
+4 + ++ 45
+ + ++ 44
3
+ + +29 4
++ 12 29
+ + 51
+
4
0
+++ +12 51
0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0 10 20 30 40 50
x x Index
Figure 4.8 Exemple de point fortement aberrant (numro 51). Les points associs aux 8 plus
grandes valeurs de la distance de Cook sont numrots ainsi que leurs distances de Cook et leurs
rsidus studentiss (par VC). La droite en trait plein est la droite ajuste par MCO.
Une autre mesure dinfluence est donne par la distance de Welsh-Kuh. La dfinition de la distance
de Cook pour lobservation i fait intervenir la variance estime de lerreur 2 . Il faut donc utiliser
2
un estimateur de . Si lon utilise lestimateur classique 2
, alors une observation influente risque
de perturber lestimation 2
. Il est donc prfrable dutiliser 2 , obtenu pas validation croise.
(i)
Lcart de Welsh-Kuh, souvent appel DFFITS (pour DiFference in FITs, Standardized) par les
logiciels, est donc dfini par
r
hii
W ki = |ti | ,
1 hii
et permet dvaluer lcart standardis entre lestimation btie sur toute les observations et lestima-
tion btie sur toutes les observations sauf la ime . Cet cart de Welsh-Kuh mesure ainsi linfluence
simultane dune observation sur lestimation des paramtres et 2 . Si lcart de Welsh-Kuh

est suprieure 2 p + 1/ n en valeur absolue, alors il est conseill danalyser les observations
correspondantes.

Annexe A
Annales
Universit de Rennes 2
Master de Statistiques Vendredi 18 Dcembre 2009
Dure : 2 heures Calculatrice autorise
Aucun document
Contrle de Rgression Linaire
I. La hauteur des eucalyptus
28
hauteur
26
24
22
20
18
16
14
12
Circonfrence
10
20 30 40 50 60 70 80
Figure A.1 Nuage de points pour les eucalyptus.

94 Chapitre A. Annales
On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x

(en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant
reprsent figure A.1. On a obtenu (
x, y) = (47, 3; 21, 2) et :
n
X n
X n
X
2 2
(xi x
) = 102924 (yi y) = 8857 (xi x
)(yi y) = 26466
i=1 i=1 i=1
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur

la figure A.1.
au modle.
P
3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors ni=1 (yi yi )2 = 2052. Si
on suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance
2 , en dduire un estimateur non biais 2 de 2 .
1
5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 6= 0.
6. Etant donn la forme du nuage de points, on veut expliquer la hauteur non seulement par la
circonfrence, mais aussi par la racine carre de celle-ci :

yi = 1 + 2 xi + 3 xi + i .
Pour 3 , on a obtenu
3 = 10 et
3 = 0, 78. Tester lhypothse H0 : 3 = 0 contre H1 : 3 6= 0.
II. Modle deux variables explicatives

yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes,

1 x1,2 x1,3 y1
X = ... .. .. et Y = .. ,

. . .
1 xn,2 xn,3 yn
on a observ :

30 20 0 15
X X = 20 20 0 , X Y = 20 , Y Y = 59.5.
0 0 10 10
1. Dterminer la valeur de n, la moyenne des xi,3 , le coefficient de corrlation des xi,2 et des
xi,3 .
2. Estimer 1 , 2 , 3 , 2 par la mthode des moindres carrs ordinaires.
3. Calculer pour 2 un intervalle de confiance 95% et tester lhypothse 3 = 0.8 au niveau
10%.
4. Tester 2 + 3 = 3 contre 2 + 3 6= 3, au niveau 5%.
5. Que vaut y, moyenne empirique des yi ? En dduire le coefficient de dtermination ajust
Ra2 .

95
6. Construire un intervalle de prvision 95% de yn+1 connaissant : xn+1,2 = 3 et xn+1,3 = 0, 5.
III. Modle htroscdastique

On considre n observations y1 , . . . , yn dune variable dfinie sur une certaine population, et n
kuplets xi (xi = [xi1 , . . . , xik ]) correspondant aux valeurs prises par k autres variables sur les
mmes lments de cette population. On suppose que pour tout i, yi est la valeur prise par une
variable alatoire Yi , et quil existe Rk pour lequel :

Yi N xi , i2 1 i n,
o :
reprsente un vecteur de Rk : = [1 , . . . , k ] ,
Les Yi sont supposes indpendantes entre elles.
Enfin, les valeurs i2 des variances dpendent de lappartenance p sous-populations des lments
sur lesquels les variables sont observes. En regroupant les indices des Yi selon ces sous-populations,
on posera :
I1 = {1, . . . , n1 }, indices des n1 lments de la premire sous-population ;
I2 = {n1 + 1, . . . , n1 + n2 }, indices des n2 lments de la deuxime sous-population ;
... ;
I = {n1 + . . . + n1 + 1, . . . , n1 + . . . + n1 + n }, indices des n lments de la -me sous-
population ;
... ;
Ip = {n1 + . . . + np1 + 1, . . . , n}, indices des np lments de la dernire sous-population.
On admettra lhypothse suivante : si i I , i2 = 2 . Autrement dit, pour les n1 variables

correspondant aux lments de la premire sous-population la valeur est 2 , pour les n2 variables
correspondant aux lments de la deuxime sous-population la valeur est 2 2 , etc. , jusqu p 2
pour la variance des variables correspondant aux lments de la dernire sous-population. On veut
estimer et 2 par la mthode du maximum de vraisemblance. On notera , 2 ces estimateurs.

1. Que vaut fYi (yi ), fYi reprsentant la densit de la loi normale N xi , i2 ?
2. Montrer que et
2 sont solutions du systme dquations :
( Pp 1 P
xi )2 = n 2
iI (yiP
=1 P
p 1 (A.1)
j = 1, . . . , k =1 iI (yi xi ) xij = 0.
3. Montrer que le systme (A.3) quivaut :

kA (Y X)k2 = n 2
(A.2)
X A2 (Y X) = 0.
o k.k2 reprsente la norme euclidienne usuelle dans Rn , X la matrice (n k) du plan

dexprience, Y le vecteur (n 1) des observations yi , A la matrice (n n) diagonale dont
llment (i, i) vaut 1l si i Il .

4. En supposant que X A2 X est inversible, exprimer et 2.
2 = kV k2 , o V suit une loi gaussienne centre.
5. Montrer que n
h i
6. En dduire que E kV k est la trace de la matrice de variance-covariance de V .
2

7. Montrer que n

8. On note X la matrice (n k) forme par les lignes dindices I de X, suppose de rang

plein, Y le vecteur colonne (n 1) des composantes dindices I de Y . En posant =
(X X )1 X Y , montrer que est un estimateur sans biais de .
9. (Bonus) Que peut-on dire de la diffrence des matrices de variance-covariance de et de ?

97
Vendredi 18 Dcembre 2009
Master de Statistiques
Calculatrice autorise
Dure : 2 heures
Aucun document
Corrig du Contrle

Hauteur
+
+
+
+
+ + + +
+ + + + + +
+ + + + +
+ + + + + + + + + + +
25
+ + + +
+ + + + + + + + + + + + + +
+ + + + + + + + +
+ + + + + + + + + + + + + + + + +
+ + + + + + +
+ + + + + + + + + + + + + + + +
+ + + + + + + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + +
20
+ + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + +
+ + + + + + + + + + + + +
+ + + + + + + + + + + + + +
+ + + + + + + +
+ + + + + + + + + + +
+ + + + + + + + + + + + +
+ + + + + + + + +
+ + + + + + + + + + +
+ + + + + + + +
+ + + + + + + +
+ + + + + + + +
+ + + + + + + + +
+ + + + +
+ + + + + + +
+ + + + + + + + + +
+ + + + +
+ + +
+ + + + +
15
+ + + +
+ +
+ + + +
+ +
+ + +
+ +
+ + +
+
+
+ +
+
+ Circonfrence
30 40 50 60 70
Figure A.2 Nuage de points, droite de rgression et courbe de rgression.
1. La mthode des moindres carrs ordinaires donne pour estimateur de 2 :

Pn
(x x )(yi y)

2 = i=1 Pn i 0, 257.
)2
i=1 (xi x
Et pour estimateur de 1 :
1 = y 2 x
9, 04.
La droite des moindres carrs est reprsente figure A.2.
2. Le coefficient de dtermination R2 est gal au carr du coefficient de corrlation entre les
variables x et y, ce qui donne :
P
2 ( ni=1 (xi x )(yi y))2
R = Pn P 0, 768.
( i=1 (xi x)2 ) ( ni=1 (yi y)2 )
On en conclut que 77% de la variance des hauteurs yi des eucalyptus est explique par la
circonfrence 1m30 du sol. Ce modle de rgression linaire simple semble donc efficace.

2 de 2 est tout simplement :

Pn Pn
2 i )2
i=1 (yi y (yi yi )2

= = i=1 1, 438.
n2 1427
12 de la variance de 1 est alors donn par :

4. Un estimateur
Pn P
2
2
i=1 xi 2 n
x+ ni=1 (xi x
2 )2
12
= Pn =
Pn 0, 032.
n i=1 (xi )2
x )2
n i=1 (xi x
5. On sait que lestimateur centr et normalis de 1 suit une loi de Student (n 2) = 1427
degrs de libert :
1 1
T1427 ,

1

donc sous lhypothse H0 : 1 = 0, ceci se simplifie en 11 T1427 , et cette statistique de test
donne ici :
9, 04
t = T () 50, 5 2.
0, 032
Une loi de Student 1427 degrs de liberts se comportant comme une loi normale centre
rduite, il est clair que la probabilit critique associe au quantile 50, 5 est infinitsimale,
donc on rejette lhypothse H0 selon laquelle lordonne lorigine serait nulle.
6. De mme, on sait que sous H0 :

3
Tn3 = T1426 ,

3
ce qui donne ici :

10
t = T () = 12, 8.
0, 78
Ici encore, on rejette H0 sans hsiter. A titre indicatif, la courbe des moindres carrs est
reprsente figure A.2.
II. Modle deux variables explicatives

yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes,

1 x1,2 x1,3 y1
X = ... .. .. et Y = .. ,

. . .
1 xn,2 xn,3 yn
on a observ :

30 20 0 15
X X = 20 20 0 , X Y = 20 , Y Y = 59.5.
0 0 10 10

99
1. La valeur de n se lit en haut gauche de la matrice X X, cest--dire n = (X X)1,1 = 30.

De mme, la moyenne des xi,3 correspond :
30
1 X (X X)1,3
xi,3 = = 0.
30 30
i=1
Puisque les xi,3 sont centrs, le coefficient de corrlation entre les deux variables x2 et x3 est
alors :
P30
i=1 xi,2 xi,3 (X X)2,3
r2,3 = qP qP = qP qP = 0.
30 2 30 2 30 2 30 2
i=1 (xi,2 x
i,2 ) i=1 xi,3 i=1 (xi,2 xi,2 ) i=1 xi,3
2. La mthode des moindres carrs ordinaires donne pour = [1 , 2 , 3 ] lestimateur suivant :

0.1 0.1 0 15 0.5
= (X X)1 X Y = 0.1 0.15 0 20 = 1.5 .
0 0 0.1 10 1
2 de 2 scrit :
Un estimateur non biais
2
kY X k 2
kY k2 kX k
2 =
= ,
n3 27
ce qui scrit encore :
Y Y Y X(X X)1 X Y
2 =
= 1.
27
2 2 2 2
= q Tn3 = T27 ,

2 (X X)1
2,2

q q

I(2 ) = 2 t27 (0.975) 1
(X X)2,2 ; 2 + t27 (0.975) 1
(X X)2,2 ,
cest--dire : h i
I(2 ) 1.5 2.05 0.15; 1.5 + 2.05 0.15 [0.71; 2.29].
Pour tester lhypothse H0 : 3 = 0.8 contre H1 : 3 6= 0.8 au niveau 10%, on calcule de

mme un intervalle de confiance 90% de 3 :
q q

I(3 ) = 3 t27 (0.95) 1
(X X)3,3 ; 3 + t27 (0.95) 1
(X X)3,3 ,
ce qui donne : h i
I(3 ) 1 1.70 0.1; 1 + 1.70 0.1 [0.46; 1.54],
donc on accepte au niveau 10% lhypothse selon laquelle 3 = 0.8.

4. On sait que
(2 + 3 ) (2 + 3 )
T27 ,

2 +3

avec :
q q

2 +3 = 22 + 2Cov(2 , 3 ) +
32 =
(X X)1 1 1
2,2 + 2(X X)2,3 + (X X)3,3 ,
cest--dire
2 +3 = 0.5. Donc un intervalle de confiance 95% pour 2 + 3 est :
I(2 + 3 ) = [2.5 0.5t27 (0.975); 2.5 + 0.5t27 (0.975)] [1.47; 3.53].
Par consquent, au niveau 5%, on accepte H0 : 2 + 3 = 3 contre H1 : 2 + 3 6= 3.

5. La moyenne empirique des yi se dduit de la premire composante du vecteur X Y , donc
y = 15/30 = 0.5. Par dfinition, le coefficient de dtermination ajust Ra2 vaut :
n 1 kY Y k2 2

Ra2 = 1 = 1 (n 1) ,
n p kY y1k2 kY y1k2
donc :
29
Ra2 = 1 Y
0.44.
Y y2
30
6. En notant xn+1 = [1, 3, 0.5], la valeur prdite pour yn+1 est :
9
yn+1 = xn+1 = ,
2
et un intervalle de prvision 95% pour yn+1 est :
h q i
1 + xn+1 (X X)1 xn+1 ,
IC(yn+1 ) = yn+1 t27 (0.975)
ce qui donne numriquement IC(yn+1 ) [1.69; 7.31].
III. Modle htroscdastique

1. Par dfinition de la loi normale N xi , i2 , on a tout simplement :

1 (yi xi )2
fYi (yi ) = q exp 2 .
2
2i 2 i
2. Les variables Yi tant indpendantes, la densit jointe fY (y) du n-uplet Y = (Y1 , . . . , Yn ) est
le produit des densits fYi (yi ), ce qui donne pour la vraisemblance :

p X
X )2
1 (y i x ,
L(y, , 2 ) = fY (y) = n exp
i
(2)n/2 1n1 . . . p p 22
=1 iI
qui scrit encore :

Xp X
1 1 1
L(y, , 2 ) = exp 2 (yi xi )2 ,
(2 2 )n/2 1n1 . . . pnp 2
=1

iI
do pour la log-vraisemblance :
p
n 1 X1X
log L(y, , 2 ) = c log 2 2 (yi xi )2 ,
2 2
=1 iI

101
o c est une constante. Les estimateurs du maximum de vraisemblance sont obtenus en

annulant les drives partielles de cette log-vraisemblance par rapport 1 , . . . , k et 2 .
Pour tout j {1, . . . , k}, le calcul donne :
p
log L 1 X1X
(y, , 2 ) = 2 (yi xi )xij .
j
=1 iI
La drive partielle par rapport 2 scrit elle :

p
log L 2 n 1 X1X
(y, , ) = 2 + 4 (yi xi )2 .
2 2 2
=1 iI
On en dduit bien que et

2 sont les solutions du systme dquations :
( Pp 1 P
xi )2 = n 2
iI (yiP
=1 P
p 1 (A.3)
j = 1, . . . , k =1 iI (yi xi ) xij = 0.
1
3. En notant A la matrice (n n) diagonale dont llment (i, i) vaut
l
si i Il , et en
remarquant que A est symtrique, il vient :
kA (Y X)k2 = (Y X) A A(Y X) = (Y X) A2 (Y X),
cest--dire :
p
X 1X 2
kA (Y X)k2 = [y1 x1 , . . . , yn xn ]A2 [y1 x1 , . . . , yn xn ] = yi xi .

=1 iI
On en dduit :
p
X 1X 2
yi xi = n 2 kA (Y X)k2 = n 2 .

=1 iI
De la mme faon, on peut remarquer que :

Xp X p
X X
1 1
X A2 (Y X) = yi xi xi1 , . . . , yi xi xik .

=1 iI =1 iI
Au final, le systme (A.3) quivaut bien :

kA (Y X)k2 = n 2
(A.4)
X A2 (Y X) = 0.
4. La seconde quation du systme (A.4) scrit encore :

X A2 X = X A2 Y.

Puisque X A2 X est suppose inversible, lestimateur vaut :
1
= X A2 X X A2 Y.
2 sen dduit immdiatement via la premire quation du systme (A.4) :

Lestimateur
1
2

2 = A Y X .
n

5. Daprs la question prcdente, on a :

2

2 = A Y X = kV k2 ,
n

en notant V = A Y X = AY AX .
Il suffit alors dcrire :
1
(AX) = AX X A2 X X A2 Y = (AX)((AX) (AX))1 (AX) (AY ),
pour comprendre que le vecteur (AX) nest rien dautre que la projection orthogonale du
vecteur AY sur le sous-espace M de Rn engendr par les colonnes de la matrice AX. Notons
au passage que ce sous-espace est de dimension k puisque, par hypothse, la matrice X A2 X
est inversible. Le vecteur AY tant de loi N (AX, 2 In ), nous sommes exactement dans le
cadre dapplication du thorme de Cochran. En notant respectivement P et P les matrices
de projection sur M et M , celui-ci assure que :
V = P AY N (P AX, 2 P ) = N (0, 2 P ).
Ainsi V suit bien une loi gaussienne centre.

6. Puisque kV k2 est un scalaire, il est gal sa trace, ce qui donne :
h i h i
E kV k2 = E Tr kV k2 = E Tr V V ,
et puisque pour toute matrice A, Tr(A A) = Tr(AA ), il en dcoule :

h i
E kV k2 = E Tr V V .
Il reste noter dune part que les oprateurs de trace et desprance commutent, et dautre
part que V est centr pour obtenir :
h i
E kV k2 = Tr E V V = Tr (Var(V )) .
7. On dduit des deux questions prcdentes que :

1 h i 1
E 2 = E kV k2 = Tr (Var(V )) ,
n n
or V N (0, 2 P ), o P est la matrice de projection orthogonale sur un sous-espace de

dimension (n k), donc Tr(P ) = n k, et :
nk 2
E 2 = ,
n

ce qui revient dire que n
8. Avec les notations du texte, on a Y = X + , o N (0, 2 I ). Il vient donc :
h i
E = X X 1 X E [Y ] = X X 1 X X = .
Ainsi, pour tout {1, . . . , p}, est un estimateur sans biais de .

103
9. Puisque AX est la projection orthogonale du vecteur AY N (AX, 2 In ) sur le sous-

espace M, nous savons que :
1
= 2 ((AX) (AX))1 = 2 X A2 X
Var() .
De la mme faon, puisque X est la projection orthogonale du vecteur Y N (X , 2 In )

sur le sous-espace M engendr par les colonnes de X , la matrice de covariance de lestima-
teur vaut :
1
1 X X
2
Var( ) = X X 2
= .

La matrice X / correspondant aux n lignes dindices I de la matrice AX, notons Z la
matrice (n n ) k des autres lignes de AX. On a donc :
X X
(AX) (AX) = + Z Z .

En particulier, pour tout vecteur u de Rk , on a :

u Z Z u = kZ uk2 0,
donc :
X X
u u u (AX) (AX)u,

ce qui scrit en terme de relation dordre pour les matrices symtriques :
X X
(AX) (AX),

les matrices des deux membres tant toutes deux symtriques dfinies positives.
Il reste maintenant remarquer que, de faon gnrale, si B et C sont deux matrices sym-
triques dfinies positives, avec B C, alors C 1 B 1 . En effet, dire que B C revient
dire que les valeurs propres de (C B) sont toutes suprieures ou gales 0, donc il en va de
mme pour la matrice B 1/2 (C B)B 1/2 = B 1/2 CB 1/2 I. Ceci signifie que les valeurs
propres de la matrice B 1/2 CB 1/2 sont toutes suprieures ou gales 1, ce qui implique
que celles de sa matrice inverse sont toutes infrieures ou gales 1, ce qui scrit encore
B 1/2 C 1 B 1/2 I. Or cette dernire relation a pour consquence C 1 B 1 .
Appliqu dans notre contexte, ce rsultat donne :

1
X X

((AX) (AX)) 1
,

do lon dduit lingalit entre matrices de covariance : Var() Var( ). En dautres

termes, est un estimateur plus prcis que , ce qui na rien dtonnant vu que sa construc-
tion utilise (n n ) observations de plus que celle de . Happy end !

Mercredi 14 Dcembre 2010
Dure : 2 heures
Aucun document

centimtres) 1m30 du sol et de la racine carre de celle-ci. On a relev n = 1429 couples (xi , yi ),
le nuage de points tant reprsent figure A.3. On considre donc le modle de rgression suivant :
28
hauteur
26
24
22
20
18
16
14
12
Circonfrence
10
20 30 40 50 60 70 80
Figure A.3 Nuage de points pour les eucalyptus.

yi = 1 + 2 xi + 3 xi + i , 1 i n.

1 x1 x1 y1
X = ... ... .. et Y = .. ,

. .

1 xn xn yn
on a observ :

? ? 9792 30310
X X = ? 3306000 ? , X Y = 1462000 , Y Y = 651900.
? 471200 67660 209700

105
1. Dterminer les ? dans la matrice X X.

2. Que vaut la circonfrence moyenne empirique x
?
3. Le calcul donne (en arrondissant !)

4.646 0.101 1.379 16.8
1
X X = 0.101 0.002 0.030 et (X X)1 X Y = 0.30 .
1.379 0.030 0.411 7.62
Que valent les estimateurs 1 , 2 , 3 par la mthode des moindres carrs ? Grce au calcul
de quelques points, reprsenter la courbe obtenue sur la figure A.3.
4. Calculer lestimateur de 2 pour les moindres carrs.
5. Calculer pour 3 un intervalle de confiance 95%.
6. Tester lhypothse 2 = 0 au niveau de risque 10%.
7. Que vaut la hauteur moyenne empirique y ? En dduire le coefficient de dtermination ajust
Ra2 .
10. Des deux intervalles prcdents, lequel est le plus grand ? Pouvait-on sy attendre ?
II. Consommation de gaz

Mr Derek Whiteside de la UK Building Research Station a collect la consommation hebdomadaire
saison. Une rgression pour expliquer la consommation de gaz en fonction de la temprature est
Residuals:
-0.97802 -0.11082 0.02672 0.25294 0.63803
Coefficients:
(Intercept) 4.72385 0.12974 ? < 2e-16 ***
Temp -0.27793 ? -11.04 1.05e-11 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

1. Donner le modle et les hypothses de la rgression.

2. Complter le tableau.
3. Soit Z une variable alatoire de loi de Student de degr de libert 28. Quelle est la probabilit
que |Z| soit suprieure 11.04 ?
4. Prciser les lments du test correspondant la ligne Temp du tableau (H0 , H1 , la statistique
de test, sa loi sous H0 , la rgle de dcision).
5. Interprter le nombre Multiple R-Squared: 0.8131 du tableau.

6. Donner une estimation de la variance du terme derreur dans le modle de rgression simple.
7. Expliquer et interprter la dernire ligne du tableau :
F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11.
Voyez-vous une autre faon dobtenir cette p-value ?
8. Pensez-vous que la temprature extrieure a un effet sur la consommation de gaz ? Justifiez
votre rponse.
III. Rgression simple

1. Rappeler les formules des estimateurs des moindres carrs a et b, ainsi que leurs variances
respectives.
(a) En revenant la dfinition des moindres carrs, calculer lestimateur a
des moindres
carrs de a.
(b) Calculer la variance de a
. Montrer quelle est infrieure celle de a
.
(a) En revenant la dfinition des moindres carrs, calculer lestimateur b des moindres
carrs de b.
(b) Calculer la variance de b. Montrer quelle est infrieure celle de b.
IV. Forces de frottement et vitesse

Au 17me sicle, Huygens sest intress aux forces de rsistance dun objet en mouvement dans un
fluide (eau, air, etc.). Il a dabord mis lhypothse selon laquelle les forces de frottement taient
proportionnelles la vitesse de lobjet, puis, aprs exprimentation, selon laquelle elles taient
proportionnelles au carr de la vitesse. On ralise une exprience dans laquelle on fait varier la
vitesse x dun objet et on mesure les forces de frottement y. Ensuite, on teste la relation existant
entre ces forces de frottement et la vitesse.
1. Quel(s) modle(s) testeriez-vous ?
2. Comment feriez-vous pour dterminer le modle adapt ?

107
Master de Statistiques Mercredi 14 Dcembre 2010
Aucun document
Corrig du Contrle


centimtres) 1m30 du sol et de la racine carre x de cette circonfrence. On a relev 1429
couples (xi , yi ). On considre donc le modle de rgression suivant :
Figure A.4 Nuage de points et courbe de rgression pour les eucalyptus.

yi = 1 + 2 xi + 3 xi + i , 1 i n.

1 x1 x1 y1
X = ... ... .. et Y = .. ,

. .

1 xn xn yn

on a observ :

? ? 9792 30310
X X = ? 3306000 ? , X Y = 1462000 , Y Y = 651900.
? 471200 67660 209700
1. La matrice X X se complte comme suit :

1429 67660 9792
X X = 67660 3306000 471200
9792 471200 67660
2. La circonfrence moyenne empirique vaut donc :
67660
x
= 47.3 cm.
1429
3. La mthode des moindres carrs ordinaires donne pour = [1 , 2 , 3 ] lestimateur suivant :

16.8
= (X X)1 X Y = 0.30 .
7.62
La courbe obtenue est reprsente figure A.4.
2 de 2 scrit :
kY X k 2 2
kY k2 kX k
2 = = .
n3 1426
2 = X X = X Y , ceci scrit encore :
Puisque kX k
Y Y X Y
2 =
1, 26.
1426
3 3 3 3
= q Tn3 = T1426 ,

3 (X X)1
3,3

q q
I(3 ) = 3 t1426 (0.975)
(X X)1
33 ; 3 + t1426 (0.975)
(X X)1 ,
3,3
cest--dire en considrant que t1426 (0.975) = 1.96 comme pour une loi normale centre
rduite : h i
I(3 ) 7.62 1.96 0.72; 7.62 + 1.96 0.72 [6.21; 9.03].
6. On veut tester lhypothse H0 : 2 = 0 contre H1 : 2 6= 0 au niveau de risque 10%. Sous

H0 , on sait que
2 2
= q Tn3 = T1426 N (0, 1).
2 (X X)1
22
Il nous suffit donc de comparer la valeur absolue de la statistique de test obtenue ici au
quantile dordre 0.95 dune loi normale centre rduite, cest--dire 1.645. Or
| 0.30|
|T ()| = 5.98 > 1.645.
1.26 0.002
Par consquent on rejette lhypothse selon laquelle 2 = 0.

109
7. La moyenne empirique des yi se dduit de la premire composante du vecteur X Y :
y = 30310/1429 21.2 m.
Par dfinition, le coefficient de dtermination ajust Ra2 vaut :
n 1 kY Y k2 2

Ra2 = 1 = 1 (n 1) ,
n p kY y1k2 kY y1k2
donc :
1.26
Ra2 = 1 1428 Y
0.81.
Y y2
1429
8. En notant xn+1 = [1, 49, 7], la valeur prdite pour yn+1 est :
yn+1 = xn+1 21.8,
et un intervalle de prvision 95% pour yn+1 est :

h q i
1 + xn+1 (X X)1 xn+1 ; yn+1 + . . . ,
IC(yn+1 ) = yn+1 t1426 (0.975)
ce qui donne numriquement IC(yn+1 ) [20.1; 23.5].

9. De mme, en posant xn+1 = [1, 25, 5], la valeur prdite pour yn+1 est :
yn+1 = xn+1 13.8,
et un intervalle de prvision 95% pour yn+1 est IC(yn+1 ) [11.7; 15.9].

10. On constate que cest le second intervalle de prvision qui est le plus grand : ceci est d
au fait que le second point est plus loign du centre de gravit du nuage. On prvoit donc
moins bien sa valeur.
II. Consommation de gaz

Mr Derek Whiteside, de la UK Building Research Station, a collect la consommation hebdomadaire
saisons. Une rgression pour expliquer la consommation de gaz en fonction de la temprature est
Residuals:
-0.97802 -0.11082 0.02672 0.25294 0.63803
Coefficients:
(Intercept) 4.72385 0.12974 36.41 < 2e-16 ***
Temp -0.27793 0.0252 -11.04 1.05e-11 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


1. Le modle considr ici est : pour tout i {1, . . . , 30}
Ci = 1 + 2 Ti + i ,
avec les erreurs i gaussiennes centres, indpendantes et de mme variance 2 .

2. cf. ci-dessus.
3. Soit Z une variable alatoire de loi de Student de degr de libert 28. Daprs le tableau, la
probabilit que |Z| soit suprieure 11.04 est de lordre de 1.05 1011 .
4. Pour la ligne Temp du tableau, lhypothse H0 correspond 2 = 0 contre H1 : 2 6= 0. Sous
H0 , 2 /
suit une loi de Student 28 degrs de libert. On dcide de rejeter H0 si la statis-
2
tique de test |T ()| = |2 /
2 | correspond une p-value trs faible (typiquement infrieure
5%). En loccurence, la rgle de dcision ci-dessus est calcule partir des valeurs obtenues
2 = 0.27793, 2 = 0.0252, |T ()| = |2 /
2 | = 11.04 et la p-value correspondante pour
une loi de Student 28 degrs de libert est : P(|T | > 11.04) = 1.05 1011 .
5. Le nombre Multiple R-Squared: 0.8131 correspond au coefficient de dtermination R2 du
modle. Il signifie quenviron 81% de la variation des donnes de consommation est explique
par ce modle de rgression linaire simple.
6. Un estimateur de la variance 2 du terme derreur est donn par le carr du terme Residual
standard error du tableau, savoir 2 = 0.35482 0.126.
7. La dernire ligne du tableau correspond au test de Fisher de validit globale du modle. Avec
les notations du cours, on sait que sous lhypothse H0 : 2 = 0, nous avons
n p SCR0 SCR kY Y0 k2 1
F = = F28 ,
q SCR 2

loi de Fisher 1 et 28 degrs de libert. La statistique de test donne ici F () = 121.8, ce

qui correspond une p-value de 1.046 1011 . Nous rejetons donc lhypothse selon laquelle
2 serait nul. Remarquons que ce test correspond au test de Student effectu dans la ligne
Temp du tableau.
8. Au vu des rsultats du test de Student (ou de lquivalent Test de Fisher de la dernire ligne),
il est clair que la temprature a un impact sur la consommation de gaz. Ceci est tout fait
naturel, puisque plus il fait froid, plus on chauffe.
III. Rgression simple

1. Les formules des estimateurs des moindres carrs a et b sont
P P
(xi x)(yi y) (xi x)yi
a
= P 2
= P .
(xi x
) )2
(xi x
et
b = y a
x.
Leurs variances respectives sont donnes par
P
2 2 x2i
a) = P
Var( & Var(b) = P .
)2
(xi x )2
n (xi x

111
(a) Lestimateur a
des moindres carrs correspond largmin de la quantit :
X
S(a) = (yi (axi + b))2 ,
ce qui sobtient en annulant la drive de S :
X P
xi (yi b)
S (
a) = 2 xi (yi (
axi + b)) = 0 a
= P 2 .
xi
(b) Pour calculer la variance de a , on commence par lexprimer diffremment. Grce la
relation yi = axi + b + i , on dduit :
P
xi i
=a+ P 2 .
a
xi
Puisque les erreurs i sont dcorrles et de mme variance 2 , il vient :
2
a) = P 2 .
Var(
xi
P P P
Puisque (xi x )2 = x2i n x2 x2i , il est alors clair que Var(
a) Var(
a).
(a) Lestimateur b des moindres carrs correspond cette fois largmin de la quantit :
X
S(b) = (yi (axi + b))2 ,
ce qui sobtient en annulant la drive de S :
X
S (b) = 2 axi + b)) = 0 b = y a
(yi ( x.
(b) Pour calculer la variance de b, on commence nouveau par lexprimer diffremment via
la relation yi = axi + b + i :
X
b = b + 1 i .
n
Puisque les erreurs i sont dcorrles et de mme variance 2 , il vient :
2
Var(b) = .
n
P P P
x2 x2i , il est alors clair que Var(b) Var(b).
)2 = x2i n
Puisque (xi x
IV. Forces de frottement et vitesse

1. Le premier modle, supposant que les forces de frottement sont proportionnelles la vitesse
de lobjet, scrit : pour tout i {1, . . . , n}
fi = vi + i ,
o n est le nombre dobservations et les i reprsentent les erreurs du modle, typiquement
supposes centres, dcorrles et de mme variance 2 .
Le second modle, supposant que les forces de frottement sont proportionnelles au carr de
la vitesse de lobjet, scrit : pour tout i {1, . . . , n}
fi = vi2 + i ,
o n est le nombre dobservations et les i reprsentent les erreurs du modle, typiquement
supposes centres, dcorrles et de mme variance s2 .
2. Pour dterminer le modle adapt, une mthode lmentaire consiste comparer les pour-
centages de variation des donnes (fi )1in expliqus par chacun des modles. Ceci se fait
en calculant les coefficients de dtermination respectifs R12 et R22 pour chaque modle. On
optera pour celui qui a le R2 le plus grand.

Universit Rennes 2
Master de Statistiques Mardi 6 Dcembre 2011
Aucun document
I. Prix dun appartement en fonction de sa superficie

En juin 2005, on a relev dans les petites annonces les superficies (en m2 ) et les prix (en euros) de
108 appartements de type T3 louer sur lagglomration de Rennes (cf. figure A.5).
1000
800
prix
600
400
50 60 70 80 90 100 110 120
superficie
Figure A.5 Prix de location des appartements en fonction de leur superficie.
1. Daprs le listing du tableau A.1, donner une estimation du coefficient de corrlation entre
le prix et la superficie dun appartement T3.
2. Proposer un modle permettant dtudier la relation entre le prix des appartements et leur
superficie. Prciser les hypothses de ce modle.
3. Daprs le tableau A.1, est-ce que la superficie joue un rle sur le prix des appartements de
type 3 ? Considrez-vous ce rle comme important ?
4. Quelle est lestimation du coefficient (coefficient de la superficie dans le modle) ? Comment
interprtez-vous ce coefficient ?

113
Coefficients:
(Intercept) 134.3450 45.4737 2.954 0.00386
Superficie 6.6570 0.6525 10.203 < 2e-16

F-statistic: 104.1 on 1 and 106 DF, p-value: < 2.2e-16
Table A.1 Prix en fonction de la superficie : rsultats de la rgression linaire simple (sortie R).
5. La superficie moyenne des 108 appartements est de 68.74 m2 et le prix moyen des apparte-
ments est de 591.95 euros. Quel est le prix moyen dun mtre carr ? Pourquoi ce prix moyen
est diffrent de lestimation de ?
6. Dans lchantillon dont on dispose, comment savoir quels sont les appartements bon march
du seul point de vue de la surface ?
II. Tests
Nous nous intressons au modle Y = X + sous les hypothses classiques. Nous avons obtenu
sur 21 donnes :
y = 6.683(2.67) + 0.44(2.32) x1 + 0.425(2.47) x2 + 0.171(2.09) x3 + 0.009(2.24) x4 ,

R2 = 0.54
o, pour chaque coefficient, le nombre entre parenthses reprsente la valeur absolue de la statis-
tique de test.
1. Quelles sont les hypothses utilises ?
2. Tester la nullit de 1 au seuil de 5%.
3. Pouvez-vous tester H0 : 3 = 1 contre H1 : 3 6= 1 ?
4. Tester la nullit simultane des paramtres associs aux variables x1 , . . . , x4 au seuil de 5%.
III. Moindres carrs ordinaires

Y = X + ,

(a) Quappelle-t-on estimateur des moindres carrs de ? Rappeler sa formule.
(b) Quelle est linterprtation gomtrique de Y = X (faites un dessin) ?
(c) Rappeler esprances et matrices de covariance de , Y et .
tant la constante). Nous avons observ :

100 20 0 0 60
20 20 0 0
X X = , X Y = 20 , Y Y = 159.
0 0 10 0 10
0 0 0 1 1
(a) Estimer et 2 .


(b) Donner un estimateur de la variance de .
(c) Donner un intervalle de confiance pour 2 , au niveau 95%.
(d) Calculer un intervalle de prvision de yn+1 au niveau 95% connaissant : xn+1,2 = 3,
xn+1,3 = 0.5 et xn+1,4 = 2.
IV. Moindres carrs pondrs

On suppose le modle suivant
Y = X + ,
o X est la matrice (n p) du plan dexprience, = [1 , . . . , p ] un vecteur de Rp , Y le vecteur

(n 1) des observations yi , le vecteur (n 1) des erreurs i supposes centres et de matrice de
covariance Var() = 2 2 , o est une matrice (n n) diagonale dont llment (i, i) vaut i > 0.
Dans ce modle, les valeurs i sont supposes connues, mais les paramtres et 2 sont inconnus.
Y = [y1 , . . . , yn ] , avec yi = yi /i ;
= [1 , . . . , n ] , avec i = i /i ;
(a) Donner les relations entre X (respectivement Y , ), X (respectivement Y , ) et .
(b) Dterminer la moyenne et la matrice de covariance du vecteur alatoire .

(c) En supposant X 2 X inversible, dterminer lestimateur des moindres carrs de
. Prciser son biais et sa matrice de covariance.
2 de 2 .
(d) Proposer un estimateur sans biais
(a) Donner la vraisemblance L(Y, , 2 ) du modle.
(b) En dduire que les estimateurs au maximum de vraisemblance mv et 2 sont solutions
mv
de :
1 (Y X) 2 = n 2
X 2 (Y X) = 0.
(c) En dduire les relations entre mv et dune part, entre 2 et

mv 2 dautre part.
(d) Prciser alors la loi de . Que dire de celle de
2 ?
1 X 1 X
y = yi & x
j = xij
n n
iC iC
P
(a) En notant = 1
n iC i , vrifier que le modle peut se mettre sous la forme Y =
+
X .
(b) Donner la moyenne et la matrice de covariance de
.
(c) Dduire des questions prcdentes des estimateurs de et 2 .

115
Universit Rennes 2
Mardi 6 Dcembre 2011
Dure : 2 heures
Aucun document
Corrig du Contrle
I. Prix dun appartement en fonction de sa superficie

1. Le coefficient de corrlation entre le prix et la superficie dun appartement T3 correspond la
racine carr du coefficient de dtermination multiple (Multiple R-squared dans le listing)

r = 0.496 = 0.704.
2. Le modle scrit :
i yi = + xi + i
avec yi le prix de lappartement i en euros, xi sa superficie en m2 et i lerreur. Les hypo-
thses usuelles sont de supposer les erreurs gaussiennes, centres, indpendantes et de mme
variance : N (0, 2 I108 ).
3. Pour tester si la superficie joue un rle sur le prix des appartements, on teste lhypothse
et, sous lhypothse H0 ,
H0 : = 0 contre H1 : 6= 0. La statistique de ce test est T = /
cette statistique de test suit une loi de Student n 2 = 106 degrs de libert. La probabilit
critique associe ce test est infrieure 2 1016 . Cette probabilit critique tant infrieure
5 %, on rejette lhypothse H0 : on considre que la superficie dun appartement de type
T3 influe sur son prix.
La surface a donc une influence significative sur le prix. Mais cette influence est-elle im-
portante ? Le coefficient de dtermination R2 , qui sinterprte comme le pourcentage de
variabilit explique par le modle, vaut 0.495 : linfluence est donc importante mais dautres
facteurs, difficiles quantifier, agissent (emplacement, qualit des prestations, avidit du
propritaire, etc.).
4. Lestimation de la pente de la droite de rgression est : = 6.657. Ce coefficient est signifi-
cativement diffrent de 0 (voir question prcdente) et sinterprte de la faon suivante : un
appartement cotera en moyenne 6.657 euros supplmentaires pour une augmentation de la
superficie de 1 m2 .
5. Le prix moyen dun mtre carr se calcule comme le rapport entre 591.95 et 68.74 soit 8.61 eu-
ros le mtre carr. Ce prix est diffrent de lestimation de car le prix des appartements
nest pas strictement proportionnel leur surface. Comme est infrieur au prix moyen dun
mtre carr, proportionnellement la surface, les petits appartements sont plus chers que les
grands. Le modle de rgression stipule quil faut dabord une mise de fond pour louer un
T3, et quensuite le prix d1 m2 est euros (en moyenne). Remarquons que ce coefficient
est significatif, il nest donc pas souhaitable de le retirer du modle.
6. Pour dterminer les appartements bon march, on peut se fonder sur lestimation des r-
sidus du modle : plus le rsidu est faible (ngatif et avec une forte valeur absolue), plus
lappartement a un prix faible par rapport celui attendu pour sa superficie.

II. Tests
1. Les hypothses utilises sont : Y = X + , avec N (0, 2 I21 ).
2. Nous savons que
1 1
T = T16

1
loi de Student 16 degrs de libert. Sous lhypothse 1 = 0, nous avons donc
1
T = T16

1
Or, daprs lnonc, la valeur absolue de la statistique de test vaut ici
|T ()| = 2.32 > 2.12 = t16 (0.975)
Donc, au seuil de 5%, on rejette lhypothse selon laquelle 1 serait nul.

3. Par le mme raisonnement
3 3
T = T16

3
Or, sous lhypothse 3 = 0, la valeur absolue de la statistique de test vaut daprs lnonc

3
|T ()| = = 2.09
3
Puisque 3 = 0.171, on en dduit donc que 3 0.082. Ainsi, sous lhypothse 3 = 1, nous
avons
3 1
T = T16

3
Or la statistique de test donne ici

0.171 1

|T ()| = 10.1 2.12 = t16 (0.975)
0.082
donc on rejette lhypothse H0 selon laquelle 3 serait gal 1.
4. Nous effectuons un test de Fisher global : H0 : 1 = = 4 = 0, contre H1 : j
{1, . . . , 4}, j 6= 0. Avec les notations du cours, nous savons que sous lhypothse H0 , nous
avons
21 5 SCR0 SCR 4
F = F16
4 SCR
loi de Fisher (4, 16) degrs de libert. Cette statistique de test sexprime aussi en fonction
du coefficient de dtermination comme suit :
21 5 R2 4
F = F16
4 1 R2
La statistique de test donne donc ici
4
F () 4.7 > 3.01 = f16 (0.95)
ce qui nous amne rejeter lhypothse H0 au seuil de 5%.
III. Moindres carrs ordinaires

117
Y = X + ,

(a) Lestimateur des moindres carrs de est dfini par
= arg minp kY Xk2

R
o k.k est la norme euclidienne usuelle sur Rp . Un calcul classique permet de montrer
que = (X X)1 X Y .
(b) Dans ce cadre, Y = X est tout simplement la projection orthogonale de Y sur le
sous-espace de Rn engendr par les p colonnes de X.
(c) Pour ce qui concerne , il est facile de montrer que E[] = et Var()
= 2 (X X)1 .
De la mme faon, nous avons E[Y ] = X et Var(Y ) = PX , o PX = X(X X)1 X
2
est la matrice de projection orthogonale sur le sous-espace de Rn engendr par les p

colonnes de X. Enfin, E[ ] = 0 et Var( ) = 2 PX , o PX = In PX est la matrice
de projection orthogonale sur lorthogonal du sous-espace de Rn engendr par les p
colonnes de X.
tant la constante).
(a) Nous avons

1 1 0 0
1
1 5 0 0

(X X)1 =
80 0 0 8 0
0 0 0 80
Ce qui donne :
1
2
= (X X)1 X Y =
1

1
Par Pythagore nous obtenons
k2 = kY k2 kY k2
k
or
2 = = Y X = 111
kY k2 = kX k
k2 = 48 et
do k
k2
k 48 1
2 =
= =
np 96 2
(b) Un estimateur de la variance de est

1 1 0 0
d ) = 1 1 5 0 0

Var( 2 (X X)1 =
160 0 0 8 0
0 0 0 80

(c) Nous savons que

2 2
T96 ,

2
loi de Student 96 degrs de liberts, laquelle peut tre assimile la loi normale centre
rduite. Puisque q
d ) 2,2 = 1
2 = Var(

4 2
un intervalle de confiance 95% pour 2 est
I = [2 1.96
2 ; 2 + 1.96
2 ] [1.65; 2.35]
(d) Un intervalle de prvision de niveau 95% pour yn+1 est donn par
h q q i
I = yn+1 t96 (0.975) 1 1 + xn+1 (X X)1 xn+1
1 + xn+1 (X X) xn+1 ; yn+1 + t96 (0.975)
q
avec tnp (0.975) 1.96, xn+1 = [1, 3, 0.5, 2], 1 + xn+1 (X X)1 xn+1 2.35 et
yn+1 = xn+1 = 7.5
Finalement I [4.24; 10.76].
IV. Moindres carrs pondrs

Y = [y1 , . . . , yn ] , avec yi = yi /i ;
= [1 , . . . , n ] , avec i = i /i ;
(a) Il est clair que X = 1 X, Y = 1 Y et = 1 .
(b) Puisque E[] = 0 et Var() = 2 2 , on a E[ ] = E[1 ] = 1 E[] = 0 et
Var( ) = Var(1 ) = 1 Var()(1 ) = 1 ( 2 2 )1 = 2 In
(c) Daprs la question prcdente, le modle transform obit aux hypothses usuelles du
modle linaire (centrage, homoscdasticit et dcorrlation des erreurs). Lestimateur
des moindres carrs de est donc
1 2
= ((X ) (X ))1 (X ) Y = X 2 X X Y
Par les proprits classiques de lestimateur des moindres carrs, on sait quil est non
biais et que sa matrice de covariance est
1
Var( ) = 2 ((X ) (X ))1 = 2 X 2 X .
(d) Toujours par la thorie de lestimation aux moindres carrs, on sait quun estimateur
non biais de 2 est
kY X k2 k1 (Y X )k2
2 =
= .
np np


119
(a) Comme dhabitude, nous notons xi = [xi1 , . . . , xip ] la ligne i de la matrice X du plan
dexprience. De par lindpendance des yi , la vraisemblance du modle scrit
n n (yi xi )2
Y Y 1 1 1 1
k (Y X)k
2
2 2 2 2
L(Y, , ) = fi (yi ) = q e i = n n e 2 2
i=1 i=1 2 2 i2 (2) det ( 2 ) 2

2
(b) La log-vraisemblance est donc
n k1 (Y X)k2
log L(Y, , 2 ) = C log( 2 ) ,
2 2 2
n
o C = log((2) 2 det) est une constante indpendante des paramtres et 2 . Pour
toute valeur de 2 , le maximum en est atteint en minimisant k1 (Y X)k =
kY X k, or ceci a t fait prcdemment, do il vient
1 2
mv = = X 2 X X Y
ce qui scrit de faon quivalente, en prmultipliant les deux membres par X 2 X et

en passant tout droite
X 2 (Y X mv ) = 0
Une fois mv dtermin, il suffit de maximiser en 2 la fonction dune seule variable
n k1 (Y X mv )k2
log L(Y, mv , 2 ) = C log( 2 ) ,
2 2 2
ce qui se fait en annulant sa drive
log L(Y, mv , 2 ) n 1 k1 (Y X mv )k2

= +
2 2 2 2 4
On obtient bien
2 k1 (Y X mv )k2

mv = .
n
2
(np)
(c) Nous avons donc mv = dune part, et 2 =
mv n dautre part.
(d) Par les proprits classiques de lestimateur du maximum de vraisemblance dans le cas
du modle linaire gaussien, nous avons donc
1
N (, 2 ((X ) (X ))1 ) N (, 2 X 2 X ).
De mme, le thorme de Cochran permet de montrer que

2

(n p) 2np
2
loi du chi-deux (n p) degrs de libert.
1 X 1 X
y = yi & x
j = xij
n n
iC iC

(a) Dans ce contexte, il suffit de noter Y = [ la matrice L p de terme

y1 , . . . , yL ] , X
gnrique x
j et
1 , . . . , L ] pour obtenir lcriture matricielle
= [
Y = X
+

(b) Le vecteur alatoire

est de moyenne nulle et de matrice de covariance diagonale, ses
2 2
termes diagonaux tant gaux n1 , . . . , nL .
(c) Tous les calculs prcdents sappliquent en remplaant n par L et i par 1 . On obtient
ni
donc pour estimateur de
1
= X
2 X
2 Y
X
et pour estimateur de 2
)k2
k1 (Y X
2 =
.
Lp

121
Universit Rennes 2
Mardi 18 Dcembre 2012
Dure : 2 heures
Aucun document
I. Octopuss Garden
On cherche mettre en uvre une stratgie de prdiction du poids utile du poulpe, cest--dire
son poids viscr, partir de son poids non viscr. Cest en effet le poulpe viscr qui est
commercialis. Pour cela, un chantillon de poulpes a t collect en 2003 lors des oprations de
pche dans les eaux mauritaniennes. Vu limportante diffrence de poids entre les poulpes mles
et les poulpes femelles, on tudie ici uniquement les donnes concernant 240 poulpes femelles.
2000
1500
Poids viscr
1000
500
0
0 500 1000 1500 2000 2500

Poids non viscr
Figure A.6 Poids de poulpe viscr en fonction du poids non viscr (en grammes).
1. Lensemble de ces donnes est reprsent figure A.6.

(a) Proposer un modle reliant le poids viscr et le poids non viscr dun poulpe.
(b) Rappeler les formules des estimateurs des paramtres du modle.
(c) A partir du tableau A.2, donner les estimations numriques des paramtres du modle.
(d) Que reprsente la valeur 0.698 du tableau A.2 ? Comment la retrouver ( peu prs)
partir de -0.388 et de la table de la loi normale donne en annexe (faire un dessin).
(e) Au vu de cette valeur 0.698, proposer un autre modle reliant les poids viscr et non
viscr.
variance 2 .


(Intercept) -2.312146 5.959670 -0.388 0.698
Poids non viscr 0.853169 0.007649 111.545 <2e-16

Table A.2 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple
(sortie R).
(a) Dterminer lestimateur de minimisant la somme des carrs des carts au modle.
(b) Retrouver le rsultat prcdent partir de la formule gnrale de lestimateur de r-
gression linaire multiple en considrant la projection du vecteur Y = [y1 , . . . , yn ] sur
la droite vectorielle engendre par le vecteur X = [x1 , . . . , xn ] .
(c) En dduire la variance de . Proposer un estimateur non biais 2 de 2 .

Poids non viscr 0.85073 0.00436 195.1 <2e-16

Table A.3 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple
avec le modle simplifi (sortie R).
(d) Les rsultats de lanalyse de ce nouveau modle sont fournis dans le tableau A.3. Loca-
liser et
2 dans ce tableau.
(e) On veut prdire le poids viscr dun poulpe de poids non viscr x0 . Quelle est la
variance de lerreur de prvision ? Donner un intervalle de confiance 90% autour de la
prvision.
II. Comparaison de modles

On effectue une rgression de y sur deux variables explicatives x et z partir dun chantillon de n
individus, cest--dire que X = [1, x, z], o 1 est le vecteur de taille n compos de 1. On a obtenu
le rsultat suivant :
5 3 0
X X = 3 3 1 .
0 1 1
1. Que vaut n ?
2. Que vaut le coefficient de corrlation linaire empirique entre x et z ?
3. La rgression par moindres carrs ordinaires a donn le rsultat suivant
yi = 1 + 3xi + 4zi + i
et la somme des carrs rsiduelle vaut k k2 = 3.

et calculer X Y . En dduire y.
(a) Exprimer X Y en fonction de (X X) et ,
(b) Calculer kY k2 . En dduire kY k2 .

123
(c) Calculer la somme des carrs totale kY y1k2 , le coefficient de dtermination R2 et le

coefficient de dtermination ajust.
X0 = [1, x].
(a) Dterminer X X0 et X Y . En dduire 0 .
0 0
(b) Calculer kY0 k2 .
(c) Justifier lgalit kY0 k2 + k
0 k2 = kY k2 + k
k2 . En dduire k
0 k2 , le coefficient de
2
dtermination R0 et le coefficient de dtermination ajust.
(a) Effectuer un test de Fisher entre ces deux modles grce aux coefficients de dtermina-
tion. Quen concluez-vous au niveau de risque 5% ?
(b) Proposer un autre moyen darriver au mme rsultat.
III. Minimisation de lerreur de prvision

1. Soit un chantillon de n couples de rels (xi , yi )1in pour le modle de rgression linaire
simple yi = 0 + 1 xi + i , o les erreurs i sont supposes centres dcorrles et de mme
variance 2 . On estime = (0 , 1 ) par la mthode des moindres carrs ordinaires, ce qui
donne = (0 , 1 ).
(a) Soit xn+1 une nouvelle valeur de la variable explicative pour laquelle on veut prdire la
variable rponse yn+1 . Quappelle-t-on erreur de prvision ? Rappeler sa variance telle
quelle est nonce dans le chapitre sur la rgression linaire simple.
(b) Rappeler sa variance telle quelle est nonce dans le chapitre sur la rgression linaire
multiple.
(c) Retrouver le rsultat de la question 1a partir de celui de la question 1b.
(d) A partir du rsultat de la question 1a, trouver pour quelle valeur de xn+1 la variance
de lerreur de prvision est minimale. Que vaut alors cette variance ?
2. Le but de cette partie est de gnraliser le rsultat de la question 1d. Nous considrons
dsormais un chantillon (xi , yi )1in , o xi = [1, zi ] avec zi = [xi1 , . . . , xip ]. En notant 1 le
vecteur de taille n uniquement compos de 1, nous adoptons lcriture matricielle :

1 x11 x1p 1 z1
..
X= . .. .. .. = .. .. = 1 Z1 Zp = 1 Z ,

. . . . .
1 xn1 xnp 1 zn
o Z est donc une matrice de taille n p. Les moyennes de ses colonnes Z1 , . . . , Zp sont
= [
regroupes dans le vecteur ligne x p ]. Enfin, on considre comme prcdemment
x1 , . . . , x
le modle de rgression linaire
yi = 0 + 1 xi1 + + p xip + i = xi + i ,
o les erreurs i sont supposes centres indpendantes et de mme variance 2 . Matricielle-

ment, ceci scrit donc Y = X + , avec X donne ci-dessus et suppose telle que X X est
inversible.
(a) Ecrire la matrice X X sous forme de 4 blocs faisant intervenir Z, x
et la taille n de
lchantillon.

(b) On rappelle la formule dinversion matricielle par blocs : Soit M une matrice inversible
telle que

T U
M =
V W

1
1 T + T 1 U Q1 V T 1 T 1 U Q1
M = .
Q1 V T 1 Q1
Ecrire la matrice (X X)1 sous forme de 4 blocs dpendant de n, x

et 1 , o =
1
nZ Z x .
x
(c) Soit xn+1 = [1, zn+1
] une nouvelle donne. Montrer que la variance de lerreur de pr-
vision est gale

2 1 1 1
Var(n+1 ) = 1 + + (zn+1 x ) (zn+1 x ) .
n n
(d) On admet pour linstant que = n1 Z Z x

x est symtrique dfinie positive (on rappelle
que S est symtrique dfinie positive si S = S et si pour tout vecteur x non nul,
x Sx > 0). Pour quelle nouvelle donne xn+1 la variance de lerreur de prvision est-elle
minimale ? Que vaut alors cette variance ?
(e) (Bonus) Justifier le fait que si X X est inversible, alors est bien symtrique dfinie
positive.

125
Universit Rennes 2
Master de Statistiques Mardi 18 Dcembre 2012
Aucun document
Corrig du Contrle
I. Octopuss Garden
1. (a) Vu la forme du nuage de points, il semble raisonnable de proposer un modle de rgres-
sion linaire simple : en notant x le poids non viscr et y le poids viscr, on suggre
donc yi = 1 + 2 xi + i , avec comme dhabitude les erreurs i supposes gaussiennes
indpendantes centres et de mme variance 2 .
(b) Les formules des estimateurs des moindres carrs du modle sont :
1 = y 2 x
,
avec : Pn Pn
(xi x)(yi y) (xi x
)yi
2 = i=1
Pn 2
= Pi=1
n ,
i=1 (xi x
) )2
i=1 (xi x
o n = 240 sur notre exemple. Un estimateur non biais de 2 est quant lui
1 X
2 =
(yi (1 + 2 xi ))2
n2
(c) Du tableau 1, on dduit que 1 2.31, 2 0.85, et 52.7.

(d) Sous lhypothse H0 : 1 = 0, nous savons que T = 1 / 1 T238 , loi de Student
238 degrs de liberts. La statistique de test est ici T () = 0.368, et la probabilit
que la valeur absolue dune loi Student 238 ddl dpasse 0.368 est environ 0.698. Pour
retrouver ce rsultat partir de la table de la loi normale : si X T238 , alors par
symtrie de la loi de Student et son approximation par une loi normale centre rduite
on obtient successivement
P(|X| > 0.388) = 2 (1 P(X 0.388)) 2 (1 P(N (0, 1) 0.388))

et daprs la table de la loi normale
P(N (0, 1) 0.388) P(X 0.39) 0.652

do P(|X| > 0.388) 0.696, qui nest pas bien loin du 0.698 du listing.
(e) Ceci nous amne accepter H0 et proposer un modle sans la constante, savoir :
yi = xi + i , o les erreurs i sont supposes gaussiennes indpendantes centres et de
mme variance 2 .
variance 2 .

(a) Lestimateur sobtient en minimisant :
Xn Xn Pn
2 xi y i
S() = (yi xi ) S () = 2 xi (yi xi ) = 0 = Pi=1
n 2
i=1 i=1 i=1 xi
(b) Lestimateur prcdent revient considrer la projection du vecteur Y = [y1 , . . . , yn ]

sur la droite vectorielle engendre par le vecteur X = [x1 , . . . , xn ] . Nous pouvons donc
appliquer la formule gnrale :
Pn
1 xi y i
= (X X) X Y = Pi=1 n 2 .
i=1 xi
(c) La variance de se dduit elle lui aussi de la formule gnrale :

2
= 2 (X X)1 = P
Var() n 2.
i=1 xi
Puisque le nombre de paramtres est gal p = 1, un estimateur non biais 2 est :
2
kY X k 1 X i )2
2 =
= (yi x
n1 n1
(d) Le tableau 2 indique que 0.85 et

52.6.
(e) On veut prdire le poids viscr y0 dun poulpe de poids non viscr x0 . La variance
0 est elle aussi donne par la formule gnrale :
de lerreur de prvision 0 = y0 x

2 1 2 x20
Var(0 ) = (1 + x0 (X X) x0 ) = 1 + Pn 2 .
i=1 xi
Puisquon ne connat pas lcart-type , on le remplace par son estimation

et on sait
alors que
y x 0
r0 T239
x20
1 + Pn x2
i=1 i
do lon dduit un intervalle de prvision 90%

" s s #
x 2 x 2
0 t239 (0.95)
IP (y0 ) = x 1 + Pn 0 2 , x 0 + t239 (0.95)
1 + Pn 0 2 ,
i=1 xi i=1 xi
o t239 (0.95) reprsente le quantile dordre 0.95 dune Student 239 ddl, soit environ
1.653.
II. Comparaison de modles

Puisque X = [1, x, z], on a :

5 3 0 n Pn
x Pn
z
X X = 3 3 1 = n
x P x2i
Pxi2zi .
0 1 1 n
z xi zi zi
1. Il en dcoule que n = 5.

127
2. Le coefficient de corrlation linaire empirique entre x et z scrit

P r
xi zi n
xz 5
x,z = qP qP = 0.91.
2
xi nx 2 2
zi n
z 2 6
3. (a) Puisque = (X X)1 X Y = [1, 3, 4] , on en dduit que

5 3 0 1 4 Pn
y
X Y = (X X) = 3 3 1 3 = 10 = P xi yi .
0 1 1 4 7 zi yi
En particulier, on a donc y = 4/5.

(b) Un calcul direct donne
kY k2 = X Y = 54.
On applique alors Pythagore :
kY k2 = kY k2 + k
k2 = 57.
(c) Puisque y1 est le projet orthogonal de Y sur la droite vectorielle R1, la somme des
carrs totale est alors immdiate, toujours par Pythagore :
269
kY y1k2 = kY k2 k
y 1k2 = kY k2 n
y2 = = 53.8.
5
Par dfinition, le coefficient de dtermination scrit
k2
k 254
R2 = 1 = 0.94
kY y1k2 269
et le coefficient de dtermination ajust tient compte des dimensions, soit
n1 k2
k 239
Ra2 = 1 = 0.89
n 3 kY y1k2 269

X0 = [1, x].
(a) La matrice X0 X0 se dduit de X X :

n Pn
x 5 3
X0 X0 = = .
nx x2i 3 3
Idem pour le vecteur X0 Y partir de X Y :

n y 4
X0 Y = P = .
xi y i 10
Il vient donc
3
0 = (X0 X0 )1 X0 Y = .
19/3
(b) Nous avons comme prcdemment
154
kY0 k2 = 0 X0 Y = 51.3
3

(c) Un coup de Pythagore dans chaque modle donne

kY k2 = kY0 k2 + k
0 k2 = kY k2 + k
k2 ,
do lon tire
17
k0 k2 = kY k2 kY0 k2 = 5.7
3
Le coefficient de dtermination vaut donc
0 k2
k 722
R02 = 1 = = 0.89
kY y1k2 807
et le coefficient de dtermination ajust
2 n1 0 k2
k 2081
Ra,0 =1 = 0.86
n 2 kY y1k2 2421
(a) Sous H0 : z = 0, le test de Fisher entre les deux modles scrit
np R2 R02 pp0
F = Fnp = F21
p p0 1 R2
La statistique de test vaut ici
16
1.78 18.5 f21 (0.95)
F () =
9
et on accepte donc lhypothse selon laquelle z = 0.
(b) Nous aurions pu tester cette hypothse grce un test de Student sur le modle initial,
puisque sous H0 , on sait que
z
T = Tnp = T2 ,

z
q
or
z =
[(X X)1 ]3,3 , avec
s r
k2
k 3

= =
np 2
et
1 5 3

(X X) 1
= =6
3,3 det(X X) 3 3
do
4
|T ()| =
4.303 t2 (0.975)
3
Ces deux tests reviennent au mme puisque F () = T 2 () et f21 (0.95) = (t2 (0.975))2 .
III. Minimisation de lerreur de prvision

1. (a) Lerreur de prvision est par dfinition
n+1 = yn+1 yn+1 = yn+1 (0 + 1 xn+1 ).
On montre que sa variance vaut

2 1 (xn+1 x )2
Var(
n+1 ) = 1 + + Pn .
n )2
i=1 (xi x

129
(b) En notant X la matrice n 2 dfinie par

1 x1
X = ... ...

1 xn
nous avons de faon gnrale

n+1 ) = 2 1 + [1, xn+1 ](X X)1 [1, xn+1 ] .
Var(
(c) Puisque P
XX= Pn P x2i = n Pn
x
xi xi n
x x2i
soninversion donne
P " #
x2i
P
1 1 x2i nx 1
x
(X X) = P 2 =P n ,
n xi n 2 x
2 n
x n )2
(xi x
x 1
do
P
1 1 x2i 1 (xn+1 x )2
[1, xn+1 ](X X) [1, xn+1 ] = P xxn+1 + x2n+1
2 = + Pn
)2
(xi x n n )2
i=1 (xi x
et lon retrouve bien que

2 1
2 1 (xn+1 x )2
1 + [1, xn+1 ](X X) [1, xn+1 ] = 1 + + Pn ,
n )2
i=1 (xi x
i.e. le rsultat de la question 1a.

(d) A partir de cette formule, il est clair que lerreur de prvision est minimale (en moyenne)
lorsque xn+1 = x , la variance de lerreur valant alors 2 (1 + 1/n).
2. (a) La matrice X X scrit sous forme de 4 blocs comme suit

n n x 1 x
XX= =n .
x Z Z
n ZnZ
x
(b) Avec les notations de la formule dinversion matricielle par blocs applique X X, nous

posons T = 1, U = x et W = ZnZ . Toujours avec les notations de lnonc,
, V = x
nous avons donc
1
Q = Z Z x =
x
n
et
1 1 1+x 1 x
x 1
(X X) =
n 1 x 1

(c) Soit xn+1 = [1, zn+1 ] une nouvelle donne. La variance de lerreur de prvision est
comme ci-dessus
n+1 ) = 2 1 + xn+1 (X X)1 xn+1 .
Var(

En utilisant lcriture par blocs de (X X)1 et xn+1 = [1, zn+1 ], on arrive
1
xn+1 (X X)1 xn+1 = 1 x
1+x
zn+1 1 x 1 zn+1 + zn+1
x
1 zn+1
n


La matrice est symtrique et un rel est gal sa transpose ( !) donc zn+1 1 x
=
1
zn+1 et ceci se rcrit
x
1
xn+1 (X X)1 xn+1 =
1 + zn+1 1 zn+1 2
x 1 zn+1

1 x
+x
n
ou encore
1
xn+1 (X X)1 xn+1 = ) 1 (zn+1 x
1 + (zn+1 x )
n
si bien que

2 1 1 1
Var(
n+1 ) = 1 + + (zn+1 x
) (zn+1 x
) ,
n n
qui est la formule escompte.

(d) Dire que est symtrique dfinie positive revient dire quelle est symtrique avec
toutes ses valeurs propres strictement positives, donc il en va de mme pour 1 . De
fait, le dernier terme de la formule prcdente est toujours positif ou nul. Il est nul si
et seulement si zn+1 = x , cest--dire lorsque xn+1 = [1, x ]. La variance de lerreur
de prvision vaut alors 2 (1 + 1/n). Ceci gnralise bien le rsultat vu en rgression
linaire simple : il faut se placer au centre de gravit du nuage de points des variables
explicatives pour prvoir au mieux.
(e) Notons Zc la matrice n p dont les colonnes sont les versions centres des colonnes de
Z, cest--dire respectivement X1 x 1 1, . . . , Xp x
p 1. On vrifie sans trop se faire de
nuds que = n1 Zc Zc , si bien que pour tout vecteur u de Rp
1 1
u u = u Zc Zc u = kZc uk2 0,
n n
avec nullit si et seulement si Zc u = 0. Or Zc u = 0 signifie que

Xp
1 1) + + up (Xp x
u1 (X1 x p 1) = 0 u1 X1 + + up Xp = j 1,
uj x
j=1
cest--dire que la premire colonne de X peut scrire comme une combinaison linaire
non triviale des p dernires. En particulier X serait alors de rang infrieur ou gal p,
ce qui serait en contradiction avec lhypothse dinversibilit de X X. Ainsi est bien
symtrique dfinie positive et la messe est dite.

Annexe B
Rappels dalgbre
Nous ne considrons ici que des matrices relles. Nous notons A une matrice et A sa transpose.
B.1 Quelques dfinitions

Une matrice carre A est inversible sil existe une matrice B telle que AB = BA = I. On note
B = A1 .
La matrice carre A est dite : symtrique si A = A ; singulire si det(A) = 0 ; inversible si
det(A) 6= 0 ; idempotente si A2 = A ; orthogonale si A = A1 .
Le polynme caractristique de la matrice carre A est dfini par PA () = det(I A). Les valeurs
propres sont les solutions de det(I A) = 0. Le vecteur x est un vecteur propre associ la valeur
propre sil est non nul et vrifie Ax = x.
B.2 Quelques proprits

B.2.1 Les matrices n p
(A + B) = A + B et (AB) = B A .
Le rang dune matrice Anp est la plus petite des dimensions des deux sous-espaces engendrs
respectivement par les lignes et par les colonnes de A.
0 rang(A) min(n, p).
rang(A) = rang(A ).
rang(AB) min(rang(A), rang(B)).
rang(BAC) = rang(A) si B et C sont inversibles.
rang(AA ) = rang(A A) = rang(A).
Pour p n, si A est de rang p, alors A A est inversible.
B.2.2 Les matrices carres n n

Soit A et B des matrices carres de taille n n de termes courants aij et bij .
P
tr(A) = ni=1 aii .
tr(A + B) = tr(A) + tr(B),
Pn P tr(AB) = tr(BA) et tr(A) = tr(A).
tr(AA ) = tr(A A) = i=1 nj=1 a2ij .

det(AB) = det(A) det(B).

Si det(A) 6= 0, la matrice A est inversible, dinverse note A1 , vrifiant (A1 ) = (A )1 et
det(A1 ) = 1/ det(A). De plus, si B est inversible, alors (AB)1 = B 1 A1 .
La trace et le dterminant ne dpendent pas des bases choisies.
132 Chapitre B. Rappels dalgbre
B.2.3 Les matrices symtriques

Soit A une matrice carre symtrique de taille n n :
les valeurs propres de A sont relles.
les vecteurs propres de A associs des valeurs propres diffrentes sont orthogonaux.
si une valeur propre est de multiplicit k, il existe k vecteurs propres orthogonaux qui lui sont
associs.
la concatnation de lensemble des vecteurs propres orthonorms forme une matrice ortho-
gonale U . Comme U = U 1 , la diagonalisation de A scrit simplement A = U U , o
= diag(1 , . . . , n ). Pour rsumer, on dit quune matrice symtrique relle est diagonalisable
en base orthonorme.
P Q
tr(A) = ni=1 i et det(A) = ni=1 i .
rang(A) = nombre de valeurs propres i non nulles.
les valeurs propres de A2 sont les carrs des valeurs propres de A et ces 2 matrices ont les mmes
vecteurs propres.
les valeurs propres de A1 (si cette matrice existe) sont les inverses des valeurs propres de A et
ces 2 matrices ont les mmes vecteurs propres.
B.2.4 Les matrices semi-dfinies positives

Soit A une matrice carre symtrique de taille n n :
La matrice A est semi-dfinie positive (SDP) si x Rn , x Ax 0.
La matrice A est dfinie positive (DP) si x Rn {0}, x Ax > 0.
Les valeurs propres dune matrice SDP sont toutes positives ou nulles (et rciproquement).
La matrice A est SDP et inversible si et seulement si A est DP.
Toute matrice A de la forme A = B B est SDP. En effet x Rn , x Ax = x B Bx = (Bx) Bx =
kBxk2 0, o k k correspond la norme euclidienne de Rn .
Toute matrice de projecteur orthogonal est SDP. En effet, les valeurs propres dun projecteur
valent 0 ou 1.
Si B est SDP, alors A BA est SDP.
Si A est DP et si B est SDP, alors A + B est inversible et A1 (A + B)1 est SDP.
B.3 Proprits des inverses

Soit M une matrice symtrique inversible de taille p p, soit u et v deux vecteurs de taille p. Si
u M 1 v 6= 1, alors nous avons linverse suivante :
1 M 1 uv M 1
M + uv = M 1 . (B.1)
1 + u M 1 v
Soit M une matrice inversible telle que :

T U
M =
V W

1 T 1 + T 1 U Q1 V T 1 T 1 U Q1
M = .
Q1 V T 1 Q1

B.4. Proprits des projections 133
B.4 Proprits des projections

B.4.1 Gnralits
Une matrice carre P idempotente (i.e. P 2 = P ) correspond une projection. Si de plus P est
symtrique (i.e. P = P ) , alors cest une projection orthogonale sur le sous-espace M = Im(P )
paralllement M = Ker(P ).
P est un projecteur orthogonal si le produit scalaire hP y, y P yi = 0 pour tout y.
les valeurs propres dune matrice idempotente ne peuvent tre gales qu 0 ou 1.
le rang dune matrice idempotente est gal sa trace, i.e. rang(P ) = dim(M) = tr(P ).
la matrice (I P ) est la matrice de projection orthogonale sur M = Ker(P ).
M
y y Py
Py
B.4.2 Exemple de projection orthogonale

Soit X = [X1 , , Xp ] la matrice (n, p), de rang p, des p variables explicatives du modle linaire.
Soit M(X) le sous-espace engendr par ces p vecteurs linairement indpendants et PX la matrice
de projection orthogonale sur M(X). Le vecteur (y PX y) doit tre orthogonal tout vecteur de
M(X), or tous les vecteurs de M(X) sont de la forme Xu. En particulier il existe un vecteur b
tel que PX y = Xb. Il faut donc que hXu, y PX yi = 0 pour tout vecteur u. En dveloppant, nous
obtenons X y = X PX y = X Xb. X X est inversible donc b = (X X)1 X y. Ainsi
PX = X(X X)1 X
est la matrice de projection orthogonale sur M(X).
B.4.3 Trace et lments courants

Soit PX , de terme courant hij , la matrice p p de la projection orthogonale sur lespace engendr
par les p colonnes de X, nous avons alors :
P
1. tr(PX ) = hii = p.
P P
2. tr(PX ) = tr(PX PX ), cest--dire i j h2ij = p.
3. 0 hii 1 pour tout i.
4. 0.5 hij 0.5 pour tout j diffrent de i.
5. si hii = 1 alors hij = 0 pour tout j diffrent de i.
6. si hii = 0, alors hij = 0 pour tout j diffrent de i.

134 Chapitre B. Rappels dalgbre
B.5 Drivation matricielle

Soit f une fonction de Rp dans R diffrentiable. Le gradient de f au point x est par dfinition :

f f
f (x) = grad(f )(x) = (x), , (x) .
x1 xp
Si f est de classe C 2 , le hessien de f au point x est la matrice carre de dimension p p, souvent

2f
note 2 f (x) ou Hf (x), de terme gnrique [Hf (x)]ij = xi x j
(x). Le thorme de Schwarz assure
que cette matrice est symtrique.
Exemples :
Si f : Rp R est une forme linaire, cest--dire sil existe un vecteur colonne a de taille p tel
que f (x) = a x , alors son gradient est constant : f = a , et sa matrice hessienne est nulle
en tout point : Hf = 0. Ceci nest rien dautre que la gnralisation multidimensionnelle des
drives premire et seconde de la fonction f : R R dfinie par f (x) = ax.
Si f est quadratique, par exemple si f (x) = x Ax, alors son gradient est une forme linaire :
f (x) = x (A + A ), et sa hessienne est constante Hf (x) = A + A . A nouveau, ceci nest rien
dautre que la gnralisation multidimensionnelle des drives premire et seconde de la fonction
f : R R dfinie par f (x) = ax2 .

Annexe C
Rappels de probabilit
C.1 Gnralits
Y = [Y1 , . . . , Yn ] est un vecteur alatoire de Rn si toutes ses composantes Y1 , . . . , Yn sont des
variables alatoires relles.
Lesprance du vecteur alatoire Y est E[Y ] = [E[Y1 ], , E[Yn ]] , vecteur de Rn . La matrice de
variance-covariance de Y a pour terme gnral Cov(Yi , Yj ). Cest une matrice de taille n n, qui
scrit encore :

Var(Y ) = Y = E (Y E[Y ]) (Y E[Y ]) = E[Y Y ] E[Y ](E[Y ]) .
Considrons une matrice (dterministe) A de taille m n et un vecteur (dterministe) b de Rm .
Soit Y un vecteur alatoire de Rn , nous avons les galits suivantes :
E[AY + b] = AE[Y ] + b
Var(AY + b) = Var(AY ) = AVar(Y )A
Si Y est un vecteur alatoire de Rn de matrice de variance-covariance Y , alors pour la norme
euclidienne :
" n
# n
X X
E[kY E(Y )k ] = E
2
(Yi E[Yi ]) =
2
Var(Yi ) = tr(Y ).
i=1 i=1
Nous avons les galits utiles suivantes :

tr(E[Y Y ]) = E[tr(Y Y )] = E[tr(Y Y )] = tr(Y ) + E[Y ] E[Y ].
C.2 Vecteurs alatoires gaussiens

Un vecteur alatoire Y est dit gaussien si toute combinaison linaire de ses composantes est une
variable alatoire gaussienne. Ce vecteur admet alors une esprance et une matrice de variance-
covariance Y , et on note Y N (, Y ).
Un vecteur gaussien Y de Rn desprance et de matrice de variance-covariance Y inversible
admet pour densit la fonction

1 1 1 1
f (y) = p exp (y ) Y (y ) , o y = [y1 , . . . , yn ] .
(2)n/2 det(Y ) 2
Les composantes dun vecteur gaussien Y = [Y1 , , Yn ] sont indpendantes si et seulement si Y
est diagonale. Dautre part, soit Y N (, Y ), avec Y inversible, alors
(Y ) 1 2
Y (Y ) n
136 Chapitre C. Rappels de probabilit
Enfin, le Thorme de Cochran explicite les lois obtenues aprs projection orthogonale dun vecteur
gaussien.
Thorme C.1 (Cochran)
Soit Y N (, 2 In ), M un sous-espace de Rn de dimension p et P la matrice de projection
orthogonale de Rn sur M. Nous avons les proprits suivantes :
(i) P Y N (P , 2 P ) ;
(ii) les vecteurs P Y et Y P Y sont indpendants ;
(iii) kP (Y )k2 / 2 2p .

C.3. Tables des lois usuelles 137
C.3 Tables des lois usuelles
C.3.1 Loi Normale X N (0, 1)
4 2 0 u 2 4
Valeurs de Pr(X u) en fonction de u.

u 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995

C.3.2 Loi de Student X T
4 2 0 2 4
Table des fractiles t (p) pour une loi de T : p = Pr {X t (p)}

@ p 0.5 0.6 0.7 0.8 0.9 0.95 0.975 0.99 0.995 0.999 0.9995
@
@
1 0.000 0.325 0.727 1.376 3.078 6.314 12.706 31.821 63.656 318.289 636.578
2 0.000 0.289 0.617 1.061 1.886 2.920 4.303 6.965 9.925 22.328 31.600
3 0.000 0.277 0.584 0.978 1.638 2.353 3.182 4.541 5.841 10.214 12.924
4 0.000 0.271 0.569 0.941 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 0.000 0.267 0.559 0.920 1.476 2.015 2.571 3.365 4.032 5.894 6.869
6 0.000 0.265 0.553 0.906 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 0.000 0.263 0.549 0.896 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 0.000 0.262 0.546 0.889 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 0.000 0.261 0.543 0.883 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 0.000 0.260 0.542 0.879 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 0.000 0.260 0.540 0.876 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 0.000 0.259 0.539 0.873 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 0.000 0.259 0.538 0.870 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 0.000 0.258 0.537 0.868 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 0.000 0.258 0.536 0.866 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 0.000 0.258 0.535 0.865 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 0.000 0.257 0.534 0.863 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 0.000 0.257 0.534 0.862 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 0.000 0.257 0.533 0.861 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 0.000 0.257 0.533 0.860 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 0.000 0.257 0.532 0.859 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 0.000 0.256 0.532 0.858 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 0.000 0.256 0.532 0.858 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 0.000 0.256 0.531 0.857 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 0.000 0.256 0.531 0.856 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 0.000 0.256 0.531 0.856 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 0.000 0.256 0.531 0.855 1.314 1.703 2.052 2.473 2.771 3.421 3.689
28 0.000 0.256 0.530 0.855 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 0.000 0.256 0.530 0.854 1.311 1.699 2.045 2.462 2.756 3.396 3.660
30 0.000 0.256 0.530 0.854 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 0.000 0.255 0.529 0.851 1.303 1.684 2.021 2.423 2.704 3.307 3.551
60 0.000 0.254 0.527 0.848 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 0.000 0.254 0.526 0.846 1.292 1.664 1.990 2.374 2.639 3.195 3.416
100 0.000 0.254 0.526 0.845 1.290 1.660 1.984 2.364 2.626 3.174 3.390
200 0.000 0.254 0.525 0.843 1.286 1.653 1.972 2.345 2.601 3.131 3.340
0.000 0.253 0.524 0.842 1.282 1.645 1.960 2.326 2.576 3.090 3.290

C.3. Tables des lois usuelles 139
C.3.3 Loi du Khi-deux ddl X 2
Table des fractiles c (p) pour une loi du 2 : p = Pr {X c (p)}

@ p 0.001 0.005 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0.99 0.995 0.999
@
@
1 0.000 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879 10.827
2 0.002 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597 13.815
3 0.024 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838 16.266
4 0.091 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860 18.466
5 0.210 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750 20.515
6 0.381 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548 22.457
7 0.599 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278 24.321
8 0.857 1.344 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955 26.124
9 1.152 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589 27.877
10 1.479 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188 29.588
11 1.834 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757 31.264
12 2.214 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300 32.909
13 2.617 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819 34.527
14 3.041 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319 36.124
15 3.483 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801 37.698
16 3.942 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267 39.252
17 4.416 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718 40.791
18 4.905 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156 42.312
19 5.407 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582 43.819
20 5.921 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997 45.314
21 6.447 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401 46.796
22 6.983 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796 48.268
23 7.529 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181 49.728
24 8.085 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.558 51.179
25 8.649 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928 52.619
26 9.222 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290 54.051
27 9.803 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645 55.475
28 10.391 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994 56.892
29 10.986 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335 58.301
30 11.588 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672 59.702
40 17.917 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766 73.403
50 24.674 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490 86.660
60 31.738 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952 99.608
70 39.036 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.42 104.21 112.32
80 46.520 51.172 53.540 57.153 60.391 64.278 96.578 101.88 106.63 112.33 116.32 124.84
90 54.156 59.196 61.754 65.647 69.126 73.291 107.56 113.14 118.14 124.12 128.30 137.21
100 61.918 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.169 149.449

C.3.4 Loi de Fisher 1 , 2 ddl X F21

Table des fractiles f(1 ,2 ) ) pour une loi F(1 ,2 ) : 0.95 = Pr X f(1 ,2) (p)
HH 1
2 HH 1 2 3 4 5 6 7 8 9 10 15 20 30 40 50 60 80 100
1 161 199 216 225 230 234 237 239 241 242 246 248 250 251 252 252 253 253
2 18.5 19 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.7 8.66 8.62 8.59 8.58 8.57 8.56 8.55
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6 5.96 5.86 5.8 5.75 5.72 5.7 5.69 5.67 5.66
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.62 4.56 4.5 4.46 4.44 4.43 4.41 4.41
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.1 4.06 3.94 3.87 3.81 3.77 3.75 3.74 3.72 3.71
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.51 3.44 3.38 3.34 3.32 3.3 3.29 3.27
8 5.32 4.46 4.07 3.84 3.69 3.58 3.5 3.44 3.39 3.35 3.22 3.15 3.08 3.04 3.02 3.01 2.99 2.97
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.01 2.94 2.86 2.83 2.8 2.79 2.77 2.76
10 4.96 4.1 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.85 2.77 2.7 2.66 2.64 2.62 2.6 2.59
11 4.84 3.98 3.59 3.36 3.2 3.09 3.01 2.95 2.9 2.85 2.72 2.65 2.57 2.53 2.51 2.49 2.47 2.46
12 4.75 3.89 3.49 3.26 3.11 3 2.91 2.85 2.8 2.75 2.62 2.54 2.47 2.43 2.4 2.38 2.36 2.35
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.53 2.46 2.38 2.34 2.31 2.3 2.27 2.26
14 4.6 3.74 3.34 3.11 2.96 2.85 2.76 2.7 2.65 2.6 2.46 2.39 2.31 2.27 2.24 2.22 2.2 2.19
15 4.54 3.68 3.29 3.06 2.9 2.79 2.71 2.64 2.59 2.54 2.4 2.33 2.25 2.2 2.18 2.16 2.14 2.12
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.35 2.28 2.19 2.15 2.12 2.11 2.08 2.07
17 4.45 3.59 3.2 2.96 2.81 2.7 2.61 2.55 2.49 2.45 2.31 2.23 2.15 2.1 2.08 2.06 2.03 2.02
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.27 2.19 2.11 2.06 2.04 2.02 1.99 1.98
19 4.38 3.52 3.13 2.9 2.74 2.63 2.54 2.48 2.42 2.38 2.23 2.16 2.07 2.03 2 1.98 1.96 1.94
20 4.35 3.49 3.1 2.87 2.71 2.6 2.51 2.45 2.39 2.35 2.2 2.12 2.04 1.99 1.97 1.95 1.92 1.91
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.18 2.1 2.01 1.96 1.94 1.92 1.89 1.88
22 4.3 3.44 3.05 2.82 2.66 2.55 2.46 2.4 2.34 2.3 2.15 2.07 1.98 1.94 1.91 1.89 1.86 1.85
23 4.28 3.42 3.03 2.8 2.64 2.53 2.44 2.37 2.32 2.27 2.13 2.05 1.96 1.91 1.88 1.86 1.84 1.82
24 4.26 3.4 3.01 2.78 2.62 2.51 2.42 2.36 2.3 2.25 2.11 2.03 1.94 1.89 1.86 1.84 1.82 1.8
25 4.24 3.39 2.99 2.76 2.6 2.49 2.4 2.34 2.28 2.24 2.09 2.01 1.92 1.87 1.84 1.82 1.8 1.78
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.07 1.99 1.9 1.85 1.82 1.8 1.78 1.76
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.2 2.06 1.97 1.88 1.84 1.81 1.79 1.76 1.74
28 4.2 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.04 1.96 1.87 1.82 1.79 1.77 1.74 1.73
29 4.18 3.33 2.93 2.7 2.55 2.43 2.35 2.28 2.22 2.18 2.03 1.94 1.85 1.81 1.77 1.75 1.73 1.71
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.01 1.93 1.84 1.79 1.76 1.74 1.71 1.7
32 4.15 3.29 2.9 2.67 2.51 2.4 2.31 2.24 2.19 2.14 1.99 1.91 1.82 1.77 1.74 1.71 1.69 1.67
34 4.13 3.28 2.88 2.65 2.49 2.38 2.29 2.23 2.17 2.12 1.97 1.89 1.8 1.75 1.71 1.69 1.66 1.65
36 4.11 3.26 2.87 2.63 2.48 2.36 2.28 2.21 2.15 2.11 1.95 1.87 1.78 1.73 1.69 1.67 1.64 1.62
38 4.1 3.24 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09 1.94 1.85 1.76 1.71 1.68 1.65 1.62 1.61
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 1.92 1.84 1.74 1.69 1.66 1.64 1.61 1.59
42 4.07 3.22 2.83 2.59 2.44 2.32 2.24 2.17 2.11 2.06 1.91 1.83 1.73 1.68 1.65 1.62 1.59 1.57
44 4.06 3.21 2.82 2.58 2.43 2.31 2.23 2.16 2.1 2.05 1.9 1.81 1.72 1.67 1.63 1.61 1.58 1.56
46 4.05 3.2 2.81 2.57 2.42 2.3 2.22 2.15 2.09 2.04 1.89 1.8 1.71 1.65 1.62 1.6 1.57 1.55
48 4.04 3.19 2.8 2.57 2.41 2.29 2.21 2.14 2.08 2.03 1.88 1.79 1.7 1.64 1.61 1.59 1.56 1.54
50 4.03 3.18 2.79 2.56 2.4 2.29 2.2 2.13 2.07 2.03 1.87 1.78 1.69 1.63 1.6 1.58 1.54 1.52
60 4 3.15 2.76 2.53 2.37 2.25 2.17 2.1 2.04 1.99 1.84 1.75 1.65 1.59 1.56 1.53 1.5 1.48
70 3.98 3.13 2.74 2.5 2.35 2.23 2.14 2.07 2.02 1.97 1.81 1.72 1.62 1.57 1.53 1.5 1.47 1.45
80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2 1.95 1.79 1.7 1.6 1.54 1.51 1.48 1.45 1.43
90 3.95 3.1 2.71 2.47 2.32 2.2 2.11 2.04 1.99 1.94 1.78 1.69 1.59 1.53 1.49 1.46 1.43 1.41
100 3.94 3.09 2.7 2.46 2.31 2.19 2.1 2.03 1.97 1.93 1.77 1.68 1.57 1.52 1.48 1.45 1.41 1.39
500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.9 1.85 1.69 1.59 1.48 1.42 1.38 1.35 1.3 1.28
3.84 3 2.6 2.37 2.21 2.1 2.01 1.94 1.88 1.83 1.67 1.57 1.46 1.39 1.35 1.32 1.27 1.24

Annexe D
Quelques donnes
Date "maxO3" "T12" "T15" "Ne12" "N12" "S12" "E12" "W12" "Vx" "maxO3v"
"19960422" 63.6 13.4 15 7 0 0 3 0 9.35 95.6
"19960429" 89.6 15 15.7 4 3 0 0 0 5.4 100.2
"19960506" 79 7.9 10.1 8 0 0 7 0 19.3 105.6
"19960514" 81.2 13.1 11.7 7 7 0 0 0 12.6 95.2
"19960521" 88 14.1 16 6 0 0 0 6 -20.3 82.8
"19960528" 68.4 16.7 18.1 7 0 3 0 0 -3.69 71.4
"19960605" 139 26.8 28.2 1 0 0 3 0 8.27 90
"19960612" 78.2 18.4 20.7 7 4 0 0 0 4.93 60
"19960619" 113.8 27.2 27.7 6 0 4 0 0 -4.93 125.8
"19960627" 41.8 20.6 19.7 8 0 0 0 1 -3.38 62.6
"19960704" 65 21 21.1 6 0 0 0 7 -23.68 38
"19960711" 73 17.4 22.8 8 0 0 0 2 -6.24 70.8
"19960719" 126.2 26.9 29.5 2 0 0 4 0 14.18 119.8
"19960726" 127.8 25.5 27.8 3 0 0 5 0 13.79 103.6
"19960802" 61.6 19.4 21.5 7 6 0 0 0 -7.39 69.2
"19960810" 63.6 20.8 21.4 7 0 0 0 5 -13.79 48
"19960817" 134.2 29.5 30.6 2 0 3 0 0 1.88 118.6
"19960824" 67.2 21.7 20.3 7 0 0 0 7 -24.82 60
"19960901" 87.8 19.7 21.7 5 0 0 3 0 9.35 74.4
"19960908" 96.8 19 21 6 0 0 8 0 28.36 103.8
"19960915" 89.6 20.7 22.9 1 0 0 4 0 12.47 78.8
"19960923" 66.4 18 18.5 7 0 0 0 2 -5.52 72.2
"19960930" 60 17.4 16.4 8 0 6 0 0 -10.8 53.4
"19970414" 90.8 16.3 18.1 0 0 0 5 0 18 89
"19970422" 104.2 13.6 14.4 1 0 0 1 0 3.55 97.8
"19970429" 70 15.8 16.7 7 7 0 0 0 -12.6 61.4
Table D.1 Quelques donnes journalires sur Rennes.

142 Chapitre D. Quelques donnes
Date "maxO3" "T12" "T15" "Ne12" "N12" "S12" "E12" "W12" "Vx" "maxO3v"
"19970708" 96.2 26 27.3 2 0 0 5 0 16.91 87.4
"19970715" 65.6 23.5 23.7 7 0 0 0 3 -9.35 67.8
"19970722" 109.2 26.3 27.3 4 0 0 5 0 16.91 98.6
"19970730" 86.2 21.8 23.6 6 4 0 0 0 2.5 112
"19970806" 87.4 24.8 26.6 3 0 0 0 2 -7.09 49.8
"19970813" 84 25.2 27.5 3 0 0 0 3 -10.15 131.8
"19970821" 83 24.6 27.9 3 0 0 0 2 -5.52 113.8
"19970828" 59.6 16.8 19 7 0 0 0 8 -27.06 55.8
"19970904" 52 17.1 18.3 8 5 0 0 0 -3.13 65.8
"19970912" 73.8 18 18.3 7 0 5 0 0 -11.57 90.4
"19970919" 129 28.9 30 1 0 0 3 0 8.27 111.4
"19970926" 122.4 23.4 25.4 0 0 0 2 0 5.52 118.6
"19980504" 106.6 13 14.3 3 7 0 0 0 12.6 84
"19980511" 121.8 26 28 2 0 4 0 0 2.5 109.8
"19980518" 116.2 24.9 25.8 2 0 0 5 0 18 142.8
"19980526" 81.4 18.4 16.8 7 0 0 0 4 -14.4 80.8
"19980602" 88.6 18.7 19.6 5 0 0 0 5 -15.59 60.4
"19980609" 63 20.4 16.6 7 0 0 0 8 -22.06 79.8
"19980617" 104 19.6 21.2 6 0 0 0 3 -10.8 84.6
"19980624" 88.4 23.2 23.9 4 0 4 0 0 -7.2 92.6
"19980701" 83.8 19.8 20.3 8 0 0 5 0 17.73 40.2
"19980709" 56.4 18.9 19.3 8 0 0 0 4 -14.4 73.6
"19980716" 50.4 19.7 19.3 7 0 0 0 5 -17.73 59
"19980724" 79.2 21.1 21.9 3 4 0 0 0 9.26 55.2
Table D.2 Quelques donnes journalires sur Rennes.

Bibliographie
[1] A. Antoniadis, J. Berruyer, and R. Carmona. Rgression non linaire et applications. Econo-
mica, 1992.
[2] A.C. Atkinson. Two graphical displays for outlying and influential observations in regression.
Biometrika, 68 :1320, 1981.
[3] B. Bercu and D. Chafa. Modlisation stochastique et simulation. Dunod, Paris, 2007.
[4] R. D. Cook. Detection of influential observation in linear regression. Technometrics, 19 :1518,
1977.
[5] P.-A. Cornillon and E. Matzner-Lber. Rgression avec R. Springer, Paris, 2010.
[6] Y. Dodge and V. Rousson. Analyse de rgression applique. Dunod, 2004.
[7] G. H. Golub and C. F. Van Loan. Matrix computations. John Hopkins university press, 3rd
edition, 1996.
[8] T. Hastie, R. Tibshirani, and J. Friedman. The elements of statistical learning - data mining,
inference and prediction. Springer, New-York, 2001.
[9] D. C. Hoaglin and R. E. Welsch. The hat matrix in regression and anova. The American
Statistician, 32 :1722, 1978.
[10] P. Huber. Robust Statistics. J. Wiley & Sons, New-York, 1981.
[11] F. Husson and J. Pags. Statistiques gnrales pour utilisateurs (2. Exercices et corrigs).
Presses Universitaires de Rennes, 2005.
[12] E. L. Lehmann and G. Casella. Theory of point estimation. Springer, New-York, 1998.
[13] M. Lejeune. Statistique. La thorie et ses applications. Springer, Paris, 2004.
[14] D. C. Montgomery, E. A. Peck, and G. Geoffrey Vining. Introduction to linear regression
analysis. John Wiley, New-York, 3 edition, 2001.
[15] A. Sen and M. Srivastava. Regression Analysis : Theory, Methods, and Applications. Springer,
1990.

Regression PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regression PDF

Transféré par

Droits d'auteur :

Formats disponibles

Universit Rennes 2

1 La rgression linaire simple 1

2 La rgression linaire multiple 29

3.3.2 Tests entre modles embots . . . . . . . . . . . . . . . . . . . . . . . . . . 56

B Rappels dalgbre 131

C Rappels de probabilit 135

D Quelques donnes 141

Arnaud Guyader - Rennes 2 Rgression

La rgression linaire simple

Table 1.1 10 donnes journalires de temprature et dozone.

Dun point de vue pratique, le but de cette rgression est double :

Figure 1.1 10 donnes journalires de temprature et dozone.

Pour prciser le sens de , il faut se donner un critre quantifiant la qualit de lajustement de la

Le problme mathmatique peut alors scrire de la faon suivante :

Dfinition 1.1 (Modle de rgression linaire simple)

1.2 Moindres Carrs Ordinaires

Arnaud Guyader - Rennes 2 Rgression

le cot quadratique L(u) = u2 .

Dfinition 1.2 (Estimateurs des Moindres Carrs Ordinaires)

1.2.1 Calcul des estimateurs de 1 et 2

Proposition 1.1 (Estimateurs 1 et

La premire quation donne :

do lon dduit immdiatement :

Rgression Arnaud Guyader - Rennes 2

et en remplaant 1 par son expression (1.1), nous avons :

o apparaissent deux carrs et un troisime terme indpendant de 1 et 2 : ce dernier est donc

1.2.2 Quelques proprits des estimateurs 1 et 2

Arnaud Guyader - Rennes 2 Rgression

Thorme 1.1 (Estimateurs sans biais)

Preuve. Partons de lcriture (1.3) pour 2 :

Thorme 1.2 (Variances et covariance)

Preuve. On part nouveau de lexpression de 2 utilise dans la preuve du non-biais :

do il vient pour la variance de 1 :

Rgression Arnaud Guyader - Rennes 2

Thorme 1.3 (Gauss-Markov)

P 2 . Lestimateur 2 est sans biais donc E(2 ) = 2 pour tout 2 , cest--dire

Arnaud Guyader - Rennes 2 Rgression

1.2.3 Calcul des rsidus et de la variance rsiduelle

Figure 1.2 Reprsentation des individus.

Dans R2 (espace des variables xi et yi ), 1 est lordonne lorigine et 2 la pente de la droite

Thorme 1.4 (Estimateur

Preuve. Rcrivons les rsidus en constatant que 1 = y 2 x

Rgression Arnaud Guyader - Rennes 2

yn+1 = 1 + 2 xn+1 + n+1

avec E[n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, . . . , n. Il est naturel de prdire

Proposition 1.2 (Erreur de prvision)

E[n+1 ] = E[1 1 ] + E[2 2 ]xn+1 + E[n+1 ] = 0.

Var( yn+1 ) = 2 + Var(

Calculons le second terme :

Au total, on obtient bien :

Arnaud Guyader - Rennes 2 Rgression

1.3 Interprtations gomtriques

Autrement dit, dans Rn , 1 et 2 sinterprtent comme les coordonnes de la projection orthogo-

Rgression Arnaud Guyader - Rennes 2

1.3.2 Le coefficient de dtermination R2

kY y1k2 = kY y1k2 + kk2

Dfinition 1.3 (Coefficient de dtermination R2 )

Arnaud Guyader - Rennes 2 Rgression

1.4 Cas derreurs gaussiennes

1.4.1 Estimateurs du maximum de vraisemblance

Do lon dduit que lestimateur du maximum de vraisemblance de 2 est diffrent de lestimateur

Lestimateur du maximum de vraisemblance de 2 est donc biais. On a en effet E[ 2 ]=

Rgression Arnaud Guyader - Rennes 2