Vous êtes sur la page 1sur 7

1 Rgression linaire simple

Rgression linaire simple


Rsum
Introductions au modle linaire et modle linaire gnral.
Prcdent : Introduction au modle linaire
Suivant : Rgression linaire simple
Travaux pratiques .
1 Introduction
Ce chapitre lmentaire permet dintroduire simplement certains concepts
clefs : modle, estimations, tests, diagnostics, qui seront ensuite dclins dans
des cadres plus gnraux. Il vient en complment dun cours traditionnel de
Statistique de niveau bac+3 sur lestimation et les tests.
2 Modle
On note Y la variable alatoire relle expliquer et X la variable explicative
(dterministe) ou effet xe ou facteur contrl. Le modle revient supposer,
quen moyenne, E(Y ), est une fonction afne de X.
E(Y ) = f(X) =
0
+
1
X.
Remarque : Nous supposerons pour simplier que X est dterministe. Dans
le cas contraire, X alatoire, le modle scrit alors conditionnellement aux
observations de X : E(Y |X = x) =
0
+
1
x et conduit aux mmes estima-
tions.
Pour une squence dobservations alatoires identiquement distribues
{(y
i
, x
i
)i = 1, . . . , n} (n > 2, et les x
i
non tous gaux), le modle scrit
avec les observations :
y
i
=
0
+
1
x
i
+u
i
i = 1, . . . , n
ou sous la forme matricielle :
_

_
y
1
.
.
.
y
n
_

_ =
_

_
1 x
1
.
.
.
.
.
.
1 x
n
_

_
_

1
_
+
_

_
u
1
.
.
.
u
n
_

_,
y = X +u
o le vecteur u contient les erreurs.
Les hypothses relatives ce modle sont les suivantes :
i. la distribution de lerreur u est indpendante de X ou X est xe,
ii. lerreur est centre et de variance constante (homoscdasticit) :
i = 1, . . . , n E(u
i
) = 0, Var(u
i
) =
2
u
.
iii.
0
et
1
sont constants, pas de rupture du modle.
iv. Hypothse complmentaire pour les infrences : u N(0,
2
u
I
p
).
3 Estimation
Lestimation des paramtres
0
,
1
,
2
est obtenue en maximisant la vrai-
semblance, sous lhypothse que les erreurs sont gaussiennes, ou encore par
minimisation de la somme des carrs des carts entre observations et modle
(moindres carrs). Pour un jeu de donnes {(x
i
, y
i
)i = 1 . . . , n}, le critre des
moindres carrs scrit :
min
0,1
n

i=1
(y
i

1
x
i
)
2
.
On pose :
x =
1
n
n

i=1
x
i
, y =
1
n
n

i=1
y
i
,
s
2
x
=
1
n 1
n

i=1
(x
i
x)
2
, s
2
y
=
1
n 1
n

i=1
(y
i
y)
2
,
s
xy
=
1
n 1
n

i=1
(x
i
x)(y
i
y), r =
s
xy
s
x
s
y
;
Prcdente Suivante Premire Dernire Retour Quitter
2 Rgression linaire simple
Les moindres carrs sont obtenus par :
b
1
=
s
xy
s
2
x
,
b
0
= y b
1
x.
On montre que ce sont des estimateurs sans biais et de variance minimum
parmi les estimateurs fonctions linaires des y
i
(resp. parmi tous les estima-
teurs dans le cas gaussien). chaque valeur de X correspond la valeur estime
(ou prdite, ajuste) de Y :
y
i
= b
0
+b
1
x
i
,
les rsidus calculs ou estims sont :
e
i
= y
i
y
i
.
La variance
2
u
est estime par la variation rsiduelle :
s
2
=
1
n 2
n

i=1
e
2
i
.
3.1 Infrence
Les estimateurs b
0
et b
1
sont des variables alatoires relles de matrice de
covariance :

2
u
_
1
n
+
x
2
(n1)s
2
x

x
(n1)s
2
x

x
(n1)s
2
x
1
(n1)s
2
x
_
qui est estime en remplaant
2
u
par son estimation s
2
. Sous lhypothse que
les rsidus sont gaussiens, on montre que
(n 2)s
2

2
u

2
(n2)
et donc que les statistiques
(b
0

0
)
_
s
_
1
n
+
x
2
(n 1)s
2
x
_
1/2
et (b
1

1
)
_
s
_
1
(n 1)s
2
x
_
1/2
suivent des lois de Student (n 2) degrs de libert. Ceci permet de tes-
ter lhypothse de nullit dun de ces paramtres ainsi que de construire les
intervalles de conance :
b
0
t
/2;(n2)
s
_
1
n
+
x
2
(n 1)s
2
x
_
1/2
,
b
1
t
/2;(n2)
s
_
1
(n 1)s
2
x
_
1/2
.
Attention : une infrence conjointe sur
0
et
1
ne peut tre obtenue en consi-
drant sparment les intervalles de conance. La rgion de conance est en
effet une ellipse dquation :
n(b
0

0
)
2
+2(b
0

0
)(b
1

1
)
n

i=1
x
i
+(b
1

1
)
2
n

i=1
x
2
i
= 2s
2
F
;2,(n2)
qui est inclue dans le rectangle dni par les intervalles. Un grande part des
valeurs du couple (
0
,
1
) est donc exclue de la rgion de conance et ce
dautant plus que b
0
et b
1
sont corrls.
4 Qualit dajustement, prdiction
Il est dusage de dcomposer les sommes de carrs des carts la moyenne
sous la forme ci-dessous ; les notations sont celles de la plupart des logiciels :
Total sum of squares SST = (n 1)s
2
y
,
Regression sum of squares SSR = (n 1)
s
2
xy
s
2
x
,
Error sum of squares SSE = (n 2)s
2
,
et on vrie : SST = SSR + SSE.
On appelle coefcient de dtermination la quantit
R
2
= r
2
=
s
2
xy
s
2
x
s
2
y
= 1
n 2
n 1
s
2
s
2
y
=
SSR
SST
qui exprime le rapport entre la variance explique par le modle et la variance
totale.
Prcdente Suivante Premire Dernire Retour Quitter
3 Rgression linaire simple
Sous lhypothse :
1
= 0, la statistique
(n 2)
R
2
1 R
2
= (n 2)
SSR
SSE
suit une distribution de Fisher F
1,(n2)
. Cette statistique est le carr de la sta-
tistique de Student correspondant la mme hypothse.
Connaissant une valeur x
0
, on dnit deux intervalles de conance de pr-
diction partir de la valeur prdite y
0
= b
0
+b
1
x
0
. Le premier encadre E(Y )
sachant X = x
0
; le deuxime, qui encadre y
0
est plus grand car il tient compte
de la variance totale :
2
u
+ Var( y
0
) :
y
0
t
/2;(n2)
s
_
1
n
+
(x
0
x)
2
(n 1)s
2
x
_
1/2
,
y
0
t
/2;(n2)
s
_
1 +
1
n
+
(x
0
x)
2
(n 1)s
2
x
_
1/2
.
Les logiciels proposent galement une bande de conance entre deux arcs
dhyperboles pour la droite de rgression. chaque point (b
0
, b
1
) de lellipse
de conance de (
0
,
1
) correspond une droite dquation y = b
0
+b
1
x. Toutes
ces droites sont comprises entre les bornes :
y s
_
F
1,(n2)
_
1
n
+
(x x)
2
(n 1)s
2
x
_
1/2
.
Ceci signie que cette bande recouvre la vraie ligne avec une probabilit
1 . Elle est plus grande que celle associe aux intervalles de conance des
E(Y ).
Attention : la prdiction par intervalle nest justie que pour des observa-
tions appartenant la population chantillonne et condition que les hypo-
thses : linarit, erreurs i.i.d., (normalit), soient valides. viter les extrapola-
tions.
5 Nuage de points, transformations
Toute tentative de modlisation ncessite une tude descriptive pralable
an de sassurer, au moins graphiquement, de la validit des hypothses consi-
dres. Ceci passe
i. par une tude uni-varie de chaque distribution pour dtecter des dissy-
mtries ou encore des valeurs atypiques (outliers) : botes moustaches,
histogrammes, estimation non-paramtrique de la densit,
ii. puis par une reprsentation du nuage de points dans le repre (X, Y ) et
une rgression non-paramtrique an de dceler une ventuelle liaison
non-linaire entre les variables. Attention, mme si elle est forte, une liai-
son non-linaire, par exemple de type quadratique entre X et Y , peut
conduire nanmoins a un coefcient de corrlation linaire trs faible.
Dans les deux cas, en cas de problmes, le remde consiste souvent recher-
cher des transformations des variables permettant de rendre les distributions
symtriques, de banaliser les points atypiques et de rendre linaire la rela-
tion. La qualit de lestimation dune distribution par un histogramme dpend
beaucoup du dcoupage en classe. Malheureusement, plutt que de fournir des
classes deffectifs gaux et donc de mieux rpartir limprcision, les logiciels
utilisent des classes damplitudes gales et tracent donc des histogrammes par-
fois peu reprsentatifs. Ces 20 dernires annes, la suite du dveloppement
des moyens de calcul, sont apparues des mthodes destimation dites fonc-
tionnelles ou non-paramtriques qui proposent destimer la distribution dune
variable ou la relation entre deux variables par une fonction construite point
par point (noyaux) ou dans une base de fonctions splines. Ces estimations sont
simples calculer (pour lordinateur) mais ncessitent le choix dun paramtre
dit de lissage. Les dmonstrations du caractre optimal de ces estimations
fonctionnelles, lie loptimalit du choix de la valeur du paramtre de lis-
sage, font appel des outils thoriques plus sophistiques sortant du cadre de
ce cours (Eubank 1988, Silverman 1986).
Nous rsumons ci-dessous les techniques non-paramtriques, simples et
efcaces dans ce genre de situation, trop rarement enseignes dans un
cours de statistique descriptive, mais dj prsentes dans certains logiciels
(SAS/INSIGHT).
5.1 Estimation de la densit
Lestimation de la densit par la mthode du noyau se met sous la forme
gnrale :
g

(x) =
1
n
n

i=1
K
_
x x
i

_
Prcdente Suivante Premire Dernire Retour Quitter
4 Rgression linaire simple
o est le paramtre de lissage optimise par une procdure automatique
qui minimise une approximation de lerreur quadratique moyenne intgre
(MISE : norme dans lespace L
2
) ; K est une fonction symtrique, positive,
concave, appele noyau dont la forme prcise importe peu. Cest souvent la
fonction densit de la loi gaussienne :
K(t) =
1

2
exp(t
2
/2)
qui possde de bonnes proprits de rgularit. Le principe consiste simple-
ment associer chaque observation un lment de densit de la forme
du noyau K et sommer tous ces lments. Un histogramme est une version
particulire destimation dans laquelle llment de densit est un petit rec-
tangle dans la classe de lobservation.
5.2 Rgression non-paramtrique
On considre un modle de rgression de la forme
y
i
= f(x
i
) +
i
o les erreurs sont centres et la fonction f est suppose rgulire : existence de
drives jusqu un certain ordre. Dans ce contexte, de nombreux estimateurs
de f ont t proposs. Ils conduisent souvent des rsultats assez voisins, le
point le plus sensible tant le choix de .
Spline
Le lissage spline lmentaire consiste rechercher, dans lespace des fonc-
tions continment diffrentiables et avec une drive seconde de carr int-
grable, le minimum dun critre combinant ajustement des observations et r-
gularit de la solution :

= arg min
f
1
n
n

i=1
(y
i
f(x
i
))
2
+
_
+

(f

(x))
2
dx.
On montre que lon obtient une fonction polynmiale (de degr 3) par mor-
ceaux. La valeur optimale du paramtre de lissage est xe par validation croi-
se gnralise (GCV).
Noyau
La rgression non-paramtrique par la mthode du noyau consiste calculer
une moyenne pondre autour de chaque observation. La pondration est xe
par une fonction K du mme type que celle utilise pour lestimation de la
densit.

(x) =
n

i=1
K
_
xxi

_
x
i

n
j=1
K
_
xxj

_.
Loess
Lestimateur prcdent est susceptible de biais mme dans le cas simple
de points aligns. Une adaptation propose de calculer, plutt quune moyenne
locale pondre, une rgression linaire ou mme quadratique locale. On parle
alors de lisseur polynmial local.
5.2.1 transformations
Dans le cas o des problmes (distribution, non-linarit) ont t identis,
ltape suivante consiste rechercher des transformations lmentaires (loga-
rithme, puissance) des variables susceptibles de les rsoudre. Ceci amne
tudier les modles des exemples suivants :
Y =
0
+
1
ln X
ln Y =
0
+
1
X ou Y = ab
X
avec
0
= ln a et
1
= ln b
ln Y =
0
+
1
ln X ou Y = aX
1
avec
0
= ln a
Y =
0
+
1
(1/X)
Y =
0
+
1
X
1/2
Y =
0
+
1
X
2
ou, plus gnralement,
Y =
0
+
1
X

. . .
6 Inuence
Le critre des moindres carrs, comme la vraisemblance applique une dis-
tribution gaussienne douteuse, est trs sensible des observations atypiques,
Prcdente Suivante Premire Dernire Retour Quitter
5 Rgression linaire simple
hors norme (outliers) cest--dire qui prsentent des valeurs trop singulires.
Ltude descriptive initiale permet sans doute dj den reprer mais cest in-
sufsant. Un diagnostic doit tre tabli dans le cadre spcique du modle
recherch an didentier les observations inuentes cest--dire celles dont
une faible variation du couple (x
i
, y
i
) induisent une modication importante
des caractristiques du modle.
Ces observations repres, il ny a pas de remde universel : supprimer un
valeur aberrante, corriger une erreur de mesure, construire une estimation ro-
buste (en norme L
1
), ne rien faire. . . , cela dpend du contexte et doit tre
ngoci avec le commanditaire de ltude.
6.1 Effet levier
Une premire indication est donne par lloignement de x
i
par rapport la
moyenne x. En effet, crivons les prdicteurs y
i
comme combinaisons linaires
des observations (cf. exo 3) :
y
i
= b
0
+b
1
x
i
=
n

j=1
h
ij
y
j
avec h
ij
=
1
n
+
(x
i
x)(x
j
x)

n
j=1
(x
j
x)
2
;
en notant H la matrice (hat matrix) des h
ij
ceci sexprime encore matricielle-
ment :
y = Hy.
Les lments diagonaux h
ii
de cette matrice mesurent ainsi limpact ou lim-
portance du rle que joue y
i
dans lestimation de y
i
.
6.2 Rsidus
Diffrents types de rsidus sont dnis an dafner leurs proprits.
Rsidus : e
i
= y
i
y
i
Rsidus
i
: e
(i)i
= y
i
y
(i)i
=
ei
1hii
o y
(i)i
est la prvision de y
i
calcule sans la ime observation (x
i
, y
i
).
On note
PRESS =
n

i=1
e
2
(i)i
(predicted residual sum of squares)
la somme des carrs de ces rsidus.
Rsidus standardiss : Mme si lhypothse dhomoscdasticit est vrie,
ceux-ci nont pas la mme variance : E(e
i
) = 0 et Var(e
i
) =
2
u
(1h
ii
).
Il est donc dusage den calculer des versions standardises an de les
rendre comparables :
r
i
=
e
i
s

1 h
ii
.
Rsidus studentiss : La standardisation (interne) dpend de e
i
dans le cal-
cul de s estimation de Var(e
i
). Une estimation non biaise de cette va-
riance est base sur
s
2
(i)
=
_
(n 2)s
2

e
2
i
1 h
ii
_
/(n 3)
qui ne tient pas compte de la ime observation. On dnit alors les rsidus
studentiss par :
t
i
=
e
i
s
(i)

1 h
ii
.
Sous hypothse de normalit, on montre que ces rsidus suivent une loi
de Student (n 3) degrs de libert.
Il est ainsi possible de construire un test an tester la prsence dune obser-
vation atypique ou de plusieurs en utilisant lingalit de Bonferroni. Plus
concrtement, en pratique, les rsidus studentiss sont compars aux bornes
2.
6.3 Diagnostics
Les deux critres prcdents contribuent dceler des observations poten-
tilement inuentes par leur loignement x ou la taille des rsidus. Ces in-
formations sont synthtises dans des critres valuant directement linuence
dune observation sur certains paramtres : les prdictions y
i
, les paramtres
b
0
, b
1
, le dterminant de la matrice de covariance des estimateurs. Tous ces in-
dicateurs proposent de comparer un paramtre estim sans la ime observation
et ce mme paramtre estim avec toutes les observations.
Le plus couramment utilis est la distance de Cook :
D
i
=

n
j=1
( y
(i)j
y
j
)
2
2s
2
=
h
ii
2(1 h
ii
)
r
2
i
pour i = 1, . . . , n
Prcdente Suivante Premire Dernire Retour Quitter
6 Rgression linaire simple
qui mesure donc linuence dune observation sur lensemble des prvisions
en prenant en compte effet levier et importance des rsidus.
La stratgie de dtection consiste le plus souvent reprer les points aty-
piques en comparant les distances de Cook avec la valeur 1 puis expliquer
cette inuence en considrant, pour ces observations, leur rsidu ainsi que leur
effet levier.
7 Graphe des rsidus
Le nuage des points (x
i
, y
i
) assorti dun lissage permet de dtecter une ven-
tuelle relation non-linaire entre les variables. Dautres hypothses doivent tre
valides :
lhomoscdasticit par un graphique des rsidus studentiss ou non :
(x
i
, t
i
) an de reprer des formes suspectes de ce nuage qui devrait se
rpartir uniformment de part et dautre de laxe des abscisses,
ventuellement la normalit des rsidus en tudiant leur distribution,
lautocorrlation des rsidus dans le cas, par exemple, o la variable ex-
plicative est le temps.
Une transformation des variables ou une modlisation spcique une srie
chronologique (SARIMA) permet, dans les situations favorables, de rsoudre
les difcults voques.
8 Exemple
Pour 47 immeubles dappartements locatifs dune grande ville amricaine,
les donnes (Jobson, 1991) fournissent le revenu net en fonction du nombre
dappartements. Les tableaux ci-dessous sont des extraits des rsultats fournis
par la procdure reg du module SAS/STAT. Cette procdure gnre beaucoup
dautres rsultats comme les matrices X

X (crossproducts), X

DX (model
crossproducts) et son inverse, matrices des variances et corrlations des esti-
mateurs.
proc reg data=sasuser.suitinco all;
model revenu=nbappart /dw Influence cli clm;
output out=hubout h=lev p=pred r=res student=resstu ;
run;
Descriptive Statistics
Variables Sum Mean Uncorrected SS Variance Std Deviation
INTERCEP 47 1 47 0 0
NBAPPART 1942 41.319148936 157970 1689.7437558 41.106492866
REVENU 4336086 92257.148936 947699637616 11905754472 109113.49354
Correlation : 0.8856
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
(1)
Model 1 429511948724 (2) 429511948724 (5) 163.585 (7) 0.0001 (8)
Error 45 118152756990 (3) 2625616822 (6)
C Total 46 547664705714 (4)
Root MSE 51240.77304 (9) R-square 0.7843 (12)
Dep Mean 92257.14894 (10) Adj R-sq 0.7795
C.V. 55.54125 (11)
(1) degrs de libert de la loi de Fisher du test global (H
0
:
1
= 0)
(2) SSR
(3) SSE ou dviance
(4) SST=SSE+SSR
(5) SSR/DF
(6) s
2
=MSE=SSE/DF est lestimation de
2
u
(7) Statistique F du test de Fisher du modle global
(8) P(f
p;np1
> F) ; H
0
est rejete au niveau si P <
(9) s =racine de MSE
(10) moyenne empirique de la variable explique
(11) Coefcient de variation 100 (9)/(10) sans chelle ni dimension
(12) Coefcient de dtermination R
2
ou carr du coefcient de corrlation.
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
(1) (2) (3) (4)
INTERCEP 1 -4872.015285 10655.276212 -0.457 0.6497
NBAPPART 1 2350.705828 183.79188506 12.790 0.0001
(1) estimations des paramtres (b
j
)
(2) carts-types de ces estimations (s
bj
)
(3) statistique T du test de Student de H
0
: b
j
= 0 ((b
j
0)/s
bj
)
(4) P(t
np1
> T) ; H
0
est rejete au niveau si P <
Connaissant les fractiles de la loi de Student : t
0,975;45
= 2, 015, on construit
facilement des intervalles de conance des estimateurs, ici au niveau 5% : [b
j

t
0,975;n2
s
bj
; b
j
+t
0,975;n2
s
bj
].
Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Student
Obs REVENU Value Predict Mean Mean Predict Predict Resid. Resid. Resid.
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
Prcdente Suivante Premire Dernire Retour Quitter
7 Rgression linaire simple
1 119202 131469 8078.5 115198 147740 26989.9 235948 -12266.9 50599.9 -0.242
...
23 345608 239601 13732. 211943 267260 132755 346448 106007 49366.3 2.147
24 350633 324227 19616. 284717 363736 213718 434735 26406.2 47337.2 0.558
25 226375 98559. 7490.4 83472. 113646 -5742.0 202860 127816 50690.3 2.522
26 247203 178483 10065. 158210 198756 73306.5 283660 68720.0 50242.4 1.368
27 28519. 157327 9041.4 139116 175537 52528.2 262125 -128808 50436.7 -2.55
28 154278 347734 21327. 304779 390689 235947 459521 -193456 46591.4 -4.15
29 157332 140872 8385.2 123983 157760 36294.8 245449 16460.3 50550.0 0.326
30 171305 197289 11104. 174924 219653 91689.0 302888 -25983.7 50023.1 -0.52
...
Cooks Hat Diag Cov INTERCEP NBAPPART
Obs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas
(11) (12) (13) (14) (15) (15) (15) (15)
1 | | | 0.001 -0.2399 0.0249 1.0698 -0.0383 -0.0145 -0.0145
...
23 | |**** | 0.178 2.2413 0.0718 0.9078 0.6235 -0.1347 0.5230
24 | |* | 0.027 0.5535 0.1466 1.2087 0.2294 -0.0898 0.2121
25 | |***** | 0.069 2.6906 0.0214 0.7881 0.3976 0.2597 0.0262
26 | |** | 0.038 1.3815 0.0386 0.9994 0.2768 0.0120 0.1854
27 | *****| | 0.105 -2.7310 0.0311 0.7893 -0.4896 -0.0876 -0.2755
28 |******| | 1.806 -5.2275 0.1732 0.4814 -2.3929 1.0090 -2.2411
29 | | | 0.001 0.3224 0.0268 1.0697 0.0535 0.0162 0.0242
30 | *| | 0.007 -0.5152 0.0470 1.0844 -0.1144 0.0063 -0.0846
...
(1) variable expliquer y
i
(2) valeur ajuste y
i
(3) cart-type de cette estimations
yi
(4)et (5) Intervalle de conance pour lestimation de E(y
i
)
(6) et (7) Intervalle de conance pour lestimation de y
i
(8) rsidus calculs e
i
= y
i
y
i
(9) carts-types de ces estimations
(10) rsidus standardiss (ou studentiss internes) r
i
(11) reprage graphique des rsidus standardiss : = 0.5.
(12) Distance de Cook
(13) rsidus studentiss (externes) t
i
(14) Termes diagonaux de la matrice chapeau H
(15) autres indicateurs dinuence
Les observations 28 et 16 seraient inspecter avec attention. Certaines, dont
la 28, prsentent une valeur observe hors de lintervalle de prdiction.
Le graphique des rsidus sont prsents dans la gure 1. Il montre clairement
que lhypothse dhomoscdasticit nest pas satisfaite. Une autre modlisa-
tion faisant intervenir une transformation des variables serait ncessaire. Ainsi
la modlisation du logarithme du revenu en fonction du logarithme du nombre
dappartements reprsente par la gure 2 est nettement plus satisfaisante. Une
tude descriptive pralable des distributions aurait permis de conduire ce
choix.
FIGURE 1 Graphe des rsidus et nuage de points de la rgression du revenu
en fonction du nombre dappartements.
FIGURE 2 Graphe des rsidus et nuage de points de la rgression (linaire
et non paramtrique) du logarithme du revenu en fonction du logarithme du
nombre dappartements.
Prcdente Suivante Premire Dernire Retour Quitter