Vous êtes sur la page 1sur 42

Chapitre 2

Régression Multiple
Introduction :

• Le but premier de ce deuxième chapitre est la


modélisation (l’explication) dans un but
prédictif, d’une variable quantitative Y par
plusieurs variables quantitatives X1, X2, …, Xp .
Ces dernières sont liées linéairement avec Y.
Il s’agit là de ce qu’on appelle :
la régression linéaire multiple.
Le modèle :

• Le modèle de régression linéaire multiple


est une généralisation de la régression
simple.

• C’est un outil statistique mis en œuvre


pour l’étude de données
multidimensionnelles.
Le modèle : Objectifs

• Estimer les paramètres du modèle  0 ;1; 2 ; ; p


Avec des estimateurs de meilleur qualité.
• Mesurer le pouvoir explicatif global du modèle.
• Faire de la prévision en construisant des intervalles de
prévision.
• Ce dernier point nous permettra de repérer les points
aberrants et de les supprimer.
Le modèle : (aspect empirique)
• Une variable quantitative Y (V. à expliquer ou
endogène) est mise en relation avec p variables
quantitatives X1, X2, …, Xp (V. explicatives , exogènes
ou régresseurs).
• On mesure sur n individus ces p+1 variables
représentées par des vecteurs de Rn: y, x1, x2, …, xp
(où n > p+1).

• L’écriture du modèle linéaire est alors comme suit :

y i  0  1x i 1   2 x i 2    p x ip w i 1 i  n
Le modèle : Ecriture matricielle
 y 1  1 x 11 x 12 x 1p   0   w 1 
      
x 2 p   1  w 2
y
  2  1 x 21 x 22  
      
     
 y i  1 x i1 xi2 x ip    i   w i 
      
      
 n 
y 1 x n1 x n2 x np    p  w n 
Y  n ,1 X  n , p 1   p 1,1 W  n ,1

Y  X  W
Exemple 2
Introduction to econometrics _GL_ Dougherty C.
Le modèle : Les Hypothèses
On supposera vrai les hypothèses suivantes :

H1- Linéarité : y i   0  1x i 1   2 x i 2    p x ip  w i 1  i  n


La relation entre y et x1, . . . ,xp est linéaire.

H2: Plein rang : La matrice X’X est inversible; autrement


det(X’X) 0. On peut l’exprimer par le fait que les Xi
sont indépendantes linéairement (pas statistiquement).
Cette hyp. est nécessaire pour l’estimation des paramètres.

H3: Exogénéité des variables indépendantes : Les W i


sont des termes d’erreur d’espérance conditionnelle
aux réalisations des xi est nulle : E(W i | x1, . . . ,xp) =0.
Les xi n’interviennent pas dans la prédiction de W i
Le modèle : Les Hypothèses (suite)

H4: Homoscédasticité et absence d’autocorrélation:


V(W i) = s2; où s2 est cste et wi n’est pas corrélé avec
wj pour i  j : cov(wi ,wj)=0

H5: Génération des données: Les Xi qu’elle soient


aléatoires ou déterministes (facteurs contrôlés) ne
changent en rien les résultats.

H6: Distribution Normale : Les W sont distribués selon la


loi Normale.
Rappels sur le gradient des fonctions
linéaires et formes quadratiques
• Considérons la fonction f telle que :
f : R p 1  R
u f u   f (u1 ,u1 , ,u p 1 ) ; où p  1
• On appelle gradient de f, la dérivée de f par rapport à u.
p 1 p 1
C'est une fonction de R  R :  f 
 u 
 1 

 f 
 
grad f   u 2 
 
 
 f 
 u 
 p 1 
Rappels sur le gradient des fonctions linéaires et
formes quadratiques
 f 
 1 
• Cas linéaire :    x1 
 f   x 
 x p 1 p 1  grad f    2   
2 
f    x '  x 11  x 2 2  x
   
   
x
 f   p 1 
 

 p 1 
• Cas quadratique :
p 1
f     ' A   aii i2   (aij  a ji )  i j  grad f  2 A
i 1 1i  j  p 1
2 aij

 a11 a12 a1n 


 
 a21 a22 a2 n 
où A  étant supposée symetrique , n=p+1
 
 
 an1 an 2 ann 
Estimation des coefficients par la
Méthode des Moindres Carrés
• Comme on a vu dans le chapitre 1, il s’agit , afin
d’estimer , de minimiser la somme des carrées des
résidus (ei) (voir graphique du chapitre 1) :

n
min  e i
2

i 1

ˆ Y  X ˆ
où e Y  Y
Le modèle: Méthode des Moindres Carrés
• Soit à minimiser : 2
 
 y    x  x    p xip  
 0 1 i1 2 i 2
n

 
i 1 
i

 Xi  
n
  ei2  ee  F  
i 1

 Y  X   Y  X    YY  α' XY  Y ' Xα  α' XX 


scalaire α' XY
-2α' XY

grad F  0  2XY  2XX   0


 ˆ   XX  XY
1

̂
• Vérifier que est un minimum en calculant la matrice Hessienne : celle des
dérivées secondes de F (=2X'X)
Le modèle : Méthode des Moindres Carrés
 n
• Où:  x i1 x i2 x ip 

  x i1 x 2
i1 x x i1 i2 x x
i1 ip 
XX   
 
  x ip

 x ip x i 1  ip
x 2


 
 p 1, p 1

 yi 
 
XY    x i 1y i 
 
 
  x ip y i 
Le modèle : Méthode des Moindres Carrés
• Exemple : (Modèle avec constante): MRLS méthod Matricielle

1 1  1.5 
X    Y     2 observations : 1,1.5  et  2, 2  n=2
1 2   2
 3.5   2 3  5 3 
   XX   
1
XY    XX   
 
5.5  3 5    3 2 
 1  1.5 
ˆ   XX  XY   
1
ˆ
Y  X αˆ    X
 0.5   2
yˆ i 1 0.5 x i

1.5  1.5   0  cste


e       
 2   2   0
• e=0R2 : signifie que la droite estimée passe par les
deux points (1 , 1.5) et (2 , 2).
Le modèle : Méthode des Moindres Carrés
• Exemple : (Modèle sans constante)
1 1.5 
X    Y     2 observations : 1,1.5  et  2, 2 
 2  2
1
XY  5.5 XX  5   XX  
1

5
5.5  1.1 
ˆ   XX  XY 
1
ˆ
 1.1 Y  X αˆ   
5 yˆ i 1.1x i  2.2 
1.5   1.1   0.4 
e       
    
2 2.2  0.2 
n

• On remarque que  e i  0 car le modèle est sans cste.


i 1
PROPRIETES ET DISTRIBUTION DE
L’ESTIMATEUR: MMC (voir pages 483-4;Annex-B
et EX1-ser3)

• Théorème (GAUSS-MARKOV) :
ˆ est BLUE de 

• Remarque :
ˆ 0 ;ˆ1 ;ˆ 2 ; ; ˆ p sont des fonctions linéaires des Yi
La matrice Var-Cov (variance-covariance) de ˆ ,
 XX 
1
notée ˆ , s'écrit : ˆ =s 2
PROPRIETES ET DISTRIBUTION DE L’ESTIMATEUR

• Quelques éléments de démonstration :


• D'abord la Matrice de Var-Cov de W (Annexe B)
 E W 12  E W 1W 2  E W 1W n  
 
 E W 2W 1  E W 22  
W    E WW     
   
 
 E W nW 1 
 E W n  
2

 E W 12  0 0 
 
 0 E W 22  
   s 2I n
 
 
 0
 E W n  
2
• Quelques éléments de démonstration (suite):

 Puisque, ˆ   XX  XY et en posant k   XX  X ;


1 1

on obtient l’écriture : ˆ  k Y combinaison des Yi


E ˆ   kE Y   k  X     XX 
1
 XX   

ˆ  kV Y  k   k W k   k s I n  k   s 2 kk 
I
2

 s  XX  X  X  XX  
2 1 1
 
 XX   XX   XX   XX 
1 1 1
s 2
s 2

 Rem : on peut utiliser la définition :


 
ˆ  E ˆ   ˆ   
 
PROPRIETES ET DISTRIBUTION DE L’ESTIMATEUR

• Estimation de la Matrice de Var-Cov de W(de s 2):


e  Y  Yˆ   X   W    X ˆ 


 X   W  X    X X  X W
1

 
  I  X  X X  X   W  où Γ est symétrique et idempotente 
1

 
  
  ei2  e ' e  W ' W  E  e ' e   s 2Tr    (à développer )

 s 2  n   p  1  s2 
E  e ' e   sˆ 2 
i e 2

n  p 1 n  p 1
SCR
 est donc un estimateur sans Biais de s 2
n  p 1
PROPRIETES ET DISTRIBUTION DE
L’ESTIMATEUR

• Estimation de la Matrice de Var-Cov de ̂ :

• On a déjà vu que :

 XX 
1
ˆ =s 2

• Ceci implique que :

ˆ =sˆ  XX 


1
ˆ 2
Estimation des coefficients par MVS
1-  Estimateur par MVS du coefficient  :
yi   0  1 xi1   2 xi 2    p xip  wi
 yi  X i
'
  wi
(1,1) (1, p 1) ( p 1,1) (1,1)

𝑦𝑖 ↝ 𝒩 𝑋𝑖′ 𝛼, 𝜎 2
𝑛 𝑦 −𝑋 ′ 𝛼 2
2 1 1 𝑖 𝑖
𝑛 ′
−1 𝑦 𝑖 −𝑋 𝑖 𝛼 −
2
1 2 𝜎
1 2 𝜎
𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 = 𝑒 = 𝑛 𝑒
𝑖=1
𝜎 2𝜋 𝜎 2𝜋
1 1
− 2 𝑦−𝑋𝛼 ′ 𝑦−𝑋𝛼
= 𝑛 𝑒 2𝜎
𝜎 2𝜋
Estimation des coefficients par MVS

1- Estimation du coefficient  :

𝐿𝑜𝑔 𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 2
1
= −𝑛𝐿𝑜𝑔 2𝜋 − 𝑛𝐿𝑜𝑔 𝜎 − 2 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼
2𝜎

𝑀𝑎𝑥𝑖𝑚𝑖𝑠𝑒𝑟 𝕃 𝑟𝑒𝑣𝑖𝑒𝑛𝑡 à 𝑚𝑎𝑥𝑖𝑚𝑖𝑠𝑒𝑟 𝐿𝑜𝑔 𝕃


𝑐𝑒 𝑞𝑢𝑖 𝑟𝑒𝑣𝑖𝑒𝑛𝑡 à 𝑚𝑖𝑛𝑖𝑚𝑖𝑠𝑒𝑟 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼 :
𝑀𝑖𝑛 𝑦 − 𝑋𝛼 ′ 𝑦 − 𝑋𝛼
𝛼
𝑐𝑒𝑐𝑖 𝑑𝑜𝑛𝑛𝑒 𝑙𝑒 𝑚ê𝑚𝑒 𝑟é𝑠𝑢𝑙𝑡𝑒 𝑞𝑢𝑒 𝑀𝑀𝐶:
𝛼=𝛼
Estimation des coefficients par MVS
1- Estimation de la variance de l’erreur s 2
:
𝜕 𝑛 1
𝐿𝑜𝑔 𝕃 𝑦1 , 𝑦2 , … , 𝑦𝑛 , 𝛼, 𝜎 2 = − + 3 𝑌 − 𝑋𝛼 ′
𝑌 − 𝑋𝛼 = 0
𝜕𝜎 𝜎 𝜎
𝑛 1
⇒ − + 3 𝑌 − 𝑋𝛼 ′ 𝑌 − 𝑋𝛼 =0
𝜎 𝜎
𝑛 1
⇒ − + 3 𝑌 − 𝑋𝛼 ′ 𝑌 − 𝑋𝛼 =0
𝜎 𝜎
2
𝑌 − 𝑋𝛼 ′ 𝑌 − 𝑋𝛼 𝑆𝐶𝑅 𝑆𝐶𝑅
⇒ 𝜎 = = ≠ 𝜎2 =
𝑛 𝑛 𝑛−𝑝−1
𝑂𝑟

2
𝑛−𝑝−1 2 𝑛−𝑝−1 𝑝+1
𝐸 𝜎 =𝐸 𝜎 = 𝐸 𝜎2 = 1− 𝜎2
𝑛 𝑛 𝑛
≠ 𝜎2
LOIS Des VECTEURS et Des ESTIMATEURS

W
W  N (0, s I n ) 
2
 N (0, I n )*
( n ,1) s
yi  N ( X  ,s )
i
' 2

(1,1)

Y  N ( X  ,s In ) 2
( n ,1)

ˆ  N ( , s ( X ' X ) )
2 1
( p 1,1)

W '  XW
*  2
n  p 1
1
où  X  I  X ( X ' X ) X '
s 2

SCR
   n2 p 1
s2
Exemple
• Des mesures ont été faites sur 3 variables : la circonférence
(en pouces), la Hauteur (en pieds) et le Volume (en pieds
cubes) de 31 cerisiers noirs abattus. Les données sont dans le
package « datasets » de R et sont prêts à être visualisées :
• > head(trees)
• Girth Height Volume
• 1 8.3 70 10.3
• 2 8.6 65 10.3
• 3 8.8 63 10.2
• 4 10.5 72 16.4
• 5 10.7 81 18.8
• 6 10.8 83 19.7
• > library(lattice)
• > splom(trees) 80
70 50 60 70 80

60
50
Volume 40
30
20
10 20 30 40
10

85 75 80 85

80

75 Height 75

70

65 70 75 65

20 14 16 18 20
18
16
14 Girth 14
12
10
8 10 12 14
8
Matrice de nuages de points
> require(scatterplot3d)
> s3d<-with(trees,scatterplot3d(Girth, Height, Volume, pch=16,
highlight.3d=TRUE,angle=60))
> fit<-lm(Volume~Girth+Height,data=trees)
> s3d$plane3d(fit)

80
70
60

Height
Volume

50

90
85
40

80
30

75
70
20

65
10

60
8 10 12 14 16 18 20 22

Girth
> X<-model.matrix(fit) ; X
(Intercept) Girth Height
1 1 8.3 70
2 1 8.6 65
3 1 8.8 63
4 1 10.5 72
5 1 10.7 81
6 1 10.8 83
7 1 11.0 66
8 1 11.0 75
9 1 11.1 80
10 1 11.2 75 ………………
> t(X)%*%X
(Intercept) Girth Height
(Intercept) 31.0 410.70 2356.0
Girth 410.7 5736.55 31524.7
Height 2356.0 31524.70 180274.0
> solve(t(X)%*%X)%*%t(X)%*%trees$Volume
[,1]
(Intercept) -57.9876589
Girth 4.7081605
Height 0.3392512

> fitted(fit)[1:5]
1 2 3 4 5
4.837660 4.553852 4.816981 15.874115 19.869008
> new <- data.frame(Girth=c(09.1,11.6,12.5),Height=c(69,74,87))
> predict(fit,newdata=new)
1 2 3
8.264937 21.731594 30.379205
Tableau d’Analyse de la Variance
(ANOVA) d’un MRLM

• Équation fondamentale de l’ ANOVA:

– La formule de décomposition de la variance


permet de connaître la part de variation de Y
expliquée par celle des Xi :

 Y  Y  
2
 Y
  
i
ˆ  Yi   
2
Y  ˆ
Y  i i
2

SCT SCE SCR  ei2


Tableau de l’ ANOVA
Source Somme Carrés
d.d.l Fisher
de varq des carrés moyens
x 
SCE= Yˆi  Y 
2
p SCE/p F=
(SCE/ p)/
Résidu SCR= e 2
i n-p-1 SCR/(n-p-1) (SCR/(n-p-1))

Totale SCT= Yi  Y 


2
n-1
• > fit<-lm(Volume~Girth+Height,data=trees)
• > summary(fit)

• Call:
• lm(formula = Volume ~ Girth + Height, data = trees)

• Residuals:
• Min 1Q Median 3Q Max
• -6.4065 -2.6493 -0.2876 2.2003 8.4847

• Coefficients:
• Estimate Std. Error t value Pr(>|t|)
• (Intercept) -57.9877 8.6382 -6.713 2.75e-07 ***
• Girth 4.7082 0.2643 17.816 < 2e-16 ***
• Height 0.3393 0.1302 2.607 0.0145 *
• ---
• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

• Residual standard error: 3.882 on 28 degrees of freedom


• Multiple R-squared: 0.948, Adjusted R-squared: 0.9442
• F-statistic: 255 on 2 and 28 DF, p-value: < 2.2e-16
Mise en œuvre sous R
> fit<-lm(Volume~Girth+Height,data=trees)
anova(fit)
• Analysis of Variance Table

• Response: Volume
• Df Sum Sq Mean Sq F value Pr(>F)
• Girth 1 7581.8 7581.8 503.1503 < 2e-16 **
• Height 1 102.4 102.4 6.7943 0.01449 *
• Residuals 28 421.9 15.1
• ---
• Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
• Mesure de la Qualité de l’ajustement
• L’évaluation globale de la régression est
donnée parR2 le coefficient de détermination,
qui exprime la part de variabilité totale
expliquée par le modèle:
SCE SCR
R 
2
 1
SCT SCT
• Remarque:
• R2 doit être utilisé avec précaution.
• On ne peut utiliser R2 dans un modèle sans constante.
• Si p augmente, R2 augmente aussi, même s’il y a des
variables qui n’ont rien à voir avec le phénomène; pour
ce on corrige R2 : SCR
 n  1 n  p 1
R  1
2

 n  p  1
1 2
R   1 
SCT
 R 2

n 1
2- Test de Significativité individuel des
coefficients
Est-ce que la Variable Xi joue significativement
dans l’explication de Y ? On effectue alors un
T-test
F.H.  H 0 :  i  0

#
H :   0
 1 i

• S.U.
ˆi
• Tˆ  t(n-p-1)
i
sˆˆ
i
• Calcul de sˆˆ : i

On a vu que
 sˆ2ˆ 
 0

 sˆ 2

 =sˆ  XX 
ˆ1 1
ˆ
ˆ   2

 
 sˆ2ˆ 
 p 


 2
ei
 XX 
1

n  p 1
 XX 
1
si on pose d ii les éléments diagonaux de

alors : sˆ2ˆi 
 j
e 2

 d i 1i 1
n  p 1
R.D.
Si tˆ  tn  p 1; /2 on rejette H0
 i


Si tˆ  t n ip 1;  /2 on ne rejette pas H0

D’où un intervalle de confiance de i

I C i   ˆi  t n  p 1; /2sˆˆi ;ˆi  t n  p 1; /2 sˆˆi 


• F-Test de Significativité Globale de la
Régression

• Le F-Test sur le vecteur coefficient  :


• F.H.
 H 0 : 1   2   p  0

#  0
 H :  j tq   0
 1 j

0 1 0 0   0   0 
     
 0 0 1  1    0
 H0 : A  
p , p 1 p 1,1  0   
     
0 0 0 1   p   0 
a
p ,1
• 1- Test de Significativité Globale de la
Régression
• Le F-Test précédent est équivalent au F-Test
sur le vecteur coefficient , sous H0

SCE R2
p p
F
SCR

1 R 2 F  p ; n  p  1
n  p 1 n  p 1

• R.D. si F>F(p;n-p-1), On Rejette H0


PREVISION ET INTERVALLE DE
PREVISION
• Si on ajoute une observation k =n+1 pour
chacune des variables explicatives, on obtient
une prévision ponctuelle :
yˆ k  ˆ 0  ˆ1 xk1  ˆ 2 xk 2   ˆ p xkp
 X k ˆ ; où X k  1 xk1 xkp 
• Et on montre que :
sˆ  sˆ 1  X k  XX  X k 

2 2 1
ek  
ek yˆ k  yk
•   t(n-p-1)
sˆ ek sˆ ek
• INTERVALLE DE PREVISION de yk

I p  y k    yˆ k  t n  p 1; /2sˆek ; yˆ k  t n  p 1; /2sˆek 

Vous aimerez peut-être aussi