Vous êtes sur la page 1sur 23

La régression multiple

Econométrie appliquée
Cours de M1 deuxième partie
Armand Taranco
Quand utiliser la régression
multiple
Pour estimer la relation entre une variable
dépendante (Y ) et plusieurs variables
indépendantes (X1, X2, …)
Exemples
 Expliquer les ventes d’un magasin par le
marché total, le prix, l’investissement, la
publicité,…
 Expliquer la consommation des véhicules par le
prix, la cylindrée, la puissance et le poids.
Le modèle général de régression
multiple
Equation de régression multiple
Cette équation précise la façon dont la variable
dépendante est reliée aux variables explicatives :

Y   0  1 X 1   2 X 2  ... p X p  
où 012psont les paramètres et  est un
bruit aléatoire représentant le terme d’erreur.
Le modèle général de régression
multiple
Les termes de l’équation

yi   0  1 x1i   2 x2i  ... p x pi   i

ième observation Terme constant Influence de


de Y la variable Xp
Influence de la
variable X1
Résidu de la ième
observation
Le modèle général de régression
multiple
Ecriture matricielle du modèle

 0 
 y1  1 x1,1  x1, p      1 
         1   
      
   
 yn  1 x1,n  xn , p     n 
  p 
y  X  
Le modèle général de régression
multiple
Les hypothèses du modèle
 Les hypothèses de nature probabiliste
Les variables Xi sont aléatoires
E(i)=0 pour tout i
V(i)=2 pour tout 1≤i≤p (homoscédasticité des
erreurs)
Cov(i , i )=0 pour tout i≠j
Le vecteur aléatoire  suit une loi normale à n
dimensions N(0, 2In)
 Les hypothèses structurelles
Det(XTX)≠0 (absence de colinéarité entre les
variables explicatives).
n>p+1
Le modèle général de régression
multiple
Interprétation géométrique
Le modèle général définit un hyperplan de dimension
p. Nous illustrons le cas p=2.
E(Yi|X1i, X2i) = 0+1X1i+2X2i
Yi : observation
Y
0

i

X2
(X1i, X2i)
X1
Le processus d’estimation
Modèle de régression multiple
Données:
Y = 0 + 1X1 + 2X2 +. . .+ pXp +  x1 x2 . . . xp y
Equation de régression multiple . . . .
E(Y|X1,…,Xp) = 0 + 1X1 + 2X2 +. . .+ pXp . . . .
Paramètres inconnus
 0,  1,  2, . . . ,  p

Equation estimée
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Yˆ  ˆ0  ˆ1 X 1  ˆ2 X 2  ...  ˆ p X p
Estimateurs de
Estimateurs
 0 ,  1,  2, . . . ,  p
ˆ0 , ˆ1 , ˆ2 ,..., ˆ p
Le processus d’estimation
Interprétation géométrique
Illustration du cas p=2.

Y yi : observation

̂ 0
yˆ i  ˆ0  ˆ1 X 1i  ˆ2 X 2i
ˆi  yi  yˆ i

X2
(X1i, X2i)
X1
Le processus d’estimation
Estimation des coefficients de régression
 La méthode : les moindres carrés ordinaires
Le principe de l’estimation des coefficients de
régression :
 0 , 1 ,  2 ,...,  p
consiste à minimiser la somme des carrés des
résidus :
n n

 i  i i
 2

i 1
 ( y  ˆ
y ) 2

i 1

 Le calcul numérique lui-même (calcul matriciel)


peut s’effectuer à l’aide de logiciels statistiques
(SAS, SPSS, S+, R, Gretl,…).
Le processus d’estimation
Estimation des coefficients du modèle
La méthode des moindres carrés donne pour
résultat :

ˆ  X T X 
1
X TY


̂ suit une loi N 0,   X X 
2 T 1

̂ est sans biais : E ( ˆ )  
Parmi les estimateurs de  linéaires par rapport à
X, sans biais, les éléments de ̂ ont la plus petite
variance.
Le processus d’estimation
Interprétation des coefficients de
régression estimés
 La pente ̂ k (k≠0)
L’estimée de Y varie d’un facteur égal à ̂ k
lorsque Xk augmente d’une unité, les autres
variables étant maintenues constantes.
 L’ordonnée à l’origine ̂ 0
C’est la valeur moyenne de Y lorsque toutes les
Xi sont nulles.
Le processus d’estimation
Estimation de la variance des résidus
n

 i
2

ˆ 2  i 1
n  p 1
Le processus d’estimation
Les données
 Taille de l’échantillon
Les données doivent être suffisamment
nombreuses : 15 à 20 par variable au moins.
 La nature des variables
Dans la pratique, Y est une variable
quantitative et les Xi peuvent être quantitatives
ou binaires.
La qualité de la régression
Décomposition de la somme des carrés totale
SCT : somme des carrés totale
SCR : somme des carrés du modèle de régression
SCE : somme des carrés résiduels

SCT = SSR + SCE

 y  Y    yˆ  Y    ( y  yˆ )
n n n
2 2 2
i i i i
i 1 i 1 i 1
Qualité de la régression
Les coefficients de détermination
 Le coefficient de détermination R2
R2 = SCR/SCT

Il exprime le pourcentage de la variance de Y


expliquée par le modèle. Il donne une idée
globale de l'ajustement du modèle.
 Le R2 ajusté se calcule en fonction du R2 :
n 1
Ra  1 
2
(1  R 2 )
n  p 1
Il traduit à la fois la qualité de l’ajustement
(liaison entre Y et les Xi) et la complexité du
Qualité de la régression
Le test de Fisher
Il permet de répondre à la question : la liaison
globale entre Y et les Xi est-elle significative ?
 Hypothèses
H0: 1 = 2 = ... = p = 0
Y ne dépend pas des variables Xi .

H1: Au moins un coefficient est non nul


Y dépend d’au moins une variable Xi .
Qualité de la régression
 Statistique utilisée
SCR
MSR p
F 
MSE SCE
n  p 1

 Règle de décision
Au risque , on rejette H0 si : F  F1-
où F1- est un fractile d’une loi de Fisher à p et
n-p-1 degrés de liberté.
Qualité de la régression
R2 et test de Fisher

F bon, R² mauvais F bon, R² bon


Qualité de la régression
Le test de Student
Il permet de répondre à la question suivante :
l’apport marginal d’une variable Xi est-il
significatif ?
 Hypothèses

H0 : j = 0 (j≠0)
On peut supprimer la variable Xj

H1 : j  0
Il faut conserver la variable Xj
Qualité de la régression
 Statistique utilisée

ˆi
ti  , sˆ : écart-type de ˆi
sˆ i
i

 Règle de décision
Au risque , on rejette H0 si : |t| ≥ t1-
où t1- est un fractile d’une loi de Student
à n-p-1 degrés de liberté.
Analyse des résidus
Normalité
 QQ plot
 Tests de normalité
Homoscédasticité
 La variance des résidus n’est pas stable.
 Transformation des données
Indépendance des résidus
 Test de Durbin-Watson
Détection des valeurs atypiques
Les variables indicatrices
Variable indicatrice (dummy variable)
Variable prenant les valeurs 0 ou 1 pour indiquer
que l’observation présente une certaine
caractéristique, par exemple une périodicité
(trimestre, mois,…).
Exemple : la consommation de fuel trimestrielle

X t   0  1t   2 d1   3 d 2   4 d 4   t
di = 1 pour le iéme trimestre
di = 0 sinon

Vous aimerez peut-être aussi