Vous êtes sur la page 1sur 26

Statistique et Econométrie I

Adrian Bruhin

Université de Lausanne

Automne 2019
5. Le modèle de régression multiple (1/5).

1
La semaine dernière
• Nous avons terminé la matière sur la régression
linéaire simple.

– Problème: Variables omises. L’intuition suggère que


l’estimateur est biaisé dans ce cas.
 Sous quelles conditions?

• La solution: La régression multiple


– Toutes les propriétés du modèle simple dont nous avons
parlé se retrouvent dans le modèle multiple.

 On discutera des généralisations.


 On discutera aussi de nouvelles propriétés
2
Survol du cours
Hypothèses
OLS
Propriétés
stochastiques
Espérance et
variance

Régression linéaire
multiple

L’estimateur OLS:

3
Le biais de variables omises
• Les deux exemples que nous avons abordés ont un
problème commun

– Les élèves en Californie: Corrélation négative entre les


notes et la taille de classe.

– Mais: Il pourrait y avoir d’autres différences entre les


districts!

– Les districts riches ont des classes plus petites et leurs


élèves ont plus de support additionnel.

 La différence entre les notes ne vient peut-être pas de la


taille des classes mais du fait que les districts ne sont pas
comparables.
4
Le biais de variables omises
• Les deux exemples que nous avons abordés ont un
problème commun

– Le salaire horaire et la taille: Corrélation positive entre le


salaire horaire d’un employé et sa taille.

– Mais: Il est possible que d’autres paramètres (nourriture)


influencent la taille et le succès sur le marché du travail.

– Une meilleure nourriture augmente la taille d’une personne


et son intelligence.

 La différence de salaire pourrait être causée par ces


influences qui sont corrélées avec la taille.
5
Le biais de variables omises
• Deux conditions pour avoir un biais de variables
omises :
– 1. Il existe une variable w qui n’est pas incluse dans la
régression, et qui a une influence sur y (β2 ≠ 0).

– 2. La variable w est corrélée avec x (notre variable


indépendante dans la régression)

• Dans ce cas, l’hypothèse 1 n’est plus satisfaite. Nous


montrerons que si:

6
Le biais de variables omises
• Un exemple
– La vraie régression est égale à
– Mais nous avons omis w.
 Vers quoi tend l’estimateur OLS b1?

– L’estimateur OLS est égal à

 L’estimateur est biaisé. La taille du biais est donnée par le


coefficient de régression de w sur x, et par β2. 7
Le biais de variables omises
• Ceci illustre encore une fois l’avantage des expériences.
– Comme la variable de traitement x est allouée aux sujets
d’une façon aléatoire (Cov(wi,xi) = 0), il est impossible qu’il y
ait un biais, même si d’autres variables influencent la variable
dépendante.

– Exemple: Ariely et al. (2009) « Large stakes and big mistakes »


• Allocation aléatoire dans les différents traitements xi
(incitations faibles, fortes, ou très fortes).
• Le talent des individus wi , qui influence leur performance,
β2 > 0, n’est pas corrélé avec les incitations Cov(xi,wi) = 0.
 Même si d’importantes différences existent entre les sujets
concernant leur talent, on peut estimer l’effet du traitement. 8
Comment résoudre ce problème?
• Régression multiple. Il faut mesurer la variable omise et
l’inclure dans la régression.

• Notation: Le cas avec deux variables indépendantes.

– Il est évident que cela se généralise à plus que deux variables.


9
Le modèle linéaire multiple
• La régression multiple nous permet d’estimer l’effet
d’une variable, par exemple x1 sur y, lorsqu’on tient
les autres variables de contrôle constantes:

– Pour éviter le biais de variables omises, il faut inclure


toutes les variables qui affectent la variable dépendante y.

10
Une notation plus simple
• On peut simplifier la notation à l’aide de matrices.
– Pour chaque individu i, nous créons un vecteur contenant
toutes les variables indépendantes

• Rappelons-nous que les vecteurs sont toujours définis


comme des vecteurs colonnes.

– De la même façon, nous pouvons écrire les coefficients


dans un vecteur

11
Une notation plus simple
• On peut simplifier la notation à l’aide de matrices.
– Donc, nous pouvons écrire l’équation pour l’individu i

• Il faut transposer x pour qu’on puisse le multiplier avec


les coefficients β.

– En plus, nous pouvons regrouper toutes les observations


des N individus dans un vecteur / une matrice:

12
Une notation plus simple
• Nous pouvons simplifier la notation à l’aide de
matrices.

– Cela nous permet d’écrire la régression pour toutes les


observations en une forme plus compacte

– Bien entendu, on peut généraliser à k>2 variables !


• Mais cela rend la notation un peu plus compliquée,
sans révéler de nouveaux résultats intéressants.
13
L’estimateur des moindres carrés ordinaires
• On applique le même principe
– Choisir b tel qu’il minimise

– La fonction à minimiser est donc

– La condition de premier ordre est

14
L’estimateur des moindres carrés ordinaires
• Nous avons donc établi

 Généralisation de la régression linéaire simple.

 Nous verrons: la plupart des propriétés sont générales


15
Qu’allons-nous faire maintenant?
• Nous procédons de la manière suivante
– Les hypothèses nécessaires pour que l’estimateur ait une
interprétation sensible
– Les propriétés stochastiques
• L’espérance et la covariance de b
• Les propriétés asymptotiques de b
Cela nous permettra d’effectuer des tests d’hypothèse.

– Application: Les élèves Californiens.


Si on contrôle pour d’autres variables, trouvons-nous
encore une relation significative entre les variables qui
nous intéressent?

16
Les quatre hypothèses sur le modèle
• Fortes implications en termes de propriétés!
L’hypothèse importante. Les deux suivantes sont
facilement remplacées par des hypothèses moins restrictives.
– Hypothèse 1: L’espérance de ε conditionnelle à X est égale
à 0.

– Hypothèse 2: (xi,yi) sont indépendants des autres j, et


distribués identiquement.

– Hypothèse 3: Les observations aberrantes sont très rares.

– Hypothèse 4: Pas de corrélation parfaite entre les


variables dans X.
17
Hypothèse 1: L’espérance du résidu
• L’espérance de ε conditionnelle à x est égale à 0:

• Comme avant: deux implications importantes

– Cela implique que l’espérance est égale à 0.

– Cela implique que ε et x ne sont pas corrélés.

18
Hypothèse 2: L’indépendance des observations

• Une implication pratique de l’hypothèse de la


distribution identique

– Le résidu a une variance constante:


– En plus, les résidus sont indépendants entre les
observations i.
– Donc, la matrice de covariance s’écrit:

19
Hypothèse 4: Pas de corrélation parfaite entre les x
• Si deux variables sont parfaitement corrélées, il est
impossible d’estimer leurs effets respectifs (séparés).

– Car elles sont parfaitement corrélées.


 Question philosophique: Sont-elles deux variables
séparées si elles sont parfaitement corrélées?

– Raison technique: On ne peut plus calculer l’inverse de la


matrice X’X.

 Solution: Abandonner une variable.


20
Les propriétés stochastiques de l’estimateur OLS
• Armés de ces résultats, nous allons maintenant
examiner les propriétés stochastiques de
l’estimateur
– La discussion sera plutôt brève, parce que nous
connaissons la plupart des propriétés.

• Deux types de propriétés


– L’espérance de l’estimateur OLS et la variance
conditionnelle sur les observations.
 Aujourd’hui

– Les propriétés de l’estimateur OLS si N tend vers l’infini.


 La semaine prochaine.
21
L’espérance de l’estimateur OLS
• L’estimateur peut être écrit comme

• Donc, en appliquant la loi des espérances itérées,


nous trouvons

– Quelle surprise, l’estimateur OLS est non biaisé ! 22


La variance conditionnelle de l’estimateur OLS
• On calcule …

– Regardez la vidéo 7 pour la dérivation complète. 23


Qu’avons-nous fait aujourd’hui?
• Le biais de variables omises dans le modèle de
régression linéaire simple: deux conditions
– Variable w influence y
– Variable w corrélée avec x

• On résout ces problèmes grâce au modèle de


régression multiple
– Nous l’avons défini en notation matricielle
– Nous avons trouvé l’estimateur OLS
– Nous avons commencé à caractériser ses propriétés
stochastiques
• Espérance et covariance conditionnelle
24
Qu’allons-nous faire?
• Nous continuerons notre discussion sur les propriétés
stochastiques la semaine prochaine
– Convergence
– Distribution limite

• Les tests d’hypothèses


– Plus intéressants parce qu’on peut tester des hypothèses
concernant plusieurs coefficients

• Applications
– Les notes des élèves en Californie, les diplomates à NYC, la
corruption en Indonésie.
25
Que ferez-vous cette semaine?

• Les exercices
– Série 4 à rendre ce dimanche à 23h59

• Lés vidéos
– Vidéo 7: les calculs pour la matrice de covariance

• Lisez le chapitre 7 de SW (chapitre 4 dans SWT).

26

Vous aimerez peut-être aussi