Se1 5 RegressionMultiple Web PDF

Statistique et Econométrie I
Adrian Bruhin
Université de Lausanne
Automne 2019
5. Le modèle de régression multiple (1/5).
1
La semaine dernière
• Nous avons terminé la matière sur la régression
linéaire simple.
– Problème: Variables omises. L’intuition suggère que

l’estimateur est biaisé dans ce cas.
 Sous quelles conditions?
• La solution: La régression multiple

– Toutes les propriétés du modèle simple dont nous avons
parlé se retrouvent dans le modèle multiple.
 On discutera des généralisations.

 On discutera aussi de nouvelles propriétés
2
Survol du cours
Hypothèses
OLS
Propriétés
stochastiques
Espérance et
variance
Régression linéaire
multiple
L’estimateur OLS:
3
Le biais de variables omises
• Les deux exemples que nous avons abordés ont un
problème commun
– Les élèves en Californie: Corrélation négative entre les

notes et la taille de classe.
– Mais: Il pourrait y avoir d’autres différences entre les

districts!
– Les districts riches ont des classes plus petites et leurs

élèves ont plus de support additionnel.
 La différence entre les notes ne vient peut-être pas de la

taille des classes mais du fait que les districts ne sont pas
comparables.
4
• Les deux exemples que nous avons abordés ont un
problème commun
– Le salaire horaire et la taille: Corrélation positive entre le

salaire horaire d’un employé et sa taille.
– Mais: Il est possible que d’autres paramètres (nourriture)

influencent la taille et le succès sur le marché du travail.
– Une meilleure nourriture augmente la taille d’une personne

et son intelligence.
 La différence de salaire pourrait être causée par ces

influences qui sont corrélées avec la taille.
5
• Deux conditions pour avoir un biais de variables
omises :
– 1. Il existe une variable w qui n’est pas incluse dans la
régression, et qui a une influence sur y (β2 ≠ 0).
– 2. La variable w est corrélée avec x (notre variable

indépendante dans la régression)
• Dans ce cas, l’hypothèse 1 n’est plus satisfaite. Nous

montrerons que si:
–
–
6
• Un exemple
– La vraie régression est égale à
– Mais nous avons omis w.
 Vers quoi tend l’estimateur OLS b1?
– L’estimateur OLS est égal à
 L’estimateur est biaisé. La taille du biais est donnée par le

coefficient de régression de w sur x, et par β2. 7
• Ceci illustre encore une fois l’avantage des expériences.
– Comme la variable de traitement x est allouée aux sujets
d’une façon aléatoire (Cov(wi,xi) = 0), il est impossible qu’il y
ait un biais, même si d’autres variables influencent la variable
dépendante.
– Exemple: Ariely et al. (2009) « Large stakes and big mistakes »

• Allocation aléatoire dans les différents traitements xi
(incitations faibles, fortes, ou très fortes).
• Le talent des individus wi , qui influence leur performance,
β2 > 0, n’est pas corrélé avec les incitations Cov(xi,wi) = 0.
 Même si d’importantes différences existent entre les sujets
concernant leur talent, on peut estimer l’effet du traitement. 8
Comment résoudre ce problème?
• Régression multiple. Il faut mesurer la variable omise et
l’inclure dans la régression.
• Notation: Le cas avec deux variables indépendantes.
– Il est évident que cela se généralise à plus que deux variables.

9
Le modèle linéaire multiple
• La régression multiple nous permet d’estimer l’effet
d’une variable, par exemple x1 sur y, lorsqu’on tient
les autres variables de contrôle constantes:
– Pour éviter le biais de variables omises, il faut inclure

toutes les variables qui affectent la variable dépendante y.
10
Une notation plus simple
• On peut simplifier la notation à l’aide de matrices.
– Pour chaque individu i, nous créons un vecteur contenant
toutes les variables indépendantes
• Rappelons-nous que les vecteurs sont toujours définis

comme des vecteurs colonnes.
– De la même façon, nous pouvons écrire les coefficients

dans un vecteur
11
• On peut simplifier la notation à l’aide de matrices.
– Donc, nous pouvons écrire l’équation pour l’individu i
• Il faut transposer x pour qu’on puisse le multiplier avec

les coefficients β.
– En plus, nous pouvons regrouper toutes les observations

des N individus dans un vecteur / une matrice:
12
• Nous pouvons simplifier la notation à l’aide de
matrices.
– Cela nous permet d’écrire la régression pour toutes les

observations en une forme plus compacte
– Bien entendu, on peut généraliser à k>2 variables !

• Mais cela rend la notation un peu plus compliquée,
sans révéler de nouveaux résultats intéressants.
13
L’estimateur des moindres carrés ordinaires
• On applique le même principe
– Choisir b tel qu’il minimise
– La fonction à minimiser est donc
– La condition de premier ordre est
14
L’estimateur des moindres carrés ordinaires
• Nous avons donc établi
 Généralisation de la régression linéaire simple.
 Nous verrons: la plupart des propriétés sont générales

15
Qu’allons-nous faire maintenant?
• Nous procédons de la manière suivante
– Les hypothèses nécessaires pour que l’estimateur ait une
interprétation sensible
– Les propriétés stochastiques
• L’espérance et la covariance de b
• Les propriétés asymptotiques de b
Cela nous permettra d’effectuer des tests d’hypothèse.
– Application: Les élèves Californiens.

Si on contrôle pour d’autres variables, trouvons-nous
encore une relation significative entre les variables qui
nous intéressent?
16
Les quatre hypothèses sur le modèle
• Fortes implications en termes de propriétés!
L’hypothèse importante. Les deux suivantes sont
facilement remplacées par des hypothèses moins restrictives.
– Hypothèse 1: L’espérance de ε conditionnelle à X est égale
à 0.
– Hypothèse 2: (xi,yi) sont indépendants des autres j, et

distribués identiquement.
– Hypothèse 3: Les observations aberrantes sont très rares.
– Hypothèse 4: Pas de corrélation parfaite entre les

variables dans X.
17
Hypothèse 1: L’espérance du résidu
• L’espérance de ε conditionnelle à x est égale à 0:
• Comme avant: deux implications importantes
– Cela implique que l’espérance est égale à 0.
– Cela implique que ε et x ne sont pas corrélés.
18
Hypothèse 2: L’indépendance des observations
• Une implication pratique de l’hypothèse de la

distribution identique
– Le résidu a une variance constante:

– En plus, les résidus sont indépendants entre les
observations i.
– Donc, la matrice de covariance s’écrit:
19
Hypothèse 4: Pas de corrélation parfaite entre les x
• Si deux variables sont parfaitement corrélées, il est
impossible d’estimer leurs effets respectifs (séparés).
– Car elles sont parfaitement corrélées.

 Question philosophique: Sont-elles deux variables
séparées si elles sont parfaitement corrélées?
– Raison technique: On ne peut plus calculer l’inverse de la

matrice X’X.
 Solution: Abandonner une variable.

20
Les propriétés stochastiques de l’estimateur OLS
• Armés de ces résultats, nous allons maintenant
examiner les propriétés stochastiques de
l’estimateur
– La discussion sera plutôt brève, parce que nous
connaissons la plupart des propriétés.
• Deux types de propriétés

– L’espérance de l’estimateur OLS et la variance
conditionnelle sur les observations.
 Aujourd’hui
– Les propriétés de l’estimateur OLS si N tend vers l’infini.

 La semaine prochaine.
21
L’espérance de l’estimateur OLS
• L’estimateur peut être écrit comme
• Donc, en appliquant la loi des espérances itérées,

nous trouvons
– Quelle surprise, l’estimateur OLS est non biaisé ! 22

La variance conditionnelle de l’estimateur OLS
• On calcule …
– Regardez la vidéo 7 pour la dérivation complète. 23

Qu’avons-nous fait aujourd’hui?
• Le biais de variables omises dans le modèle de
régression linéaire simple: deux conditions
– Variable w influence y
– Variable w corrélée avec x
• On résout ces problèmes grâce au modèle de

régression multiple
– Nous l’avons défini en notation matricielle
– Nous avons trouvé l’estimateur OLS
– Nous avons commencé à caractériser ses propriétés
stochastiques
• Espérance et covariance conditionnelle
24
Qu’allons-nous faire?
• Nous continuerons notre discussion sur les propriétés
stochastiques la semaine prochaine
– Convergence
– Distribution limite
• Les tests d’hypothèses

– Plus intéressants parce qu’on peut tester des hypothèses
concernant plusieurs coefficients
• Applications
– Les notes des élèves en Californie, les diplomates à NYC, la
corruption en Indonésie.
25
Que ferez-vous cette semaine?
• Les exercices
– Série 4 à rendre ce dimanche à 23h59
• Lés vidéos
– Vidéo 7: les calculs pour la matrice de covariance
• Lisez le chapitre 7 de SW (chapitre 4 dans SWT).
26

Se1 5 RegressionMultiple Web PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Se1 5 RegressionMultiple Web PDF

Transféré par

Droits d'auteur :

Formats disponibles

Statistique et Econométrie I

– Problème: Variables omises. L’intuition suggère que

• La solution: La régression multiple

 On discutera des généralisations.

– Les élèves en Californie: Corrélation négative entre les

– Mais: Il pourrait y avoir d’autres différences entre les

– Les districts riches ont des classes plus petites et leurs

 La différence entre les notes ne vient peut-être pas de la

– Le salaire horaire et la taille: Corrélation positive entre le

– Mais: Il est possible que d’autres paramètres (nourriture)

– Une meilleure nourriture augmente la taille d’une personne

 La différence de salaire pourrait être causée par ces

– 2. La variable w est corrélée avec x (notre variable

• Dans ce cas, l’hypothèse 1 n’est plus satisfaite. Nous

– L’estimateur OLS est égal à

 L’estimateur est biaisé. La taille du biais est donnée par le

– Exemple: Ariely et al. (2009) « Large stakes and big mistakes »

• Notation: Le cas avec deux variables indépendantes.

– Il est évident que cela se généralise à plus que deux variables.

– Pour éviter le biais de variables omises, il faut inclure

• Rappelons-nous que les vecteurs sont toujours définis

– De la même façon, nous pouvons écrire les coefficients

• Il faut transposer x pour qu’on puisse le multiplier avec

– En plus, nous pouvons regrouper toutes les observations

– Cela nous permet d’écrire la régression pour toutes les

– Bien entendu, on peut généraliser à k>2 variables !

– La fonction à minimiser est donc

– La condition de premier ordre est

 Généralisation de la régression linéaire simple.

 Nous verrons: la plupart des propriétés sont générales

– Application: Les élèves Californiens.

– Hypothèse 2: (xi,yi) sont indépendants des autres j, et

– Hypothèse 3: Les observations aberrantes sont très rares.

– Hypothèse 4: Pas de corrélation parfaite entre les

• Comme avant: deux implications importantes

– Cela implique que l’espérance est égale à 0.

– Cela implique que ε et x ne sont pas corrélés.

• Une implication pratique de l’hypothèse de la

– Le résidu a une variance constante:

– Car elles sont parfaitement corrélées.

– Raison technique: On ne peut plus calculer l’inverse de la

 Solution: Abandonner une variable.

• Deux types de propriétés

– Les propriétés de l’estimateur OLS si N tend vers l’infini.

• Donc, en appliquant la loi des espérances itérées,

– Quelle surprise, l’estimateur OLS est non biaisé ! 22

– Regardez la vidéo 7 pour la dérivation complète. 23

• On résout ces problèmes grâce au modèle de

• Les tests d’hypothèses

• Lisez le chapitre 7 de SW (chapitre 4 dans SWT).

Vous aimerez peut-être aussi