Vous êtes sur la page 1sur 44

ECO 4272 : Introduction à l’Économétrie

Le modèle de régression simple

Steve Ambler
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018: Steve Ambler

Hiver 2018
Objectifs

1. Présenter le modèle de régression simple.


2. Dériver l’estimateur MCO.
3. Étudier ses propriétés algébriques.
4. Regarder les hypothèses statistiques du modèle et analyser
leurs conséquences (absence de biais, convergence, efficience).
5. Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs
homoscédastiques.
6. Analyser les tests d’hypothèse et le calcul d’intervalles de
confiance dans le cadre du modèle.
Le modèle

I Le modèle s’écrit :

Yi = β0 + β1 Xi + ui .

I Yi peut être prédite par une autre variable économique Xi .


I La relation est linéaire. Sans ui c’est l’équation d’une droite.
Estimateur MCO

I Minimiser les erreurs de prévision – (Yi − β0 − β1 Xi ).


I Choisir β0 et β1 pour minimiser la somme des erreurs au carré.
I Algébriquement :
n
X
min (Yi − β0 − β1 Xi )2 .
β0 ,β1
i=1
Estimateur MCD (suite)

I CPOs :
n 
X 
β0 : −2 Yi − β̂0 − β̂1 Xi = 0;
i=1
n 
X 
β1 : −2 Yi − β̂0 − β̂1 Xi Xi = 0,
i=1

I Les chapeaux sur β0 et β1 soulignent l’idée que lorsqu’on


trouve la solution à ces deux équations, il s’agit d’estimateurs
MCO.
Extimateur MCO (suite)

I 1ère CPO donne


n 
X 
Yi − β̂0 − β̂1 Xi = 0
i=1

n
X n 
X 
⇒ β̂0 = n β̂0 = Yi − β̂1 Xi
i=1 i=1
n n
1X 1X
⇒ β̂0 = Yi − β̂1 Xi
n n
i=1 i=1

⇒ β̂0 = Ȳ − β̂1 X̄ .

I Solution pour β̂0 en fonction de β̂1 .


I Substituant cette solution dans la deuxième CPO :
n 
X 
Yi − Ȳ + β̂1 X̄ − β̂1 Xi Xi = 0.
i=1

n n n n
1X 1X 1X 1X
⇒ Yi Xi − Ȳ Xi − β̂1 (Xi )2 + β̂1 X̄ Xi = 0
n n n n
i=1 i=1 i=1 i=1
n n n n
!
1X 1X 1X 2 1X
⇒ Yi Xi −Ȳ Xi −β̂1 (Xi ) − X̄ Xi = 0
n n n n
i=1 i=1 i=1 i=1
n n
!
1X 1X
⇒ Yi Xi − Ȳ X̄ − β̂1 (Xi )2 − X̄ X̄ = 0
n n
i=1 i=1
1 n 1 Pn
P  
n i=1 Yi Xi − X̄ Ȳ n i=1 Yi − Ȳ Xi − X̄
⇒ β̂1 = Pn 2 2 = 2 .
1 1 Pn
n i=1 (X i ) − X̄ n i=1 X i − X̄
Estimateur MCO (suite)

I 2e façon équivalente :
Pn  
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
i=1 Xi − X̄

I 3e façon équivalente :
1 Pn  
(n−1) i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
1
(n−1) i=1 Xi − X̄

I Comme aide-mémoire, la dernière expression est peut-être la


plus utile. β1 est le ratio entre la covariance échantillonnale
entre X et Y et la variance échantillonnale de X .
Propriétés algébriques de l’estimateur MCO

I L’estimateur MCO possède des propriétés algébriques de


base.
I Ces propriétés ne dépendent pas d’hypothèses concernant
les propriétés statistiques de Y , X ou u.
I Nous allons utiliser ces propriétés à maintes reprises pour
trouver d’autres propriétés de l’estimateur MCO.
I Plusieurs de ces propriétés dépendent du fait que le modèle de
régression inclut une constante. (Sinon voir Windmeijer,
1994.)
La somme des résidus est zéro

I Définissons
ûi ≡ Yi − β̂0 − β̂1 Xi

= Yi − Ȳ + β̂1 X̄ − β̂1 Xi .

I Nous avons
n n
1X 1 X 
ûi = Yi − Ȳ + β̂1 X̄ − β̂1 Xi
n n
i=1 i=1

n n
1X  1X 
= Yi − Ȳ − β̂1 Xi − X̄ = 0.
n n
i=1 i=1
La moyenne de la valeur prédite de Y est égale à Ȳ

I Définissons Ŷi = β̂0 + β̂1 Xi = Yi − ûi , la valeur prédite de Yi .


I Nous avons
Ŷi = Yi − ûi

n n n
1X 1X 1X
⇒ Ŷi = Yi − ûi
n n n
i=1 i=1 i=1
n
1X
= Yi ≡ Ȳ .
n
i=1
Orthogonalité entre les Xi et les résidus
n
X n
X n
X n
X 
Xi ûi = Xi ûi − X̄ ûi = Xi − X̄ ûi
i=1 i=1 i=1 i=1
n
X  
= Xi − X̄ Yi − Ȳ + β̂1 X̄ − β̂1 Xi
i=1
n
X   
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1
n n
X   X 2
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1 i=1
n Pn   n
X   i=1 Xi − X̄ Yi − Ȳ X 2
= Xi − X̄ Yi − Ȳ − Pn 2 Xi − X̄
i=1 i=1 Xi − X̄ i=1
n
X n
X
   
= Xi − X̄ Yi − Ȳ − Xi − X̄ Yi − Ȳ = 0.
i=1 i=1
Interprétation géométrique (projection)
Ajustement statistique : R 2

2
Définissons : TSS ≡ ni=1 Yi − Ȳ , la somme totale des
P
I
carrés.
P  2
I Définissons SSR ≡ ni=1 Yi − Ŷi , la somme des résidus au
carré.
P  2
I Définissons ESS ≡ ni=1 Ŷi − Ȳ , la somme expliquée des
carrés.
I Nous pouvons montrer que TSS = ESS + SSR.
I La preuve (un peu longue) est sur la page suivante.
Ajustement statistique (suite)
n n    2
X 2 X
TSS ≡ Yi − Ȳ = Yi − Ŷi + Ŷi − Ȳ
i=1 i=1
n 
X 2 n 
X 2 n 
X  
= Yi − Ŷi + Ŷi − Ȳ +2 Yi − Ŷi Ŷi − Ȳ
i=1 i=1 i=1
n
X   n
X n
X
= SSR+ESS+2 ûi Ŷi − Ȳ = SSR+ESS+2 ûi Ŷi −2Ȳ ûi
i=1 i=1 i=1
n
X n
X  
= SSR + ESS + 2 ûi Ŷi = SSR + ESS + 2 ûi β̂0 + β̂1 Xi
i=1 i=1
n
X n
X
= SSR + ESS + 2β̂0 ûi + 2β̂1 ûi Xi
i=1 i=1

= SSR + ESS.
Ajustement statistique (suite)

I Maintenant, définissons
ESS
R2 ≡ .
TSS

I Puisque TSS, ESS et SSR sont la somme de termes au carré,


il faut que :
0 ≤ R 2 ≤ 1.

I Il faut aussi que


SSR
R2 = 1 − .
TSS
Ajustement statistique et corrélation entre X et Y

I On peut montrer l’équivalence entre le R 2 et le carré du


coefficient de corrélation entre X et Y
I Un premier pont entre les propriétés algébriques du modèle
et les propriétés statistiques
Ajustement statistique et corrélation entre X et Y (suite)

Pn  2
i=1 Ŷi − Ȳ
R 2 ≡ Pn 2
i=1 Yi − Ȳ
2
Corr (X , Y ) =
 2
Pn  
i=1Xi − X̄ Yi − Ȳ
q 
Pn 2 qPn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn  2
i=1 Xi − X̄ Yi − Ȳ
= Pn 2 Pn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Ajustement statistique et corrélation entre X et Y (suite)

Pn  2
2
Ŷi − Ȳ Pn 
i=1 i=1 Xi − X̄ Yi − Ȳ
Pn 2 = Pn 2 Pn 2
i=1 Yi − Ȳ i=1 Xi − X̄ i=1 Yi − Ȳ
n  n n
!2
X 2 X 2 X  
⇔ Ŷi − Ȳ Xi − X̄ = Xi − X̄ Yi − Ȳ .
i=1 i=1 i=1
Ajustement statistique et corrélation entre X et Y (suite)
Travaillant avec le bras gauche de cette équation, nous avons
n  n
2 X n  n
2 X
X 2 X 2
Ŷi − Ȳ Xi − X̄ = β̂0 + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1 i=1 i=1

n  n
2 X
X 2
= Ȳ − β̂1 X̄ + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
n  2 n n n
X X 2 X 2 X 2
= β̂1 Xi − β̂1 X̄ Xi − X̄ = β̂12 Xi − X̄ Xi − X̄
i=1 i=1 i=1 i=1
Pn   !2 n
!2
i=1 Xi − X̄ Yi − Ȳ X 2
= Pn 2 Xi − X̄
i=1 Xi − X̄ i=1

n
!2
X  
= Xi − X̄ Yi − Ȳ ,
i=1
Écart type de la régression
I Un estimateur de l’écart type du terme d’erreur du modèle.
I Définissons :
n
1 X SSR
sû2 ≡ (ûi )2 = .
(n − 2) (n − 2)
i=1

I Estimateur non biaisé de la variance du terme d’erreur, si


celle-ci est constante (on ne fera pas cette hypothèse
généralement).
I On perd 2 degrés de liberté car il faut estimer 2 paramètres
(β0 et β1 ) afin de calculer les résidus.
I Maintenant, définissons :
q
sû ≡ sû2 .

I sû est l’écart type de la régression.


Propriétés statistiques de l’estimateur MCO : hypothèses
1. Le terme d’erreur a une espérance conditionnelle de zéro :

E (ui |X = Xi ) = 0.

2. Les observations sont i.i.d. :

(Xi , Yi ) , i = 1, 2, . . . , n i.i.d.

3. Les observations aberrantes sont peu probables :

0 < E X 4 < ∞; 0 < E Y 4 < ∞.


 

Sert à rappeler que l’estimateur MCO peut être sensible aux


observations aberrantes ⇒ examiner les résidus pour détecter
la présence de d’observations aberrantes.
Absence de biais de l’estimateur

Pn  
i=1 Xi − X̄ Yi − Ȳ
β̂1 ≡ Pn 2
i=1 Xi − X̄
Pn  
i=1 Xi − X̄
β0 + β1 Xi + ui − β0 − β1 X̄ − ū
= Pn 2
i=1 Xi − X̄
2 P
β1 ni=1 Xi − X̄ + ni=1 Xi − X̄ (ui − ū)
P 
= Pn 2
i=1 Xi − X̄
Pn 
i=1 Xi − X̄ (ui − ū)
= β1 + Pn 2
i=1 Xi − X̄
Pn 
i=1 Xi − X̄ ui
= β1 + Pn 2 .
i=1 Xi − X̄
Absence de biais de l’estimateur (suite)

Calculant l’espérance de cette expression donne


Pn  !
 
i=1 Xi − X̄ ui
E β̂1 = β1 + E Pn 2
i=1 Xi − X̄
Pn  !
i=1 X i − X̄ E (u i |X 1 , X2 , . . . Xn )
= β1 + E Pn 2
i=1 Xi − X̄
Pn  !
i=1 Xi − X̄ E (ui |Xi )
= β1 + E Pn 2 = β1 .
i=1 X i − X̄
En cours de route, nous avons utilisé la loi des espérances itérées
E (E (ui |Xi )) = E (ui ).
Convergence de l’estimateur

I Nous remettons ce sujet à un peu plus tard. En calculant les


propriétes échantillonnales de l’estimateur, nous allons montrer
que sa variance décroı̂t avec la taille de l’échantillon n.
I Si c’est le cas, nous avons à toutes fins pratiques montré sa
convergence. Nous avons montré l’absence de biais, et la
variance converge à zéro lorsque n tend vers l’infini.
Efficience de l’estimateur

I Pour montrer l’efficience de l’estimateur MCO, nous aurons


besoin de l’hypothèse additionnelle d’homoscédasticité, une
variance constante de l’erreur.
I Si cette hypothèse ne tient pas, et si nous connaissons de quoi
dépend la variance du terme d’erreur, il peut être possible de
trouver un estimateur plus efficient que l’estimateur MCO.
Estimateur moindres carrés généralisés (generalised least
squares ou GLS en anglais). Voir le chapitre 15 du manuel.
I Une preuve détaillée du théorème Gauss-Markov se trouve
dans l’Annexe 5.2 du manuel. Nous n’aurons pas le temps de
voir cette preuve en détail dans le cours.
Propriétés échantillonnales de l’estimateur
Pn 
i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2
i=1 Xi − X̄
1 Pn

n i=1 Xi − X̄ ui
= β1 + 2 .
1 Pn
n i=1 Xi − X̄
D’abord, travaillons avec le numérateur. Nous avons déjà vu que la
moyenne échantillonnale converge en probabilité à la moyenne de
la population.
p
X̄ −
→ µX ,
Donc, pour des échantillons assez grands, nous avons
n n n
1X  1X 1X
Xi − X̄ ui ≈ (Xi − µX ) ui ≡ v̄ ≡ vi .
n n n
i=1 i=1 i=1
Propriétés échantillonnales de l’estimateur (suite)

La variable aléatoire vi que nous venons de définir satisfait les


propriétés suivantes.
1. E (vi ) = 0 ;
2. vi est i.i.d. ;
3. σv2 < ∞ .
La variable satisfait les hypothèses pour pouvoir invoquer le
théorème de la limite centrale. Donc, nous avons
v̄ d

→ N (0 , 1) ,
σv̄

où σv̄2 = σv2 /n.


Propriétés échantillonnales de l’estimateur (suite)

I Maintenant, le dénominateur.
I Nous avons vu à la fin du chapitre sur la statistique que la
variance échantillonnale est un estimateur convergent de la
variance d’une variable aléatoire. Donc nous avons
n n
1 X 2 1X 2 p 2
Xi − X̄ ≈ Xi − X̄ − → σX .
n−1 n
i=1 i=1
Propriétés échantillonnales de l’estimateur (suite)

I Nous avons
  v̄
β̂1 − β1 ≈ Pn 2 .
1
n i=1 Xi − X̄

I En grand échantillon, le dénominateur agit comme une


constante. Donc, nous avons
! !
  v̄ v̄
Var β̂1 − β1 = Var 2 = Var
σX2

1 Pn
n i=1 Xi − X̄

1 σv2
= Var (v̄ )  =
2 2
2
σX n σX2
Propriétés échantillonnales de l’estimateur (suite)

I Le résultat de tout cela est


!
 
d σv2
β̂1 − β1 −
→N 0, 2 .
n σX2

I Puisque la variance de l’estimateur diminue avec n


l’estimateur est aussi convergent.
I Nous avons aussi
!
√  
d σv2
n β̂1 − β1 −→N 0, 2 .
σX2
Propriétés échantillonnales de l’estimateur (suite)
I Nous avons montré la convergence en distribution du
numérateur, la convergence en probabilité du dénominateur,
et nous avons sauté à la convergence en distribution du ratio.
I Possible pour les propriétés asymptotiques. Pas possible
lorsqu’on manipule les espérances.
 
X E(X )
E 6=
Y E(Y )

I Par contre, sous certaines hypothèses, nous avons


p p X̄ p µX
X̄ −
→ µX , Ȳ −
→ µY ⇒ −
→ ,
Ȳ µY
 2 !
d 2 p X̄ d µX 1
σX̄2

X̄ −
→ N µX , σX̄ , Ȳ −
→ µY ⇒ −
→N , .
Ȳ µY µY

I Théorème de Slutsky : permet de scinder des expressions


compliquées de variables aléatoires en morceaux.
Estimateur convergent de σβ̂2
1

I Var (v̄ ) n’est pas connue, Var (X ) non plus.


I Remplaçons les moments inconnus par des estimateurs
convergents.
Pn 2
1
1
n−2 i=1 Xi − X̄ (ûi )2
σ̂β̂2 ≡  2
n
 P
1
1 n 2
n i=1 Xi − X̄

I Ensuite, définissons l’écart type estimé de β̂1 comme


  q
SE β̂1 ≡ σ̂ 2 .
β̂1

I Les logiciels calculent cet écart type, mais il faut spécifier le


calcul d’écarts types robustes (à la présence de
l’hétéroscédasticité).
Estimateur convergent de σβ̂2 , cas homoscédastique
1

I Si
Var (ui |X = Xi ) = Var (ui ) = σu2 ,
nous pouvons remplacer l’estimateur convergent de σβ̂2 par
1

1 Pn 2
1 n−1 i=1 (ûi )
σ̃β̂2 ≡ 2 .
1 n 1 Pn
n i=1 Xi − X̄

I J’ai utilisé la notation légèrement différente σ̃β̂2 pour


1
distinguer par rapport au cas général où on utilise l’estimateur
robuste.
Détecter l’hétéroscédasticité

I Important de pouvoir détecter l’hétéroscédasticité.


I Voici des méthodes informelles.
I Créer un graphique avec Xi sur l’axe horizontal et ûi2 sur l’axe
vertical.
I Estimer une régression avec ûi2 comme variable dépendante et
Xi comme variable explicative, ou une fonction non linéaire de
Xi .
Tests d’hypothèse
I Principe de base : presqu’identique à ce que nous avons vu
dans le chapitre sur l’inférence statistique.
I H0 : spécifie généralement que le coefficient d’intérêt (qui
peut être β0 ou β1 prend une certaine valeur. H1 : soit
bilatérale soit unilatérale.
I Il faut créer une statistique normalisée qui a une moyenne
nulle et une variance unitaire sous H0 . On parle de statistique
t même si en général elle ne suit pas une loi t de Student.
 
β̂1 − β1,0
t≡   .
SE β̂1

I Elle obéit en grand échantillon à une loi normale centrée


réduite.
H1 bilatérale

I Si H1 est bilatérale : H1 : β1 6= β1,0 , nous rejetons l’hypothèse


nulle si la statistique calculée est suffisamment loin de zéro.
I La p-value du test est donnée par :

p-value = Pr |z| > |t act | = 2Φ −|t act | .


 

I Test de significativité : un test de l’hypothèse nulle que la


variable explicative n’est pas significative, donc H0 : β1 = 0.
H1 est bilatérale : H1 : β1 6= 0.
H1 unilatérale

I Cas 1 – H1 : β1 > β1,0


I Nous rejetons l’hypothèse nulle si la statistique calculée est
suffisamment positive.
I La p-value du test est donnée par :

p-value = Pr z > t act = 1 − Φ t act .


 
H1 unilatérale

I Cas 2 – H1 : β1 < β1,0


I Nous rejetons l’hypothèse nulle si la statistique calculée est
suffisamment négative.
I La p-value du test est donnée par :

p-value = Pr z < t act = Φ t act .


 
Intervalles de confiance pour les coefficients

I Principe identique que pour l’estimateur de la moyenne de la


population.
I Bornes de l’intervalle de confiance de X % : on cherche la
valeur de z > 0 tel que

1 − X /100
Φ(−z) = .
2

I Donc, on cherche la valeur de z > 0 pour laquelle (100−X 2


)
%
de la distribution normale centrée réduite se trouve
 à gauche
de −z. Cela veut dire bien sûr que 100 − 100−X 2 % de la
distribution normale centrée réduite se trouve à droite de z.
Intervalles de confiance (suite)
I Nous avons (pour β̂1 )
!
X β̂1 − β1
= Pr −z ≤ ≤z
100 σ̂β̂1
   
= Pr −z σ̂β̂1 ≤ β̂1 − β1 ≤ z σ̂β̂1
   
= Pr −z σ̂β̂1 ≤ β1 − β̂1 ≤ z σ̂β̂1
 
= Pr β̂1 − z σ̂β̂1 ≤ β1 ≤ β̂1 + z σ̂β̂1 ,
 
où σ̂β̂1 ≡ SE β̂1 .
I L’intervalle de confiance de X % autour de β̂1 est
1 − X /100
β̂1 ± z σ̂β̂1 , où Φ(−z) = .
2
Intervalles de confiance pour les prédictions

I Soit la prédiction
∆Ŷi = β̂1 ∆Xi .
∆Ŷi est le changement prédit de la variable dépendante.
I Nous avons
     
Var ∆Ŷi = Var β̂1 ∆Xi = (∆Xi )2 Var β̂1

I Nous procédons à la même manière que pour l’intervalle de


confiance pour β̂1 .
Intervalles de confiance pour les prédictions (suite)
   
X ∆Xi β̂1 − β1
= Pr −z ≤ ≤ z
100 (∆Xi ) σβ̂1
   
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β̂1 − β1 ≤ z (∆Xi ) σβ̂1
   
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β1 − β̂1 ≤ z (∆Xi ) σβ̂1
 
= Pr −z (∆Xi ) σβ̂1 + ∆Xi β̂1 ≤ ∆Xi β1 ≤ z (∆Xi ) σβ̂1 + ∆Xi β̂1 .
Donc, l’intervalle de confiance pour le changement prédit est
donné par
∆Xi β̂1 ± z (∆Xi ) σβ̂1
On remplace σβ̂1 par un estimateur convergent pour écrire

∆Xi β̂1 ± z (∆Xi ) σ̂β̂1


Concepts à retenir

1. Comment écrire le modèle de régression simple.


2. Le problème de minimisation auquel l’estimateur MCO est une
solution.
3. Les propriétés algébriques de l’estimateur MCO.
4. Le concept du R 2 , et les concepts de SSR, ESS et SSR.
5. Les hypothèses statistiques de base du modèle.
6. Les hypothèse additionnelles pour montrer l’efficience.
7. Comment tester des hypothèses concernant les coefficients
estimés du modèle.
8. Comment calculer un intervalle de confiance pour les
coefficients du modèle.
9. Comment calculer un intervalle de confiance pour un
changement prédit.

Vous aimerez peut-être aussi