Vous êtes sur la page 1sur 56

ECO 4272 : Introduction à l’économétrie

Notes sur le modèle de régression simple


Steve Ambler∗
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
2013
c : Steve Ambler
Automne 2013


Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
ambler.steven@uqam.ca.

1
Table des matières
1 Introduction 4

2 Objectifs du cours 4

3 Le modèle de régression simple 4

4 Estimateur moindres carrés ordinaires (MCO) 5


4.1 Propriétés algébriques clés de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9
4.1.1 La somme des résidus est zéro . . . . . . . . . . . . . . . . . . . . . . . . 10
4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne
échantillonnale de la variable dépendante . . . . . . . . . . . . . . . . . . 10
4.1.3 Orthogonalité entre la variable explicative et les résidus . . . . . . . . . . . 11
4.2 La notion de l’ajustement statistique (R2 ) . . . . . . . . . . . . . . . . . . . . . . 12
4.3 L’écart type de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Hypothèses statistiques de base du modèle 17


5.1 Espérance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 18
5.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6 Propriétés statistiques de l’estimateur 20


6.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.1 β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 β̂0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3.1 Théorème Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

7 Propriétés échantillonnales de l’estimateur 34


2
7.1 Estimateur convergent de σβ̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
7.2 Estimateur convergent de σβ̂2 en cas d’homoscédasticité . . . . . . . . . . . . . . . 38
1
7.3 Détecter l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

8 Tests d’hypothèse 41
8.1 Approche géneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8.2 Hypothèse alternative bilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.3 Hypothèse alternative unilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

9 Intervalles de confiance pour les coefficients 43


9.1 Intervalles de confiance pour les prédictions . . . . . . . . . . . . . . . . . . . . . 44

10 Un exemple d’estimation du modèle de régression simple avec R 45

2
11 Le modèle de régression simple lorsque X est une variable dichotomique 51

12 Concepts à retenir 55

13 Références 56

3
1 Introduction

2 Objectifs du cours

– Présenter le modèle de régression simple.


– Dériver l’estimateur moindres carrés ordinaires (MCO).
– Étudier les propriétés algébriques de cet estimateur.
– Étudier la mesure habituelle de l’ajustement statistique, le R2 .
– Regarder les hypothèses statistiques derrière le modèle et analyser leurs conséquences pour
l’estimateur MCO (absence de biais, convergence, efficience).
– Montrer l’absence de biais de l’estimateur MCO.
– Dériver les propriétés échantillonnales de l’estimateur MCO et montrer sa convergence.
– Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs homoscédastiques.
– Montrer, sous les hypothèses d’homoscédasticité et normalité, l’efficience de l’estimateur
MCO (théorème Gauss-Markov).
– Analyser les tests d’hypothèse concernant les paramètres estimés du modèle.
– Analyser le calcul d’intervalles de confiance pour les paramètres estimés dans le cadre du
modèle.

3 Le modèle de régression simple

– Le modèle de base peut s’écrire

Yi = β0 + β1 Xi + ui .

L’idée de base est qu’une variable économique Yi peut être prédite ou expliqué par une autre va-
riable économique Xi . La relation entre les deux variables est linéaire. Sans le terme ui , l’équation
est l’équation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonnée à l’origine et β1 est

4
la pente de la droite. On peut penser au paramètre β0 comme étant associé à une deuxième variable
explicative qui est une constante qu’on normalise pour être égale à un. Autrement dit, on aurait pu
écrire le modèle comme
Yi = β0 × 1 + β1 × Xi + ui .

Le modèle de régression simple contient une constante par défaut. Il est possible aussi d’étudier le
modèle suivant :
Yi = βXi + ui .

Ce modèle, sans constante, a des propriétés statistiques assez différentes. Pour ceux qui s’intéressent
à poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle communément Yi la  variable dépendante  du modèle de régression, et on appelle
Xi la  variable explicative  du modèle de régression.

4 Estimateur moindres carrés ordinaires (MCO)

– Nous considérons le problème de prédire la valeur de la variable dépendante Yi , étant donnée


la valeur de Xi .
– L’erreur de prévision peut s’écrire Yi − β0 − β1 Xi .
– Le problème à résoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la
somme des erreurs de prévision au carré :
– Notez que le critère de minimiser la somme des erreurs au carré n’est pas le seul critère
possible. Par exemple, on pourrait décider de minimiser la somme des erreurs en valeur
absolue.
– Il y a deux raisons fondamentales pour la popularité et l’importance de l’estimateur MCO
dans l’histoire de la statistique et de l’économétrie.

1. D’abord, l’algèbre est relativement simple. Le critère est une expression quadratique
(du deuxième degré), et donc les conditions du premier ordre donnent un système

5
d’équations linéaires. Il est très facile de résoudre un système de deux équations linéaires.

2. Deuxièment, sous certaines conditions (à voir plus tard), l’estimateur MCO des coef-
ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs
linéaires et non biaisés – autrement dit, il est l’estimateur le plus efficient parmi les
estimateur linéaires non biaisés.

– Le problème de minimisation peut s’écrire comme suit.

n
X
min (Yi − β0 − β1 Xi )2 .
β0 ,β1
i=1

– Les conditions du premier ordre (CPOs) pour ce problème sont comme suit. D’abord par
rapport au choix de β0 :
n 
X 
−2 Yi − β̂0 − β̂1 Xi = 0.
i=1

Ensuite, par rapport au choix de β1 :

n 
X 
−2 Yi − β̂0 − β̂1 Xi Xi = 0,
i=1

où j’ai écrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs
MCO, c’est à dire les solutions au problème de minimisation. 1
– Il s’agit de deux équations où les deux inconnus sont β̂0 et β̂1 .
– Il est facile d’isoler β̂0 en fonction de β̂1 et par la suite de trouver la solution pour β̂1 .
– Nous avons à partir de la première CPO :

n 
X 
Yi − β̂0 − β̂1 Xi = 0
i=1

n
X n 
X 
⇒ β̂0 = n β̂0 = Yi − β̂1 Xi
i=1 i=1

1. En principe, il faudrait vérifier les conditions du deuxième ordre pour savoir que nous avons trouvé un minimum
et non un maximum. Nous n’allons pas faire cet exercice ici.

6
n n
1X 1X
⇒ β̂0 = Yi − β̂1 Xi
n i=1 n i=1

⇒ β̂0 = Ȳ − β̂1 X̄.

Nous venons de trouver la solution pour β̂0 en fonction des moyennes échantillonnales X̄ et
Ȳ et de la solution pour β̂1 .
– Maintenant, substituant cette solution dans la deuxième CPO, nous avons :

n 
X 
Yi − Ȳ + β̂1 X̄ − β̂1 Xi Xi = 0.
i=1

1
– Multipliant des deux côtés de l’équation par n
et réarrangeant, nous obtenons

n n n n
1X 1X 1X 1X
Yi Xi − Ȳ Xi − β̂1 (Xi )2 + β̂1 X̄Xi = 0
n i=1 n i=1 n i=1 n i=1

n n
1X 1X
⇒ Yi Xi − Ȳ Xi
n i=1 n i=1

n n
!
1X 2 1X
−β̂1 (Xi ) − X̄ Xi =0
n i=1 n i=1
n
1X
⇒ Yi Xi − Ȳ X̄
n i=1

n
!
1X
−β̂1 (Xi )2 − X̄ X̄ =0
n i=1
1
Pn
Yi Xi − X̄ Ȳ
⇒ β̂1 = n
Pi=1
n
(Xi )2 − X̄ 2
1
n i=1

1
Pn  
n i=1 Yi − Ȳ Xi − X̄
⇒ β̂1 = Pn 2 .
1
n i=1 Xi − X̄

Cette solution dépend des identités

n n
1X 1X  
Yi Xi − X̄ Ȳ = Yi − Ȳ Xi − X̄
n i=1 n i=1

7
et
n n
1X 1X 2
(Xi )2 − X̄ 2 = Xi − X̄ .
n i=1 n i=1

Ceci est facile à montrer. Nous avons

n
1X  
Yi − Ȳ Xi − X̄
n i=1

n
1X 
Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1
n n n n
1X 1X 1X 1X
= Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1 n i=1 n i=1 n i=1
n n n
1X 1X 1X n
= Yi Xi − X̄ Yi − Ȳ Xi + X̄ Ȳ
n i=1 n i=1 n i=1 n
n
1X
= Yi Xi − X̄ Ȳ − Ȳ X̄ + X̄ Ȳ
n i=1
n
1X
= Yi Xi − X̄ Ȳ .
n i=1

La preuve pour le dénominateur est semblable.


C’est une première façon d’exprimer la solution. Multipliant numérateur et dénominateur
par n nous avons aussi
Pn  
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
i=1 Xi − X̄
C’est une deuxième façon d’exprimer la solution. Maintenant, divisant numérateur et dénominateur
par (n − 1) nous avons aussi

1
Pn  
(n−1) i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
1
(n−1) i=1 Xi − X̄

– Donc, nous avons trois expressions équivalentes pour la solution pour β̂1 .
– Comme aide-mémoire, la dernière expression est peut-être la plus utile. Elle dit que l’estima-

8
teur MCO de β1 est le ratio entre la covariance échantillonnale entre X et Y et la variance
échantillonnale de X (voir le chapitre sur la théorie des probabilités pour les définitions de
covariance échantillonnale et variance échantillonnale).
– Pour répéter ceci en notation algébrique :

Cov (X , Y )
β̂1 = .
Var (X)

– Je crois qu’il n’est pas trop difficile de se souvenir de cette façon d’écrire la solution pour
β̂1 , et de se souvenir de la solution pour β̂0 en termes des moyennes échantillonnales X̄ et Ȳ
et β̂1 .

4.1 Propriétés algébriques clés de l’estimateur MCO

– L’estimateur MCO possède quelques propriétés de base que nous allons démontrer dans cette
section.
– Nous allons par la suite nous servir de ces propriétés à maintes reprises par la suite pour
trouver d’autres propriétés de l’estimateur MCO.
– J’appelle ces propriétés les propriétés  algébriques  puisqu’elles ne dépendent pas d’hy-
pothèses concernant les propriétés statistiques des variables aléatoires Y , X ou u.
– Autrement dit, pour n’importe quelles séries de données sur deux variables X et Y , ces
propriétés doivent tenir. On n’a même pas besoin de supposer que X et Y sont des variables
aléatoires en bonne et due forme.
– Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une constante.
– Pour le cas de modèles qui n’incluent pas une constante, voir l’article de Windmeijer (1994),
ou encore celui d’Eisenhauer (2003).

9
4.1.1 La somme des résidus est zéro

– Définissons
ûi ≡ Yi − β̂0 − β̂1 Xi ,

le résidu de la régression pour l’observation i.


– Nous voulons montrer que :
n
1X
ûi = 0.
n i=1

– Voici la preuve.
n n
1X 1 X 
ûi = Yi − Ȳ + β̂1 X̄ − β̂1 Xi
n i=1 n i=1
n n
1X  1X 
= Yi − Ȳ − β̂1 Xi − X̄ = 0.
n i=1 n i=1

4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne échantillonnale
de la variable dépendante

– Définissons
Ŷi ≡ β̂0 + β̂1 Xi ,

la valeur prédite de Yi .
– Nous voulons montrer que :
n
1X
Ŷi = Ȳ .
n i=1

– Voici la preuve :
Ŷi ≡ Yi − ûi
n n n n
1X 1X 1X 1X
⇒ Ŷi = Yi − ûi = Yi ≡ Ȳ .
n i=1 n i=1 n i=1 n i=1

10
4.1.3 Orthogonalité entre la variable explicative et les résidus

– Nous voulons montrer que :


n
X
Xi ûi = 0.
i=1

– Ceci est la définition de l’orthogonalité entre deux variables.


– Puisque nous allons utiliser l’algèbre linéaire dans le chapitre sur le modèle de régression
multiple, c’est peut-être opportun d’introduire ici le concept d’orthogonalité entre deux vec-
teurs. Nous pouvons réécrire cette équation en notation vectorielle comme

 
 û1 
n  
û2 
X  
Xi ûi = ≡ X 0 Û = 0.
 
X1 X 2 . . . Xn  .. 
i=1

 .  
 
ûn

– Donc c’est la définition habituelle d’orthogonalité entre deux vecteurs en algèbre linéaire.
– Nous verrons plus loin qu’il y a aussi une interprétation géométrique.
– Voici la preuve :
n
X n
X n
X
Xi ûi = Xi ûi − X̄ ûi
i=1 i=1 i=1

n
X 
= Xi − X̄ ûi
i=1

n
X  
= Xi − X̄ Yi − Ȳ + β̂1 X̄ − β̂1 Xi
i=1

n
X   
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1

n n
X   X 2
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1 i=1

n
X  
= Xi − X̄ Yi − Ȳ
i=1

11
Pn   n
i=1 Xi − X̄ Yi − Ȳ X 2
− Pn 2 Xi − X̄
i=1 Xi − X̄ i=1

n
X n
X
   
= Xi − X̄ Yi − Ȳ − Xi − X̄ Yi − Ȳ
i=1 i=1

= 0.

– L’orthogonalité est reliée à l’interprétation géométrique de la méthode des MCO. Estimer


un modèle par MCO revient à projeter la variable dépendante dans l’espace traversé par la
variable explicative (ou les variables explicatives dans le cas de la régression multiple).
– Le principe est illustré par la Figure 1 ci-dessous. Nous constatons sur le graphique que si
nous prenons la ligne de régression comme un vecteur, la ligne pointillée sur le graphique
est un vecteur dont la longueur égale la valeur de ûi à ce point. Il forme un angle droit par
rapport à la ligne de régression, d’où le terme  orthogonal .
– Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in-
terprétation géométrique de la régression simple se trouve dans l’article de Davidson et Mac-
Kinnon (1999).

Figure 1

4.2 La notion de l’ajustement statistique (R2 )

– Définissons :
n
X 2
TSS ≡ Yi − Ȳ ,
i=1

12
la somme totale des carrés ( total sum of squares  en anglais) ;

n 
X 2
SSR ≡ Yi − Ŷi ,
i=1

la somme des résidus au carré ( residual sum of squares  en anglais) ;

n 
X 2
ESS ≡ Ŷi − Ȳ ,
i=1

la somme expliquée des carrés ( explained sum of squares  en anglais).


– Nous pouvons montrer que :
TSS = ESS + SSR.

– Voici la preuve :
n
X 2
TSS = Yi − Ȳ
i=1

n 
X   2
= Yi − Ŷi + Ŷi − Ȳ
i=1

n 
X 2 n 
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1 i=1

n 
X  
+2 Yi − Ŷi Ŷi − Ȳ
i=1

n
X  
= SSR + ESS + 2 ûi Ŷi − Ȳ
i=1

n
X n
X
= SSR + ESS + 2 ûi Ŷi − 2Ȳ ûi
i=1 i=1

n
X
= SSR + ESS + 2 ûi Ŷi
i=1

n
X  
= SSR + ESS + 2 ûi β̂0 + β̂1 Xi
i=1

13
n
X n
X
= SSR + ESS + 2β̂0 ûi + 2β̂1 ûi Xi
i=1 i=1

= SSR + ESS.

Notez que nous avons invoqué à quelques reprises les propriétés algébriques de l’estimateur
MCO que nous avons déjà démontrées.
– Maintenant, définissons
ESS
R2 ≡ .
TSS

– Puisque TSS, ESS et SSR sont la somme de termes au carré (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :

0 ≤ R2 ≤ 1.

– Il faut aussi que


SSR
R2 = 1 − .
TSS

– L’ajustement statistique s’appelle aussi le  coefficient de détermination  de la régression.


– L’ajustement statistique est défini indépendamment des propriétés statistiques du modèle de
régression. Il a l’interprétation du pourcentage de la variation de la variable dépendante Y
autour de sa moyenne qui peut être expliqué par les variations de la variable explicative X.
– Pour le modèle de régression simple, il y a une relation algébrique exacte entre le R2 et le
coefficient de corrélation entre les variables X et Y . La relation est

R2 = Corr (X, Y ) .

– Je montre ce résultat dans l’encadré qui suit.


– La lecture de l’encadré est facultative, mais je vous encourage à retenir le résultat (égalité
entre la mesure R2 et le coefficient de corrélation entre X et Y au carré).

14
Je démontre ici que l’ajustement statistique (dans le modèle de régression simple) doit être égal
au carré du coefficient de corrélation entre X et Y . Nous avons

Pn  2
i=1 Ŷi − Ȳ
R2 ≡ Pn 2
i=1 Yi − Ȳ

Nous avons aussi (en multipliant le numérateur et le dénominateur dans la définition de la


corrélation échantillonnale par (n − 1))

2
Corr (X , Y ) ≡

 2
Pn  
i=1 Xi − X̄ Yi − Ȳ
q 
Pn 2 qPn 2
i=1 Xi − X̄ i=1 Yi − Ȳ

Pn  2
i=1 Xi − X̄ Yi − Ȳ
= Pn 2 Pn 2
i=1 Xi − X̄ i=1 Yi − Ȳ

Donc, il faut montrer que

Pn  2
Ŷi − Ȳ Pn  2
i=1 i=1 Xi − X̄ Yi − Ȳ
Pn 2 = Pn 2 Pn 2
i=1 Yi − Ȳ i=1 Xi − X̄ i=1 Yi − Ȳ

n  n n
!2
X 2 X 2 X  
⇔ Ŷi − Ȳ Xi − X̄ = Xi − X̄ Yi − Ȳ .
i=1 i=1 i=1

Travaillant avec le bras gauche de cette équation, nous avons

n  n
2 X
X 2
Ŷi − Ȳ Xi − X̄
i=1 i=1

n  n
2 X
X 2
= β̂0 + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1

n  n
2 X
X 2
= Ȳ − β̂1 X̄ + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1

15
n  n
2 X
X 2
= β̂1 Xi − β̂1 X̄ Xi − X̄
i=1 i=1

n n
X 2 X 2
= β̂12 Xi − X̄ Xi − X̄
i=1 i=1

Pn   !2 n
!2
i=1 Xi − X̄ Yi − Ȳ X 2
= Pn 2 Xi − X̄
i=1 Xi − X̄ i=1

n
!2
X  
= Xi − X̄ Yi − Ȳ ,
i=1

ce qui fut à démontrer.


Donc, même si nous sommes en train de discuter des propriétés algébriques du modèle
de régression simple, et même si la notion du R2 est définie indépendamment des propriétés
statistiques des variables X et Y , nous voyons que le R2 est relié au concept statistique de
corrélation. Il existe des tests d’hypothèse de la significativité de corrélations entre variables
aléatoires (que nous n’allons pas explorer dans ce cours).

– Tel qu’indiqué plus tôt, l’ajustement statistique R2 est défini indépendamment des hy-
pothèses statistiques derrière le modèle.
– Nous venons de voir (dans l’encadré précédant) qu’il y a un lien stricte dans le modèle de
régression simple entre le R2 et le coefficient de corrélation entre la variable dépendante
Y et la variable explicative X.
– Le R2 a aussi une autre interprétation statistique. On peut l’utiliser pour tester l’hy-
pothèse nulle de l’absence de relation entre la variable explicative (les variables expli-
catives à part la constante dans le modèle de régression multiple). Voir Giles (2013b,
2013c). Selon Giles, le R2 suit, sous l’hypothèse nulle (et sous l’hypothèse de l’ho-
moscédasticité), une distribution Beta.
– Nous allons voir dans le chapitre sur la régression multiple qu’on peut construire une

16
autre statistique pour tester la même hypothèse qui suit une distribution F de Fisher.

4.3 L’écart type de la régression

– Définissons :
n
1 X SSR
s2û = (ûi )2 = .
(n − 2) i=1 (n − 2)

– Dans le cas où nous supposons une variance constante du terme d’erreur du modèle (voir la
section suivante concernant les hypothèses statistiques du modèle), c’est un estimateur non
biaisé de la variance du terme d’erreur.
– Il s’agit du cas où les erreurs sont homoscédastiques, où donc Var (ui ) = σu2 , une variance
constante.
– Notez que cette hypothèse (variance constante des erreurs) ne fera pas partie des hypothèses
statistiques de base que nous adopterons.
– Nous divison par (n − 2) afint d’obtenir un estimateur non biaisé.
– Il y a une autre raison pour la division par (n − 2). On perd deux degrés de liberté car il faut
estimer deux paramètres inconnus (β0 et β1 ) afin de calculer les résidus de la régression.
– Maintenant, définissons :
q
sû ≡ s2û .

– sû est l’écart type de la régression.


– L’écart type de la régression est un des résultats d’estimation que fournissent automatique-
ment la plupart des logiciels économétriques.

5 Hypothèses statistiques de base du modèle

– À partir de ce point, nous élaborons quelques propriétés statistiques de l’estimateur MCO.


Elles dépendront de certaines hypothèses statistiques de base, que voici.

17
– Ces hypothèses seront cruciales pour montrer les propriétés d’absence de biais et de conver-
gence.
– Nous en aurons besoin aussi (avec une hypothèse additionnelle) pour montrer l’efficience de
l’estimateur MCO.

5.1 Espérance conditionnelle nulle de l’erreur

– Nous supposons que :


E (ui |X = Xi ) = 0.

– Intuitivement, l’hypothèse nous dit que le fait de connaı̂tre la valeur réalisée de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.

5.2 Observations i.i.d.

– Nous supposons que :


(Xi , Yi ) , i = 1, 2, . . . , n i.i.d.

– Nous avons déjà vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont indépendantes et qu’elles sont identiquement distribuées.
– Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui génère
les observations (normale, exponentielle, parétienne stable, etc.). Tout ce qu’on suppose c’est
que les observations sont toujours générées par la même distribution.

5.3 Les observations aberrantes sont peu probables

– Nous supposons que :


0 < E X 4 < ∞;


0 < E Y 4 < ∞;


18
– Cette hypothèse sert à nous rappeler que l’estimateur MCO peut être sensible aux observa-
tions aberrantes.
– Il est toujours bon d’examiner les résidus afin de détecter la présence de ces observations,
qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans
les données, etc.
– Il est important de noter qu’en présence d’observations aberrantes importantes, la valeur de
β̂1 peut être très sensible à cette ou à ces valeurs, même si elles sont peu nombreuses. Intui-
tement, même un nombre très faible de ces observations aberrantes peut avoir une influence
prépondérantes sur les valeurs estimées des paramètres. Dans un tel cas, les estimateurs
MCO ne seront pas convergents puisqu’ils dépendent d’un petit nombre d’observations.

5.4 Notre approche

Par rapport à l’approche dans certains manuels de base en économétrie, nous adoptons une
approche plus générale.

1. Souvent, la première fois qu’on présente le modèle de régression simple, on suppose que
les observations sur la variable explicative X sont constantes à travers des échantillons
différents. Pour dériver les propriétés statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des réalisations d’une
variable aléatoire. L’algèbre est plus facile, mais c’est beaucoup moins réaliste.

2. Souvent, lorsqu’on présente le modèle de base, on suppose aussi que la variance condition-
nelle du terme d’erreur est égale à sa variance non conditionnelle et qu’elle est constante.
Autrement dit,
Var (ui |X = Xi ) = Var (ui ) = σu2 .

L’avantage de ces hypothèses simplificatrices est de simplifier l’algèbre. On arrive à une


expression plus simple pour la variance échantillonnale de nos estimateurs MCO. Malheu-
reusement, ce sont des hypothèses qui tiennent rarement dans les données utilisées par les

19
économètres appliqués. Cette hypothèse n’est pas retenue ici, ce qui va mener à une expres-
sion plus compliquée mais plus générale pour la variance échantillonnale de nos estimateurs.

3. Souvent, lorsqu’on présente le modèle de base, on suppose que le terme d’erreur est distribué
selon une loi normale. Ceci permet de faire de l’inférence exacte (voir le chapitre sur les tests
d’hypothèse pour une définition). Cette hypothèse n’est pas retenue ici.

4. Au lieu de supposer la normalité, nous allons faire l’hypothèse que les échantillons de
données que nous avons à notre disposition sont assez grandes pour que les statistiques
utilisées pour faire des tests d’hypothèse soient approximatiement distribuées selon une loi
normale.

6 Propriétés statistiques de l’estimateur

6.1 Absence de biais de l’estimateur

6.1.1 β̂1

– Nous avons :
Pn  
i=1 Xi − X̄ Yi − Ȳ
β̂1 = Pn 2
i=1 Xi − X̄
Pn  
i=1 Xi − X̄ β0 + β1 Xi + ui − β0 − β1 X̄ − ū
= Pn 2
i=1 X i − X̄
Pn 2 Pn 
β1 i=1 X i − X̄ + i=1 X i − X̄ (ui − ū)
= Pn 2
i=1 Xi − X̄
Pn 
i=1 Xi − X̄ (ui − ū)
= β1 + Pn 2
i=1 Xi − X̄
Pn 
X i − X̄ ui
= β1 + Pi=1 n 2 .
i=1 Xi − X̄

– Ceci montre que l’estimateur est égal à sa vraie valeur plus un terme qui dépend du produit
des erreurs avec les écarts des Xi par rapport à leurs moyennes échantillonnales.

20
– Notez ce que l’on fait pour passer de la première ligne à la deuxième. On substitut Yi utili-
sant sa valeur si le modèle de régression est litéralement vrai. Cela fait apparaı̂tre les vraies
valeurs de β0 et de β1 , et fait apparaı̂tre aussi l’erreur (la vraie et non le résidu). On fera
souvent une substitution semblable lorsqu’on veut analyser les propriétés statistiques d’un
estimateur.
– Maintenant, il s’agit de calculer la valeur espérée de cette expression :

Pn  !
 
i=1 Xi − X̄ ui
E β̂1 = β1 + E Pn 2
i=1 Xi − X̄

Pn  ! !
X i − X̄ u i
= β1 + E E Pi=1 n 2 |X1 , X2 , . . . Xn
i=1 Xi − X̄
Pn  !
i=1 X i − X̄ E (u i |X 1 , X 2 , . . . Xn )
= β1 + E Pn 2
i=1 Xi − X̄
Pn  !
i=1 X i − X̄ E (u i |X i )
= β1 + E Pn 2
i=1 Xi − X̄

= β1 .

– Pour passer de la première ligne à la deuxième dans cette suite d’égalités, nous avons utilisé
la loi des espérances itérées, qui dit que pour n’importe quelle variable aléatoire Y ,

E (E (Yi |Xi )) = E (Yi ) .

Nous l’avons tout simplement appliqué à la variable aléatoire qui est

Pn 
i=1 Xi − X̄ ui
Pn 2 .
i=1 Xi − X̄

– Pour passer de la deuxième à la troisième ligne, il faut noter que les espérances des X condi-
tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des
constantes et les écrire du côté gauche de l’opérateur d’espérance conditionnelle. Ce faisant,

21
l’opérateur d’espérance conditionnelle s’applique uniquement au terme d’erreur ui .
– La dernière égalité suit directement de nos hypothèses de base concernant le modèle, dont
une stipule que E (ui |Xi ) = 0.

6.1.2 β̂0

– Nous avons :
   
E β̂0 = E Ȳ − β̂1 X̄

n
!
1X
= E β0 + β1 X̄ + ui − β̂1 X̄
n i=1
n
  1X
= β0 + E β1 − β̂1 X̄ + E (ui )
n i=1
n
1X
= β0 + E (E (ui |Xi ))
n i=1

= β0 ,

où encore une fois nous avons utilisé la loi des espérances itérées :

E (ui ) = E (E (ui |Xi )) .

– Ici, j’ai suivi la réponse à la question 4.7 du manuel. Il n’est pas forcément évident que

 
E β1 − β̂1 X̄ = 0,

puisque X̄ doit être considéré comme une variable aléatoire. Il faut remonter à l’absence de
biais de β̂1 , où on a montré que

Pn 
Xi − X̄ ui
β1 − β̂1 = − Pi=1
n 2 .
i=1 Xi − X̄

22
Donc, on a  !
Pn
  X i − X̄ ui
E β1 − β̂1 X̄ = −E Pi=1 n  2 X̄
i=1 X i − X̄
Pn  !!
i=1 X i − X̄ E (u i |X i )
= −E X̄ Pn 2
i=1 Xi − X̄

= 0.

Encore une fois, nous avons utilisé la loi des espérances itérées.

6.2 Convergence de l’estimateur

– Nous allons remettre ce sujet à un peu plus tard. En calculant les propriétes échantillonnales
de l’estimateur, nous allons montrer que sa variance décroı̂t avec la taille de l’échantillon n.
– Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons montré
l’absence de biais, et la variance converge à zéro lorsque n tend vers l’infini.

6.3 Efficience de l’estimateur

– Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothèse addi-
tionnelle, que le terme d’erreur du modèle de régression est homoscédastique, ce qui veut
dire a une variance constante.
– Si ce n’est pas le cas, et si nous connaissons de quoi dépend la variance du terme d’erreur,
il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carrés généralisés (generalised least squares ou GLS en anglais),
que nous n’aurons pas l’occasion d’étudier en détail dans ce cours. Voir le chapitre 15 du
manuel.
– Une preuve détaillée du théorème Gauss-Markov se trouve dans l’ecadré qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en détail dans le cours. Je vous
invite fortement à la lire et à la comprendre.

23
6.3.1 Théorème Gauss-Markov

– Il s’agit d’une preuve que l’estimateur β̂1 est l’estimateur le plus efficient parmi les
estimateurs qui sont linéaires en Yi .
– Rappelons d’abord les hypothèses qui doivent tenir pour démontrer le théorème Gauss-
Markov.

1. E (ui |X1 , . . . , Xn ) = 0 .

2. Var (ui |X1 , . . . , Xn ) = σu2 , 0 < σu2 < ∞.

3. E (ui uj |X1 , . . . , Xn ) = 0, i 6= j.

– La dernière hypothèse dit que les erreurs ne sont pas corrélées entre elles.
– D’abord, montrons que β̂1 est un estimateur linéaire en Yi . Nous avons

Pn  
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2
i=1 Xi − X̄

Pn
Yi Xi − X̄ − Ȳ ni=1 Xi − X̄
 P 
i=1
= Pn 2
i=1 Xi − X̄
Pn 
Y i X i − X̄
= Pi=1
n 2
i=1 X i − X̄
n 
X Xi − X̄
= Pn 2 Yi
i=1 i=1 Xi − X̄

n
X
≡ âi Yi ,
i=1

où donc 
Xi − X̄
âi ≡ Pn 2
i=1 Xi − X̄
– Les poids âi ne dépendent pas des Yi , et donc l’estimateur est linéaire en Yi .
– Nous avons vu que sous l’hypothèse de l’homoscédasticité, la variance conditionnelle de

24
β̂1 est donnée par

  σu2
Var β̂1 |X1 , . . . , Xn = Pn 2 .
i=1 Xi − X̄

– Nous avons aussi montré que l’estimateur β̂1 est conditionnellement non biaisé.
– Maintenant, considérons n’importe quel estimateur linéaire

n
X
β̃1 = ai Yi
i=1

et qui satisfait la propriété

 
E β̃1 |X1 , . . . , Xn = β1 .

– Nous avons
n
X
β̃1 = ai Yi
i=1

n
X
= ai (β0 + β1 Xi + ui )
i=1

n
X n
X n
X
= β0 ai + β 1 ai Xi + ai ui .
i=1 i=1 i=1

– Nous avons aussi

n
! n
X X
E ai ui |X1 , . . . , Xn = ai E (ui |X1 , . . . , Xn ) = 0.
i=1 i=1

– De cette façon, nous avons

n
! n
!
  X X
E β̃1 |X1 , . . . , Xn = β0 ai + β1 ai X i .
i=1 i=1

25
– Par hypothèse, notre estimateur est conditionnellement non biaisé et donc il faut que

n
! n
!
X X
β0 ai + β1 ai X i = β1 .
i=1 i=1

– Pour que cette égalité tienne pour des valeurs quelconques de β0 et de β1 il faut que

n
X
ai = 0
i=1

et
n
X
ai Xi = 1.
i=1

– Nous avons donc

n
X n
X n
X n
X
β̃1 = β0 ai + β1 ai X i + ai u i = β 1 + ai ui .
i=1 i=1 i=1 i=1

– Calculons la variance conditionnelle de β̃1 . Nous avons

n
!
  X
Var β̃1 |X1 , . . . , Xn = Var ai ui |X1 , . . . , Xn
i=1

n
X X
= Var (ai ui |X1 , . . . , Xn ) + 2 Cov (ai ui , aj uj |X1 , . . . , Xn )
i=1 i<j

n
X
= Var (ai ui |X1 , . . . , Xn )
i=1

n
X
= σu2 ai 2 .
i=1

– Les covariances disparaissent à cause de la troisième hypothèse ci-dessus.


– Maintenant, il suffit de montrer que la variance conditionnelle de β̃1 doit être supérieure
à la variance conditionnelle de β̂1 .

26
– Définissons
di ≡ ai − âi

– Nous avons

n
X n
X n
X n
X n
X
2
2
ai = (âi + di ) = â2i +2 âi di + di 2 .
i=1 i=1 i=1 i=1 i=1

– Maintenant, il faut utiliser la définition des âi qui est donnée ci-dessus. Nous avons

n Pn 
X
i=1 Xi − X̄ di
âi di = Pn 2
i=1 i=1 Xi − X̄

Pn
Xi di − X̄ ni=1 di
P
i=1
= Pn 2
i=1 Xi − X̄
Pn Pn
i=1 Xi (ai − âi ) − X̄ (ai − âi )
= Pn i=1
2
i=1 Xi − X̄

( ni=1 Xi ai − ni=1 Xi âi ) − X̄ ( ni=1 ai − ni=1 âi )


P P P P
= Pn 2
i=1 Xi − X̄

= 0.

– La dernière égalité tient puisque les deux estimateurs β̃1 et β̂1 sont conditionnellement
non biaisés et pour cette raison il faut que

n n
! n n
X X X X
Xi ai − Xi âi = ai = âi = 0.
i=1 i=1 i=1 i=1

– Finalement, nous avons donc

 
Var β̃1 |X1 , . . . , Xn

n
X
= σu2 ai 2
i=1

27
n n
!
X X
= σu2 â2i + di 2
i=1 i=1

  n
X
= Var β̂1 |X1 , . . . , Xn + σu2 di 2
i=1
   
⇒ Var β̃1 |X1 , . . . , Xn − Var β̂1 |X1 , . . . , Xn

n
X
= σu2 di 2 > 0
i=1

si ∃i tel que di 6= 0. Si di = 0, ∀i, l’estimateur β̃1 est tout simplement l’estimateur MCO.
– Il y a aussi une preuve du théorème Gauss-Markov dans le cadre du modèle de régression
multiple dans le chapitre suivant. Vous allez constater (j’espère) que la preuve, qui utilise
une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas
démontré l’efficience de l’estimateur β̂0 .

6.4 Erreur quadratique moyenne

– Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
– Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus
efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une variance
moins élevée que le deuxième.
– Une autre façon de comparer deux estimateurs est de comparer leurs erreurs quadratiques
moyennes. Nous avons déjà vu ce concept dans le chapitre sur la statistique.
– Voici la définition de l’erreur quadratique moyenne d’un estimateur quelconque β̃ :

   2 
EQM β̃ ≡ E β̃ − β .

– Il s’agit de l’espérance de l’écart au carré entre la valeur de l’estimateur et sa vraie valeur.


– C’est une mesure assez intuitive de la précision d’un estimateur.

28
– Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de
l’estimateur et du biais de l’estimateur au carré. Autrement dit,

      2
EQM β̃ = Var β̃ + E β̃ − β .

– Voici la preuve. Nous savons que pour une variable aléatoire quelconque X,

Var (X) = E X 2 − (E (X))2 .




 
Cette formule s’applique aussi à la variable aléatoire β̃ − β . Donc nous avons

   2    2
Var β̃ − β = E β̃ − β − E β̃ − β

 2      2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
 2      2
⇒ E β̃ − β = Var β̃ + E β̃ − β ,

ce qui fut à montrer, puisque

 
 
Var β̃ − β = Var β̃

dû au fait que β n’est pas une variable aléatoire.


– Le critère de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont
pas forcément non biaisés.
– Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le
biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus
grande variance est mauvaise). Il y a des estimateurs qui sont biaisés mais qui ont néanmoins
une erreur quadratique moyenne inférieure à n’importe quel estimateur non biaisé justement
parce qu’ils ont une variance très faible.

29
– Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du
modèle de régression linéaire et l’estimateur MCO, le concept d’efficience est plus au centre
de l’analyse puisque, sous des hypothèses relativement faibles, l’estimateur MCO est non
biaisé.

– Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du modèle de régression simple.
– Il étudie le modèle de régression simple sans constante :

Yi = βXi + ui ,

où les Xi sont non aléatoires et où on a ui ∼ i.i.d. (0, σ 2 ) (les erreurs sont
indépendamment et identiquement distribuées avec moyenne nulle et variance égale à
σ 2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypothèse
concernant l’espérance non conditionnelle des erreurs simplifie l’analyse.)
– Il montre que si on minimise l’erreur quadratique moyenne,  l’estimateur  qu’on
obtient dépend de β lui-même, qui est non observable. Donc, c’est un estimateur qui est
 non opérationnel , c’est à dire que nous pouvons même pas calculer.
– Dans son deuxième article (2013e), Giles montre qu’il est possible de trouver un estima-
teur opérationnel (que nous pouvons calculer) si on minimise une combinaison linéaire
de la variance et du biais de l’estimateur. Le problème peut s’écrire

       2 
Var β e E β̃ − β
min Q = α 
  + (1 − α)   .
σ 2 β
β
e

– La fonction objectif est une somme pondérée de la variance relative (par rapport à la
variance de l’erreur) et du biais au carré relatif (par rapport à la vraie valeur de β) de
l’estimateur β.
e

30
– La solution à ce problème (que nous allons calculer un peu plus loin) est

Pn 2
(1 − α) i=1 Xi
βe = βb
α + (1 − α) ni=1 Xi 2
P

où βb est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donnée de α.
– Pour α = 0 nous avons βe = β.
b Autrement dit, si on met tout le poids sur la minimisation

du biais au carré, on obtient l’estimateur MCO, qui n’est pas biaisé.


– Pour α > 0, |β|
e < |β|.
b L’estimateur βe est plus près de zéro. (C’est un exemple de ce

qu’on appelle un  shrinkage estimator  en anglais.)


– Cette solution est un peu difficile à montrer. Commençons par définir βe comme un esti-
mateur linéaire quelconque :
n
X
βe ≡ ai Yi
i=1

pour des constantes quelconques ai .


– Cette définition nous donne immédiatement

n
!
  X
E βe = E ai (βXi + ui )
i=1

n n
!
X X
=β ai X i + E ai ui
i=1 i=1

n
X
=β ai Xi
i=1

n
!
  X
⇒ E βe − β = β ai X i − 1
i=1

puisque nous avons fait l’hypothèse que les Xi sont non stochastiques et que E (ui ) = 0.

31
– La variance de l’estimateur est donnée par

  X n n
X
Var βe = ai 2 Var (Yi ) = σ 2 ai 2
i=1 i=1

pusque nous faisons l’hypothèse que la variance des erreurs est constante.
– Notre problème de minimisation peut donc s’écrire

Pn  Pn 2
σ2 ai 2
 
i=1 β i=1 (ai Xi − 1)
min Q = α + (1 − α)
ai σ2 β

ou bien ! !2
n
X n
X
min Q = α ai 2 + (1 − α) (ai Xi − 1) .
ai
i=1 i=1

– Les variables de choix du problème sont les ai et non βe lui-même.


– En choisissant notre fonction objectif comme une somme pondérée de la variance rela-
tive de l’estimateur et du biais au carré relatif, nous avons réussi à éliminer les paramètres
non observables (β et σ 2 ) du problème.
– Pour un ai quelconque la condition du premier ordre s’écrit

n
!
∂Q X
= 0 = 2αai + 2 (1 − α) Xi aj Xj − 1
∂ai j=1

n
!
X
⇒ αai + (1 − α) Xi aj Xj − 1 = 0.
j=1

– Multiplions cette expression par Yi et calculons la somme à travers les n termes en ai .


Nous obtenons !
n
X
αai Yi + (1 − α) Xi Yi aj X j − 1 =0
j=1

n n n
!
X X X
⇒α ai Yi + (1 − α) Xi Yi aj X j − 1 =0
i=1 i=1 j=1

32
n n
!
X X
⇒ αβe + (1 − α) Xi Yi aj X j − 1 =0 (1)
i=1 j=1

puisque nous avons défini au départ notre estimateur comme βe ≡ ni=1 ai Yi .


P

– Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme à travers les n
termes, ce qui donne

n
!
X
αai Xi + (1 − α) Xi 2 aj X j − 1 =0
j=1

n n n
!
X X X
⇒α ai Xi + (1 − α) Xi 2 aj X j − 1 =0
i=1 i=1 j=1

n n n
!
X X X
⇒α aj Xj + (1 − α) Xi 2 aj X j − 1 =0
j=1 i=1 j=1

(par un simple changement d’indice)

n
X n
X n
X n
X
⇒α aj Xj + (1 − α) Xi 2 aj Xj − (1 − α) Xi 2 = 0
j=1 i=1 j=1 i=1

n n
! n
!
X X X
⇒ aj X j α + (1 − α) Xi 2 = (1 − α) Xi 2
j=1 i=1 i=1

n
(1 − α) ni=1 Xi 2
P 
X
⇒ aj X j =
α + (1 − α) ni=1 Xi 2 .
P 
j=1
Pn
– Maintenant, substituons cette solution pour j=1 aj Xj dans l´equation (1) et simpli-
fions :

n P2 !
2

X (1 − α) i=1 X i
⇒ αβe + (1 − α) Xi Yi P2  −1 =0
i=1
α + (1 − α) i=1 Xi 2 .

n
!
α + (1 − α) ni=1 Xi 2 − (1 − α) ni=1 Xi 2
X P P
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P 
i=1

33
n
!
X α
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P 
i=1

n
!
X (1 − α)
⇒ βe = Xi Yi
α + (1 − α) 2i=1 Xi 2
P 
i=1
Pn Pn 2
i=1 X i Y i (1 − α) i=1 Xi
⇒ β = Pn
e
2 P2 2
i=1 Xi α + (1 − α) i=1 Xi
Pn 2
(1 − α) i=1 Xi
=βb
α + (1 − α) 2i=1 Xi 2 .
P

– Ceci est le cas puisque pour ce modèle l’estimateur MCO βb est donné par (exercice)

Pn
Xi Yi
βb = Pi=1
n 2 .
i=1 Xi

7 Propriétés échantillonnales de l’estimateur

– Dans cette section, le but principal de l’exercice est de dériver la variance (et par extension
l’écart type) de nos estimateurs MCO β̂0 et β̂1 .
– Les écarts types de β̂0 et de β̂1 font partie de l’output standard de n’importe quel logiciel de
régression.
– Cet exercice est crucial afin de pouvoir effectuer des tests d’hypothèse concernant les coef-
ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimés.
– Nous avons :
Pn 
i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2
i=1 Xi − X̄
1
Pn 
n i=1 Xi − X̄ ui
= β1 + Pn 2 .
1
n i=1 Xi − X̄
– D’abord, travaillons avec le numérateur.

34
– Nous avons déjà vu que
p
X̄ →
− µX ,

ce qui veut dire que la moyenne échantillonnale converge en probabilité à la moyenne dans
la population. Donc, pour des échantillons assez grands, nous avons

n n n
1X  1X 1X
Xi − X̄ ui ≈ (Xi − µX ) ui ≡ v̄ ≡ vi .
n i=1 n i=1 n i=1

– La variable aléatoire vi que nous venons de définir satisfait les propriétés suivantes :

1. E (vi ) = 0 ;

2. vi est i.i.d. ;

3. σv2 < ∞ .

– La variable satisfait les hypothèses pour pouvoir invoquer le théorème de la limite centrale.
Donc, nous avons
v̄ d

− N (0 , 1) ,
σv̄

où σv̄2 = σv2 /n.


– Maintenant, travaillons avec le dénominateur. Nous avons déjà vu à la fin du chapitre sur la
statistique que la variance échantillonnale est un estimateur convergent de la variance d’une
variable aléatoire. Donc nous avons :

n n
1 X 2 1X 2 p 2
Xi − X̄ ≈ Xi − X̄ → − σX .
n − 1 i=1 n i=1

– Mettant ensemble numérateur et dénominateur, nous avons

  σv2
Var β̂1 − β1 = 2 2
n (σX )

et, !
 
d σv2
β̂1 − β1 →
− N 0, 2 2
n (σX )

35
– Notez très bien ce que nous venons de faire. Nous avons montré la convergence en distri-
bution du numérateur, et la convergence en probabilité du dénominateur, et par la suite nous
avons sauté tout de suite à la convergence en distribution du ratio des deux.
– Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-
priétés asymptotiques (propriétés en grand échantillon) de nos statistiques. Notez que nous
ne pouvons pas le faire lorsqu’il s’agit d’espérances. Par exemple,

 
X E(X)
E 6=
Y E(Y )

sauf dans le cas de variables aléatoires indépendantes.


– Par contre, sous certaines hypothèses, nous avons

p p X̄ p µX
X̄ →
− µX , Ȳ →
− µY ⇒ →
− ,
Ȳ µY

et !
 2
d 2
 p X̄ d µX 1 2
X̄ →
− N µX , σX̄ , Ȳ →
− µY ⇒ →
− N , σX̄ .
Ȳ µY µY

– Nous avons utilisé le Théorème de Slutsky, un des théorèmes les plus utiles en théorie
des probabilités. Il permet de scinder des expressions compliquées de variables aléatoires
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la
convergence de l’expression suit immédiatement.
– Nous aurons fréquemment l’occasion d’utiliser une version de ce théorème. Pour plus de
détails, voir le chapitre des notes sur le modèle de régresson multiple.
– Notez que la variance de β̂1 décroı̂t avec n et tend vers zéro lorsque n tend vers l’infini. Lors-
qu’on parle de convergence en distribution, on utilise normalement une variable aléatoire
normalisée de telle façon à ce sa variance ne diminue pas avec la taille de l’échantillon. Pour

36
cette raison, il serait conventionnel de dire que :
!
√  
d σv2
n β̂1 − β1 →− N 0, 2 2
(σX )

– Maintenant, définissons
σv2
σβ̂21 ≡ 2 2.
n (σX )
 
– Maintenant, si nous divisons β̂1 − β1 par la racine carrée de σβ̂2 , nous obtenons une sta-
1

tistique qui converge en distribution vers une loi normale centrée réduite :
   
β̂1 − β1 β̂1 − β1 d
q ≡ →
− N (0 , 1) .
σβ̂2 σβ̂1
1

– Notez que nous venons de montrer à toutes fins pratiques la convergence de l’estimateur
MCO de β̂1 . Nous avions déjà montré que l’estimateur MCO est non biaisé. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers zéro lorsque la taille
de l’échantillon tend vers l’infini. Autrement dit,

lim σβ̂21 = 0.
n→∞

– Nous avons tous les prérequis pour conclure que l’estimateur MCO de β1 converge en pro-
babilité à sa vraie valeur.

7.1 Estimateur convergent de σβ̂2


1

– La variance de la variable aléatoire v̄ définie ci-dessus n’est généralement pas connue, la


variance de X non plus.
– Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population
par un estimateur convergent de ce moment.

37
– Définissons : Pn 2
1 2
1 n−2 i=1 Xi − X̄ (ûi )
σ̂β̂21 ≡ 2 2
n
 P
1 n
n i=1 X i − X̄

– Ensuite, définissons l’écart type estimé de β̂1 comme

  q
SE β̂1 ≡ σ̂β̂2 .
1

– La plupart des logiciels de régression calculent cet écart type. Il faut, par contre, vérifier si
l’option par défaut est de calculer cet écart type robuste (robuste à la présence de l’hétéro-
scédasticité) ou plutôt de calculer l’écart type qui suppose l’homoscédasticité.

7.2 Estimateur convergent de σβ̂2 en cas d’homoscédasticité


1

– Si nous sommes prêts à supposer que

Var (ui |X = Xi ) = Var (ui ) = σu2 ,

nous pouvons remplacer l’estimateur convergent de σβ̂2 par


1

Pn
1 n−1
1
i=1(ûi )2
σ̃β̂21 ≡ 2 .
n1 n
P
n i=1 Xi − X̄

– J’ai utilisé la notation légèrement différente σ̃β̂2 pour distinguer entre le cas général (lors-
1

qu’on ne suppose pas l’homoscédasticité) où on utilise un estimateur  robuste  de la


variance et le cas particulier où on suppose l’homoscédasticité.
– Le manuel est parmi les seuls à utiliser l’estimateur robuste comme l’estimateur par défaut.
Beaucoup de manuels présentent le cas homoscédastique comme le cas de base et montre
par la suite qu’est-ce qui arrive si l’hypothèse d’homoscédasticité ne tient pas. Je partage
l’opinion des auteurs que l’homoscédasticité est une hypothèse forte qui risque de ne pas
tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien

38
d’enseigner le cas général et l’estimateur robuste comme l’option par défaut d’un économètre
appliqué.
– Lorsqu’on utilise un logiciel de régression comme R, STATA ou GRETL, il faut lire atten-
tivement la documentation pour savoir quelle est l’option par défaut utilisée pour estimer
la matrice variance-covariance des coefficients estimés. Dans la plupart des cas l’option par
défaut suppose l’homoscédasticité et il faut spécifier l’option  robuste  ou l’équivalent si
vous n’êtes pas prêts à supposer l’homoscédasticité, ce qui sera généralement le cas.

Les écarts types robustes peuvent être plus grands ou plus petits que les écarts types non ro-
bustes. Pour une explication plus détaillée et une illustration dans un cas très simple, voir Auld
(2012). Auld démontre les points suivants.

1. En présence d’hétéroscédasticité, si la variance des erreurs n’est pas fortement corrélée


avec la variable explicative du modèle (X), il y aura peu de différence entre l’écart
type calculé avec la méthode robuste et l’écart type calculé sous l’hypothèse de l’ho-
moscédasticité.

2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne
échantillonnale X̄, l’écart type calculé avec la méthode non robuste (supposant l’ho-
moscédasticité) sera biaisé vers zéro (trop petit). L’écart type calculé avec la méthode
robuste sera en général plus grand que l’écart type non robuste.

3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont près de leur
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste (supposant
l’homoscédasticité) sera biaisé et sera en moyenne trop grand. L’écart type calculé avec
la méthode robuste sera en général plus petit que l’écart type non robuste.

4. Avec les données réeles on rencontre plus souvent le cas où l’écart type non robuste est
baisié vers zéro (est trop petit). Donc, typiquement les écarts types robustes sont plus
élevés que les écarts types non robustes.

39
7.3 Détecter l’hétéroscédasticité

– Il peut être important de pouvoir détecter la présence d’erreurs hétéroscédastiques. Il y a des


tests formels, 2 mais il y a aussi des méthodes moins formelles que les chercheurs appliqués
peuvent utiliser.
– Une façon simple serait de créer, une fois le modèle estimé, un graphique avec les Xi sur
l’axe horizontal et les résidus carrés û2i sur l’axe vertical.
– Une relation évidente entre les deux (par exemple, des valeurs de û2i qui semblent augmenter
avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi ) est un signe clair de la
présence d’hétéroscédasticité.
– Une autre façon serait, une fois le modèle estimé, d’estimer une régression où on prend
les résidus carrés comme variable dépendante et Xi comme variable explicative, ou des
fonctions non linéaires des Xi . Par exemple,

û2i = γ0 + γ1 Xi + i

ou encore
û2i = γ0 + γ1 Xi 2 + i .

– L’idée est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit γ̂1 la valeur estimée du coef-
ficient γ1 Une valeur significative de γ̂1 (voir la section suivante sur les tests d’hypothèse)
serait un indice clair de la présence d’hétéroscédasticité. 3 Nous allons revenir sur cette ques-
tion et sur quelques tests formels pour détecter l’homoscédasticité dans le chapitre sur la
régression multiple.
2. Nous verrons certains de ces tests formels dans le chapitre sur le modèle de régression multiple.
3. Notez qu’il ne s’agit pas d’un test formel avec des propriétés statistiques connues. Il faut interpréter le résultat
du test à titre indicatif seulement. Par contre, le test formel appelé test Breusch-Pagan est essentiellement basé sur une
régression de ce type.

40
8 Tests d’hypothèse

8.1 Approche géneral

– Le principe de base pour tester des hypothèses simples est presqu’identique à ce que nous
avons vu dans le chapitre sur l’inférence statistique.
– L’hypothèse nulle spécifie généralement que le coefficient d’intérêt (qui peut être β̂0 ou
β̂1 prend une certaine valeur. L’hypothèse alternative peut être bilatérale ou unilatérale,
dépendant du contexte.
– D’abord, il faut créer une statistique normalisée qui a une moyenne nulle et une variance
unitaire sous l’hypothèse nulle. Il s’agit d’une  statistique t  même si en général elle
n’obéit pas à une loi t de Student. Par exemple :

β̂1 − β1,0
t≡  
SE β̂1

 
où SE β̂1 est un estimateur convergent de l’écart type du coefficient β1 et β1,0 est la valeur
que prend le coefficient β1 sous l’hypothèse nulle.
– Si nous sommes prêts à faire l’hypothèse que le terme d’erreur du modèle ui obéit à une loi
normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de
Student. Dans ce cas, bien sûr, il est préférable d’utiliser la forme homoscédastique pour le
calcul de l’écart type de l’estimateur β̂1 .
– Si non, sous les hypothèses du modèle de régression, la statistique t obéit en grand échantillon
à une loi normale centrée réduite. Voir la section précédente sur les propriétés échantillonnales
de l’estimateur.
– Comme il est habituellement le cas, nous remplaçons l’écart type dans le dénominateur par
un estimateur convergent.
– Maintenant, nous procédons exactement comme dans le chapitre sur la statistique.

41
8.2 Hypothèse alternative bilatérale

– D’abord, si l’hypothèse alternative est bilatérale :

H1 : β1 6= β1,0 ,

nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment loin de zéro. La
p-value du test est donnée par :

p-value = Pr |z| > |tact | = 2Φ −|tact |


 

où tact est la valeur calculée de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centrée réduite cumulée à z.
– On appelle appelle communément un  test de significativité  un test de l’hypothèse nulle
que la variable explicative n’est pas significative, et donc n’aide pas à expliquer la variabilité
de la variable dépendante. Dans, ce cas, l’hypothèse nulle est H0 : β̂1 = 0 et l’hypothèse
alternative est bilatérale. On peut aussi parler d’un test de significativité de la constante
dans le modèle de régression simple. Les tests de significativité sont tellement répandus que,
si l’output fourni par un logiciel d’économétrie donne les  statistiques t  associées aux
coefficients estimés, il s’agit de statistiques appropriées pour tester l’hypothèse nulle que le
coefficient est égal à zéro.

8.3 Hypothèse alternative unilatérale

– Ensuite, si l’hypothèse alternative est unilatérale, il faut distinguer entre les deux cas pos-
sibles.

1. D’abord,
H1 : β1 > β1,0 .

Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment positive. La

42
p-value du test est donnée par :

p-value = Pr z > tact = 1 − Φ tact .


 

2. La deuxième possibilité est :


H1 : β1 < β1,0 .

Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment négative. La


p-value du test est donnée par :

p-value = Pr z < tact = Φ tact .


 

9 Intervalles de confiance pour les coefficients

– Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inférence statistique.
– Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la
valeur de z > 0 tel que
1 − X/100
Φ(−z) = .
2
(100−X)
Donc, on cherche la valeur de z > 0 pour laquelle 2
% de la distribution normale
(100−X)
centrée réduite se trouve à gauche de −z. Cela veut dire bien sûr que 2
% de la distri-
bution normale centrée réduite se trouve à droite de z.
– Nous avons (pour β̂1 : le principe pour β̂0 est identique) :
!
X β̂1 − β1
= Pr −z ≤ ≤z
100 σ̂β̂1

   
= Pr −zσ̂β̂1 ≤ β̂1 − β1 ≤ zσ̂β̂1

43
   
= Pr −zσ̂β̂1 ≤ β1 − β̂1 ≤ zσ̂β̂1
 
= Pr β̂1 − zσ̂β̂1 ≤ β1 ≤ β̂1 + zσ̂β̂1 ,
 
où σ̂β̂1 ≡ SE β̂1 , notre estimateur convergent de l’écart type de β1 .
– Cela implique que l’intervalle de confiance de X% autour de β̂1 peut être écrit de la façon
suivante :
β̂1 ± zσ̂β̂1 ,

où
1 − X/100
Φ(−z) = .
2

9.1 Intervalles de confiance pour les prédictions

Souvent, on estime un modèle de régression pour prédire l’impact du changement de la variable


explicative sur la variable dépendante. Par exemple, dans le cadre du modèle développé en détail
dans le manuel, on pourrait vouloir prédire l’impact sur le rendement scolaire d’une réduction de
la taille moyenne des classes de deux éleves. Soit ∆X le changement proposé de la valeur de la
variable explicative. On a tout de suite

∆Ŷi = β̂1 ∆Xi ,

où ∆Ŷi est le changement prédit de la variable dépendante. Développer un intervalle de confiance
dans ce cas est facile. Le changement posé ∆X est connue. On peut le traiter comme une constante,
et donc nous avons
   
Var ∆Ŷi = Var β̂1 ∆Xi
 
= (∆Xi )2 Var β̂1

44
Donc, procédant de la même manière que pour l’intervalle de confiance pour β̂1 lui-même on a

   
X ∆Xi β̂1 − β1
= Pr −z ≤ ≤ z
100 (∆Xi ) σβ̂1

   
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β̂1 − β1 ≤ z (∆Xi ) σβ̂1
   
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β1 − β̂1 ≤ z (∆Xi ) σβ̂1
 
= Pr −z (∆Xi ) σβ̂1 + ∆Xi β̂1 ≤ ∆Xi β1 ≤ z (∆Xi ) σβ̂1 + ∆Xi β̂1 .

Donc, l’intervalle de confiance pour le changement prédit est donné par

∆Xi β̂1 ± z (∆Xi ) σβ̂1

Si nous remplaçons l’écart type de β̂1 par un estimateur convergent (notre truc habituel), l’intervalle
de confiance peut s’écrire
∆Xi β̂1 ± z (∆Xi ) σ̂β̂1

10 Un exemple d’estimation du modèle de régression simple

avec R

Voici un exemple de comment estimer un modèle de régression simple avec le logiciel R.


L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus
de détaillée. Vous pouvez facilement jouer avec le code une fois que le logiciel est installé. Le but
du modèle est de prédire la demande pour les abonnements à des revues scientifiques (abonnements
par des bibliothèques universitaires) où la variable explicative est le prix par nombre de citations.
Le modèle est
ln (subsi ) = β0 + β1 ln (citepricei ) + ui ,

45
où la variable dépendante subsi est le nombre d’abonnements à la revue i (mesuré en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divisé par le nombre de citations
annuel d’articles publiés dans la revue (mesuré aussi en logs). Notez que le choix de mesurer les
deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre
sur les modèles de régression non linéaires. 4
Les données sont dans une banque de données qui s’appelle  Journals . Il s’agit de
données (avec n = 180) sur les abonnements par des bibliothèques universitaires à des revues
scientifiques. La taille de l’échantillon est le nombre de revues dans l’échantillon.

Afin d’effectuer l’estimation d’un modèle de régression simple de base et afin d’effec-
tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais
aussi les  packages  AER (qui contient les données utilisées pour estimer le modèle),
lmtest, sandwich et zoo (ces trois packages permettent de calculer les écarts types ro-
bustes du modèle estimé et d’effectuer des tests d’hypothèse utilisant les écarts types ro-
bustes). Si les packages ne sont pas déjà installés, il faut les installer avec la commande
install.packages(·) :

install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")

Notez que sous Linux il est préférable d’installer le package comme administrateur du système
ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages installés, on peut procéder à charger les données et estimer le modèle
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les

4. Entretemps, à moins d’avis contraire, je vous demande d’utiliser des variables non transformées dans les exer-
cices empiriques.

46
commandes. Les lignes précédées par  #  sont des commentaires.

R> # Charger les données.


R> library("AER")
R> data("Journals")
R> # Permettre d’appeler les variables directement par leurs
noms.
R> attach(Journals)
R> # Calculer des statistiques descriptives concernant les
variables.
R> # summary(Journals)
R> # Créer une base de données avec un sous-ensemble des
variables.
R> journals <- Journals[, c("subs", "price")]
R> # Ajouter le prix par citation à la base de données
restreinte.
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre d’appeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) ∼ log(citeprice), data = journals)
R> # Estimer le modèle par MCO utilisant la commande lm(·).
R> # Les résultats sont stockés dans l’objet jour lm.
R> jour lm <- lm(log(subs) ∼ log(citeprice))
R> # Ajouter la ligne de régression estimée au nuage de

47
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est  regumm.out  .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)

Résumons ce que nous avons fait avec ces commandes.

– La commande data(·) charge la banque de données en mémoire.


– La commande journals<- crée une plus petite banque de données en extrayant les
variables subs (combien d’abonnements) et price (prix de l’abonnement).
– La commande journals$citeprice<- ajoute une nouvelle variable à la banque
journals qui est le prix par citation.
– La commande plot(·) crée un graphique avec les observations, avec subs (en loga-
rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)
– La commande lm(·) estime le modèle de régression simple par MCO, et la commande
jour lm<- place les résultats dans la variable jour lm.
– La commande abline(·) utilise les résultats pour placer la ligne de régression sur le
graphique qui a déjà été créé.
– La commande summary(·) imprime les résultats de la régression à l’écran.
– La commande outfile<- crée un fichier texte où on peut envoyer les résultats.
– La commande capture.output(·) envoie les résultats dans le fichier qui a été créé.

48
– La commande close(·) ferme le fichier.

Les résultats de l’estimation sont comme suit.

Call:
lm(formula = log(subs) ∼ log(citeprice), data = journals)

Residuals:

Min 1Q Median 3Q Max


-2.72478 -0.53609 0.03721 0.46619 1.84808

Coefficients:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 4.76621 0.05591 85.25 <2e-16 *** —
log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7497 on 178 degrees of freedom

Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548


F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16

Vous êtes déjà en mesure de comprendre tous les éléments de l’output, sauf à la toute fin lors-
qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement
statistique R2 que nous avons étudiée est ce qu’on appelle Multiple R-squared dans
l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le modèle de régression
multiple.

En ce qui concerne les résidus, le logiciel nous donne la valeur minimale parmi les résidus,

49
la valeur associée au premier quartile (la valeur pour laquelle 25% des résidus on une valeur
inférieure), la valeur médiane (qui n’est pas forcément égale à la moyenne), la valeur associée
au troisième quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-
male) peuvent être utiles pour repérer des observations aberrantes.

Une mise en garde : le code ci-dessus estime le modèle par MCO utilisant les options
par défaut. La fonction lm utilise par défaut une hypothèse d’homoscédasticité. Donc, les
écarts types des deux coefficients (β̂0 et β̂1 dans notre notation) ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :

R> coeftest(jour lm, vcov=vcovHC)

Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intallés, tel qu’indiqué ci-dessus. Il faut aussi charger en mémoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com-
mande coeftest(·), avec les commandes suivantes :

R> library("lmtest")
R> library("sandwich")

Les résultats de cette commande sont comme suit :

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16

Ce modèle est un exemple d’un modèle où il n’y a pas une différence énorme entre les écarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les écarts types en
une fraction de seconde, il coûte presque rien de les calculer des deux façons afin de vérifier si

50
les résultats sont semblables ou non.
Un graphique avec les données (variable dépendante sur l’axe vertical et variable explica-
tive sur l’axe horizontal) et la ligne de régression est la Figure 2 ci-dessous.


7



●●

● ● ●

●● ● ● ●●●●● ● ●
●● ●


6

● ● ● ●
● ●
● ● ●
●● ●
● ● ●● ● ● ●
● ● ●
● ● ● ● ●
● ● ●

● ● ●●
● ● ● ● ●
● ●● ● ●
● ● ●● ● ●
● ●●
5

●● ● ● ● ●
● ●● ●
● ● ●

● ● ●● ● ●● ●
● ● ●
● ● ●
● ●
●●
● ●● ●
●●
log(subs)

● ●
● ● ● ●● ●
● ● ●● ● ● ●
4

●● ● ● ●
●● ● ● ●●


● ● ●●
● ● ●●
● ● ●●
● ●●
● ● ●●
● ● ●
3

● ●
● ●


● ● ●


2
1

−4 −2 0 2

log(citeprice)
Figure 2

11 Le modèle de régression simple lorsque X est une variable

dichotomique

Jusqu’ici, nous avons supposé que la variable explicative dans le modèle de régression simple,
X, est une variable aléatoire continue. Il es souvent le cas que la variable explicative est une
variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, présent ou

51
absent, etc.
On peux représenter ces deux valeurs possibles de la variable explicative variable dichotomi-
que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des données sur la taille des
classes où Di = 1 pour des ratios élèves/professeurs inférieurs à 20 est Di = 0 pour des ratios
élèves/professeurs au moins égaux à 20.
Dans ces cas, β1 n’a pas l’interprétation d’un coefficient de pente. Il a l’interprétation de la
moyenne conditionnelle de la variable dépendante Y lorsque Di = 1. L’ordonnée β0 a l’in-
terprétation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interprétation de
la différence entre les moyennes de deux populations ou plutôt de sous-populations.
Algébriquement, nous avons
Yi = β0 + β1 Xi + ui

⇒ E (Yi |Xi = 0) = β0 + β1 × 0 + E (ui |Xi = 0) = β0

et
⇒ E (Yi |Xi = 1) = β0 + β1 × 1 + E (ui |Xi = 1) = β0 + β1 .

On écrit dans le manuel qu’il y a équivalence entre d’une part estimer le modèle de régression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes échantillon-
nales des sous-échantillons. Dans l’encadré qui suit, je montre cette équivalence. Je montre aussi
l’équivalence entre tester la significativité du coefficient estimé β̂1 et tester la significativité de la
différence entre deux moyennes.

Le modèle avec une variable explicative dichotomique peut s’écire

Yi = β0 + β1 Di + ui ,

où Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les-

52
quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que

n
1X n1
D̄ ≡ Di = .
n i=1 n

L’estimateur β̂0 est donné par la formule habituelle

β̂0 = Ȳ − β̂1 D̄.

L’estimateur β̂1 est donné par la formule habituelle

Pn  
i=1 Yi − Ȳ Di − D̄
β̂1 = Pn 2 .
i=1 Di − D̄

Dans ce cas, avec Di une variable dichotomique, nous avons

n
X 2
Di − D̄
i=1

n0 n1
X
2
X 2
= D̄ + 1 − D̄
i=1 i=1
 n 2  n1  2
1
= n0 + n1 1 −
n n
 n 2  n 2
1 0
= n0 + n1
n n
n0 n1 2 + n1 n0 2
=
n2
n0 n1 (n0 + n1 ) n0 n1
= 2
= .
n n

Définissons Yi1 la valeur de Yi dans le cas où Di = 1. Définissons Yi0 la valeur de Yi dans le

53
cas où Di = 0. Nous avons

Pn  
i=1 Yi − Ȳ Di − D̄
β̂1 =
n0 n1 /n

Pn1 1
 Pn0 0

Y − Ȳ (1 − n 1 /n) − Y − Ȳ (n1 /n)
= i=1 i i=1 i
n0 n1 /n
Pn1 1
 Pn0 0

i=1 Yi − Ȳ (n0 /n) − i=1 Yi − Ȳ (n1 /n)
=
n0 n1 /n
n1 n0
1 X 1 1 X
Yi0 − Ȳ
 
= Yi − Ȳ −
n1 i=1 n0 i=1
n1 n1 n0 n0
1 X 1 1 X 1 X 0 1 X
= Y − Ȳ 1− Y + Ȳ 1
n1 i=1 i n1 i=1 n0 i=1 i n0 i=1
n1 n0
1 X n1 1 X n0
= Yi1 − Ȳ − Yi0 + Ȳ
n1 i=1 n1 n0 i=1 n0
n1 n0
1 X 1 1 X
= Y − Y 0.
n1 i=1 i n0 i=1 i

Ceci est tout simplement la différence entre la moyenne échantillonnale de Y pour le sous-
échantillon où Di = 1 et sa moyenne échantillonnale pour le sous-échantillon où Di = 0.
Il faut maintenant montrer que β̂0 est tout simplement égal à la moyenne échantillonnale
de Y pour le sous-échantillon où Di = 0. Nous avons

Pn  !
n1 i=1 Yi − Ȳ Di − D̄
β̂0 = Ȳ −
n n0 n1 /n

Pn1 !
Yi1 − Ȳ (1 − n1 /n) − ni=1
 
Yi0 − Ȳ (n1 /n)
P 0
n1 i=1
= Ȳ −
n n0 n1 /n
 n0 Pn1 n1
Pn0
1
i=1 Yi − Yi0 − Ȳ n0nn1 + Ȳ n0 n1 
n1 n n i=1 n
= Ȳ −
n n0 n1 /n
 n0 Pn1 1 n1 Pn0 0 
n1 n i=1 Yi − n i=1 Yi
= Ȳ −
n n0 n1 /n

54
n 1 n 0 n
1X 1X n1 X
= Yi − Yi1 + Y0
n i=1 n i=1 n0 n i=1 i

n1 n0
! n n
1 0
1 X X 1X n1 X
= Yi1 + Yi0 − Yi1 + Y0
n i=1 i=1
n i=1 n0 n i=1 i
 n0
X
1 n1
= + Yi0
n n0 n i=1

n0
1 X
= Y 0,
n0 i=1 i

ce qui fut à démontrer. La statistique t pour tester la significativité du coefficient estimé β̂1 est
donnée par la formule habituelle :
β̂1
t=  .
SE β̂1

Dans ce cas, nous avons


Ȳ 1 − Ȳ 0
t= q ,
Var Ȳ 1 − Ȳ 0

Ȳ 1 − Ȳ 0
=q  ,
1
Var Ȳ + Var Ȳ 0


Ȳ 1 − Ȳ 0 − 0
= q 2 ,
σ 1 σ2 0
Y
n1
+ n0 Y

où
n1 n0
1 X 1 X
Ȳ 1 ≡ Yi1 , Ȳ 0 ≡ Y 0.
n1 i=1 n0 i=1 i

Cette formule correspond exactement à la formule dérivée dans le chapitre sur la statistique
et les tests d’hypothèses pour tester la différence entre les moyennes de deux populations
différentes.
Ici, l’hypothèse d’hétéroscédasticité permet à la variance de l’erreur du modèle de
régression de dépendre des deux valeurs différentes possibles de Di .

55
12 Concepts à retenir

– Comment écrire le modèle de régression simple.


– Le problème de minimisation auquel l’estimateur MCO est une solution.
– Les propriétés algébriques de l’estimateur MCO. Il est important de pouvoir suivre les
démonstrations de ces propriétés et de les comprendre, mais il n’est pas nécessaire d’être
capable de les reproduire.
– Le concept du R2 , et les concepts de somme totale des carrés, somme expliquée des carrés,
et somme des résidus carrés et la relation entre ces sommes.
– Les hypothèses statistiques de base du modèle de régression simple qui sont requises pour
montrer l’absence de biais et la convergence.
– Les hypothèses additionnelles nécessaires pour montrer l’efficience de l’estimateur MCO
(théorème Gauss-Markov).
– Il faut avoir suivi et compris la dérivation des propriétés échantillonnales des coefficients
estimés.
– Comment tester des hypothèses concernant les coefficients estimés du modèle, contre des
hypothèses alternatives bilatérales ou unilatérales.
– Comment calculer un intervalle de confiance pour les coefficients du modèle.
– Comment calculer un intervalle de confiance pour un changement prédit.

13 Références

Voir ce lien :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf

Dernière modification : 12/10/2013

56

Vous aimerez peut-être aussi