Regsimple 140714123800 Phpapp02

ECO 4272 : Introduction à l’économétrie
Notes sur le modèle de régression simple

Steve Ambler∗
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
2013
c : Steve Ambler
Automne 2013
∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
ambler.steven@uqam.ca.
1
Table des matières
1 Introduction 4
2 Objectifs du cours 4
3 Le modèle de régression simple 4
4 Estimateur moindres carrés ordinaires (MCO) 5

4.1 Propriétés algébriques clés de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9
4.1.1 La somme des résidus est zéro . . . . . . . . . . . . . . . . . . . . . . . . 10
4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne
échantillonnale de la variable dépendante . . . . . . . . . . . . . . . . . . 10
4.1.3 Orthogonalité entre la variable explicative et les résidus . . . . . . . . . . . 11
4.2 La notion de l’ajustement statistique (R2 ) . . . . . . . . . . . . . . . . . . . . . . 12
4.3 L’écart type de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Hypothèses statistiques de base du modèle 17

5.1 Espérance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 18
5.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6 Propriétés statistiques de l’estimateur 20

6.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.1 β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 β̂0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3.1 Théorème Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7 Propriétés échantillonnales de l’estimateur 34

2
7.1 Estimateur convergent de σβ̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
7.2 Estimateur convergent de σβ̂2 en cas d’homoscédasticité . . . . . . . . . . . . . . . 38
1
7.3 Détecter l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
8 Tests d’hypothèse 41
8.1 Approche géneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8.2 Hypothèse alternative bilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.3 Hypothèse alternative unilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
9 Intervalles de confiance pour les coefficients 43

9.1 Intervalles de confiance pour les prédictions . . . . . . . . . . . . . . . . . . . . . 44
10 Un exemple d’estimation du modèle de régression simple avec R 45
2
11 Le modèle de régression simple lorsque X est une variable dichotomique 51
12 Concepts à retenir 55
13 Références 56
3
1 Introduction
2 Objectifs du cours
– Présenter le modèle de régression simple.

– Dériver l’estimateur moindres carrés ordinaires (MCO).
– Étudier les propriétés algébriques de cet estimateur.
– Étudier la mesure habituelle de l’ajustement statistique, le R2 .
– Regarder les hypothèses statistiques derrière le modèle et analyser leurs conséquences pour
l’estimateur MCO (absence de biais, convergence, efficience).
– Montrer l’absence de biais de l’estimateur MCO.
– Dériver les propriétés échantillonnales de l’estimateur MCO et montrer sa convergence.
– Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs homoscédastiques.
– Montrer, sous les hypothèses d’homoscédasticité et normalité, l’efficience de l’estimateur
MCO (théorème Gauss-Markov).
– Analyser les tests d’hypothèse concernant les paramètres estimés du modèle.
– Analyser le calcul d’intervalles de confiance pour les paramètres estimés dans le cadre du
modèle.
3 Le modèle de régression simple
– Le modèle de base peut s’écrire
Yi = β0 + β1 Xi + ui .
L’idée de base est qu’une variable économique Yi peut être prédite ou expliqué par une autre va-
riable économique Xi . La relation entre les deux variables est linéaire. Sans le terme ui , l’équation
est l’équation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonnée à l’origine et β1 est
4
la pente de la droite. On peut penser au paramètre β0 comme étant associé à une deuxième variable
explicative qui est une constante qu’on normalise pour être égale à un. Autrement dit, on aurait pu
écrire le modèle comme
Yi = β0 × 1 + β1 × Xi + ui .
Le modèle de régression simple contient une constante par défaut. Il est possible aussi d’étudier le
modèle suivant :
Yi = βXi + ui .
Ce modèle, sans constante, a des propriétés statistiques assez différentes. Pour ceux qui s’intéressent
à poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle communément Yi la variable dépendante du modèle de régression, et on appelle
Xi la variable explicative du modèle de régression.
4 Estimateur moindres carrés ordinaires (MCO)
– Nous considérons le problème de prédire la valeur de la variable dépendante Yi , étant donnée

la valeur de Xi .
– L’erreur de prévision peut s’écrire Yi − β0 − β1 Xi .
– Le problème à résoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la
somme des erreurs de prévision au carré :
– Notez que le critère de minimiser la somme des erreurs au carré n’est pas le seul critère
possible. Par exemple, on pourrait décider de minimiser la somme des erreurs en valeur
absolue.
– Il y a deux raisons fondamentales pour la popularité et l’importance de l’estimateur MCO
dans l’histoire de la statistique et de l’économétrie.
1. D’abord, l’algèbre est relativement simple. Le critère est une expression quadratique
(du deuxième degré), et donc les conditions du premier ordre donnent un système
5
d’équations linéaires. Il est très facile de résoudre un système de deux équations linéaires.
2. Deuxièment, sous certaines conditions (à voir plus tard), l’estimateur MCO des coef-
ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs
linéaires et non biaisés – autrement dit, il est l’estimateur le plus efficient parmi les
estimateur linéaires non biaisés.
– Le problème de minimisation peut s’écrire comme suit.
n
X
min (Yi − β0 − β1 Xi )2 .
β0 ,β1
i=1
– Les conditions du premier ordre (CPOs) pour ce problème sont comme suit. D’abord par
rapport au choix de β0 :
n
X
−2 Yi − β̂0 − β̂1 Xi = 0.
i=1
Ensuite, par rapport au choix de β1 :
n
X
−2 Yi − β̂0 − β̂1 Xi Xi = 0,
i=1
où j’ai écrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs
MCO, c’est à dire les solutions au problème de minimisation. 1
– Il s’agit de deux équations où les deux inconnus sont β̂0 et β̂1 .
– Il est facile d’isoler β̂0 en fonction de β̂1 et par la suite de trouver la solution pour β̂1 .
– Nous avons à partir de la première CPO :
n
X
Yi − β̂0 − β̂1 Xi = 0
i=1
n
X n
X
⇒ β̂0 = n β̂0 = Yi − β̂1 Xi
i=1 i=1
1. En principe, il faudrait vérifier les conditions du deuxième ordre pour savoir que nous avons trouvé un minimum
et non un maximum. Nous n’allons pas faire cet exercice ici.
6
n n
1X 1X
⇒ β̂0 = Yi − β̂1 Xi
n i=1 n i=1
⇒ β̂0 = Ȳ − β̂1 X̄.
Nous venons de trouver la solution pour β̂0 en fonction des moyennes échantillonnales X̄ et
Ȳ et de la solution pour β̂1 .
– Maintenant, substituant cette solution dans la deuxième CPO, nous avons :
n
X
Yi − Ȳ + β̂1 X̄ − β̂1 Xi Xi = 0.
i=1
1
– Multipliant des deux côtés de l’équation par n
et réarrangeant, nous obtenons
n n n n
1X 1X 1X 1X
Yi Xi − Ȳ Xi − β̂1 (Xi )2 + β̂1 X̄Xi = 0
n i=1 n i=1 n i=1 n i=1
n n
1X 1X
⇒ Yi Xi − Ȳ Xi
n i=1 n i=1
n n
!
1X 2 1X
−β̂1 (Xi ) − X̄ Xi =0
n i=1 n i=1
n
1X
⇒ Yi Xi − Ȳ X̄
n i=1
n
!
1X
−β̂1 (Xi )2 − X̄ X̄ =0
n i=1
1
Pn
Yi Xi − X̄ Ȳ
⇒ β̂1 = n
Pi=1
n
(Xi )2 − X̄ 2
1
n i=1
1
Pn
n i=1 Yi − Ȳ Xi − X̄
⇒ β̂1 = Pn 2 .
1
n i=1 Xi − X̄
Cette solution dépend des identités
n n
1X 1X
Yi Xi − X̄ Ȳ = Yi − Ȳ Xi − X̄
n i=1 n i=1
7
et
n n
1X 1X 2
(Xi )2 − X̄ 2 = Xi − X̄ .
n i=1 n i=1
Ceci est facile à montrer. Nous avons
n
1X
Yi − Ȳ Xi − X̄
n i=1
n
1X
Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1
n n n n
1X 1X 1X 1X
= Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1 n i=1 n i=1 n i=1
n n n
1X 1X 1X n
= Yi Xi − X̄ Yi − Ȳ Xi + X̄ Ȳ
n i=1 n i=1 n i=1 n
n
1X
= Yi Xi − X̄ Ȳ − Ȳ X̄ + X̄ Ȳ
n i=1
n
1X
= Yi Xi − X̄ Ȳ .
n i=1
La preuve pour le dénominateur est semblable.

C’est une première façon d’exprimer la solution. Multipliant numérateur et dénominateur
par n nous avons aussi
Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
i=1 Xi − X̄
C’est une deuxième façon d’exprimer la solution. Maintenant, divisant numérateur et dénominateur
par (n − 1) nous avons aussi
1
Pn
(n−1) i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
1
(n−1) i=1 Xi − X̄
– Donc, nous avons trois expressions équivalentes pour la solution pour β̂1 .
– Comme aide-mémoire, la dernière expression est peut-être la plus utile. Elle dit que l’estima-
8
teur MCO de β1 est le ratio entre la covariance échantillonnale entre X et Y et la variance
échantillonnale de X (voir le chapitre sur la théorie des probabilités pour les définitions de
covariance échantillonnale et variance échantillonnale).
– Pour répéter ceci en notation algébrique :
Cov (X , Y )
β̂1 = .
Var (X)
– Je crois qu’il n’est pas trop difficile de se souvenir de cette façon d’écrire la solution pour
β̂1 , et de se souvenir de la solution pour β̂0 en termes des moyennes échantillonnales X̄ et Ȳ
et β̂1 .
4.1 Propriétés algébriques clés de l’estimateur MCO
– L’estimateur MCO possède quelques propriétés de base que nous allons démontrer dans cette
section.
– Nous allons par la suite nous servir de ces propriétés à maintes reprises par la suite pour
trouver d’autres propriétés de l’estimateur MCO.
– J’appelle ces propriétés les propriétés algébriques puisqu’elles ne dépendent pas d’hy-
pothèses concernant les propriétés statistiques des variables aléatoires Y , X ou u.
– Autrement dit, pour n’importe quelles séries de données sur deux variables X et Y , ces
propriétés doivent tenir. On n’a même pas besoin de supposer que X et Y sont des variables
aléatoires en bonne et due forme.
– Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une constante.
– Pour le cas de modèles qui n’incluent pas une constante, voir l’article de Windmeijer (1994),
ou encore celui d’Eisenhauer (2003).
9
4.1.1 La somme des résidus est zéro
– Définissons
ûi ≡ Yi − β̂0 − β̂1 Xi ,
le résidu de la régression pour l’observation i.

– Nous voulons montrer que :
n
1X
ûi = 0.
n i=1
– Voici la preuve.
n n
1X 1 X
ûi = Yi − Ȳ + β̂1 X̄ − β̂1 Xi
n i=1 n i=1
n n
1X 1X
= Yi − Ȳ − β̂1 Xi − X̄ = 0.
n i=1 n i=1
4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne échantillonnale
de la variable dépendante
– Définissons
Ŷi ≡ β̂0 + β̂1 Xi ,
la valeur prédite de Yi .
n
1X
Ŷi = Ȳ .
n i=1
– Voici la preuve :
Ŷi ≡ Yi − ûi
n n n n
1X 1X 1X 1X
⇒ Ŷi = Yi − ûi = Yi ≡ Ȳ .
n i=1 n i=1 n i=1 n i=1
10
4.1.3 Orthogonalité entre la variable explicative et les résidus

n
X
Xi ûi = 0.
i=1
– Ceci est la définition de l’orthogonalité entre deux variables.

– Puisque nous allons utiliser l’algèbre linéaire dans le chapitre sur le modèle de régression
multiple, c’est peut-être opportun d’introduire ici le concept d’orthogonalité entre deux vec-
teurs. Nous pouvons réécrire cette équation en notation vectorielle comme
 
 û1 
n  
û2 
X 
Xi ûi = ≡ X 0 Û = 0.
 
X1 X 2 . . . Xn  .. 
i=1

 .  
 
ûn
– Donc c’est la définition habituelle d’orthogonalité entre deux vecteurs en algèbre linéaire.
– Nous verrons plus loin qu’il y a aussi une interprétation géométrique.
n
X n
X n
X
Xi ûi = Xi ûi − X̄ ûi
i=1 i=1 i=1
n
X
= Xi − X̄ ûi
i=1
n
X
= Xi − X̄ Yi − Ȳ + β̂1 X̄ − β̂1 Xi
i=1
n
X
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1
n n
X X 2
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1 i=1
n
X
= Xi − X̄ Yi − Ȳ
i=1
11
Pn n
i=1 Xi − X̄ Yi − Ȳ X 2
− Pn 2 Xi − X̄
i=1 Xi − X̄ i=1
n
X n
X

= Xi − X̄ Yi − Ȳ − Xi − X̄ Yi − Ȳ
i=1 i=1
= 0.
– L’orthogonalité est reliée à l’interprétation géométrique de la méthode des MCO. Estimer

un modèle par MCO revient à projeter la variable dépendante dans l’espace traversé par la
variable explicative (ou les variables explicatives dans le cas de la régression multiple).
– Le principe est illustré par la Figure 1 ci-dessous. Nous constatons sur le graphique que si
nous prenons la ligne de régression comme un vecteur, la ligne pointillée sur le graphique
est un vecteur dont la longueur égale la valeur de ûi à ce point. Il forme un angle droit par
rapport à la ligne de régression, d’où le terme orthogonal .
– Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in-
terprétation géométrique de la régression simple se trouve dans l’article de Davidson et Mac-
Kinnon (1999).
Figure 1
4.2 La notion de l’ajustement statistique (R2 )
– Définissons :
n
X 2
TSS ≡ Yi − Ȳ ,
i=1
12
la somme totale des carrés ( total sum of squares en anglais) ;
n
X 2
SSR ≡ Yi − Ŷi ,
i=1
la somme des résidus au carré ( residual sum of squares en anglais) ;
n
X 2
ESS ≡ Ŷi − Ȳ ,
i=1
la somme expliquée des carrés ( explained sum of squares en anglais).

– Nous pouvons montrer que :
TSS = ESS + SSR.
n
X 2
TSS = Yi − Ȳ
i=1
n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1
n
X 2 n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1 i=1
n
X
+2 Yi − Ŷi Ŷi − Ȳ
i=1
n
X
= SSR + ESS + 2 ûi Ŷi − Ȳ
i=1
n
X n
X
= SSR + ESS + 2 ûi Ŷi − 2Ȳ ûi
i=1 i=1
n
X
= SSR + ESS + 2 ûi Ŷi
i=1
n
X
= SSR + ESS + 2 ûi β̂0 + β̂1 Xi
i=1
13
n
X n
X
= SSR + ESS + 2β̂0 ûi + 2β̂1 ûi Xi
i=1 i=1
= SSR + ESS.
Notez que nous avons invoqué à quelques reprises les propriétés algébriques de l’estimateur
MCO que nous avons déjà démontrées.
– Maintenant, définissons
ESS
R2 ≡ .
TSS
– Puisque TSS, ESS et SSR sont la somme de termes au carré (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :
0 ≤ R2 ≤ 1.
– Il faut aussi que

SSR
R2 = 1 − .
TSS
– L’ajustement statistique s’appelle aussi le coefficient de détermination de la régression.

– L’ajustement statistique est défini indépendamment des propriétés statistiques du modèle de
régression. Il a l’interprétation du pourcentage de la variation de la variable dépendante Y
autour de sa moyenne qui peut être expliqué par les variations de la variable explicative X.
– Pour le modèle de régression simple, il y a une relation algébrique exacte entre le R2 et le
coefficient de corrélation entre les variables X et Y . La relation est
R2 = Corr (X, Y ) .
– Je montre ce résultat dans l’encadré qui suit.

– La lecture de l’encadré est facultative, mais je vous encourage à retenir le résultat (égalité
entre la mesure R2 et le coefficient de corrélation entre X et Y au carré).
14
Je démontre ici que l’ajustement statistique (dans le modèle de régression simple) doit être égal
au carré du coefficient de corrélation entre X et Y . Nous avons
Pn 2
i=1 Ŷi − Ȳ
R2 ≡ Pn 2
i=1 Yi − Ȳ
Nous avons aussi (en multipliant le numérateur et le dénominateur dans la définition de la

corrélation échantillonnale par (n − 1))
2
Corr (X , Y ) ≡
 2
Pn
i=1 Xi − X̄ Yi − Ȳ
q 
Pn 2 qPn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 2
i=1 Xi − X̄ Yi − Ȳ
= Pn 2 Pn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Donc, il faut montrer que
Pn 2
Ŷi − Ȳ Pn 2
i=1 i=1 Xi − X̄ Yi − Ȳ
Pn 2 = Pn 2 Pn 2
i=1 Yi − Ȳ i=1 Xi − X̄ i=1 Yi − Ȳ
n n n
!2
X 2 X 2 X
⇔ Ŷi − Ȳ Xi − X̄ = Xi − X̄ Yi − Ȳ .
i=1 i=1 i=1
Travaillant avec le bras gauche de cette équation, nous avons
n n
2 X
X 2
Ŷi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= β̂0 + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= Ȳ − β̂1 X̄ + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
15
n n
2 X
X 2
= β̂1 Xi − β̂1 X̄ Xi − X̄
i=1 i=1
n n
X 2 X 2
= β̂12 Xi − X̄ Xi − X̄
i=1 i=1
Pn !2 n
!2
i=1 Xi − X̄ Yi − Ȳ X 2
= Pn 2 Xi − X̄
i=1 Xi − X̄ i=1
n
!2
X
= Xi − X̄ Yi − Ȳ ,
i=1
ce qui fut à démontrer.

Donc, même si nous sommes en train de discuter des propriétés algébriques du modèle
de régression simple, et même si la notion du R2 est définie indépendamment des propriétés
statistiques des variables X et Y , nous voyons que le R2 est relié au concept statistique de
corrélation. Il existe des tests d’hypothèse de la significativité de corrélations entre variables
aléatoires (que nous n’allons pas explorer dans ce cours).
– Tel qu’indiqué plus tôt, l’ajustement statistique R2 est défini indépendamment des hy-
pothèses statistiques derrière le modèle.
– Nous venons de voir (dans l’encadré précédant) qu’il y a un lien stricte dans le modèle de
régression simple entre le R2 et le coefficient de corrélation entre la variable dépendante
Y et la variable explicative X.
– Le R2 a aussi une autre interprétation statistique. On peut l’utiliser pour tester l’hy-
pothèse nulle de l’absence de relation entre la variable explicative (les variables expli-
catives à part la constante dans le modèle de régression multiple). Voir Giles (2013b,
2013c). Selon Giles, le R2 suit, sous l’hypothèse nulle (et sous l’hypothèse de l’ho-
moscédasticité), une distribution Beta.
– Nous allons voir dans le chapitre sur la régression multiple qu’on peut construire une
16
autre statistique pour tester la même hypothèse qui suit une distribution F de Fisher.
4.3 L’écart type de la régression
– Définissons :
n
1 X SSR
s2û = (ûi )2 = .
(n − 2) i=1 (n − 2)
– Dans le cas où nous supposons une variance constante du terme d’erreur du modèle (voir la
section suivante concernant les hypothèses statistiques du modèle), c’est un estimateur non
biaisé de la variance du terme d’erreur.
– Il s’agit du cas où les erreurs sont homoscédastiques, où donc Var (ui ) = σu2 , une variance
constante.
– Notez que cette hypothèse (variance constante des erreurs) ne fera pas partie des hypothèses
statistiques de base que nous adopterons.
– Nous divison par (n − 2) afint d’obtenir un estimateur non biaisé.
– Il y a une autre raison pour la division par (n − 2). On perd deux degrés de liberté car il faut
estimer deux paramètres inconnus (β0 et β1 ) afin de calculer les résidus de la régression.
– Maintenant, définissons :
q
sû ≡ s2û .
– sû est l’écart type de la régression.

– L’écart type de la régression est un des résultats d’estimation que fournissent automatique-
ment la plupart des logiciels économétriques.
5 Hypothèses statistiques de base du modèle
– À partir de ce point, nous élaborons quelques propriétés statistiques de l’estimateur MCO.

Elles dépendront de certaines hypothèses statistiques de base, que voici.
17
– Ces hypothèses seront cruciales pour montrer les propriétés d’absence de biais et de conver-
gence.
– Nous en aurons besoin aussi (avec une hypothèse additionnelle) pour montrer l’efficience de
l’estimateur MCO.
5.1 Espérance conditionnelle nulle de l’erreur
– Nous supposons que :

E (ui |X = Xi ) = 0.
– Intuitivement, l’hypothèse nous dit que le fait de connaı̂tre la valeur réalisée de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.
5.2 Observations i.i.d.

(Xi , Yi ) , i = 1, 2, . . . , n i.i.d.
– Nous avons déjà vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont indépendantes et qu’elles sont identiquement distribuées.
– Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui génère
les observations (normale, exponentielle, parétienne stable, etc.). Tout ce qu’on suppose c’est
que les observations sont toujours générées par la même distribution.
5.3 Les observations aberrantes sont peu probables

0 < E X 4 < ∞;

0 < E Y 4 < ∞;

18
– Cette hypothèse sert à nous rappeler que l’estimateur MCO peut être sensible aux observa-
tions aberrantes.
– Il est toujours bon d’examiner les résidus afin de détecter la présence de ces observations,
qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans
les données, etc.
– Il est important de noter qu’en présence d’observations aberrantes importantes, la valeur de
β̂1 peut être très sensible à cette ou à ces valeurs, même si elles sont peu nombreuses. Intui-
tement, même un nombre très faible de ces observations aberrantes peut avoir une influence
prépondérantes sur les valeurs estimées des paramètres. Dans un tel cas, les estimateurs
MCO ne seront pas convergents puisqu’ils dépendent d’un petit nombre d’observations.
5.4 Notre approche
Par rapport à l’approche dans certains manuels de base en économétrie, nous adoptons une
approche plus générale.
1. Souvent, la première fois qu’on présente le modèle de régression simple, on suppose que
les observations sur la variable explicative X sont constantes à travers des échantillons
différents. Pour dériver les propriétés statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des réalisations d’une
variable aléatoire. L’algèbre est plus facile, mais c’est beaucoup moins réaliste.
2. Souvent, lorsqu’on présente le modèle de base, on suppose aussi que la variance condition-
nelle du terme d’erreur est égale à sa variance non conditionnelle et qu’elle est constante.
Autrement dit,
Var (ui |X = Xi ) = Var (ui ) = σu2 .
L’avantage de ces hypothèses simplificatrices est de simplifier l’algèbre. On arrive à une

expression plus simple pour la variance échantillonnale de nos estimateurs MCO. Malheu-
reusement, ce sont des hypothèses qui tiennent rarement dans les données utilisées par les
19
économètres appliqués. Cette hypothèse n’est pas retenue ici, ce qui va mener à une expres-
sion plus compliquée mais plus générale pour la variance échantillonnale de nos estimateurs.
3. Souvent, lorsqu’on présente le modèle de base, on suppose que le terme d’erreur est distribué
selon une loi normale. Ceci permet de faire de l’inférence exacte (voir le chapitre sur les tests
d’hypothèse pour une définition). Cette hypothèse n’est pas retenue ici.
4. Au lieu de supposer la normalité, nous allons faire l’hypothèse que les échantillons de
données que nous avons à notre disposition sont assez grandes pour que les statistiques
utilisées pour faire des tests d’hypothèse soient approximatiement distribuées selon une loi
normale.
6 Propriétés statistiques de l’estimateur
6.1 Absence de biais de l’estimateur
6.1.1 β̂1
– Nous avons :
Pn
i=1 Xi − X̄ Yi − Ȳ
β̂1 = Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ β0 + β1 Xi + ui − β0 − β1 X̄ − ū
= Pn 2
i=1 X i − X̄
Pn 2 Pn
β1 i=1 X i − X̄ + i=1 X i − X̄ (ui − ū)
= Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ (ui − ū)
= β1 + Pn 2
i=1 Xi − X̄
Pn
X i − X̄ ui
= β1 + Pi=1 n 2 .
i=1 Xi − X̄
– Ceci montre que l’estimateur est égal à sa vraie valeur plus un terme qui dépend du produit
des erreurs avec les écarts des Xi par rapport à leurs moyennes échantillonnales.
20
– Notez ce que l’on fait pour passer de la première ligne à la deuxième. On substitut Yi utili-
sant sa valeur si le modèle de régression est litéralement vrai. Cela fait apparaı̂tre les vraies
valeurs de β0 et de β1 , et fait apparaı̂tre aussi l’erreur (la vraie et non le résidu). On fera
souvent une substitution semblable lorsqu’on veut analyser les propriétés statistiques d’un
estimateur.
– Maintenant, il s’agit de calculer la valeur espérée de cette expression :
Pn !

i=1 Xi − X̄ ui
E β̂1 = β1 + E Pn 2
i=1 Xi − X̄
Pn ! !
X i − X̄ u i
= β1 + E E Pi=1 n 2 |X1 , X2 , . . . Xn
i=1 Xi − X̄
Pn !
i=1 X i − X̄ E (u i |X 1 , X 2 , . . . Xn )
= β1 + E Pn 2
i=1 Xi − X̄
Pn !
i=1 X i − X̄ E (u i |X i )
= β1 + E Pn 2
i=1 Xi − X̄
= β1 .
– Pour passer de la première ligne à la deuxième dans cette suite d’égalités, nous avons utilisé
la loi des espérances itérées, qui dit que pour n’importe quelle variable aléatoire Y ,
E (E (Yi |Xi )) = E (Yi ) .
Nous l’avons tout simplement appliqué à la variable aléatoire qui est
Pn
i=1 Xi − X̄ ui
Pn 2 .
i=1 Xi − X̄
– Pour passer de la deuxième à la troisième ligne, il faut noter que les espérances des X condi-
tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des
constantes et les écrire du côté gauche de l’opérateur d’espérance conditionnelle. Ce faisant,
21
l’opérateur d’espérance conditionnelle s’applique uniquement au terme d’erreur ui .
– La dernière égalité suit directement de nos hypothèses de base concernant le modèle, dont
une stipule que E (ui |Xi ) = 0.
6.1.2 β̂0
– Nous avons :

E β̂0 = E Ȳ − β̂1 X̄
n
!
1X
= E β0 + β1 X̄ + ui − β̂1 X̄
n i=1
n
1X
= β0 + E β1 − β̂1 X̄ + E (ui )
n i=1
n
1X
= β0 + E (E (ui |Xi ))
n i=1
= β0 ,
où encore une fois nous avons utilisé la loi des espérances itérées :
E (ui ) = E (E (ui |Xi )) .
– Ici, j’ai suivi la réponse à la question 4.7 du manuel. Il n’est pas forcément évident que

E β1 − β̂1 X̄ = 0,
puisque X̄ doit être considéré comme une variable aléatoire. Il faut remonter à l’absence de
biais de β̂1 , où on a montré que
Pn
Xi − X̄ ui
β1 − β̂1 = − Pi=1
n 2 .
i=1 Xi − X̄
22
Donc, on a !
Pn
X i − X̄ ui
E β1 − β̂1 X̄ = −E Pi=1 n 2 X̄
i=1 X i − X̄
Pn !!
i=1 X i − X̄ E (u i |X i )
= −E X̄ Pn 2
i=1 Xi − X̄
= 0.
Encore une fois, nous avons utilisé la loi des espérances itérées.
6.2 Convergence de l’estimateur
– Nous allons remettre ce sujet à un peu plus tard. En calculant les propriétes échantillonnales
de l’estimateur, nous allons montrer que sa variance décroı̂t avec la taille de l’échantillon n.
– Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons montré
l’absence de biais, et la variance converge à zéro lorsque n tend vers l’infini.
6.3 Efficience de l’estimateur
– Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothèse addi-
tionnelle, que le terme d’erreur du modèle de régression est homoscédastique, ce qui veut
dire a une variance constante.
– Si ce n’est pas le cas, et si nous connaissons de quoi dépend la variance du terme d’erreur,
il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carrés généralisés (generalised least squares ou GLS en anglais),
que nous n’aurons pas l’occasion d’étudier en détail dans ce cours. Voir le chapitre 15 du
manuel.
– Une preuve détaillée du théorème Gauss-Markov se trouve dans l’ecadré qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en détail dans le cours. Je vous
invite fortement à la lire et à la comprendre.
23
6.3.1 Théorème Gauss-Markov
– Il s’agit d’une preuve que l’estimateur β̂1 est l’estimateur le plus efficient parmi les
estimateurs qui sont linéaires en Yi .
– Rappelons d’abord les hypothèses qui doivent tenir pour démontrer le théorème Gauss-
Markov.
1. E (ui |X1 , . . . , Xn ) = 0 .
2. Var (ui |X1 , . . . , Xn ) = σu2 , 0 < σu2 < ∞.
3. E (ui uj |X1 , . . . , Xn ) = 0, i 6= j.
– La dernière hypothèse dit que les erreurs ne sont pas corrélées entre elles.
– D’abord, montrons que β̂1 est un estimateur linéaire en Yi . Nous avons
Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2
i=1 Xi − X̄
Pn
Yi Xi − X̄ − Ȳ ni=1 Xi − X̄
P
i=1
= Pn 2
i=1 Xi − X̄
Pn
Y i X i − X̄
= Pi=1
n 2
i=1 X i − X̄
n
X Xi − X̄
= Pn 2 Yi
i=1 i=1 Xi − X̄
n
X
≡ âi Yi ,
i=1
où donc
Xi − X̄
âi ≡ Pn 2
i=1 Xi − X̄
– Les poids âi ne dépendent pas des Yi , et donc l’estimateur est linéaire en Yi .
– Nous avons vu que sous l’hypothèse de l’homoscédasticité, la variance conditionnelle de
24
β̂1 est donnée par
σu2
Var β̂1 |X1 , . . . , Xn = Pn 2 .
i=1 Xi − X̄
– Nous avons aussi montré que l’estimateur β̂1 est conditionnellement non biaisé.
– Maintenant, considérons n’importe quel estimateur linéaire
n
X
β̃1 = ai Yi
i=1
et qui satisfait la propriété

E β̃1 |X1 , . . . , Xn = β1 .
– Nous avons
n
X
β̃1 = ai Yi
i=1
n
X
= ai (β0 + β1 Xi + ui )
i=1
n
X n
X n
X
= β0 ai + β 1 ai Xi + ai ui .
i=1 i=1 i=1
– Nous avons aussi
n
! n
X X
E ai ui |X1 , . . . , Xn = ai E (ui |X1 , . . . , Xn ) = 0.
i=1 i=1
– De cette façon, nous avons
n
! n
!
X X
E β̃1 |X1 , . . . , Xn = β0 ai + β1 ai X i .
i=1 i=1
25
– Par hypothèse, notre estimateur est conditionnellement non biaisé et donc il faut que
n
! n
!
X X
β0 ai + β1 ai X i = β1 .
i=1 i=1
– Pour que cette égalité tienne pour des valeurs quelconques de β0 et de β1 il faut que
n
X
ai = 0
i=1
et
n
X
ai Xi = 1.
i=1
– Nous avons donc
n
X n
X n
X n
X
β̃1 = β0 ai + β1 ai X i + ai u i = β 1 + ai ui .
i=1 i=1 i=1 i=1
– Calculons la variance conditionnelle de β̃1 . Nous avons
n
!
X
Var β̃1 |X1 , . . . , Xn = Var ai ui |X1 , . . . , Xn
i=1
n
X X
= Var (ai ui |X1 , . . . , Xn ) + 2 Cov (ai ui , aj uj |X1 , . . . , Xn )
i=1 i<j
n
X
= Var (ai ui |X1 , . . . , Xn )
i=1
n
X
= σu2 ai 2 .
i=1
– Les covariances disparaissent à cause de la troisième hypothèse ci-dessus.

– Maintenant, il suffit de montrer que la variance conditionnelle de β̃1 doit être supérieure
à la variance conditionnelle de β̂1 .
26
– Définissons
di ≡ ai − âi
– Nous avons
n
X n
X n
X n
X n
X
2
2
ai = (âi + di ) = â2i +2 âi di + di 2 .
i=1 i=1 i=1 i=1 i=1
– Maintenant, il faut utiliser la définition des âi qui est donnée ci-dessus. Nous avons
n Pn
X
i=1 Xi − X̄ di
âi di = Pn 2
i=1 i=1 Xi − X̄
Pn
Xi di − X̄ ni=1 di
P
i=1
= Pn 2
i=1 Xi − X̄
Pn Pn
i=1 Xi (ai − âi ) − X̄ (ai − âi )
= Pn i=1
2
i=1 Xi − X̄
( ni=1 Xi ai − ni=1 Xi âi ) − X̄ ( ni=1 ai − ni=1 âi )

P P P P
= Pn 2
i=1 Xi − X̄
= 0.
– La dernière égalité tient puisque les deux estimateurs β̃1 et β̂1 sont conditionnellement
non biaisés et pour cette raison il faut que
n n
! n n
X X X X
Xi ai − Xi âi = ai = âi = 0.
i=1 i=1 i=1 i=1
– Finalement, nous avons donc

Var β̃1 |X1 , . . . , Xn
n
X
= σu2 ai 2
i=1
27
n n
!
X X
= σu2 â2i + di 2
i=1 i=1
n
X
= Var β̂1 |X1 , . . . , Xn + σu2 di 2
i=1

⇒ Var β̃1 |X1 , . . . , Xn − Var β̂1 |X1 , . . . , Xn
n
X
= σu2 di 2 > 0
i=1
si ∃i tel que di 6= 0. Si di = 0, ∀i, l’estimateur β̃1 est tout simplement l’estimateur MCO.
– Il y a aussi une preuve du théorème Gauss-Markov dans le cadre du modèle de régression
multiple dans le chapitre suivant. Vous allez constater (j’espère) que la preuve, qui utilise
une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas
démontré l’efficience de l’estimateur β̂0 .
6.4 Erreur quadratique moyenne
– Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
– Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus
efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une variance
moins élevée que le deuxième.
– Une autre façon de comparer deux estimateurs est de comparer leurs erreurs quadratiques
moyennes. Nous avons déjà vu ce concept dans le chapitre sur la statistique.
– Voici la définition de l’erreur quadratique moyenne d’un estimateur quelconque β̃ :
2
EQM β̃ ≡ E β̃ − β .
– Il s’agit de l’espérance de l’écart au carré entre la valeur de l’estimateur et sa vraie valeur.

– C’est une mesure assez intuitive de la précision d’un estimateur.
28
– Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de
l’estimateur et du biais de l’estimateur au carré. Autrement dit,
2
EQM β̃ = Var β̃ + E β̃ − β .
– Voici la preuve. Nous savons que pour une variable aléatoire quelconque X,
Var (X) = E X 2 − (E (X))2 .

Cette formule s’applique aussi à la variable aléatoire β̃ − β . Donc nous avons
2 2
Var β̃ − β = E β̃ − β − E β̃ − β
2 2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
2 2
⇒ E β̃ − β = Var β̃ + E β̃ − β ,
ce qui fut à montrer, puisque

Var β̃ − β = Var β̃
dû au fait que β n’est pas une variable aléatoire.

– Le critère de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont
pas forcément non biaisés.
– Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le
biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus
grande variance est mauvaise). Il y a des estimateurs qui sont biaisés mais qui ont néanmoins
une erreur quadratique moyenne inférieure à n’importe quel estimateur non biaisé justement
parce qu’ils ont une variance très faible.
29
– Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du
modèle de régression linéaire et l’estimateur MCO, le concept d’efficience est plus au centre
de l’analyse puisque, sous des hypothèses relativement faibles, l’estimateur MCO est non
biaisé.
– Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du modèle de régression simple.
– Il étudie le modèle de régression simple sans constante :
Yi = βXi + ui ,
où les Xi sont non aléatoires et où on a ui ∼ i.i.d. (0, σ 2 ) (les erreurs sont
indépendamment et identiquement distribuées avec moyenne nulle et variance égale à
σ 2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypothèse
concernant l’espérance non conditionnelle des erreurs simplifie l’analyse.)
– Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on
obtient dépend de β lui-même, qui est non observable. Donc, c’est un estimateur qui est
non opérationnel , c’est à dire que nous pouvons même pas calculer.
– Dans son deuxième article (2013e), Giles montre qu’il est possible de trouver un estima-
teur opérationnel (que nous pouvons calculer) si on minimise une combinaison linéaire
de la variance et du biais de l’estimateur. Le problème peut s’écrire
    2 
Var β e E β̃ − β
min Q = α 
  + (1 − α)   .
σ 2 β
β
e
– La fonction objectif est une somme pondérée de la variance relative (par rapport à la
variance de l’erreur) et du biais au carré relatif (par rapport à la vraie valeur de β) de
l’estimateur β.
e
30
– La solution à ce problème (que nous allons calculer un peu plus loin) est
Pn 2
(1 − α) i=1 Xi
βe = βb
α + (1 − α) ni=1 Xi 2
P
où βb est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donnée de α.
– Pour α = 0 nous avons βe = β.
b Autrement dit, si on met tout le poids sur la minimisation
du biais au carré, on obtient l’estimateur MCO, qui n’est pas biaisé.

– Pour α > 0, |β|
e < |β|.
b L’estimateur βe est plus près de zéro. (C’est un exemple de ce
qu’on appelle un shrinkage estimator en anglais.)

– Cette solution est un peu difficile à montrer. Commençons par définir βe comme un esti-
mateur linéaire quelconque :
n
X
βe ≡ ai Yi
i=1
pour des constantes quelconques ai .

– Cette définition nous donne immédiatement
n
!
X
E βe = E ai (βXi + ui )
i=1
n n
!
X X
=β ai X i + E ai ui
i=1 i=1
n
X
=β ai Xi
i=1
n
!
X
⇒ E βe − β = β ai X i − 1
i=1
puisque nous avons fait l’hypothèse que les Xi sont non stochastiques et que E (ui ) = 0.
31
– La variance de l’estimateur est donnée par
X n n
X
Var βe = ai 2 Var (Yi ) = σ 2 ai 2
i=1 i=1
pusque nous faisons l’hypothèse que la variance des erreurs est constante.
– Notre problème de minimisation peut donc s’écrire
Pn Pn 2
σ2 ai 2

i=1 β i=1 (ai Xi − 1)
min Q = α + (1 − α)
ai σ2 β
ou bien ! !2
n
X n
X
min Q = α ai 2 + (1 − α) (ai Xi − 1) .
ai
i=1 i=1
– Les variables de choix du problème sont les ai et non βe lui-même.

– En choisissant notre fonction objectif comme une somme pondérée de la variance rela-
tive de l’estimateur et du biais au carré relatif, nous avons réussi à éliminer les paramètres
non observables (β et σ 2 ) du problème.
– Pour un ai quelconque la condition du premier ordre s’écrit
n
!
∂Q X
= 0 = 2αai + 2 (1 − α) Xi aj Xj − 1
∂ai j=1
n
!
X
⇒ αai + (1 − α) Xi aj Xj − 1 = 0.
j=1
– Multiplions cette expression par Yi et calculons la somme à travers les n termes en ai .

Nous obtenons !
n
X
αai Yi + (1 − α) Xi Yi aj X j − 1 =0
j=1
n n n
!
X X X
⇒α ai Yi + (1 − α) Xi Yi aj X j − 1 =0
i=1 i=1 j=1
32
n n
!
X X
⇒ αβe + (1 − α) Xi Yi aj X j − 1 =0 (1)
i=1 j=1
puisque nous avons défini au départ notre estimateur comme βe ≡ ni=1 ai Yi .

P
– Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme à travers les n
termes, ce qui donne
n
!
X
αai Xi + (1 − α) Xi 2 aj X j − 1 =0
j=1
n n n
!
X X X
⇒α ai Xi + (1 − α) Xi 2 aj X j − 1 =0
i=1 i=1 j=1
n n n
!
X X X
⇒α aj Xj + (1 − α) Xi 2 aj X j − 1 =0
j=1 i=1 j=1
(par un simple changement d’indice)
n
X n
X n
X n
X
⇒α aj Xj + (1 − α) Xi 2 aj Xj − (1 − α) Xi 2 = 0
j=1 i=1 j=1 i=1
n n
! n
!
X X X
⇒ aj X j α + (1 − α) Xi 2 = (1 − α) Xi 2
j=1 i=1 i=1
n
(1 − α) ni=1 Xi 2
P
X
⇒ aj X j =
α + (1 − α) ni=1 Xi 2 .
P
j=1
Pn
– Maintenant, substituons cette solution pour j=1 aj Xj dans l´equation (1) et simpli-
fions :
n P2 !
2

X (1 − α) i=1 X i
⇒ αβe + (1 − α) Xi Yi P2 −1 =0
i=1
α + (1 − α) i=1 Xi 2 .
n
!
α + (1 − α) ni=1 Xi 2 − (1 − α) ni=1 Xi 2
X P P
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
33
n
!
X α
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
n
!
X (1 − α)
⇒ βe = Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
Pn Pn 2
i=1 X i Y i (1 − α) i=1 Xi
⇒ β = Pn
e
2 P2 2
i=1 Xi α + (1 − α) i=1 Xi
Pn 2
(1 − α) i=1 Xi
=βb
α + (1 − α) 2i=1 Xi 2 .
P
– Ceci est le cas puisque pour ce modèle l’estimateur MCO βb est donné par (exercice)
Pn
Xi Yi
βb = Pi=1
n 2 .
i=1 Xi
7 Propriétés échantillonnales de l’estimateur
– Dans cette section, le but principal de l’exercice est de dériver la variance (et par extension
l’écart type) de nos estimateurs MCO β̂0 et β̂1 .
– Les écarts types de β̂0 et de β̂1 font partie de l’output standard de n’importe quel logiciel de
régression.
– Cet exercice est crucial afin de pouvoir effectuer des tests d’hypothèse concernant les coef-
ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimés.
– Nous avons :
Pn
i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2
i=1 Xi − X̄
1
Pn
n i=1 Xi − X̄ ui
= β1 + Pn 2 .
1
n i=1 Xi − X̄
– D’abord, travaillons avec le numérateur.
34
– Nous avons déjà vu que
p
X̄ →
− µX ,
ce qui veut dire que la moyenne échantillonnale converge en probabilité à la moyenne dans
la population. Donc, pour des échantillons assez grands, nous avons
n n n
1X 1X 1X
Xi − X̄ ui ≈ (Xi − µX ) ui ≡ v̄ ≡ vi .
n i=1 n i=1 n i=1
– La variable aléatoire vi que nous venons de définir satisfait les propriétés suivantes :
1. E (vi ) = 0 ;
2. vi est i.i.d. ;
3. σv2 < ∞ .
– La variable satisfait les hypothèses pour pouvoir invoquer le théorème de la limite centrale.
Donc, nous avons
v̄ d
→
− N (0 , 1) ,
σv̄
où σv̄2 = σv2 /n.

– Maintenant, travaillons avec le dénominateur. Nous avons déjà vu à la fin du chapitre sur la
statistique que la variance échantillonnale est un estimateur convergent de la variance d’une
variable aléatoire. Donc nous avons :
n n
1 X 2 1X 2 p 2
Xi − X̄ ≈ Xi − X̄ → − σX .
n − 1 i=1 n i=1
– Mettant ensemble numérateur et dénominateur, nous avons
σv2
Var β̂1 − β1 = 2 2
n (σX )
et, !

d σv2
β̂1 − β1 →
− N 0, 2 2
n (σX )
35
– Notez très bien ce que nous venons de faire. Nous avons montré la convergence en distri-
bution du numérateur, et la convergence en probabilité du dénominateur, et par la suite nous
avons sauté tout de suite à la convergence en distribution du ratio des deux.
– Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-
priétés asymptotiques (propriétés en grand échantillon) de nos statistiques. Notez que nous
ne pouvons pas le faire lorsqu’il s’agit d’espérances. Par exemple,

X E(X)
E 6=
Y E(Y )
sauf dans le cas de variables aléatoires indépendantes.

– Par contre, sous certaines hypothèses, nous avons
p p X̄ p µX
X̄ →
− µX , Ȳ →
− µY ⇒ →
− ,
Ȳ µY
et !
2
d 2
p X̄ d µX 1 2
X̄ →
− N µX , σX̄ , Ȳ →
− µY ⇒ →
− N , σX̄ .
Ȳ µY µY
– Nous avons utilisé le Théorème de Slutsky, un des théorèmes les plus utiles en théorie
des probabilités. Il permet de scinder des expressions compliquées de variables aléatoires
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la
convergence de l’expression suit immédiatement.
– Nous aurons fréquemment l’occasion d’utiliser une version de ce théorème. Pour plus de
détails, voir le chapitre des notes sur le modèle de régresson multiple.
– Notez que la variance de β̂1 décroı̂t avec n et tend vers zéro lorsque n tend vers l’infini. Lors-
qu’on parle de convergence en distribution, on utilise normalement une variable aléatoire
normalisée de telle façon à ce sa variance ne diminue pas avec la taille de l’échantillon. Pour
36
cette raison, il serait conventionnel de dire que :
!
√
d σv2
n β̂1 − β1 →− N 0, 2 2
(σX )
– Maintenant, définissons
σv2
σβ̂21 ≡ 2 2.
n (σX )

– Maintenant, si nous divisons β̂1 − β1 par la racine carrée de σβ̂2 , nous obtenons une sta-
1
tistique qui converge en distribution vers une loi normale centrée réduite :

β̂1 − β1 β̂1 − β1 d
q ≡ →
− N (0 , 1) .
σβ̂2 σβ̂1
1
– Notez que nous venons de montrer à toutes fins pratiques la convergence de l’estimateur
MCO de β̂1 . Nous avions déjà montré que l’estimateur MCO est non biaisé. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers zéro lorsque la taille
de l’échantillon tend vers l’infini. Autrement dit,
lim σβ̂21 = 0.
n→∞
– Nous avons tous les prérequis pour conclure que l’estimateur MCO de β1 converge en pro-
babilité à sa vraie valeur.
7.1 Estimateur convergent de σβ̂2

1
– La variance de la variable aléatoire v̄ définie ci-dessus n’est généralement pas connue, la

variance de X non plus.
– Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population
par un estimateur convergent de ce moment.
37
– Définissons : Pn 2
1 2
1 n−2 i=1 Xi − X̄ (ûi )
σ̂β̂21 ≡ 2 2
n
P
1 n
n i=1 X i − X̄
– Ensuite, définissons l’écart type estimé de β̂1 comme
q
SE β̂1 ≡ σ̂β̂2 .
1
– La plupart des logiciels de régression calculent cet écart type. Il faut, par contre, vérifier si
l’option par défaut est de calculer cet écart type robuste (robuste à la présence de l’hétéro-
scédasticité) ou plutôt de calculer l’écart type qui suppose l’homoscédasticité.
7.2 Estimateur convergent de σβ̂2 en cas d’homoscédasticité

1
– Si nous sommes prêts à supposer que
Var (ui |X = Xi ) = Var (ui ) = σu2 ,
nous pouvons remplacer l’estimateur convergent de σβ̂2 par

1
Pn
1 n−1
1
i=1(ûi )2
σ̃β̂21 ≡ 2 .
n1 n
P
n i=1 Xi − X̄
– J’ai utilisé la notation légèrement différente σ̃β̂2 pour distinguer entre le cas général (lors-
1
qu’on ne suppose pas l’homoscédasticité) où on utilise un estimateur robuste de la

variance et le cas particulier où on suppose l’homoscédasticité.
– Le manuel est parmi les seuls à utiliser l’estimateur robuste comme l’estimateur par défaut.
Beaucoup de manuels présentent le cas homoscédastique comme le cas de base et montre
par la suite qu’est-ce qui arrive si l’hypothèse d’homoscédasticité ne tient pas. Je partage
l’opinion des auteurs que l’homoscédasticité est une hypothèse forte qui risque de ne pas
tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien
38
d’enseigner le cas général et l’estimateur robuste comme l’option par défaut d’un économètre
appliqué.
– Lorsqu’on utilise un logiciel de régression comme R, STATA ou GRETL, il faut lire atten-
tivement la documentation pour savoir quelle est l’option par défaut utilisée pour estimer
la matrice variance-covariance des coefficients estimés. Dans la plupart des cas l’option par
défaut suppose l’homoscédasticité et il faut spécifier l’option robuste ou l’équivalent si
vous n’êtes pas prêts à supposer l’homoscédasticité, ce qui sera généralement le cas.
Les écarts types robustes peuvent être plus grands ou plus petits que les écarts types non ro-
bustes. Pour une explication plus détaillée et une illustration dans un cas très simple, voir Auld
(2012). Auld démontre les points suivants.
1. En présence d’hétéroscédasticité, si la variance des erreurs n’est pas fortement corrélée

avec la variable explicative du modèle (X), il y aura peu de différence entre l’écart
type calculé avec la méthode robuste et l’écart type calculé sous l’hypothèse de l’ho-
moscédasticité.
2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne
échantillonnale X̄, l’écart type calculé avec la méthode non robuste (supposant l’ho-
moscédasticité) sera biaisé vers zéro (trop petit). L’écart type calculé avec la méthode
robuste sera en général plus grand que l’écart type non robuste.
3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont près de leur
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste (supposant
l’homoscédasticité) sera biaisé et sera en moyenne trop grand. L’écart type calculé avec
la méthode robuste sera en général plus petit que l’écart type non robuste.
4. Avec les données réeles on rencontre plus souvent le cas où l’écart type non robuste est
baisié vers zéro (est trop petit). Donc, typiquement les écarts types robustes sont plus
élevés que les écarts types non robustes.
39
7.3 Détecter l’hétéroscédasticité
– Il peut être important de pouvoir détecter la présence d’erreurs hétéroscédastiques. Il y a des

tests formels, 2 mais il y a aussi des méthodes moins formelles que les chercheurs appliqués
peuvent utiliser.
– Une façon simple serait de créer, une fois le modèle estimé, un graphique avec les Xi sur
l’axe horizontal et les résidus carrés û2i sur l’axe vertical.
– Une relation évidente entre les deux (par exemple, des valeurs de û2i qui semblent augmenter
avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi ) est un signe clair de la
présence d’hétéroscédasticité.
– Une autre façon serait, une fois le modèle estimé, d’estimer une régression où on prend
les résidus carrés comme variable dépendante et Xi comme variable explicative, ou des
fonctions non linéaires des Xi . Par exemple,
û2i = γ0 + γ1 Xi + i
ou encore
û2i = γ0 + γ1 Xi 2 + i .
– L’idée est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit γ̂1 la valeur estimée du coef-
ficient γ1 Une valeur significative de γ̂1 (voir la section suivante sur les tests d’hypothèse)
serait un indice clair de la présence d’hétéroscédasticité. 3 Nous allons revenir sur cette ques-
tion et sur quelques tests formels pour détecter l’homoscédasticité dans le chapitre sur la
régression multiple.
2. Nous verrons certains de ces tests formels dans le chapitre sur le modèle de régression multiple.
3. Notez qu’il ne s’agit pas d’un test formel avec des propriétés statistiques connues. Il faut interpréter le résultat
du test à titre indicatif seulement. Par contre, le test formel appelé test Breusch-Pagan est essentiellement basé sur une
régression de ce type.
40
8 Tests d’hypothèse
8.1 Approche géneral
– Le principe de base pour tester des hypothèses simples est presqu’identique à ce que nous
avons vu dans le chapitre sur l’inférence statistique.
– L’hypothèse nulle spécifie généralement que le coefficient d’intérêt (qui peut être β̂0 ou
β̂1 prend une certaine valeur. L’hypothèse alternative peut être bilatérale ou unilatérale,
dépendant du contexte.
– D’abord, il faut créer une statistique normalisée qui a une moyenne nulle et une variance
unitaire sous l’hypothèse nulle. Il s’agit d’une statistique t même si en général elle
n’obéit pas à une loi t de Student. Par exemple :
β̂1 − β1,0
t≡
SE β̂1

où SE β̂1 est un estimateur convergent de l’écart type du coefficient β1 et β1,0 est la valeur
que prend le coefficient β1 sous l’hypothèse nulle.
– Si nous sommes prêts à faire l’hypothèse que le terme d’erreur du modèle ui obéit à une loi
normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de
Student. Dans ce cas, bien sûr, il est préférable d’utiliser la forme homoscédastique pour le
calcul de l’écart type de l’estimateur β̂1 .
– Si non, sous les hypothèses du modèle de régression, la statistique t obéit en grand échantillon
à une loi normale centrée réduite. Voir la section précédente sur les propriétés échantillonnales
de l’estimateur.
– Comme il est habituellement le cas, nous remplaçons l’écart type dans le dénominateur par
un estimateur convergent.
– Maintenant, nous procédons exactement comme dans le chapitre sur la statistique.
41
8.2 Hypothèse alternative bilatérale
– D’abord, si l’hypothèse alternative est bilatérale :
H1 : β1 6= β1,0 ,
nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment loin de zéro. La
p-value du test est donnée par :
p-value = Pr |z| > |tact | = 2Φ −|tact |

où tact est la valeur calculée de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centrée réduite cumulée à z.
– On appelle appelle communément un test de significativité un test de l’hypothèse nulle
que la variable explicative n’est pas significative, et donc n’aide pas à expliquer la variabilité
de la variable dépendante. Dans, ce cas, l’hypothèse nulle est H0 : β̂1 = 0 et l’hypothèse
alternative est bilatérale. On peut aussi parler d’un test de significativité de la constante
dans le modèle de régression simple. Les tests de significativité sont tellement répandus que,
si l’output fourni par un logiciel d’économétrie donne les statistiques t associées aux
coefficients estimés, il s’agit de statistiques appropriées pour tester l’hypothèse nulle que le
coefficient est égal à zéro.
8.3 Hypothèse alternative unilatérale
– Ensuite, si l’hypothèse alternative est unilatérale, il faut distinguer entre les deux cas pos-
sibles.
1. D’abord,
H1 : β1 > β1,0 .
Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment positive. La
42
p-value = Pr z > tact = 1 − Φ tact .

2. La deuxième possibilité est :

H1 : β1 < β1,0 .
Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment négative. La

p-value = Pr z < tact = Φ tact .

9 Intervalles de confiance pour les coefficients
– Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inférence statistique.
– Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la
valeur de z > 0 tel que
1 − X/100
Φ(−z) = .
2
(100−X)
Donc, on cherche la valeur de z > 0 pour laquelle 2
% de la distribution normale
(100−X)
centrée réduite se trouve à gauche de −z. Cela veut dire bien sûr que 2
% de la distri-
bution normale centrée réduite se trouve à droite de z.
– Nous avons (pour β̂1 : le principe pour β̂0 est identique) :
!
X β̂1 − β1
= Pr −z ≤ ≤z
100 σ̂β̂1

= Pr −zσ̂β̂1 ≤ β̂1 − β1 ≤ zσ̂β̂1
43

= Pr −zσ̂β̂1 ≤ β1 − β̂1 ≤ zσ̂β̂1

= Pr β̂1 − zσ̂β̂1 ≤ β1 ≤ β̂1 + zσ̂β̂1 ,

où σ̂β̂1 ≡ SE β̂1 , notre estimateur convergent de l’écart type de β1 .
– Cela implique que l’intervalle de confiance de X% autour de β̂1 peut être écrit de la façon
suivante :
β̂1 ± zσ̂β̂1 ,
où
1 − X/100
Φ(−z) = .
2
9.1 Intervalles de confiance pour les prédictions
Souvent, on estime un modèle de régression pour prédire l’impact du changement de la variable

explicative sur la variable dépendante. Par exemple, dans le cadre du modèle développé en détail
dans le manuel, on pourrait vouloir prédire l’impact sur le rendement scolaire d’une réduction de
la taille moyenne des classes de deux éleves. Soit ∆X le changement proposé de la valeur de la
variable explicative. On a tout de suite
∆Ŷi = β̂1 ∆Xi ,
où ∆Ŷi est le changement prédit de la variable dépendante. Développer un intervalle de confiance
dans ce cas est facile. Le changement posé ∆X est connue. On peut le traiter comme une constante,
et donc nous avons

Var ∆Ŷi = Var β̂1 ∆Xi

= (∆Xi )2 Var β̂1
44
Donc, procédant de la même manière que pour l’intervalle de confiance pour β̂1 lui-même on a
 
X ∆Xi β̂1 − β1
= Pr −z ≤ ≤ z
100 (∆Xi ) σβ̂1

= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β̂1 − β1 ≤ z (∆Xi ) σβ̂1

= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β1 − β̂1 ≤ z (∆Xi ) σβ̂1

= Pr −z (∆Xi ) σβ̂1 + ∆Xi β̂1 ≤ ∆Xi β1 ≤ z (∆Xi ) σβ̂1 + ∆Xi β̂1 .
Donc, l’intervalle de confiance pour le changement prédit est donné par
∆Xi β̂1 ± z (∆Xi ) σβ̂1
Si nous remplaçons l’écart type de β̂1 par un estimateur convergent (notre truc habituel), l’intervalle
de confiance peut s’écrire
∆Xi β̂1 ± z (∆Xi ) σ̂β̂1
10 Un exemple d’estimation du modèle de régression simple
avec R
Voici un exemple de comment estimer un modèle de régression simple avec le logiciel R.

L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus
de détaillée. Vous pouvez facilement jouer avec le code une fois que le logiciel est installé. Le but
du modèle est de prédire la demande pour les abonnements à des revues scientifiques (abonnements
par des bibliothèques universitaires) où la variable explicative est le prix par nombre de citations.
Le modèle est
ln (subsi ) = β0 + β1 ln (citepricei ) + ui ,
45
où la variable dépendante subsi est le nombre d’abonnements à la revue i (mesuré en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divisé par le nombre de citations
annuel d’articles publiés dans la revue (mesuré aussi en logs). Notez que le choix de mesurer les
deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre
sur les modèles de régression non linéaires. 4
Les données sont dans une banque de données qui s’appelle Journals . Il s’agit de
données (avec n = 180) sur les abonnements par des bibliothèques universitaires à des revues
scientifiques. La taille de l’échantillon est le nombre de revues dans l’échantillon.
Afin d’effectuer l’estimation d’un modèle de régression simple de base et afin d’effec-
tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais
aussi les packages AER (qui contient les données utilisées pour estimer le modèle),
lmtest, sandwich et zoo (ces trois packages permettent de calculer les écarts types ro-
bustes du modèle estimé et d’effectuer des tests d’hypothèse utilisant les écarts types ro-
bustes). Si les packages ne sont pas déjà installés, il faut les installer avec la commande
install.packages(·) :
install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")
Notez que sous Linux il est préférable d’installer le package comme administrateur du système
ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages installés, on peut procéder à charger les données et estimer le modèle
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les
4. Entretemps, à moins d’avis contraire, je vous demande d’utiliser des variables non transformées dans les exer-
cices empiriques.
46
commandes. Les lignes précédées par # sont des commentaires.
R> # Charger les données.

R> library("AER")
R> data("Journals")
R> # Permettre d’appeler les variables directement par leurs
noms.
R> attach(Journals)
R> # Calculer des statistiques descriptives concernant les
variables.
R> # summary(Journals)
R> # Créer une base de données avec un sous-ensemble des
variables.
R> journals <- Journals[, c("subs", "price")]
R> # Ajouter le prix par citation à la base de données
restreinte.
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre d’appeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) ∼ log(citeprice), data = journals)
R> # Estimer le modèle par MCO utilisant la commande lm(·).
R> # Les résultats sont stockés dans l’objet jour lm.
R> jour lm <- lm(log(subs) ∼ log(citeprice))
R> # Ajouter la ligne de régression estimée au nuage de
47
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est regumm.out .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)
Résumons ce que nous avons fait avec ces commandes.
– La commande data(·) charge la banque de données en mémoire.

– La commande journals<- crée une plus petite banque de données en extrayant les
variables subs (combien d’abonnements) et price (prix de l’abonnement).
– La commande journals$citeprice<- ajoute une nouvelle variable à la banque
journals qui est le prix par citation.
– La commande plot(·) crée un graphique avec les observations, avec subs (en loga-
rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)
– La commande lm(·) estime le modèle de régression simple par MCO, et la commande
jour lm<- place les résultats dans la variable jour lm.
– La commande abline(·) utilise les résultats pour placer la ligne de régression sur le
graphique qui a déjà été créé.
– La commande summary(·) imprime les résultats de la régression à l’écran.
– La commande outfile<- crée un fichier texte où on peut envoyer les résultats.
– La commande capture.output(·) envoie les résultats dans le fichier qui a été créé.
48
– La commande close(·) ferme le fichier.
Les résultats de l’estimation sont comme suit.
Call:
lm(formula = log(subs) ∼ log(citeprice), data = journals)
Residuals:
Min 1Q Median 3Q Max

-2.72478 -0.53609 0.03721 0.46619 1.84808
Coefficients:
Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.76621 0.05591 85.25 <2e-16 *** —
log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7497 on 178 degrees of freedom
Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548

F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16
Vous êtes déjà en mesure de comprendre tous les éléments de l’output, sauf à la toute fin lors-
qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement
statistique R2 que nous avons étudiée est ce qu’on appelle Multiple R-squared dans
l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le modèle de régression
multiple.
En ce qui concerne les résidus, le logiciel nous donne la valeur minimale parmi les résidus,
49
la valeur associée au premier quartile (la valeur pour laquelle 25% des résidus on une valeur
inférieure), la valeur médiane (qui n’est pas forcément égale à la moyenne), la valeur associée
au troisième quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-
male) peuvent être utiles pour repérer des observations aberrantes.
Une mise en garde : le code ci-dessus estime le modèle par MCO utilisant les options
par défaut. La fonction lm utilise par défaut une hypothèse d’homoscédasticité. Donc, les
écarts types des deux coefficients (β̂0 et β̂1 dans notre notation) ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :
R> coeftest(jour lm, vcov=vcovHC)
Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intallés, tel qu’indiqué ci-dessus. Il faut aussi charger en mémoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com-
mande coeftest(·), avec les commandes suivantes :
R> library("lmtest")
R> library("sandwich")
Les résultats de cette commande sont comme suit :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16
Ce modèle est un exemple d’un modèle où il n’y a pas une différence énorme entre les écarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les écarts types en
une fraction de seconde, il coûte presque rien de les calculer des deux façons afin de vérifier si
50
les résultats sont semblables ou non.
Un graphique avec les données (variable dépendante sur l’axe vertical et variable explica-
tive sur l’axe horizontal) et la ligne de régression est la Figure 2 ci-dessous.
●
7
●
●
●●
●
● ● ●
●
●● ● ● ●●●●● ● ●
●● ●
●
●
6
● ● ● ●
● ●
● ● ●
●● ●
● ● ●● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
●
● ● ●●
● ● ● ● ●
● ●● ● ●
● ● ●● ● ●
● ●●
5
●● ● ● ● ●
● ●● ●
● ● ●
●
● ● ●● ● ●● ●
● ● ●
● ● ●
● ●
●●
● ●● ●
●●
log(subs)
● ●
● ● ● ●● ●
● ● ●● ● ● ●
4
●● ● ● ●
●● ● ● ●●
●
●
● ● ●●
● ● ●●
● ● ●●
● ●●
● ● ●●
● ● ●
3
● ●
● ●
●
●
● ● ●
●
2
1
−4 −2 0 2
log(citeprice)
Figure 2
11 Le modèle de régression simple lorsque X est une variable
dichotomique
Jusqu’ici, nous avons supposé que la variable explicative dans le modèle de régression simple,
X, est une variable aléatoire continue. Il es souvent le cas que la variable explicative est une
variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, présent ou
51
absent, etc.
On peux représenter ces deux valeurs possibles de la variable explicative variable dichotomi-
que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des données sur la taille des
classes où Di = 1 pour des ratios élèves/professeurs inférieurs à 20 est Di = 0 pour des ratios
élèves/professeurs au moins égaux à 20.
Dans ces cas, β1 n’a pas l’interprétation d’un coefficient de pente. Il a l’interprétation de la
moyenne conditionnelle de la variable dépendante Y lorsque Di = 1. L’ordonnée β0 a l’in-
terprétation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interprétation de
la différence entre les moyennes de deux populations ou plutôt de sous-populations.
Algébriquement, nous avons
Yi = β0 + β1 Xi + ui
⇒ E (Yi |Xi = 0) = β0 + β1 × 0 + E (ui |Xi = 0) = β0
et
⇒ E (Yi |Xi = 1) = β0 + β1 × 1 + E (ui |Xi = 1) = β0 + β1 .
On écrit dans le manuel qu’il y a équivalence entre d’une part estimer le modèle de régression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes échantillon-
nales des sous-échantillons. Dans l’encadré qui suit, je montre cette équivalence. Je montre aussi
l’équivalence entre tester la significativité du coefficient estimé β̂1 et tester la significativité de la
différence entre deux moyennes.
Le modèle avec une variable explicative dichotomique peut s’écire
Yi = β0 + β1 Di + ui ,
où Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les-
52
quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que
n
1X n1
D̄ ≡ Di = .
n i=1 n
L’estimateur β̂0 est donné par la formule habituelle
β̂0 = Ȳ − β̂1 D̄.
L’estimateur β̂1 est donné par la formule habituelle
Pn
i=1 Yi − Ȳ Di − D̄
β̂1 = Pn 2 .
i=1 Di − D̄
Dans ce cas, avec Di une variable dichotomique, nous avons
n
X 2
Di − D̄
i=1
n0 n1
X
2
X 2
= D̄ + 1 − D̄
i=1 i=1
n 2 n1 2
1
= n0 + n1 1 −
n n
n 2 n 2
1 0
= n0 + n1
n n
n0 n1 2 + n1 n0 2
=
n2
n0 n1 (n0 + n1 ) n0 n1
= 2
= .
n n
Définissons Yi1 la valeur de Yi dans le cas où Di = 1. Définissons Yi0 la valeur de Yi dans le
53
cas où Di = 0. Nous avons
Pn
i=1 Yi − Ȳ Di − D̄
β̂1 =
n0 n1 /n
Pn1 1
Pn0 0

Y − Ȳ (1 − n 1 /n) − Y − Ȳ (n1 /n)
= i=1 i i=1 i
n0 n1 /n
Pn1 1
Pn0 0

i=1 Yi − Ȳ (n0 /n) − i=1 Yi − Ȳ (n1 /n)
=
n0 n1 /n
n1 n0
1 X 1 1 X
Yi0 − Ȳ

= Yi − Ȳ −
n1 i=1 n0 i=1
n1 n1 n0 n0
1 X 1 1 X 1 X 0 1 X
= Y − Ȳ 1− Y + Ȳ 1
n1 i=1 i n1 i=1 n0 i=1 i n0 i=1
n1 n0
1 X n1 1 X n0
= Yi1 − Ȳ − Yi0 + Ȳ
n1 i=1 n1 n0 i=1 n0
n1 n0
1 X 1 1 X
= Y − Y 0.
n1 i=1 i n0 i=1 i
Ceci est tout simplement la différence entre la moyenne échantillonnale de Y pour le sous-
échantillon où Di = 1 et sa moyenne échantillonnale pour le sous-échantillon où Di = 0.
Il faut maintenant montrer que β̂0 est tout simplement égal à la moyenne échantillonnale
de Y pour le sous-échantillon où Di = 0. Nous avons
Pn !
n1 i=1 Yi − Ȳ Di − D̄
β̂0 = Ȳ −
n n0 n1 /n
Pn1 !
Yi1 − Ȳ (1 − n1 /n) − ni=1

Yi0 − Ȳ (n1 /n)
P 0
n1 i=1
= Ȳ −
n n0 n1 /n
n0 Pn1 n1
Pn0
1
i=1 Yi − Yi0 − Ȳ n0nn1 + Ȳ n0 n1
n1 n n i=1 n
= Ȳ −
n n0 n1 /n
n0 Pn1 1 n1 Pn0 0
n1 n i=1 Yi − n i=1 Yi
= Ȳ −
n n0 n1 /n
54
n 1 n 0 n
1X 1X n1 X
= Yi − Yi1 + Y0
n i=1 n i=1 n0 n i=1 i
n1 n0
! n n
1 0
1 X X 1X n1 X
= Yi1 + Yi0 − Yi1 + Y0
n i=1 i=1
n i=1 n0 n i=1 i
n0
X
1 n1
= + Yi0
n n0 n i=1
n0
1 X
= Y 0,
n0 i=1 i
ce qui fut à démontrer. La statistique t pour tester la significativité du coefficient estimé β̂1 est
donnée par la formule habituelle :
β̂1
t= .
SE β̂1
Dans ce cas, nous avons

Ȳ 1 − Ȳ 0
t= q ,
Var Ȳ 1 − Ȳ 0
Ȳ 1 − Ȳ 0
=q ,
1
Var Ȳ + Var Ȳ 0

Ȳ 1 − Ȳ 0 − 0
= q 2 ,
σ 1 σ2 0
Y
n1
+ n0 Y
où
n1 n0
1 X 1 X
Ȳ 1 ≡ Yi1 , Ȳ 0 ≡ Y 0.
n1 i=1 n0 i=1 i
Cette formule correspond exactement à la formule dérivée dans le chapitre sur la statistique
et les tests d’hypothèses pour tester la différence entre les moyennes de deux populations
différentes.
Ici, l’hypothèse d’hétéroscédasticité permet à la variance de l’erreur du modèle de
régression de dépendre des deux valeurs différentes possibles de Di .
55
12 Concepts à retenir
– Comment écrire le modèle de régression simple.

– Le problème de minimisation auquel l’estimateur MCO est une solution.
– Les propriétés algébriques de l’estimateur MCO. Il est important de pouvoir suivre les
démonstrations de ces propriétés et de les comprendre, mais il n’est pas nécessaire d’être
capable de les reproduire.
– Le concept du R2 , et les concepts de somme totale des carrés, somme expliquée des carrés,
et somme des résidus carrés et la relation entre ces sommes.
– Les hypothèses statistiques de base du modèle de régression simple qui sont requises pour
montrer l’absence de biais et la convergence.
– Les hypothèses additionnelles nécessaires pour montrer l’efficience de l’estimateur MCO
(théorème Gauss-Markov).
– Il faut avoir suivi et compris la dérivation des propriétés échantillonnales des coefficients
estimés.
– Comment tester des hypothèses concernant les coefficients estimés du modèle, contre des
hypothèses alternatives bilatérales ou unilatérales.
– Comment calculer un intervalle de confiance pour les coefficients du modèle.
– Comment calculer un intervalle de confiance pour un changement prédit.
13 Références
Voir ce lien :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf
Dernière modification : 12/10/2013
56

Regsimple 140714123800 Phpapp02

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regsimple 140714123800 Phpapp02

Transféré par

Droits d'auteur :

Formats disponibles

ECO 4272 : Introduction à l’économétrie

Notes sur le modèle de régression simple

3 Le modèle de régression simple 4

4 Estimateur moindres carrés ordinaires (MCO) 5

5 Hypothèses statistiques de base du modèle 17

6 Propriétés statistiques de l’estimateur 20

7 Propriétés échantillonnales de l’estimateur 34

9 Intervalles de confiance pour les coefficients 43

10 Un exemple d’estimation du modèle de régression simple avec R 45

– Présenter le modèle de régression simple.

3 Le modèle de régression simple

– Le modèle de base peut s’écrire

4 Estimateur moindres carrés ordinaires (MCO)

– Nous considérons le problème de prédire la valeur de la variable dépendante Yi , étant donnée

– Le problème de minimisation peut s’écrire comme suit.

Ensuite, par rapport au choix de β1 :

⇒ β̂0 = Ȳ − β̂1 X̄.

Cette solution dépend des identités

Ceci est facile à montrer. Nous avons

La preuve pour le dénominateur est semblable.

4.1 Propriétés algébriques clés de l’estimateur MCO

le résidu de la régression pour l’observation i.

– Nous voulons montrer que :

– Ceci est la définition de l’orthogonalité entre deux variables.

– L’orthogonalité est reliée à l’interprétation géométrique de la méthode des MCO. Estimer

4.2 La notion de l’ajustement statistique (R2 )

la somme des résidus au carré ( residual sum of squares  en anglais) ;

la somme expliquée des carrés ( explained sum of squares  en anglais).

– Il faut aussi que

– L’ajustement statistique s’appelle aussi le  coefficient de détermination  de la régression.

– Je montre ce résultat dans l’encadré qui suit.

Nous avons aussi (en multipliant le numérateur et le dénominateur dans la définition de la

Donc, il faut montrer que

Travaillant avec le bras gauche de cette équation, nous avons

ce qui fut à démontrer.

4.3 L’écart type de la régression

– sû est l’écart type de la régression.

5 Hypothèses statistiques de base du modèle

– À partir de ce point, nous élaborons quelques propriétés statistiques de l’estimateur MCO.

5.1 Espérance conditionnelle nulle de l’erreur

– Nous supposons que :

5.2 Observations i.i.d.

– Nous supposons que :

5.3 Les observations aberrantes sont peu probables

– Nous supposons que :

5.4 Notre approche

L’avantage de ces hypothèses simplificatrices est de simplifier l’algèbre. On arrive à une

6 Propriétés statistiques de l’estimateur

6.1 Absence de biais de l’estimateur

E (E (Yi |Xi )) = E (Yi ) .

Nous l’avons tout simplement appliqué à la variable aléatoire qui est

E (ui ) = E (E (ui |Xi )) .

6.2 Convergence de l’estimateur

6.3 Efficience de l’estimateur

2. Var (ui |X1 , . . . , Xn ) = σu2 , 0 < σu2 < ∞.

et qui satisfait la propriété

– Nous avons aussi

– De cette façon, nous avons

– Nous avons donc

– Calculons la variance conditionnelle de β̃1 . Nous avons

– Les covariances disparaissent à cause de la troisième hypothèse ci-dessus.

( ni=1 Xi ai − ni=1 Xi âi ) − X̄ ( ni=1 ai − ni=1 âi )

– Finalement, nous avons donc

la somme des résidus au carré ( residual sum of squares en anglais) ;

la somme expliquée des carrés ( explained sum of squares en anglais).

– L’ajustement statistique s’appelle aussi le coefficient de détermination de la régression.

qu’on appelle un shrinkage estimator en anglais.)

qu’on ne suppose pas l’homoscédasticité) où on utilise un estimateur robuste de la