Académique Documents
Professionnel Documents
Culture Documents
∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour
les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à
ambler.steven@uqam.ca.
1
Table des matières
1 Introduction 4
2 Objectifs du cours 4
8 Tests d’hypothèse 41
8.1 Approche géneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8.2 Hypothèse alternative bilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.3 Hypothèse alternative unilatérale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2
11 Le modèle de régression simple lorsque X est une variable dichotomique 51
12 Concepts à retenir 55
13 Références 56
3
1 Introduction
2 Objectifs du cours
Yi = β0 + β1 Xi + ui .
L’idée de base est qu’une variable économique Yi peut être prédite ou expliqué par une autre va-
riable économique Xi . La relation entre les deux variables est linéaire. Sans le terme ui , l’équation
est l’équation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonnée à l’origine et β1 est
4
la pente de la droite. On peut penser au paramètre β0 comme étant associé à une deuxième variable
explicative qui est une constante qu’on normalise pour être égale à un. Autrement dit, on aurait pu
écrire le modèle comme
Yi = β0 × 1 + β1 × Xi + ui .
Le modèle de régression simple contient une constante par défaut. Il est possible aussi d’étudier le
modèle suivant :
Yi = βXi + ui .
Ce modèle, sans constante, a des propriétés statistiques assez différentes. Pour ceux qui s’intéressent
à poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle communément Yi la variable dépendante du modèle de régression, et on appelle
Xi la variable explicative du modèle de régression.
1. D’abord, l’algèbre est relativement simple. Le critère est une expression quadratique
(du deuxième degré), et donc les conditions du premier ordre donnent un système
5
d’équations linéaires. Il est très facile de résoudre un système de deux équations linéaires.
2. Deuxièment, sous certaines conditions (à voir plus tard), l’estimateur MCO des coef-
ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs
linéaires et non biaisés – autrement dit, il est l’estimateur le plus efficient parmi les
estimateur linéaires non biaisés.
n
X
min (Yi − β0 − β1 Xi )2 .
β0 ,β1
i=1
– Les conditions du premier ordre (CPOs) pour ce problème sont comme suit. D’abord par
rapport au choix de β0 :
n
X
−2 Yi − β̂0 − β̂1 Xi = 0.
i=1
n
X
−2 Yi − β̂0 − β̂1 Xi Xi = 0,
i=1
où j’ai écrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs
MCO, c’est à dire les solutions au problème de minimisation. 1
– Il s’agit de deux équations où les deux inconnus sont β̂0 et β̂1 .
– Il est facile d’isoler β̂0 en fonction de β̂1 et par la suite de trouver la solution pour β̂1 .
– Nous avons à partir de la première CPO :
n
X
Yi − β̂0 − β̂1 Xi = 0
i=1
n
X n
X
⇒ β̂0 = n β̂0 = Yi − β̂1 Xi
i=1 i=1
1. En principe, il faudrait vérifier les conditions du deuxième ordre pour savoir que nous avons trouvé un minimum
et non un maximum. Nous n’allons pas faire cet exercice ici.
6
n n
1X 1X
⇒ β̂0 = Yi − β̂1 Xi
n i=1 n i=1
Nous venons de trouver la solution pour β̂0 en fonction des moyennes échantillonnales X̄ et
Ȳ et de la solution pour β̂1 .
– Maintenant, substituant cette solution dans la deuxième CPO, nous avons :
n
X
Yi − Ȳ + β̂1 X̄ − β̂1 Xi Xi = 0.
i=1
1
– Multipliant des deux côtés de l’équation par n
et réarrangeant, nous obtenons
n n n n
1X 1X 1X 1X
Yi Xi − Ȳ Xi − β̂1 (Xi )2 + β̂1 X̄Xi = 0
n i=1 n i=1 n i=1 n i=1
n n
1X 1X
⇒ Yi Xi − Ȳ Xi
n i=1 n i=1
n n
!
1X 2 1X
−β̂1 (Xi ) − X̄ Xi =0
n i=1 n i=1
n
1X
⇒ Yi Xi − Ȳ X̄
n i=1
n
!
1X
−β̂1 (Xi )2 − X̄ X̄ =0
n i=1
1
Pn
Yi Xi − X̄ Ȳ
⇒ β̂1 = n
Pi=1
n
(Xi )2 − X̄ 2
1
n i=1
1
Pn
n i=1 Yi − Ȳ Xi − X̄
⇒ β̂1 = Pn 2 .
1
n i=1 Xi − X̄
n n
1X 1X
Yi Xi − X̄ Ȳ = Yi − Ȳ Xi − X̄
n i=1 n i=1
7
et
n n
1X 1X 2
(Xi )2 − X̄ 2 = Xi − X̄ .
n i=1 n i=1
n
1X
Yi − Ȳ Xi − X̄
n i=1
n
1X
Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1
n n n n
1X 1X 1X 1X
= Yi Xi − Yi X̄ − Xi Ȳ + X̄ Ȳ
n i=1 n i=1 n i=1 n i=1
n n n
1X 1X 1X n
= Yi Xi − X̄ Yi − Ȳ Xi + X̄ Ȳ
n i=1 n i=1 n i=1 n
n
1X
= Yi Xi − X̄ Ȳ − Ȳ X̄ + X̄ Ȳ
n i=1
n
1X
= Yi Xi − X̄ Ȳ .
n i=1
1
Pn
(n−1) i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2 .
1
(n−1) i=1 Xi − X̄
– Donc, nous avons trois expressions équivalentes pour la solution pour β̂1 .
– Comme aide-mémoire, la dernière expression est peut-être la plus utile. Elle dit que l’estima-
8
teur MCO de β1 est le ratio entre la covariance échantillonnale entre X et Y et la variance
échantillonnale de X (voir le chapitre sur la théorie des probabilités pour les définitions de
covariance échantillonnale et variance échantillonnale).
– Pour répéter ceci en notation algébrique :
Cov (X , Y )
β̂1 = .
Var (X)
– Je crois qu’il n’est pas trop difficile de se souvenir de cette façon d’écrire la solution pour
β̂1 , et de se souvenir de la solution pour β̂0 en termes des moyennes échantillonnales X̄ et Ȳ
et β̂1 .
– L’estimateur MCO possède quelques propriétés de base que nous allons démontrer dans cette
section.
– Nous allons par la suite nous servir de ces propriétés à maintes reprises par la suite pour
trouver d’autres propriétés de l’estimateur MCO.
– J’appelle ces propriétés les propriétés algébriques puisqu’elles ne dépendent pas d’hy-
pothèses concernant les propriétés statistiques des variables aléatoires Y , X ou u.
– Autrement dit, pour n’importe quelles séries de données sur deux variables X et Y , ces
propriétés doivent tenir. On n’a même pas besoin de supposer que X et Y sont des variables
aléatoires en bonne et due forme.
– Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une constante.
– Pour le cas de modèles qui n’incluent pas une constante, voir l’article de Windmeijer (1994),
ou encore celui d’Eisenhauer (2003).
9
4.1.1 La somme des résidus est zéro
– Définissons
ûi ≡ Yi − β̂0 − β̂1 Xi ,
– Voici la preuve.
n n
1X 1 X
ûi = Yi − Ȳ + β̂1 X̄ − β̂1 Xi
n i=1 n i=1
n n
1X 1X
= Yi − Ȳ − β̂1 Xi − X̄ = 0.
n i=1 n i=1
4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne échantillonnale
de la variable dépendante
– Définissons
Ŷi ≡ β̂0 + β̂1 Xi ,
la valeur prédite de Yi .
– Nous voulons montrer que :
n
1X
Ŷi = Ȳ .
n i=1
– Voici la preuve :
Ŷi ≡ Yi − ûi
n n n n
1X 1X 1X 1X
⇒ Ŷi = Yi − ûi = Yi ≡ Ȳ .
n i=1 n i=1 n i=1 n i=1
10
4.1.3 Orthogonalité entre la variable explicative et les résidus
û1
n
û2
X
Xi ûi = ≡ X 0 Û = 0.
X1 X 2 . . . Xn ..
i=1
.
ûn
– Donc c’est la définition habituelle d’orthogonalité entre deux vecteurs en algèbre linéaire.
– Nous verrons plus loin qu’il y a aussi une interprétation géométrique.
– Voici la preuve :
n
X n
X n
X
Xi ûi = Xi ûi − X̄ ûi
i=1 i=1 i=1
n
X
= Xi − X̄ ûi
i=1
n
X
= Xi − X̄ Yi − Ȳ + β̂1 X̄ − β̂1 Xi
i=1
n
X
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1
n n
X X 2
= Xi − X̄ Yi − Ȳ − β̂1 Xi − X̄
i=1 i=1
n
X
= Xi − X̄ Yi − Ȳ
i=1
11
Pn n
i=1 Xi − X̄ Yi − Ȳ X 2
− Pn 2 Xi − X̄
i=1 Xi − X̄ i=1
n
X n
X
= Xi − X̄ Yi − Ȳ − Xi − X̄ Yi − Ȳ
i=1 i=1
= 0.
Figure 1
– Définissons :
n
X 2
TSS ≡ Yi − Ȳ ,
i=1
12
la somme totale des carrés ( total sum of squares en anglais) ;
n
X 2
SSR ≡ Yi − Ŷi ,
i=1
n
X 2
ESS ≡ Ŷi − Ȳ ,
i=1
– Voici la preuve :
n
X 2
TSS = Yi − Ȳ
i=1
n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1
n
X 2 n
X 2
= Yi − Ŷi + Ŷi − Ȳ
i=1 i=1
n
X
+2 Yi − Ŷi Ŷi − Ȳ
i=1
n
X
= SSR + ESS + 2 ûi Ŷi − Ȳ
i=1
n
X n
X
= SSR + ESS + 2 ûi Ŷi − 2Ȳ ûi
i=1 i=1
n
X
= SSR + ESS + 2 ûi Ŷi
i=1
n
X
= SSR + ESS + 2 ûi β̂0 + β̂1 Xi
i=1
13
n
X n
X
= SSR + ESS + 2β̂0 ûi + 2β̂1 ûi Xi
i=1 i=1
= SSR + ESS.
Notez que nous avons invoqué à quelques reprises les propriétés algébriques de l’estimateur
MCO que nous avons déjà démontrées.
– Maintenant, définissons
ESS
R2 ≡ .
TSS
– Puisque TSS, ESS et SSR sont la somme de termes au carré (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :
0 ≤ R2 ≤ 1.
R2 = Corr (X, Y ) .
14
Je démontre ici que l’ajustement statistique (dans le modèle de régression simple) doit être égal
au carré du coefficient de corrélation entre X et Y . Nous avons
Pn 2
i=1 Ŷi − Ȳ
R2 ≡ Pn 2
i=1 Yi − Ȳ
2
Corr (X , Y ) ≡
2
Pn
i=1 Xi − X̄ Yi − Ȳ
q
Pn 2 qPn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 2
i=1 Xi − X̄ Yi − Ȳ
= Pn 2 Pn 2
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 2
Ŷi − Ȳ Pn 2
i=1 i=1 Xi − X̄ Yi − Ȳ
Pn 2 = Pn 2 Pn 2
i=1 Yi − Ȳ i=1 Xi − X̄ i=1 Yi − Ȳ
n n n
!2
X 2 X 2 X
⇔ Ŷi − Ȳ Xi − X̄ = Xi − X̄ Yi − Ȳ .
i=1 i=1 i=1
n n
2 X
X 2
Ŷi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= β̂0 + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
n n
2 X
X 2
= Ȳ − β̂1 X̄ + β̂1 Xi − Ȳ Xi − X̄
i=1 i=1
15
n n
2 X
X 2
= β̂1 Xi − β̂1 X̄ Xi − X̄
i=1 i=1
n n
X 2 X 2
= β̂12 Xi − X̄ Xi − X̄
i=1 i=1
Pn !2 n
!2
i=1 Xi − X̄ Yi − Ȳ X 2
= Pn 2 Xi − X̄
i=1 Xi − X̄ i=1
n
!2
X
= Xi − X̄ Yi − Ȳ ,
i=1
– Tel qu’indiqué plus tôt, l’ajustement statistique R2 est défini indépendamment des hy-
pothèses statistiques derrière le modèle.
– Nous venons de voir (dans l’encadré précédant) qu’il y a un lien stricte dans le modèle de
régression simple entre le R2 et le coefficient de corrélation entre la variable dépendante
Y et la variable explicative X.
– Le R2 a aussi une autre interprétation statistique. On peut l’utiliser pour tester l’hy-
pothèse nulle de l’absence de relation entre la variable explicative (les variables expli-
catives à part la constante dans le modèle de régression multiple). Voir Giles (2013b,
2013c). Selon Giles, le R2 suit, sous l’hypothèse nulle (et sous l’hypothèse de l’ho-
moscédasticité), une distribution Beta.
– Nous allons voir dans le chapitre sur la régression multiple qu’on peut construire une
16
autre statistique pour tester la même hypothèse qui suit une distribution F de Fisher.
– Définissons :
n
1 X SSR
s2û = (ûi )2 = .
(n − 2) i=1 (n − 2)
– Dans le cas où nous supposons une variance constante du terme d’erreur du modèle (voir la
section suivante concernant les hypothèses statistiques du modèle), c’est un estimateur non
biaisé de la variance du terme d’erreur.
– Il s’agit du cas où les erreurs sont homoscédastiques, où donc Var (ui ) = σu2 , une variance
constante.
– Notez que cette hypothèse (variance constante des erreurs) ne fera pas partie des hypothèses
statistiques de base que nous adopterons.
– Nous divison par (n − 2) afint d’obtenir un estimateur non biaisé.
– Il y a une autre raison pour la division par (n − 2). On perd deux degrés de liberté car il faut
estimer deux paramètres inconnus (β0 et β1 ) afin de calculer les résidus de la régression.
– Maintenant, définissons :
q
sû ≡ s2û .
17
– Ces hypothèses seront cruciales pour montrer les propriétés d’absence de biais et de conver-
gence.
– Nous en aurons besoin aussi (avec une hypothèse additionnelle) pour montrer l’efficience de
l’estimateur MCO.
– Intuitivement, l’hypothèse nous dit que le fait de connaı̂tre la valeur réalisée de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.
– Nous avons déjà vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont indépendantes et qu’elles sont identiquement distribuées.
– Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui génère
les observations (normale, exponentielle, parétienne stable, etc.). Tout ce qu’on suppose c’est
que les observations sont toujours générées par la même distribution.
0 < E Y 4 < ∞;
18
– Cette hypothèse sert à nous rappeler que l’estimateur MCO peut être sensible aux observa-
tions aberrantes.
– Il est toujours bon d’examiner les résidus afin de détecter la présence de ces observations,
qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans
les données, etc.
– Il est important de noter qu’en présence d’observations aberrantes importantes, la valeur de
β̂1 peut être très sensible à cette ou à ces valeurs, même si elles sont peu nombreuses. Intui-
tement, même un nombre très faible de ces observations aberrantes peut avoir une influence
prépondérantes sur les valeurs estimées des paramètres. Dans un tel cas, les estimateurs
MCO ne seront pas convergents puisqu’ils dépendent d’un petit nombre d’observations.
Par rapport à l’approche dans certains manuels de base en économétrie, nous adoptons une
approche plus générale.
1. Souvent, la première fois qu’on présente le modèle de régression simple, on suppose que
les observations sur la variable explicative X sont constantes à travers des échantillons
différents. Pour dériver les propriétés statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des réalisations d’une
variable aléatoire. L’algèbre est plus facile, mais c’est beaucoup moins réaliste.
2. Souvent, lorsqu’on présente le modèle de base, on suppose aussi que la variance condition-
nelle du terme d’erreur est égale à sa variance non conditionnelle et qu’elle est constante.
Autrement dit,
Var (ui |X = Xi ) = Var (ui ) = σu2 .
19
économètres appliqués. Cette hypothèse n’est pas retenue ici, ce qui va mener à une expres-
sion plus compliquée mais plus générale pour la variance échantillonnale de nos estimateurs.
3. Souvent, lorsqu’on présente le modèle de base, on suppose que le terme d’erreur est distribué
selon une loi normale. Ceci permet de faire de l’inférence exacte (voir le chapitre sur les tests
d’hypothèse pour une définition). Cette hypothèse n’est pas retenue ici.
4. Au lieu de supposer la normalité, nous allons faire l’hypothèse que les échantillons de
données que nous avons à notre disposition sont assez grandes pour que les statistiques
utilisées pour faire des tests d’hypothèse soient approximatiement distribuées selon une loi
normale.
6.1.1 β̂1
– Nous avons :
Pn
i=1 Xi − X̄ Yi − Ȳ
β̂1 = Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ β0 + β1 Xi + ui − β0 − β1 X̄ − ū
= Pn 2
i=1 X i − X̄
Pn 2 Pn
β1 i=1 X i − X̄ + i=1 X i − X̄ (ui − ū)
= Pn 2
i=1 Xi − X̄
Pn
i=1 Xi − X̄ (ui − ū)
= β1 + Pn 2
i=1 Xi − X̄
Pn
X i − X̄ ui
= β1 + Pi=1 n 2 .
i=1 Xi − X̄
– Ceci montre que l’estimateur est égal à sa vraie valeur plus un terme qui dépend du produit
des erreurs avec les écarts des Xi par rapport à leurs moyennes échantillonnales.
20
– Notez ce que l’on fait pour passer de la première ligne à la deuxième. On substitut Yi utili-
sant sa valeur si le modèle de régression est litéralement vrai. Cela fait apparaı̂tre les vraies
valeurs de β0 et de β1 , et fait apparaı̂tre aussi l’erreur (la vraie et non le résidu). On fera
souvent une substitution semblable lorsqu’on veut analyser les propriétés statistiques d’un
estimateur.
– Maintenant, il s’agit de calculer la valeur espérée de cette expression :
Pn !
i=1 Xi − X̄ ui
E β̂1 = β1 + E Pn 2
i=1 Xi − X̄
Pn ! !
X i − X̄ u i
= β1 + E E Pi=1 n 2 |X1 , X2 , . . . Xn
i=1 Xi − X̄
Pn !
i=1 X i − X̄ E (u i |X 1 , X 2 , . . . Xn )
= β1 + E Pn 2
i=1 Xi − X̄
Pn !
i=1 X i − X̄ E (u i |X i )
= β1 + E Pn 2
i=1 Xi − X̄
= β1 .
– Pour passer de la première ligne à la deuxième dans cette suite d’égalités, nous avons utilisé
la loi des espérances itérées, qui dit que pour n’importe quelle variable aléatoire Y ,
Pn
i=1 Xi − X̄ ui
Pn 2 .
i=1 Xi − X̄
– Pour passer de la deuxième à la troisième ligne, il faut noter que les espérances des X condi-
tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des
constantes et les écrire du côté gauche de l’opérateur d’espérance conditionnelle. Ce faisant,
21
l’opérateur d’espérance conditionnelle s’applique uniquement au terme d’erreur ui .
– La dernière égalité suit directement de nos hypothèses de base concernant le modèle, dont
une stipule que E (ui |Xi ) = 0.
6.1.2 β̂0
– Nous avons :
E β̂0 = E Ȳ − β̂1 X̄
n
!
1X
= E β0 + β1 X̄ + ui − β̂1 X̄
n i=1
n
1X
= β0 + E β1 − β̂1 X̄ + E (ui )
n i=1
n
1X
= β0 + E (E (ui |Xi ))
n i=1
= β0 ,
où encore une fois nous avons utilisé la loi des espérances itérées :
– Ici, j’ai suivi la réponse à la question 4.7 du manuel. Il n’est pas forcément évident que
E β1 − β̂1 X̄ = 0,
puisque X̄ doit être considéré comme une variable aléatoire. Il faut remonter à l’absence de
biais de β̂1 , où on a montré que
Pn
Xi − X̄ ui
β1 − β̂1 = − Pi=1
n 2 .
i=1 Xi − X̄
22
Donc, on a !
Pn
X i − X̄ ui
E β1 − β̂1 X̄ = −E Pi=1 n 2 X̄
i=1 X i − X̄
Pn !!
i=1 X i − X̄ E (u i |X i )
= −E X̄ Pn 2
i=1 Xi − X̄
= 0.
Encore une fois, nous avons utilisé la loi des espérances itérées.
– Nous allons remettre ce sujet à un peu plus tard. En calculant les propriétes échantillonnales
de l’estimateur, nous allons montrer que sa variance décroı̂t avec la taille de l’échantillon n.
– Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons montré
l’absence de biais, et la variance converge à zéro lorsque n tend vers l’infini.
– Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothèse addi-
tionnelle, que le terme d’erreur du modèle de régression est homoscédastique, ce qui veut
dire a une variance constante.
– Si ce n’est pas le cas, et si nous connaissons de quoi dépend la variance du terme d’erreur,
il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carrés généralisés (generalised least squares ou GLS en anglais),
que nous n’aurons pas l’occasion d’étudier en détail dans ce cours. Voir le chapitre 15 du
manuel.
– Une preuve détaillée du théorème Gauss-Markov se trouve dans l’ecadré qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en détail dans le cours. Je vous
invite fortement à la lire et à la comprendre.
23
6.3.1 Théorème Gauss-Markov
– Il s’agit d’une preuve que l’estimateur β̂1 est l’estimateur le plus efficient parmi les
estimateurs qui sont linéaires en Yi .
– Rappelons d’abord les hypothèses qui doivent tenir pour démontrer le théorème Gauss-
Markov.
1. E (ui |X1 , . . . , Xn ) = 0 .
3. E (ui uj |X1 , . . . , Xn ) = 0, i 6= j.
– La dernière hypothèse dit que les erreurs ne sont pas corrélées entre elles.
– D’abord, montrons que β̂1 est un estimateur linéaire en Yi . Nous avons
Pn
i=1 Yi − Ȳ Xi − X̄
β̂1 = Pn 2
i=1 Xi − X̄
Pn
Yi Xi − X̄ − Ȳ ni=1 Xi − X̄
P
i=1
= Pn 2
i=1 Xi − X̄
Pn
Y i X i − X̄
= Pi=1
n 2
i=1 X i − X̄
n
X Xi − X̄
= Pn 2 Yi
i=1 i=1 Xi − X̄
n
X
≡ âi Yi ,
i=1
où donc
Xi − X̄
âi ≡ Pn 2
i=1 Xi − X̄
– Les poids âi ne dépendent pas des Yi , et donc l’estimateur est linéaire en Yi .
– Nous avons vu que sous l’hypothèse de l’homoscédasticité, la variance conditionnelle de
24
β̂1 est donnée par
σu2
Var β̂1 |X1 , . . . , Xn = Pn 2 .
i=1 Xi − X̄
– Nous avons aussi montré que l’estimateur β̂1 est conditionnellement non biaisé.
– Maintenant, considérons n’importe quel estimateur linéaire
n
X
β̃1 = ai Yi
i=1
E β̃1 |X1 , . . . , Xn = β1 .
– Nous avons
n
X
β̃1 = ai Yi
i=1
n
X
= ai (β0 + β1 Xi + ui )
i=1
n
X n
X n
X
= β0 ai + β 1 ai Xi + ai ui .
i=1 i=1 i=1
n
! n
X X
E ai ui |X1 , . . . , Xn = ai E (ui |X1 , . . . , Xn ) = 0.
i=1 i=1
n
! n
!
X X
E β̃1 |X1 , . . . , Xn = β0 ai + β1 ai X i .
i=1 i=1
25
– Par hypothèse, notre estimateur est conditionnellement non biaisé et donc il faut que
n
! n
!
X X
β0 ai + β1 ai X i = β1 .
i=1 i=1
– Pour que cette égalité tienne pour des valeurs quelconques de β0 et de β1 il faut que
n
X
ai = 0
i=1
et
n
X
ai Xi = 1.
i=1
n
X n
X n
X n
X
β̃1 = β0 ai + β1 ai X i + ai u i = β 1 + ai ui .
i=1 i=1 i=1 i=1
n
!
X
Var β̃1 |X1 , . . . , Xn = Var ai ui |X1 , . . . , Xn
i=1
n
X X
= Var (ai ui |X1 , . . . , Xn ) + 2 Cov (ai ui , aj uj |X1 , . . . , Xn )
i=1 i<j
n
X
= Var (ai ui |X1 , . . . , Xn )
i=1
n
X
= σu2 ai 2 .
i=1
26
– Définissons
di ≡ ai − âi
– Nous avons
n
X n
X n
X n
X n
X
2
2
ai = (âi + di ) = â2i +2 âi di + di 2 .
i=1 i=1 i=1 i=1 i=1
– Maintenant, il faut utiliser la définition des âi qui est donnée ci-dessus. Nous avons
n Pn
X
i=1 Xi − X̄ di
âi di = Pn 2
i=1 i=1 Xi − X̄
Pn
Xi di − X̄ ni=1 di
P
i=1
= Pn 2
i=1 Xi − X̄
Pn Pn
i=1 Xi (ai − âi ) − X̄ (ai − âi )
= Pn i=1
2
i=1 Xi − X̄
= 0.
– La dernière égalité tient puisque les deux estimateurs β̃1 et β̂1 sont conditionnellement
non biaisés et pour cette raison il faut que
n n
! n n
X X X X
Xi ai − Xi âi = ai = âi = 0.
i=1 i=1 i=1 i=1
Var β̃1 |X1 , . . . , Xn
n
X
= σu2 ai 2
i=1
27
n n
!
X X
= σu2 â2i + di 2
i=1 i=1
n
X
= Var β̂1 |X1 , . . . , Xn + σu2 di 2
i=1
⇒ Var β̃1 |X1 , . . . , Xn − Var β̂1 |X1 , . . . , Xn
n
X
= σu2 di 2 > 0
i=1
si ∃i tel que di 6= 0. Si di = 0, ∀i, l’estimateur β̃1 est tout simplement l’estimateur MCO.
– Il y a aussi une preuve du théorème Gauss-Markov dans le cadre du modèle de régression
multiple dans le chapitre suivant. Vous allez constater (j’espère) que la preuve, qui utilise
une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas
démontré l’efficience de l’estimateur β̂0 .
– Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
– Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus
efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une variance
moins élevée que le deuxième.
– Une autre façon de comparer deux estimateurs est de comparer leurs erreurs quadratiques
moyennes. Nous avons déjà vu ce concept dans le chapitre sur la statistique.
– Voici la définition de l’erreur quadratique moyenne d’un estimateur quelconque β̃ :
2
EQM β̃ ≡ E β̃ − β .
28
– Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de
l’estimateur et du biais de l’estimateur au carré. Autrement dit,
2
EQM β̃ = Var β̃ + E β̃ − β .
– Voici la preuve. Nous savons que pour une variable aléatoire quelconque X,
Cette formule s’applique aussi à la variable aléatoire β̃ − β . Donc nous avons
2 2
Var β̃ − β = E β̃ − β − E β̃ − β
2 2
⇒E β̃ − β = Var β̃ − β + E β̃ − β
2 2
⇒ E β̃ − β = Var β̃ + E β̃ − β ,
Var β̃ − β = Var β̃
29
– Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du
modèle de régression linéaire et l’estimateur MCO, le concept d’efficience est plus au centre
de l’analyse puisque, sous des hypothèses relativement faibles, l’estimateur MCO est non
biaisé.
– Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du modèle de régression simple.
– Il étudie le modèle de régression simple sans constante :
Yi = βXi + ui ,
où les Xi sont non aléatoires et où on a ui ∼ i.i.d. (0, σ 2 ) (les erreurs sont
indépendamment et identiquement distribuées avec moyenne nulle et variance égale à
σ 2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypothèse
concernant l’espérance non conditionnelle des erreurs simplifie l’analyse.)
– Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on
obtient dépend de β lui-même, qui est non observable. Donc, c’est un estimateur qui est
non opérationnel , c’est à dire que nous pouvons même pas calculer.
– Dans son deuxième article (2013e), Giles montre qu’il est possible de trouver un estima-
teur opérationnel (que nous pouvons calculer) si on minimise une combinaison linéaire
de la variance et du biais de l’estimateur. Le problème peut s’écrire
2
Var β e E β̃ − β
min Q = α
+ (1 − α) .
σ 2 β
β
e
– La fonction objectif est une somme pondérée de la variance relative (par rapport à la
variance de l’erreur) et du biais au carré relatif (par rapport à la vraie valeur de β) de
l’estimateur β.
e
30
– La solution à ce problème (que nous allons calculer un peu plus loin) est
Pn 2
(1 − α) i=1 Xi
βe = βb
α + (1 − α) ni=1 Xi 2
P
où βb est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donnée de α.
– Pour α = 0 nous avons βe = β.
b Autrement dit, si on met tout le poids sur la minimisation
n
!
X
E βe = E ai (βXi + ui )
i=1
n n
!
X X
=β ai X i + E ai ui
i=1 i=1
n
X
=β ai Xi
i=1
n
!
X
⇒ E βe − β = β ai X i − 1
i=1
puisque nous avons fait l’hypothèse que les Xi sont non stochastiques et que E (ui ) = 0.
31
– La variance de l’estimateur est donnée par
X n n
X
Var βe = ai 2 Var (Yi ) = σ 2 ai 2
i=1 i=1
pusque nous faisons l’hypothèse que la variance des erreurs est constante.
– Notre problème de minimisation peut donc s’écrire
Pn Pn 2
σ2 ai 2
i=1 β i=1 (ai Xi − 1)
min Q = α + (1 − α)
ai σ2 β
ou bien ! !2
n
X n
X
min Q = α ai 2 + (1 − α) (ai Xi − 1) .
ai
i=1 i=1
n
!
∂Q X
= 0 = 2αai + 2 (1 − α) Xi aj Xj − 1
∂ai j=1
n
!
X
⇒ αai + (1 − α) Xi aj Xj − 1 = 0.
j=1
n n n
!
X X X
⇒α ai Yi + (1 − α) Xi Yi aj X j − 1 =0
i=1 i=1 j=1
32
n n
!
X X
⇒ αβe + (1 − α) Xi Yi aj X j − 1 =0 (1)
i=1 j=1
– Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme à travers les n
termes, ce qui donne
n
!
X
αai Xi + (1 − α) Xi 2 aj X j − 1 =0
j=1
n n n
!
X X X
⇒α ai Xi + (1 − α) Xi 2 aj X j − 1 =0
i=1 i=1 j=1
n n n
!
X X X
⇒α aj Xj + (1 − α) Xi 2 aj X j − 1 =0
j=1 i=1 j=1
n
X n
X n
X n
X
⇒α aj Xj + (1 − α) Xi 2 aj Xj − (1 − α) Xi 2 = 0
j=1 i=1 j=1 i=1
n n
! n
!
X X X
⇒ aj X j α + (1 − α) Xi 2 = (1 − α) Xi 2
j=1 i=1 i=1
n
(1 − α) ni=1 Xi 2
P
X
⇒ aj X j =
α + (1 − α) ni=1 Xi 2 .
P
j=1
Pn
– Maintenant, substituons cette solution pour j=1 aj Xj dans l´equation (1) et simpli-
fions :
n P2 !
2
X (1 − α) i=1 X i
⇒ αβe + (1 − α) Xi Yi P2 −1 =0
i=1
α + (1 − α) i=1 Xi 2 .
n
!
α + (1 − α) ni=1 Xi 2 − (1 − α) ni=1 Xi 2
X P P
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
33
n
!
X α
⇒ αβe = (1 − α) Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
n
!
X (1 − α)
⇒ βe = Xi Yi
α + (1 − α) 2i=1 Xi 2
P
i=1
Pn Pn 2
i=1 X i Y i (1 − α) i=1 Xi
⇒ β = Pn
e
2 P2 2
i=1 Xi α + (1 − α) i=1 Xi
Pn 2
(1 − α) i=1 Xi
=βb
α + (1 − α) 2i=1 Xi 2 .
P
– Ceci est le cas puisque pour ce modèle l’estimateur MCO βb est donné par (exercice)
Pn
Xi Yi
βb = Pi=1
n 2 .
i=1 Xi
– Dans cette section, le but principal de l’exercice est de dériver la variance (et par extension
l’écart type) de nos estimateurs MCO β̂0 et β̂1 .
– Les écarts types de β̂0 et de β̂1 font partie de l’output standard de n’importe quel logiciel de
régression.
– Cet exercice est crucial afin de pouvoir effectuer des tests d’hypothèse concernant les coef-
ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimés.
– Nous avons :
Pn
i=1 Xi − X̄ ui
β̂1 = β1 + Pn 2
i=1 Xi − X̄
1
Pn
n i=1 Xi − X̄ ui
= β1 + Pn 2 .
1
n i=1 Xi − X̄
– D’abord, travaillons avec le numérateur.
34
– Nous avons déjà vu que
p
X̄ →
− µX ,
ce qui veut dire que la moyenne échantillonnale converge en probabilité à la moyenne dans
la population. Donc, pour des échantillons assez grands, nous avons
n n n
1X 1X 1X
Xi − X̄ ui ≈ (Xi − µX ) ui ≡ v̄ ≡ vi .
n i=1 n i=1 n i=1
– La variable aléatoire vi que nous venons de définir satisfait les propriétés suivantes :
1. E (vi ) = 0 ;
2. vi est i.i.d. ;
3. σv2 < ∞ .
– La variable satisfait les hypothèses pour pouvoir invoquer le théorème de la limite centrale.
Donc, nous avons
v̄ d
→
− N (0 , 1) ,
σv̄
n n
1 X 2 1X 2 p 2
Xi − X̄ ≈ Xi − X̄ → − σX .
n − 1 i=1 n i=1
σv2
Var β̂1 − β1 = 2 2
n (σX )
et, !
d σv2
β̂1 − β1 →
− N 0, 2 2
n (σX )
35
– Notez très bien ce que nous venons de faire. Nous avons montré la convergence en distri-
bution du numérateur, et la convergence en probabilité du dénominateur, et par la suite nous
avons sauté tout de suite à la convergence en distribution du ratio des deux.
– Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-
priétés asymptotiques (propriétés en grand échantillon) de nos statistiques. Notez que nous
ne pouvons pas le faire lorsqu’il s’agit d’espérances. Par exemple,
X E(X)
E 6=
Y E(Y )
p p X̄ p µX
X̄ →
− µX , Ȳ →
− µY ⇒ →
− ,
Ȳ µY
et !
2
d 2
p X̄ d µX 1 2
X̄ →
− N µX , σX̄ , Ȳ →
− µY ⇒ →
− N , σX̄ .
Ȳ µY µY
– Nous avons utilisé le Théorème de Slutsky, un des théorèmes les plus utiles en théorie
des probabilités. Il permet de scinder des expressions compliquées de variables aléatoires
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la
convergence de l’expression suit immédiatement.
– Nous aurons fréquemment l’occasion d’utiliser une version de ce théorème. Pour plus de
détails, voir le chapitre des notes sur le modèle de régresson multiple.
– Notez que la variance de β̂1 décroı̂t avec n et tend vers zéro lorsque n tend vers l’infini. Lors-
qu’on parle de convergence en distribution, on utilise normalement une variable aléatoire
normalisée de telle façon à ce sa variance ne diminue pas avec la taille de l’échantillon. Pour
36
cette raison, il serait conventionnel de dire que :
!
√
d σv2
n β̂1 − β1 →− N 0, 2 2
(σX )
– Maintenant, définissons
σv2
σβ̂21 ≡ 2 2.
n (σX )
– Maintenant, si nous divisons β̂1 − β1 par la racine carrée de σβ̂2 , nous obtenons une sta-
1
tistique qui converge en distribution vers une loi normale centrée réduite :
β̂1 − β1 β̂1 − β1 d
q ≡ →
− N (0 , 1) .
σβ̂2 σβ̂1
1
– Notez que nous venons de montrer à toutes fins pratiques la convergence de l’estimateur
MCO de β̂1 . Nous avions déjà montré que l’estimateur MCO est non biaisé. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers zéro lorsque la taille
de l’échantillon tend vers l’infini. Autrement dit,
lim σβ̂21 = 0.
n→∞
– Nous avons tous les prérequis pour conclure que l’estimateur MCO de β1 converge en pro-
babilité à sa vraie valeur.
37
– Définissons : Pn 2
1 2
1 n−2 i=1 Xi − X̄ (ûi )
σ̂β̂21 ≡ 2 2
n
P
1 n
n i=1 X i − X̄
q
SE β̂1 ≡ σ̂β̂2 .
1
– La plupart des logiciels de régression calculent cet écart type. Il faut, par contre, vérifier si
l’option par défaut est de calculer cet écart type robuste (robuste à la présence de l’hétéro-
scédasticité) ou plutôt de calculer l’écart type qui suppose l’homoscédasticité.
Pn
1 n−1
1
i=1(ûi )2
σ̃β̂21 ≡ 2 .
n1 n
P
n i=1 Xi − X̄
– J’ai utilisé la notation légèrement différente σ̃β̂2 pour distinguer entre le cas général (lors-
1
38
d’enseigner le cas général et l’estimateur robuste comme l’option par défaut d’un économètre
appliqué.
– Lorsqu’on utilise un logiciel de régression comme R, STATA ou GRETL, il faut lire atten-
tivement la documentation pour savoir quelle est l’option par défaut utilisée pour estimer
la matrice variance-covariance des coefficients estimés. Dans la plupart des cas l’option par
défaut suppose l’homoscédasticité et il faut spécifier l’option robuste ou l’équivalent si
vous n’êtes pas prêts à supposer l’homoscédasticité, ce qui sera généralement le cas.
Les écarts types robustes peuvent être plus grands ou plus petits que les écarts types non ro-
bustes. Pour une explication plus détaillée et une illustration dans un cas très simple, voir Auld
(2012). Auld démontre les points suivants.
2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne
échantillonnale X̄, l’écart type calculé avec la méthode non robuste (supposant l’ho-
moscédasticité) sera biaisé vers zéro (trop petit). L’écart type calculé avec la méthode
robuste sera en général plus grand que l’écart type non robuste.
3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont près de leur
moyenne échantillonnale X̄, l’écart type calculé avec la méthode non robuste (supposant
l’homoscédasticité) sera biaisé et sera en moyenne trop grand. L’écart type calculé avec
la méthode robuste sera en général plus petit que l’écart type non robuste.
4. Avec les données réeles on rencontre plus souvent le cas où l’écart type non robuste est
baisié vers zéro (est trop petit). Donc, typiquement les écarts types robustes sont plus
élevés que les écarts types non robustes.
39
7.3 Détecter l’hétéroscédasticité
û2i = γ0 + γ1 Xi + i
ou encore
û2i = γ0 + γ1 Xi 2 + i .
– L’idée est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit γ̂1 la valeur estimée du coef-
ficient γ1 Une valeur significative de γ̂1 (voir la section suivante sur les tests d’hypothèse)
serait un indice clair de la présence d’hétéroscédasticité. 3 Nous allons revenir sur cette ques-
tion et sur quelques tests formels pour détecter l’homoscédasticité dans le chapitre sur la
régression multiple.
2. Nous verrons certains de ces tests formels dans le chapitre sur le modèle de régression multiple.
3. Notez qu’il ne s’agit pas d’un test formel avec des propriétés statistiques connues. Il faut interpréter le résultat
du test à titre indicatif seulement. Par contre, le test formel appelé test Breusch-Pagan est essentiellement basé sur une
régression de ce type.
40
8 Tests d’hypothèse
– Le principe de base pour tester des hypothèses simples est presqu’identique à ce que nous
avons vu dans le chapitre sur l’inférence statistique.
– L’hypothèse nulle spécifie généralement que le coefficient d’intérêt (qui peut être β̂0 ou
β̂1 prend une certaine valeur. L’hypothèse alternative peut être bilatérale ou unilatérale,
dépendant du contexte.
– D’abord, il faut créer une statistique normalisée qui a une moyenne nulle et une variance
unitaire sous l’hypothèse nulle. Il s’agit d’une statistique t même si en général elle
n’obéit pas à une loi t de Student. Par exemple :
β̂1 − β1,0
t≡
SE β̂1
où SE β̂1 est un estimateur convergent de l’écart type du coefficient β1 et β1,0 est la valeur
que prend le coefficient β1 sous l’hypothèse nulle.
– Si nous sommes prêts à faire l’hypothèse que le terme d’erreur du modèle ui obéit à une loi
normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de
Student. Dans ce cas, bien sûr, il est préférable d’utiliser la forme homoscédastique pour le
calcul de l’écart type de l’estimateur β̂1 .
– Si non, sous les hypothèses du modèle de régression, la statistique t obéit en grand échantillon
à une loi normale centrée réduite. Voir la section précédente sur les propriétés échantillonnales
de l’estimateur.
– Comme il est habituellement le cas, nous remplaçons l’écart type dans le dénominateur par
un estimateur convergent.
– Maintenant, nous procédons exactement comme dans le chapitre sur la statistique.
41
8.2 Hypothèse alternative bilatérale
H1 : β1 6= β1,0 ,
nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment loin de zéro. La
p-value du test est donnée par :
où tact est la valeur calculée de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centrée réduite cumulée à z.
– On appelle appelle communément un test de significativité un test de l’hypothèse nulle
que la variable explicative n’est pas significative, et donc n’aide pas à expliquer la variabilité
de la variable dépendante. Dans, ce cas, l’hypothèse nulle est H0 : β̂1 = 0 et l’hypothèse
alternative est bilatérale. On peut aussi parler d’un test de significativité de la constante
dans le modèle de régression simple. Les tests de significativité sont tellement répandus que,
si l’output fourni par un logiciel d’économétrie donne les statistiques t associées aux
coefficients estimés, il s’agit de statistiques appropriées pour tester l’hypothèse nulle que le
coefficient est égal à zéro.
– Ensuite, si l’hypothèse alternative est unilatérale, il faut distinguer entre les deux cas pos-
sibles.
1. D’abord,
H1 : β1 > β1,0 .
42
p-value du test est donnée par :
– Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inférence statistique.
– Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la
valeur de z > 0 tel que
1 − X/100
Φ(−z) = .
2
(100−X)
Donc, on cherche la valeur de z > 0 pour laquelle 2
% de la distribution normale
(100−X)
centrée réduite se trouve à gauche de −z. Cela veut dire bien sûr que 2
% de la distri-
bution normale centrée réduite se trouve à droite de z.
– Nous avons (pour β̂1 : le principe pour β̂0 est identique) :
!
X β̂1 − β1
= Pr −z ≤ ≤z
100 σ̂β̂1
= Pr −zσ̂β̂1 ≤ β̂1 − β1 ≤ zσ̂β̂1
43
= Pr −zσ̂β̂1 ≤ β1 − β̂1 ≤ zσ̂β̂1
= Pr β̂1 − zσ̂β̂1 ≤ β1 ≤ β̂1 + zσ̂β̂1 ,
où σ̂β̂1 ≡ SE β̂1 , notre estimateur convergent de l’écart type de β1 .
– Cela implique que l’intervalle de confiance de X% autour de β̂1 peut être écrit de la façon
suivante :
β̂1 ± zσ̂β̂1 ,
où
1 − X/100
Φ(−z) = .
2
où ∆Ŷi est le changement prédit de la variable dépendante. Développer un intervalle de confiance
dans ce cas est facile. Le changement posé ∆X est connue. On peut le traiter comme une constante,
et donc nous avons
Var ∆Ŷi = Var β̂1 ∆Xi
= (∆Xi )2 Var β̂1
44
Donc, procédant de la même manière que pour l’intervalle de confiance pour β̂1 lui-même on a
X ∆Xi β̂1 − β1
= Pr −z ≤ ≤ z
100 (∆Xi ) σβ̂1
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β̂1 − β1 ≤ z (∆Xi ) σβ̂1
= Pr −z (∆Xi ) σβ̂1 ≤ ∆Xi β1 − β̂1 ≤ z (∆Xi ) σβ̂1
= Pr −z (∆Xi ) σβ̂1 + ∆Xi β̂1 ≤ ∆Xi β1 ≤ z (∆Xi ) σβ̂1 + ∆Xi β̂1 .
Si nous remplaçons l’écart type de β̂1 par un estimateur convergent (notre truc habituel), l’intervalle
de confiance peut s’écrire
∆Xi β̂1 ± z (∆Xi ) σ̂β̂1
avec R
45
où la variable dépendante subsi est le nombre d’abonnements à la revue i (mesuré en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divisé par le nombre de citations
annuel d’articles publiés dans la revue (mesuré aussi en logs). Notez que le choix de mesurer les
deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre
sur les modèles de régression non linéaires. 4
Les données sont dans une banque de données qui s’appelle Journals . Il s’agit de
données (avec n = 180) sur les abonnements par des bibliothèques universitaires à des revues
scientifiques. La taille de l’échantillon est le nombre de revues dans l’échantillon.
Afin d’effectuer l’estimation d’un modèle de régression simple de base et afin d’effec-
tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais
aussi les packages AER (qui contient les données utilisées pour estimer le modèle),
lmtest, sandwich et zoo (ces trois packages permettent de calculer les écarts types ro-
bustes du modèle estimé et d’effectuer des tests d’hypothèse utilisant les écarts types ro-
bustes). Si les packages ne sont pas déjà installés, il faut les installer avec la commande
install.packages(·) :
install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")
Notez que sous Linux il est préférable d’installer le package comme administrateur du système
ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages installés, on peut procéder à charger les données et estimer le modèle
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les
4. Entretemps, à moins d’avis contraire, je vous demande d’utiliser des variables non transformées dans les exer-
cices empiriques.
46
commandes. Les lignes précédées par # sont des commentaires.
47
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est regumm.out .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)
48
– La commande close(·) ferme le fichier.
Call:
lm(formula = log(subs) ∼ log(citeprice), data = journals)
Residuals:
Coefficients:
Vous êtes déjà en mesure de comprendre tous les éléments de l’output, sauf à la toute fin lors-
qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement
statistique R2 que nous avons étudiée est ce qu’on appelle Multiple R-squared dans
l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le modèle de régression
multiple.
En ce qui concerne les résidus, le logiciel nous donne la valeur minimale parmi les résidus,
49
la valeur associée au premier quartile (la valeur pour laquelle 25% des résidus on une valeur
inférieure), la valeur médiane (qui n’est pas forcément égale à la moyenne), la valeur associée
au troisième quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-
male) peuvent être utiles pour repérer des observations aberrantes.
Une mise en garde : le code ci-dessus estime le modèle par MCO utilisant les options
par défaut. La fonction lm utilise par défaut une hypothèse d’homoscédasticité. Donc, les
écarts types des deux coefficients (β̂0 et β̂1 dans notre notation) ne sont pas des écarts types
robustes. Afin d’obtenir des écarts types robustes à la présence de l’hétéroscédasticité, il faut
utiliser la commande suivante :
Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intallés, tel qu’indiqué ci-dessus. Il faut aussi charger en mémoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com-
mande coeftest(·), avec les commandes suivantes :
R> library("lmtest")
R> library("sandwich")
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16
Ce modèle est un exemple d’un modèle où il n’y a pas une différence énorme entre les écarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les écarts types en
une fraction de seconde, il coûte presque rien de les calculer des deux façons afin de vérifier si
50
les résultats sont semblables ou non.
Un graphique avec les données (variable dépendante sur l’axe vertical et variable explica-
tive sur l’axe horizontal) et la ligne de régression est la Figure 2 ci-dessous.
●
7
●
●
●●
●
● ● ●
●
●● ● ● ●●●●● ● ●
●● ●
●
●
6
● ● ● ●
● ●
● ● ●
●● ●
● ● ●● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
●
● ● ●●
● ● ● ● ●
● ●● ● ●
● ● ●● ● ●
● ●●
5
●● ● ● ● ●
● ●● ●
● ● ●
●
● ● ●● ● ●● ●
● ● ●
● ● ●
● ●
●●
● ●● ●
●●
log(subs)
● ●
● ● ● ●● ●
● ● ●● ● ● ●
4
●● ● ● ●
●● ● ● ●●
●
●
● ● ●●
● ● ●●
● ● ●●
● ●●
● ● ●●
● ● ●
3
● ●
● ●
●
●
● ● ●
●
2
1
−4 −2 0 2
log(citeprice)
Figure 2
dichotomique
Jusqu’ici, nous avons supposé que la variable explicative dans le modèle de régression simple,
X, est une variable aléatoire continue. Il es souvent le cas que la variable explicative est une
variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, présent ou
51
absent, etc.
On peux représenter ces deux valeurs possibles de la variable explicative variable dichotomi-
que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des données sur la taille des
classes où Di = 1 pour des ratios élèves/professeurs inférieurs à 20 est Di = 0 pour des ratios
élèves/professeurs au moins égaux à 20.
Dans ces cas, β1 n’a pas l’interprétation d’un coefficient de pente. Il a l’interprétation de la
moyenne conditionnelle de la variable dépendante Y lorsque Di = 1. L’ordonnée β0 a l’in-
terprétation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interprétation de
la différence entre les moyennes de deux populations ou plutôt de sous-populations.
Algébriquement, nous avons
Yi = β0 + β1 Xi + ui
et
⇒ E (Yi |Xi = 1) = β0 + β1 × 1 + E (ui |Xi = 1) = β0 + β1 .
On écrit dans le manuel qu’il y a équivalence entre d’une part estimer le modèle de régression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes échantillon-
nales des sous-échantillons. Dans l’encadré qui suit, je montre cette équivalence. Je montre aussi
l’équivalence entre tester la significativité du coefficient estimé β̂1 et tester la significativité de la
différence entre deux moyennes.
Yi = β0 + β1 Di + ui ,
où Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les-
52
quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que
n
1X n1
D̄ ≡ Di = .
n i=1 n
Pn
i=1 Yi − Ȳ Di − D̄
β̂1 = Pn 2 .
i=1 Di − D̄
n
X 2
Di − D̄
i=1
n0 n1
X
2
X 2
= D̄ + 1 − D̄
i=1 i=1
n 2 n1 2
1
= n0 + n1 1 −
n n
n 2 n 2
1 0
= n0 + n1
n n
n0 n1 2 + n1 n0 2
=
n2
n0 n1 (n0 + n1 ) n0 n1
= 2
= .
n n
Définissons Yi1 la valeur de Yi dans le cas où Di = 1. Définissons Yi0 la valeur de Yi dans le
53
cas où Di = 0. Nous avons
Pn
i=1 Yi − Ȳ Di − D̄
β̂1 =
n0 n1 /n
Pn1 1
Pn0 0
Y − Ȳ (1 − n 1 /n) − Y − Ȳ (n1 /n)
= i=1 i i=1 i
n0 n1 /n
Pn1 1
Pn0 0
i=1 Yi − Ȳ (n0 /n) − i=1 Yi − Ȳ (n1 /n)
=
n0 n1 /n
n1 n0
1 X 1 1 X
Yi0 − Ȳ
= Yi − Ȳ −
n1 i=1 n0 i=1
n1 n1 n0 n0
1 X 1 1 X 1 X 0 1 X
= Y − Ȳ 1− Y + Ȳ 1
n1 i=1 i n1 i=1 n0 i=1 i n0 i=1
n1 n0
1 X n1 1 X n0
= Yi1 − Ȳ − Yi0 + Ȳ
n1 i=1 n1 n0 i=1 n0
n1 n0
1 X 1 1 X
= Y − Y 0.
n1 i=1 i n0 i=1 i
Ceci est tout simplement la différence entre la moyenne échantillonnale de Y pour le sous-
échantillon où Di = 1 et sa moyenne échantillonnale pour le sous-échantillon où Di = 0.
Il faut maintenant montrer que β̂0 est tout simplement égal à la moyenne échantillonnale
de Y pour le sous-échantillon où Di = 0. Nous avons
Pn !
n1 i=1 Yi − Ȳ Di − D̄
β̂0 = Ȳ −
n n0 n1 /n
Pn1 !
Yi1 − Ȳ (1 − n1 /n) − ni=1
Yi0 − Ȳ (n1 /n)
P 0
n1 i=1
= Ȳ −
n n0 n1 /n
n0 Pn1 n1
Pn0
1
i=1 Yi − Yi0 − Ȳ n0nn1 + Ȳ n0 n1
n1 n n i=1 n
= Ȳ −
n n0 n1 /n
n0 Pn1 1 n1 Pn0 0
n1 n i=1 Yi − n i=1 Yi
= Ȳ −
n n0 n1 /n
54
n 1 n 0 n
1X 1X n1 X
= Yi − Yi1 + Y0
n i=1 n i=1 n0 n i=1 i
n1 n0
! n n
1 0
1 X X 1X n1 X
= Yi1 + Yi0 − Yi1 + Y0
n i=1 i=1
n i=1 n0 n i=1 i
n0
X
1 n1
= + Yi0
n n0 n i=1
n0
1 X
= Y 0,
n0 i=1 i
ce qui fut à démontrer. La statistique t pour tester la significativité du coefficient estimé β̂1 est
donnée par la formule habituelle :
β̂1
t= .
SE β̂1
Ȳ 1 − Ȳ 0
=q ,
1
Var Ȳ + Var Ȳ 0
Ȳ 1 − Ȳ 0 − 0
= q 2 ,
σ 1 σ2 0
Y
n1
+ n0 Y
où
n1 n0
1 X 1 X
Ȳ 1 ≡ Yi1 , Ȳ 0 ≡ Y 0.
n1 i=1 n0 i=1 i
Cette formule correspond exactement à la formule dérivée dans le chapitre sur la statistique
et les tests d’hypothèses pour tester la différence entre les moyennes de deux populations
différentes.
Ici, l’hypothèse d’hétéroscédasticité permet à la variance de l’erreur du modèle de
régression de dépendre des deux valeurs différentes possibles de Di .
55
12 Concepts à retenir
13 Références
Voir ce lien :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf
56