Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Julien H Bouvet
Second Semestre 2015
Introduction
Chapitre Premier
Chapitre Deuxième
Chapitre Troisième
Chapitre Quatrième
C = α + βR (1)
On peut estimer β pour plusieurs pays sur une seule période ou pour i pays sur
t périodes.
On nomme cross-section une estimation en coupe instantanée, et panel un esti-
mation pour t périodes et i pays.
yt = α + βxt + εt (2)
On estime les paramètres en minimisant les erreurs d’estimation au carré.
1
P
(xt − x̄)(yt − ȳ)
β̂ = P (3)
(xt − x̄)
E(β̂) = E(β) = 0 (4)
Il s’agit donc d’un estimateur sans biais
δ(εt 2 )
V ar(β̂) = P =0 (5)
(xt − x̄)2
Sous les hypothèses structurelles du modèle on teste une hypothèse nulle, test
de Student.
β̂
∼ Student(T − 2) (7)
σ̂β̂
β̂
| | > Student(T − 2) (8)
σ̂β̂
X X X
(yt − ȳ)2 = (yˆt − ȳˆ)2 + εt 2 (9)
SCT = SCE + SCR (10)
(yˆt − ȳˆ)2
P
2
R =P (11)
(yt − ȳ)2
2
Il existe plusieurs types de modèles
yt = α + βxt + εt (12)
Dans un modèle lin-lin quand x croı̂t de 1 y croı̂t de β
lin-log
yt = α + βlog(xt ) + εt (13)
Dans un modèle lin-log si x croit de 1% y croı̂t de β unité
log-lin
(Y, X) ∈ Mn,n R
Y = X + β + ε (15)
(n,1) (n,k+1) (k+1,1) (n,1)
β̂ = (X t X)−1 X T Y (16)
Si notre but est d’estimer les paramètres, les MCO sont suffisants. Mais si
on recherche les valeurs de ces paramètres, la valeur prédite de la variable à
expliquer est proche de l’espérance de Y sachant xi
On doit faire des hypothèses sur la façon dont les valeurs sont obtenues.
yi dépend de xi et de εi . Il convient donc de spécifier xi et εi pour trouver des
inférences statistiques sur yi , α et β.
Une fois ces valeurs obtenues il faut tester les hypothèses qu’on a supposées
valides.
3
Les 11 postulats du modèle gaussien-classique de la régression
linéaire
Premier Postulat : Linéarité en paramètres ou en variables
Yt = α1 α2 Xt + εt (17)
On ne peut estimer séparément les paramètres car l’équation n’est pas linéaire
dans ses paramètres. Il en va tout autant de l’équation suivante.
Y = αn Xt + εt (18)
On suppose un modèle
Yi = β1 + β2 xi + ui (20)
les résidus ont une distribution dont la variance est la même quelque soit la
variable x
V ar(ui |xi ) = σi 2 (21)
Il y a plus de dispersion dans la consommation des riches. Plus les valeurs
de x sont élevées, plus ui varie et moins l’estimation de Y est précise.
4
Figure 2: Dispersion des consommations
Yt = β1 + β2 Xt + ut (23)
ut et ut−1 sont positivement corrélées.
Cov(ui , Xi ) (25)
Septième Postulat
Le nombre d’observations doit être plus grand que le nombre de paramètres à
estimer. Si on a deux variables X et Y et seulement deux observations, il n’y
a pas de variations donc on ne peut pas estimer les valeurs des paramètres. Il
faut au moins deux autres observations.
5
Figure 3: Dispersion des consommations
Huitième Postulat
Les valeurs de X ne peuvent pas être les mêmes quelques soient les observa-
tions. X ne peut pas avoir toujours la même valeur.
P
(xi − x̄)(yi − ȳ)
β= P (26)
(xi − x̄)2
Neuvième Postulat
Le modèle de régression est correctement spécifié, il n’y a pas de biais de
spécifications. Avant de construire le modèle il faut s’interroger sur les vari-
ables à inclure dans le modèle. Quel doit être la forme fonctionnelle du modèle,
le modèle est-il linéaire par rapport aux paramètres ou par rapport aux vari-
ables?
Dans la courbe de phillips Xi est le taux de chômage et Yi le taux de variation
du salaire nominale dans le pays i
Yi = α1 + α2 Xi + ui (27)
1
Yi = β1 + β2 + ui (28)
Xi
6
L’équation (28) présente un modèle qui n’est pas linéaire entre Yi et Xi
à cause du biais de spécification entre les valeurs a et b on surestime systématiquement
la liaison qui existe entre chômage et inflation. On surestime les valeurs de
l’inflation et les conclusions seront biaisées. Il faut donc estimer le modèle (28)
et non le modèle (27).
Dixième Postulat
Absence de multicolinéarité parfaite
Onzième Postulat
Normalité de u. Les résidus sont normalement distribués. Même si les résidus
ne sont pas normalement distribués on peut faire l’hypothèse que u suit une loi
normale quand le nombre d’observations tend vers l’infini.
7
1 Chapitre Premier : Multicolinéarité
Quelle est la nature de la multicolinéarité ?
La multicolinéarité est-elle véritablement un problème ?
Quelles sont les conséquences pratiques de la multicolinéarité ?
Comment détecter la multicolinéarité ?
Quelles sont les mesures correctives utiles pour atténuer la multicolinéarité ?
X2 X3 X4
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152
8
Figure 5: Léonidas aux Thermopyles
Yi = β0 + β1 X1 + β2 X2 2 + β3 X3 3 + εi (34)
Première source
La méthode de collecte des données. Lorsqu’on estime des modèles économétriques
on utilise un échantillon de la population qui contient un nombre limité de
valeurs prises par les variables explicatives. Si je dispose des valeurs de toute
la population peut-être que X1 et X2 ne sont pas colinéaires, le problème peut
venir de l’échantillonage.
Deuxième source
Les contraintes sur le modèle ou dans la population, si je veux estimer la
consommation d’électricité comme variable dépendante et le revenu du ménages,
et la surface de la maison comme variables explicatives. Il y a une contrainte
physique, normalement lorsque le revenu des ménages augmente, la surface des
maisons augmente également, il y a donc un problème de colinéarité dans le
modèle.
Troisième source
La spécification du modèle. Si on inclut des termes polynômiaux à un
modèle de régression on ajoute également le problème de multicolinéarité dans
le modèle. Si par exemple on veut étudier l’hypothèse de Kuznets.
9
Figure 6: Le coefficient de Gini illustre la courbe de Kuznets
Quatrième source
Trop de variables explicatives et trop peu d’observations : surdétermination
Cinquième source
Quand on travail avec des séries temporelles. Si on veut expliquer la consom-
mation de la France, on a des données annuelles, trois variables explicatives qui
suivent plus ou moins les mêmes tendances au cours du temps (PIB, Revenu,
...)
Si on veut étudier la consommation en France selon les importations et le revenu
il y a une colinéarité entre revenu et importations.
Estimation en colinéarité parfaite
d ûi 2
P
=0 (38)
dβ̂i
X2i − X̄2 = x2i (39)
X3i − X̄3 = x3i (40)
( yi x2i ) x23i − ( yi x3i ) x2i x2i
P P P P
ˆ
β2 = P 2P 2 P (41)
x2i x3i − ( x2i x3i )2
10
( yi x3i ) x22i − ( yi x2i ) x2i x3i
P P P P
βˆ3 = P 2P 2 P (42)
x2i x3i − ( x2i x3i )2
x3i = λx2i (43)
yi x2i )(λ2 x22i − (λ yi x2i )(λ x2i x2i )
P P P P
(
βˆ2 = P 2 2P 2 P (44)
x2i (λ x2i ) − λ2 ( x2i 2 )2
On obtint quelque chose d’indéterminé de la forme 00
β2 comme β3 mesure le taux de variation de la valeur moyenne de y suite à
une variation de x2 en maintenant constante x3 . Lorsqu’il y a une colinératié
parfaite entre x2 et x3 il n’y a aucun moyen de garder constante x3 quand x2
varie. Dans ce cas on ne peut pas faire d’analyse ceteris paribus
ûi 2
P
d X
=2 (yi − α̂x2i )(−x2i ) = 0 (48)
dα
X X
α̂ = x2i yi x2 2 (49)
11
population lorsque le nombre d’échantillons augmente.
La consommation dépend de deux variables, le revenu et la richesse
Première Conséquence
σ2
V ar(βˆ3 ) = P 2 (1 2 ) (55)
X3i − r23
Avec r le coefficient de corrélation entre x2 et x3 La vitesse de l’augmentation
de la variance peut être mesurée par un coefficient appelé VIF (Variance inflating
factor)
1
V IF = 2 (56)
1 − r23
σ2
V ar(βˆ2 ) = P 2 .V IF (57)
x2i
2
Si r = 0 alors on obtient une valeur de Pσ 2
x2i
12
Figure 7: Le VIF en fonction du coefficient de colinéarité
r23 V IF
0 0,5
0,5 1,33
0,9 5,76
0,95 10,26
0,999 100
0,9999 500
13
Deuxième Conséquence
Dans un modèle à k variables on à
σ2 1
V ar(βˆj ) = P 2 . (58)
xj 1 − Rj 2
r23 2 95% q 2
0 βˆ2 ± 1, 96 Pσx2
2iq
√
βˆ2 ± 1, 96. 1, 33 Pσx2
2
0,5
2i
√ q
βˆ2 ± 1, 96. 10, 26 Pσx2
2
0,95
2i
Troisième conséquence
βˆ2
t= (60)
σβˆ2
Quand σβˆ2 , t décroı̂t, on a plus de chance d’être dans la zone H0 on aura
tendance à accepter H0 à tort
Quatrième conséquence
Compte tenue de la troisième conséquence on accepte à tort H0 si on fait un test
de Fischer, on trouve globalement que les paramètres sont globalement signifi-
catifs, test de Student et de Fischer sont contradictoires et le R2 est très élevé,
c’est le signe de la multicolinéarité. En cas de multincolinéarité les MCO sont
impuissants à calculer les paramètres du modèle.
Cinquième Conséquence
La sensibilité des résultats de l’estimation. En multicolinéarité les résultats de
l’estimation sont très sensibles à des variations dans les bases de données. On
peut utiliser une base données de dix observations, on trouve des paramètres
non significatifs. Si on modifie une seule observation, une seule valeur alors on
peut avoir des paramètres qui sortent significatifs. Toutes les conclusions sont
alors différentes. En multicolinéarité l’estimateur de MCO est hypersensible.
14
Détection de la colinéarité
La multicolinéarité est une question de règle et non de nature. Il ne s’agit
pas de savoir s’il y à colinéarité, mais de savoir si cette colinéarité est forte ou
faible.
La multicolinéarité est une caractéristique de l’échantillon et non pas de la pop-
ulation. Dans chaque échantillon les variables économiques sont non stochas-
tiques. On peut mesurer la multicolinéarité dans un échantillon donné. Cette
multicolinéarité sera spécifique à un échantillon donné. Quand on a des valeurs
de coefficients de déterminations élevés mais peu de statistiques de t significa-
tives (un coefficient de détermination élevé, disons 0,95 mais individuellement
les paramètres ne sont pas significatifs) alors il faut dire qu’il peut y avoir une
multicolinéarité.
On peut utiliser les coefficients de de TOL ou de VIF si Rj2 , imaginons le modèle.
Y = α + β1 X1 + β2 X2 + β3 X3 + ε (61)
σ2 1
V ar(βˆj ) = P 2 ( ) (62)
Xj 1 − Rj2
P 2
Si on a une valeur de VIF élevée, on peut avoir une valeur de Xj elevée
également, donc les deux valeurs peuvent se compenser. D’où suit qu’une valeur
élevée de VIF n’est une condition ni nécessaire ni suffisante pour conclure à la
multicolinéarité. Le problème de multicolinéarité ne se pose pas ici. Même si
les variables sont colinéaires on a V ar(βˆj ) faible.
xj = Xj − X̄ (63)
I. Test de Klein
Yi = α0 + α1 X1 + ... + αk Xk + ε̂ (64)
2 Cov(Xi , Xj )2
rX i Xj
= (65)
V (Xi ).V (Xj )
1X
Cov(Xi , Xj ) = (Xi − X̄)(Yi − Ȳ ) (66)
T
et
SCE V (Ŷ )
R2 = = (67)
SCT V (Yt )
Si
2
rX i Xj
> R2 (68)
15
Alors il y a présomption de multicolinéarité.
Toutefois, attendu que la multicolinéarité augmente la valeur de R2 le test
de Klein n’est pas un test fiable pour rejeter la multicolinéarité. Il convient de
le compléter avec un test de Farrar et Glauber.
II. Test de Farrar et Glauber
DA = ad − bc (72)
Et pour une matrice 3x3
a b c
B = d e f (73)
g h i
16
On ne fait rien, les estimateurs sont BLUE. La multicolinéarité vient de
l’échantillon.
Deuxième solution
Normalement certaines variables peuvent être corrélés (revenus et richesses
par exemple) pour diminuer cette colinéarité on peut faire une transformation
de variables.
Y = β1 + β2 X2 + β3 X3 + ui (76)
on pose a priori β3 = 0, 1β2 . On pose que l’effet de la richesse sur la con-
sommation est 10% du revenu sur la consommation.
Troisième solution
Combinaison des séries en coupe instantanée et des séries temporelles
Quatrième solution
On peut supprimer l’une des variables colinéaires, mais cela peut induire un
biais de spécification. Si la variable enlevée expliquait notre variable à expliquer
alors le paramètre à estimer à la fin sera biaisé.
Cinquième possibilité
La transformation des variables.
vt = ut − ut−1 (81)
Or d’après l’hypothèse 5 COV (Vt , Vt−1 ) 6= 0
17
vt et vt−1 sont corrélés donc COV (Vt , Vt−1 ) 6= 0
Sixième solution
Lorsqu’on détecte une colinéarité, il peut y avoir moins de colinéarité dans
un autre échantillon
σ2 1
V ar(βˆj ) = P 2 . (82)
xj 1 − Rj 2
X X
x2i = X2 − X̄2 (83)
Le risque est de rejeter H0 à tort alors qu’elle est vérifiée. on a α − 1% de
chance de se tromper dans ce sens.
On dit parfois que la multicolinéarité n’est pas un problème si notre objectif
est de faire des prévisions. On peut effectivement utiliser un modèle estimé pour
faire des prévisions même s’il y a multicolinéarité. Cet argument est vrai si et
seulement si la multicolinéarité existe dans chaque période à venir. Les valeurs
des paramètres sont tellement élevées que même en divisant par les écarts-types
on obtient encore des valeurs significatives.
18
2 Chapitre II: Hétéroscédasticité.
Homoscédasticité signifie l’égalité de la variance, l’espérance de E(u2i ) = σ 2 la
variance des termes de l’erreur est une constante, ne variant pas d’un individu
à un autre, ni d’une période à une autre.
Plusieurs cas de figure quant à la distribution des résidus.
Les ménages riches consomment plus que les ménages pauvres mais il y a
plus de variation dans leur consommation.
19
de tous les pays développés avec la Chine. La Chine sera la seule a avoir
une croissance forte pour de fortes émissions, on peut alors estimer des
valeurs des paramètres incorrectement.
4. Si le modèle est mal spécifié il peut y avoir un problème d’hétéroscédasticité,
soit la forme fonctionnelle estimée n’est pas correcte, soit il y a des vari-
ables omises, à causes de ces deux raisons. Il apparaı̂t une hétéroscédasticité.
Il faut revenir à la construction du modèle.
5. La présence d’une asymétrie dans la distribution d’une ou plusieurs vari-
ables. Si le revenu des individus est la variable explicative, on sait que
la distribution du revenu n’est pas égalitaire cela peut engendrer une
hétéroscédasticité.
6. On a plus de chance d’avoir une hétéroscédasticité lorsqu’on travail avec
des données en coupe instantannée. Si on considère la taille des en-
treprises et le salaire moyen dans ces entreprises on constate une rela-
tion linéaire positive entre le salaire moyen et l’écart-type des salaires. En
général lorsque la taille de l’entreprise augmente le salaire moyen augmente
également mais il y a plus de variations dans les salaires.
Yi = β1 + β2 Xi + ui (84)
Au premier semestre on a vu que
P P
(Xi − X̂)(Yi − Ŷ ) si yi
βˆ2 = = P 2 (85)
yi
P
(Xi − X̂)2
X X
xi Yi − Ŷ Xi − X̂ (86)
P
or Xi − X̂ = 0 X
xi Yi (87)
d’où suit P
ˆ xi Yi X
β2 = P 2 = ki Yi (88)
xi
avec ki = Pxi 2
xi
X
βˆ2 = ki (β1 + β2 Xi + ui ) (89)
X X X
βˆ2 = ki β1 + β2 ki Xi + ki ui (90)
P P
Or ki = 0, ki Xi = 1 et E[ui ] = 0
E[βˆ2 ] = β2 (91)
20
X
V ar(βˆ2 ) = E( ki ui )2 (92)
Lorsque les résidus sont homoscédastiques la variance est constante pour
tout i. Pas de corrélation entre les résidus E(ui uj ) = 0∀i 6= j
X
V ar(βˆ2 ) = ki2 σi2 (93)
P 2 2
ˆ x σ
V ar(β2 ) = P i2 i2 (94)
( xi )
L’estimateur des MCO est toujours sans biais parce que la variance de ui ne
joue pas un rôle dans la détermination des propriétés de biais des estimateurs.
βˆ2 est sans biais sans pour autant être le meilleur estimateur car la variance
n’est pas minimale.
Ici X est certaine, une matice de plein rang. Si on ne respecte pas l’hypothèse
Y = Xβ ou E(u) = 0 alors le paramètre est biaisé.
On rappelle l’hypothèse 2 qui rejette l’autocorrélation entre les résidus sans
cela le MCO n’est plus le meilleur. Pour trouver l’estimateur BLUE il faut
trouver l’estimateur des moindres carrés généralisés (MCG).
Pour des classes d’entreprises différentes on a des salaires différents et des
écarts-types différents. Quand la taille de l’entreprise augmente, l’écart-type et
le salaire moyen augmente. La méthode des moindres carrés généralisés est de
pondérer davantage la classe qui a le moins de variations. on reprend le modèle
Yi = β1 X0i + β2 Xi + ui (95)
avec X0i = 1∀i On divise toutes les variables par σi
Yi X0i Xi ui
= β1 + β2 + βi (96)
σi σi σi σi
ui 2 E(u2i ) σ2
V ar(u∗i ) = E(u∗i )2 = E( ) = 2 = i2 = 1 (98)
σi σi σi
Ainsi les meilleurs estimateurs sans biais sont βˆ1∗ et βˆ2∗ . En introduisant une in-
formation supplémentaire dans le modèle on obtient des résidus homoscédastiques.
Ainsi pour que les estimateurs soient BLUE il faut que la variance des résidus
soit homoscédastique.
P ∗2
ˆ
P ∗
On cherche désormais à minimiserP ui2 = (Yi − β1∗ X0i∗
− β2∗ Xi∗ )2 On
1
note wi = σ2 il faut donc minimiser wi ûi
i
En présence d’homoscédasticité, si wi = w alors Ȳ ∗ = Y et X̄ ∗ = X
P P P P
ui ( wi Xi Yi ) − wi Xi wi Yi
(99)
wi wi Xi2 − ( wi Xi )2
P P P
21
wi u2i . C’est à dire qu’on minimise la somme
P
Avec les MCG on minimise
des carés résiduels pondérés par
P w2i . Dans les méthodes des MCO en revanche
les résidus sont équipondérés ui Dans la méthode MCG les observations qui
viennent des populations avec σi élevé auront un poids relativement plus faible
et celles qui viennent des populations avec σi faible auront un poids plus élevé.
Avec la méthodes des MCO tous les points sont équipondérés quel que soit la
distance entre le points et la droite de régression. Mais en estimation MCG les
points les plus éloignés de la droite de régression auront des poids relativement
plus faible.
1. On utilise βˆ2 P 2 2
x σ
V ar(βˆ2 ) = P i2 i2 (102)
( xi )
22
En général
∗ ∗
V ar(βˆ2 ) ≤ V ar(βˆ2 ) (103)
On a donc une variance inutilement élevée. Et les intervals de confiance
seront dans ce cas la plus large. Alors les statistiques de t peuvent donner
des résultats incorrects. J’aurais tendance à accepter l’hypothèse nulle et
conclure que la variable n’est pas significative alors qu’elle l’est.
2.
σ2
V ar(βˆ2 ) = P 2 (104)
xi
La valeur de V ar(βˆ2 ) est fausse s’il y a hétéroscédasticité. Il peut s’agir
d’une surestimation ou d’une sous-estimation.
Yi = β1 + β2 Xi + ui (107)
α M CO M COH M CG
0,5 0,285 0,27 0,24
1 0,246 0,247 0,17
2 0,2 0,22 0,10
3 0,17 0,206 0,05
4 0,15 0,19 0,01
23
Systématiquement le MCO surestime l’écart-type. L’écart type est toujours
plus petit avec la méthode MCG. M COH est plus équivoque. D’où suit que
l’hétéroscédasticité nécessite d’utiliser la méthode MCG.
σ 2 peut être connue si nous avons toute la population Y correspondant aux
valeurs de x choisies. En économie on utilise des échantillons dans lesquels une
seule valeur de Y correspond à une valeur particulière de x. Dans le cas d’une
étude économétrique l’hétéroscédasticité peut-être une question d’intuition d’une
expérience ou bien d’une étude ex-ante.
Les méthodes informelles pour détecter l’hétéroscédasticité.
On peut considérer la nature du problème étudié, dans des données en coupe
instantanée qui contiennent des données hétérogènes l’hétéroscédasticité est sou-
vent présente. Lorsqu’on étudie le revenu des individus comme une variable
explicative ou bien comme une variable à expliquer il convient d’être attentif à
l’hétéroscédasticité.
On peut utiliser la méthode graphique. En regardant les résidus au carrés
on peut étudier uˆ2i pour voir s’il y a une tendance systématique.
24
Méthodes formelles
Test de Park
|ûi | = β1 + β2 Xi + vi (115)
i Yi Xi Yi Xi
1 65 2 30 1
2 60 3 40 1,5
3 30 1 65 2
4 40 1,5 60 3
25
Pour choisir quel X qu’on va utiliser pour trier les données on peut utiliser
le test de Park alors on estime le modèle linéaire et pour chaque X on fait un
text de park et on regarde à chaque fois la significativité du test de park. Alors
on a trié nos données. On passe ainsi à l’étape 2, on va supprimer une quantité
c d’observations centrales (au milieu de la base de données). On va faire une
régression des MCO séparément sur ces deux sous-échantillons. La Somme des
carrés résiduel du modèle 1 est pour le sous-échantillon qui contient les valeurs
les plus petites pour xi . étape 4
SCR2 /dl
λ= (116)
SCR1 /dl
Si cette valeur nR2 est supérieure à la valeur critique pour un seuil donné,
on rejette l’hypothèse nulle et on conclue qu’il existe une hétéroscédasticité.
Dans ce cas lo il faut conclure que la variance de l’erreur de l’estimation est
fonctionnellement reliée aux variables explicatives. Si en revanche la valeur
trouvée est inférieur à la valeur critique alors il y a homoscédasticité.
Sous l’hypothèse nulle
α2 = α3 = α4 = α5 = α6 = 0 (121)
26
Le nombre de variables élevé tend à diminuer la fiabilité du modèle. Quand
on a peu d’observation ce test peut donner des estimation biaisées. Plus le degré
de liberté est élevé par rapport au nombre d’observations moins l’estimation est
fiable.
Si en faisant le texte de white on rejette l’hypothèse nulle cela n’implique pas
nécessairement une hétéroscédascticité, on a peut-être un biais de spécification.
On accepte l’argument selon lequel si on introduit pas les variables croisées à
l’étape 2, le test de white devient un test d’hétéroscédasticité pure. Si on a dans
l’équation des variables croisées, alors il s’agit d’un test à la fois d’hétéroscédasticité
et de biais de spécification.
Des mesures correctives En présence d’hétéroscédasticité les
estimateurs des MCO ne sont pas les meilleurs. Les test peuvent être faux il
faut donc corriger le problème. Il existe principalement deux approches.
Première approche
σi2 est connu. Si on connait la variance hétéroscédastique, alors la méthode
MCG est la méthode qui nous donne les estimateur BLUE.
Première approche
σi2 n’est pas connu. On a alors la méthode des variances consistantes d’hétéroscédasticité
de White. Pour corriger l’hétéroscédasticité il faut calculer les variances consis-
tante d’hétéroscédasticité de white.On considère un modèle de régression simple
et on suppose qu’il s’agit d’une hétéroscédasticité.
Yi = β1 + β2 Xi + vi (122)
On sait que P 2 2
ˆ x σ
V ar(β2 ) = P i2 i2 (123)
( xi )
White propose d’utiliser ûi 2 au lieu des σi2
d’où P 2 2
x ûi
V ar(βˆ2 ) = P i 2 2 (124)
( xi )
White montre que lorsque la taille de l’échantillon augmente la valeur de l’équation
(117) converge vers l’équation (116). On calcule l’équation 117 considérée
comme la variance de βˆ2 On corrige
wˆji 2 ûi 2
P
ˆ
V ar(βj ) = P (125)
( wˆji 2 )2
wˆ2i 2 ûi 2
P
ˆ
V ar(β2 ) = P (126)
( wˆ2i 2 )2
27
On les appelle les variance de White ou les variances robustes. Un autre
manière de traiter l’hétéroscédasticité est de faire des hypothèse sur la nature
de l’hétéroscédasticité. Plus complexe que la méthode de White car la méthode
de White nécessite un échantillon assez large. On suppose que la variance de
l’erreur est proportionnel à X 2 on a donc E(u2i ) = σ 2 Xi2 . Entre x et σ 2 on a
une relation comme suit.
1 1
E(vi2 ) = E.(u2i ) = 2 σ 2 Xi2 = σ 2 (128)
Xi2 Xi
On obtient bien une variance homoscédastique
Deuxième Hypothèse
E(u2i ) = σ 2 Xi (129)
28
1 p
β1 √ + β2 Xi + vi (130)
Xi
Troisième hypothèse
Yi β1 Xi ui
= + β2 + (131)
E( Yi ) E(Yi ) E(Yi ) E(Yi )
E(vi2 ) = σ 2 (132)
Pour corriger l’hétéroscédasticité en faisant la troisième hypothèse on passe
par deux étapes, d’abord on fait une regression de notre modèle initial, après
on estime les paramètres βˆ1 , et βˆ2 , on obtient Ŷi
Yi 1 Xi
= β1 + β2
+ vi (133)
Ŷi Ŷi Ŷi
4. Quatrième hypothèse On peut transformer le modèle en un modèle log-
linéraire.
Yi = β1 + β2 Xi + ui (134)
Silver loup transformation
29
x pour décider quelle hypothèse retenir. Si pour une variable explicative x2 on
trouve des résidus plutôt à variance croissante exponentiellement alors on peut
décider de diviser le modèle par x2 La transformation en log ne peut pas être
effectuée si Y ou X ont des valeurs nulles ou négatives. avec des observations
nulles ou négatives, même une seule, alors on ne peut pas faire ces transforma-
tions. Pour chaque variable une constante k suffisamment grande pour avoir à
chaque fois Yi + k > 0 et Xi + k supérieur à 0.
La transformation du modèle peut créer une fausse corrélation. Si les vari-
ables, x1 , x2 , x3 sont non corrélées, autrement dit r12 = r13 = r23 = 0. alors
X1
on aura des variables expicatives X 3
et X
X3 alors les variables seront corrélées.
2
On suppose que
u2 = δ 2 + δ0 + δ1 X1 + ... + δn Xn (139)
30
ĥi = exp(gˆi ) (144)
On divise par ĥi . Comme on ne connait pas σi on utilise h pour remplacer
σi
Yi β0 X1 i X2 i Xh i
= + β1 + β2 + ... + βh (145)
ĥi ĥi ĥi ĥi ĥi
En définitive l’hétéroscédasticité ne doit pas être une raison de rejeter un
bon modèle. Il est difficile de faire des conclusions générales sur le dommage
causé par l’hétéroscédascticité. Cela dépends de la variation de σi2 , de la taille
de l’échantillon, ou encore de la relation entre les X et σi2 . La méthode des
MCG est plus efficace que celle des MCO. On peut dire que si la plus grande
variance de l’erreur est dix fois plus élevée que la plus petite variance on peut
s’inquiéter du problème d’hétéroscédasticité.
31
3 Chapitre Troisième : Autocorrélation
Il existe trois types de données pour des analyses empiriques
1. Les données en coupe instantannée ou cross section
2. Les série temporelles ou time series
3. Les données en panel ou panel data
Certaines hypothèses des MCO peuvent ne pas être vérifiées pour chaque
type de données. L’hypothèse d’homoscédasticité ne se vérifie pas en général
lorsqu’on utilise des données en coupe. Cependant lorqu’on utilise ces données
en coupe elles viennent d’un échantillon aléatoire. Il n’y a aucune raison d’avoir
une corrélation entre les termes d’erreur des différents ménages ou des en-
treprises. Le problème d’autocorrélation ne se pose pas en coupe instantannée
(la plupart du temps) car les données proviennent d’un tirage aléatoire.
En revanche, en série temporelle, les données suivent un ordre au fil du temps
et les observations successives sont susceptibles de présenter des intercorrélations
surtout lorsque l’intervalle de temps entre les observations est court. Si par
exemple on observe les indices de prix des actions sur le CAC40 on observe
que ces indices augmentent ou diminuent pendant plusieurs jours successifs.
Alors l’hypothèse de l’absence d’autocorrélation entre les résidus sera violée
(hypothèse 5).
Quelle est la nature de l’autocorrélation ?
Quelles conséquences théoriques et pratiques ?
Comment détecter l’autocorrélation ?
Comment peut-on résoudre le problème d’autocorrélation ?
La nature de l’autocorrélation
On peut définir l’autocorrélation comme la corrélation entre les membres
d’une série d’observations ordonnées dans le temps ou dans l’espace. Le modèle
classique de régression linéaire suppose qu’une telle autocorrélation n’existe pas
pour le terme d’erreur u.
E(ui , uj ) = 0 (146)
avec i 6= j La covariance est nulle.
Le terme d’erreur associé à une observation i n’est pas influancé par le terme
d’erreur associé par une autre observation j. ui n’a pas d’effet sur uj . Si
nous avons des données trimestrielles et que nous faisons une régression de la
production sur le capital et le travail. Et s’il y a eu une grève qui a affecté
le facteur travail sur un trimestre, on peut imaginer qu’elle n’affectera pas le
facteur suivant. Un choc exogène n’affecte que le terme d’erreur d’une période.
L’effet d’une augmentation du revenu d’un ménage sur sa consommation ne
doit pas affecter les dépenses de consommation d’un autre ménage. S’il y a
dépendance entre les termes d’erreur il y a autocorrélation et E(ui , uj ) n’est
pas égal. Symétriquement l’augmentation de la consommation d’un ménage
affecte celle de l’autre.
32
Figure 14: L’autocorrélation illustrée (1887, Armand Colin)
Deuxième raison
Le biais de spécification, cas de variables omises. Lorsqu’on fait un modèle
empirique, après avoir estimé le modèle on vérifie si les résultats sont conformes
à la théorie économique ou aux intuitions a priori. Si ce n’est pas le cas, on peut
tracer les résidus pour voir s’il y a une tendance. Ces résidus peuvent indiquer
que certaines variables omises doivent être incluses dans le modèle. Lorsqu’on
introduit ces variables initialement omises on fait disparaı̂tre l’autocorrélation
des résidus.
33
modèle
vi = β3 Yi2 + ui (152)
Le terme d’erreur capte l’effet de Y 2 ce qui engendre une autocorrélation.
Troisième raison
Le phénomène de la toile d’araignée. Dans la plupart des cas l’offre des pro-
duits agricoles peut être représentée par un modèle de la toile d’araignée. Pour
les cultivateurs le prix actuel d’un produit agricole permet d’anticiper les prix
futurs de ce même produit. Si le prix du blé est supérieur à celui du maı̈s, alors
l’offre de maı̈s sera très faible à la période suivante. L’offre réagit au prix relatif
34
avec un décalage d’une période de temps. La production de blé à t dépend des
prix à t-1. Si pt < pt−1 c’est qu’on a produit trop de blé à t, donc à la période
suivante on va passer au maı̈s. Alors les erreurs ut ne peuvent pas être aléatoires
car si les cultivateurs surproduisent en t alors ils diminuent leurs productions
en t+1 ce qui engendre une autocorrélation des résidus.
Quatrième raison
Les retards. La consommation en t peut-être expliquée par la consomma-
tion en t-1 et le revenu actuel. Cet ajustement s’appelle une autorégression car
l’une des variables explicative est la valeur retardée de la variable à expliquer.
Les consommateurs ne changent pas leurs comportements de consommations
pour des raisons psychologiques, technologiques ou sociales. Si nous négligeons
la consommation retardée dans cette analyse empirique, le terme d’erreur aura
une tendance systématique en raison de l’influance de la consommation retardée
sur la consommation actuelle.
Yt = β1 + β2 Xt + ut (153)
Yt est la consommation à t et X le revenu.
35
Sixième raison
La non stationnarité. Une série temporelle est stationnaire si ses caractéristiques
(la moyenne, la variance et la covariance) sont constante dans le temps, si ce
n’est pas le cas la série est dire non stationnaire, si X et Y sont non stationnaire
alors u sera également non stationnaire. Lorsque u est non stationnaire il est
également autocorrélé. La plupart des séries temporelles en économie présentent
une autocorrélation positive.
Figure 16: Premier prix 1997 du concours de l’école des Beaux Arts de Nı̂mes
Ici la corrélation est positive. Lorsque ut est positive ut−1 est positive.
Yt = β1 + β2 Xt + ut (159)
On suppose un mécanisme pour le terme d’erreur. On suppose que
ut = ρut−1 + εt (160)
36
On suppose qu’on a un AR(1)
ut = ρut−1 + εt (162)
E(ut ) = ρE(ut−1 ) + E(εt ) (163)
2
V ar(ut ) = ρ var(ut−1 ) + var(εt ) (164)
Cov(ut−1 , εt ) = 0 (165)
ut = ρut−1 + εt (169)
On multiplie de chaque part par ut−1
σε2
ρ. = Cov(ut−1 , ut ) (175)
1 − ρ2
Le terme d’autoregression définit une forme fonctionnelle. Désormais on
multiplie des deux parts par ut−2
37
ρ est le coefficient d’autocorrelation d’ordre 1
Cov(ut , ut−1 )
ρ= (181)
V (ut )
Cov(ut , ut−2 )
ρ2 = (182)
V (ut )
Comme ρ est constant et compris entre -1 et 1 la variance de ut est toujours
homoscédastique. Si ρ = 1 alors les variances et les covariances ne sont pas
définies. Lorsque la valeur absolue de ρ est inférieure à 1, le processus AR(1)
est dit stationnaire. La moyenne, la variance et la covariance de ut ne varient
pas au cours du temps. Lorsque |ρ| < 1 alors la valeur de la covariance entre
ut et ut+s diminue au cours du temps. Plus je me déplace vers le passé plus la
covariance entre la valeur présente et la valeur passée diminue.
Yt = β1 + β2 Xt + εt (183)
En AR(1)
σ2 σ2 X X
V ar(βˆ2 ) = P 2 + 2 P 2 2 . t = 1n − 1 j = 1n − tρj xt xt+j (184)
xt ( xt )
σ2
P P P
xt xt+1 2 xt xt+2 n−t Pxt xn
= .[1 + 2ρ ] + 2ρ ] + ... + 2ρ ] (185)
x2t x2t x2t x2t
P P P
On pose
P P P
xx xx xx
A = [1 + 2ρ Pt 2t+1 ] + 2ρ2 Pt 2t+2 ] + ... + 2ρn−t P t 2n ] (186)
xt xt xt
Xt = ρx Xt−1 + εt (188)
P
xt xt+1
ρx = P 2 (189)
xt
σ 2 1 + ρx + ρ
V ar(βˆ2 )AR(1) = P 2 ( ) (190)
xt 1 − ρx ρ
Si ρx = 0, 6,ρ = 0, 8 → V (βˆ2 )AR(1) = 2, 8V (βˆ2 ) V (βˆ2 ) = 0, 35 et V (βˆ2 )AR(1)
Lorsqu’on a une autocorrélation des résidus, la méthodes des MCO sous-estime
la variance. Ici la variance est sous-estimée d’environ 65
On continue d’utiliser des estimateur des MCO. Désormais on ajuste l’estimation
38
P
ˆ xt yt
βL = P 2 (191)
xt
Qulles sont les propriétés de βˆ2 ?
βˆ2 est toujours sans biais. L’hypothèse de l’absence de l’autocorrélation et
celle de l’homoscédasticité ne sont pas nécessaires pour prouver que βˆ2 est sans
biais. Toutefois βˆ2 n’est pas toujours blue car il n’a pas la variance minimale.
βˆ2 est sans biais mais n’est plus efficace.
Il faut donc utilise les estimateurs des MCG. Dans le cas d’autocorrélation,
les estimateurs MCG sont des estimateurs BLUE.
M CG ˆ (xt − ρx )
P
ˆ
X
βˆ2 = t−1
yt − ρyt−1 ) (xt − ρxt − 1)2 (192)
(
M CG σ2
V ar(βˆ2 )= P (193)
ˆ (xt − ρxt − 1)
Pour obtenir ces estimateurs
M CG
on utilise l’information additionelle sur l’autocorrélation
des résidus. On a obtenu βˆ2 lorsqu’on on a considéré le paramètre qui était
négligé par les MCO. Comme les MCG utilisent toute l’information disponible,
il est normal qu’il soit plus efficace que MCO. si ρ = 0 on n’a pas besoin
d’information additionelle. On a exactement la même équation.
Que se passe-t-il si on continue d’utiliser les estimateur MCO en terme
d’autocorrélation ?
Quelles sont les conséquences de l’autocorrélation ?
On va tout d’abord considérer une estimation MCO en considérant l’autocorrélation.
Soit on utilise les estimateurs MCO en sachant qu’il y a un problème d’autocorrélation
soit on utilise les MCG. Même en utilisant V ar(βˆ2 )AR(1) avec β2 les intervalles
de confiance qu’on va obtenir seront plus larges. Même si la taille de l’échantillon
augmente on a toujours le même résultat. βˆ2 n’est donc pas asymptotiquement
efficace. L’implication de ce résultat pour les tests hypothèses est assez évident:
nous allons trouver un coefficient statistiquement non significatif alors qu’en fait
il pourrait être significatif si nous avions employé les estimateurs MCG
En vers l’intervalle de confiance au seuil de 5% pour les MCG et en rouge
l’intervalle de confiance pour les MCO au seuil de 5%, on teste H0 : β2 = 0 En
MCO on accepte l’hypothèse nulle et β2 n’est pas significatif. Alors qu’en MCG
il est significatif. On accepte l’hypothèse nulle à tort, il s’agit d’un faux négatif,
on dit que la variable est non significative alors qu’elle est : erreur de type II.
IL faut donc utiliser le modèle MCG et non pas le modèle MCO même si les
estimateurs obtenus de ce derniers ne sont pas biaisés.
Deuxième cas de figure : estimation MCO sans tenir compte de l’autocorrélation.
2
Désormais on utilise βˆ2 avec var(βˆ2 ) = Pσ x2
t
On néglige complètement l’autocorrélation et on croit à tort que les hy-
pothèses du modèle classique se vérifient. On a alors plusieurs problèmes.
39
Figure 17: ???
σ 2 [n − (2(1 − ρ))2ρ.ρx )]
E(σˆ2 ) = (196)
n−2
Si ρ et ρx sont tous les deux positifs alors
40
variance résiduelle sous-estimée affecte ensuite la variance du paramètre estimé.
Si on a sous-estimé βˆ2 c’est qu’on va également sous estimer V ar(βˆ2 )
βˆ2
t= (198)
σˆ2β
ˆ2
Yt = α0 + α1 Xt + ut (199)
où α0 = 5 et α1 = 0.7
On suppose que ut suit un processus AR(1). On a donc :
ut = ρut1 + εt (200)
où εt satisfait toutes les hypothèses de MCO. On suppose également que εt Ñ (0, 1)
On va considérer une autocorrélation positive avec ρ = 0.75. On crée tout
d’abord une série εt puis en utilisant l’équation (200) on obtient la série pour
u1t Le Tableau 1 présente ces séries.
On remarque une autocorrélation dans la représentation graphique. Le pre-
mier modèle avec une variable à expliquer qui contient des résidus autorégressifs
et une deuxième qui ne contient pas des résidus autorégressifs. La variable X et
la constante sont significatives. J’obtiens un coefficient égal à 0,57 (pente). La
somme des carrés résiduels est égale à 8. Le coefficient de corrélation égal à 0,77.
J’estime le deuxième modèle qui ne contient pas un processus autorégressif. Si
on applique les MCO dans le premier modèle on trouve une statistique de t
surestimée.
Maintenant nous avons la somme des carrés résiduels égale à 0.99, dans le
modèle avec autocorrélation cette somme est égale à 8 il y a donc surestimation.
Nous avons surestimé.
Quand les résidus suivent un processus autorégressif on a tendance à sures-
timer le coefficient de détermination du modèle. La deuxième estimation est
beaucoup plus proche de la vérité. Le second modèle est meilleur que le pre-
mier. Surestimer la somme des carrés résiduelle implique une surestimation des
statistiques de t.
41
La détection de l’autocorrélation
1. La méthode graphique
On utilise des figures pour détecter l’autocorrélation. L’hypothèse d’absence
d’autocorrélation du modèle classique concerne le terme d’erreur de la popula-
tion ut qui n’est pas observable. Ce que nous avons à la place de ut sont des
proxy, id est des résidus estimés uˆt Même si ut et uˆt ne sont pas exactement
la même chose si on étudie visuellement les uˆt on peut obtenir quelques indices
sur la présence probable d’autocorrélation dans les ut . Cette étude visuelle peut
nous donner des informations non seulement sur l’autocorrélation mais encore
sur l’hétéroscédasticité. Il existe différentes façons de tracer les résidus. En fonc-
tion du temps ou encore tracer les résidus standardisés en fonction du temps.
Les résidus standardisés sont
uˆt
(201)
σ̂
L’avantage de tracer les résidus standardisés vient du fait que les ut sont ex-
primmés en unité de notre étude. Si les variables sont en dollars, uˆt est en
dollar. Et σ̂ est également exprimé en dollar. Le rapport précédent est donc
sans unité. Ces résidus standardisé ont une moyenne nulle et une variance ap-
proximativement égale à 1. C’est pourquoi on les appelle des résidus studentisés.
En abscisse le temps et en ordonné les résidus estimés.
Ici il y a une tendance, les résidus ne sont pas aléatoires, on peut tracer uˆt
en fonction de ut−1ˆ . La plupart des résidus sont dans les zones 1 et 4 ce qui
indique une forte autocorrélation entre les résidus.
On regarde désormais le deuxième document de cours. On constate avec
le nuage de point une relation plutôt positive. L’augmentation des prix des
logements est une incitation à investir davantage dans le logement. Mon modèle
explique 50% de la variation de l’investissement dans le logement aux Etats-
Unis. Il peut y avoir une autocorrélation car nous avons des périodes où il
42
Figure 19: ???
43
2N1 N2
E(R) = +1 (202)
N
et
2 2N1 N2 (2N1 N2 − N )
σR = (203)
N 2 (N − 1)
R − E(R)
Ñ (0, 1) (204)
σR
Au seuil de 5 % si on trouve
R − E(R)
| | > N5Y (205)
σR
On rejette l’hypohtèse nulle. Il faut compter les valeurs négatives, les valeurs
positives et les séquences. Dans l’exemple du document de cours nous avons 12
séquences. Désormais on obtient la statistique de test.
on part bien de u2 −u1 Pour qu’on puisse appliquer ce test il faut faire l’hypothèse
que les résidus suivent un processus autorégressif d’ordre 1.
44
ut = ρut−1 + εt (208)
il faut que le modèle ait une constante
P 2 P
ˆ 2 − 2 uˆt 2 ut−1
ˆ 2
P
uˆt + ut−1
d= P 2 (209)
uˆt
ˆ 2
P
Il y a une différence d’une seule observation entre les deux sommes ut−1
P 2
et uˆt
P peut
On dire que ces deuxP sommes sont approximativement égales. Au lieu
de ˆ 2 on va utiliser
ut−1 uˆt 2 On otient don
P 2
uˆt ut−1ˆ 2
d ≈ 2(1 − P 2 ) (210)
uˆt
or X X
uˆt 2 ut−1
ˆ 2 = COV (uˆt ) et uˆt 2 = V ar(uˆt ) (211)
On a donc
d ≈ 2(1 − ρ̂) (212)
d est la statistique de test.
On fait d’abord une estimation par MCO, après on calcule d tenant en
compte la taille de l’échantillon et le nombre de variables explicatives. Après
quoi on treuve les valeurs critiques du test qui sont dL et dU lower et upper.
Le partiel peut demander de calculer soi même, alors pour trouver la valeur
de d il faut calculer ρ̂ à une vache près. Dans le tableau 3 il y a une régression.
La variable explicative est le retard. L1 signifie qu’il s’agit du premier retard de
notre variable u. uL 1 signifie le retard ou encore ut−1
ˆ . on retrouve le coefficient
ρ̂ devant ut−1
ˆ N est le nombre d’observations, k’ est le nombre de variables
explicatives dans le modèle, sans compter la constante. On a 42 observations. Il
faut que le modèle ne contienne pas les valeurs retardées de la variable expliquée.
Cela signifie que dans un modèle dynamique Cette zone indécise là où j’ai écrit
des points d’interrogation, diminue lorsque la taille de l’échantillon augmente,
car cela augmente la précision du test.
Yt = α0 + α1 Xt + α2 Xt−1 + ut (213)
On ne peut pas utiliser le test de Durbin Watson pour une autoregresseion
d’ordre supérieur à 1. Il faut utiliser une autre test.
45
iv) Test de Breusch-Godfrey (BG)
Yi = β1 + β2 Xt + ut (214)
On choisit ici un processus autoregressif d’ordre p
MCO sur R2
3.
(n − p)R2 ∼2n−p (217)
Finalement si cette valeur dépasse la valeur critique lue dans le tableau
de distribution de khi deux, en rejette l’hypothèse nulle et on conclue
qu’il existe au moins un ρ qui est différent de zéro. On a donc une auto-
corrélation. On estime le modèle, on obtient les résultats de l’estimation.
A l’étape 2 on obtient les résidus de cette estimation uˆt
La seule chose dont on a besoin est le coefficient de détermination du modèle.
Exemple : pour R2 = 0, 629, et n − p = 42 − 4 = 38 plus on ajoute de retards
plus on perd des observation. 38 . 0.629 = 23,902
Dans le tableau il n’y a pas la valeur 38 mais la valeur 40, on trouve 20,7
pour la valeur 40. On est donc bien dans la zone de rejet 23,9¿20,7 on rejette
donc l’hypothèse nulle et on accepte l’hypothèse alternative. Un ρ au moins est
significativement différent de zéro.
Comment déterminer la valeur de p, le nombre de retards à inclure dans
l’estimation ? On peut faire ça progressivement, ajoutant 6 ou 7 retards puis
regardant la significativité du dernier retards, s’il n’est pas significatif on le
supprime et on continue. On peut tatonner différemment en sélection progres-
sive ajoutant progressivement des retards et s’arrêtant quand le dernier retard
ajouter est non significatif.
Aikaike Information Criterium
SCR 2k
AIC = ln( )+ (218)
n n
Le modèle qui minimise cette information est le bon modèle. à chaque
modèle on calcule la somme des carrés résiduels. Dans notre exemple la valeur
46
minimale se trouve pour le processus autoregressif d’ordre 2, on ne garde donc
que 2 retards.
Désormais, dès qu’on détecte une autocorrélation on s’intéresse aux mesures
correctives les mesures correctives.
A-t-on une pure autocorrélation ou une mal-spécification du modèle ? Il
faut estimer plusieurs modèles pour savoir s’il s’agit d’une pure autocorrélation.
D’une part on peut estimer un modèle
Yt = β1 + β2 Xt + β3 t + ut (219)
Dans ce premier modèle on à ajouter le trend t On estime ce modèle pour voir
s’il y a toujours une autocorrélation. Ou on peut estimer un autre modèle si on
suppose que la relation entre y et x n’est pas linéaire.
Yt = β1 + β2 Xt + β3 Xt2 + ut (220)
On regarde l’estimation de ces deux modèles dans les documents de cours.
Ici le trend t sort significative mais la variable explicative ne l’est plus. Le test de
Durbin-Watson donne On a toujours une autocorrélation positive. L’autocorrélation
ne vient pas du problème que j’ai oublié de mettre la tendance dans mon modèle.
Quand j’estime le deuxième modèle j’ai ajouté le terme quadratique dans mon
équation, on a les prix et les prix au carré. Ici la variable explicative n’est plus
significative, pire Durbin Watson donne toujours une autocorrélation.
On peut conclure qu’il y a une pure autocorrélation. Elle ne vient pas de la
mal-spécification du modèle.
CORRECTION DE l’Autocorrélation
On considère un modèle de régresstion simple
Yt = β1 + β2 Xt + ut (221)
et un modèle AR(1)
ut = ρut−1 + εt (222)
or
Yt−1 = β1 + β2 Xt−1 + ut−1 (223)
ρYt−1 = ρβ1 + ρβ2 Xt−1 + ρut−1 (224)
On soustrait maintenant cette dernière équation à l’avant dernière.
on pose
Yt−1 − ρYt−1 = Yt∗ (226)
β1 (1 − ρ) = β1 ∗ (227)
β2 (Xt − ρXt−1 ) = β2∗ Xt∗ (228)
Par définition εt n’est pas autocorrélé on a donc dans ce dernier modèle des
estimateurs blue. Ici l’estimation est une estimation MCG car on a utilisé une
information pour corriger l’autocorrélation.
47
Quand ρ n’est pas connu, on peut en premier lieu utiliser la méthode des
différences premières, on fait une différence première de ces deux variables X et
Y en supposant que ρ est égal à 1. ρ = 1
Yt ∗ = Yt − ρ̂Yt−1 (234)
Xt∗ = Xt − ρ̂Xt−1 (235)
linvt∗ = linvt − 0, 762linvt−1 (236)
lprice∗t = lpricet − 0, 762lpricet−1 (237)
avec un estimateur MCG faisable (feasable) on corrige l’autocorélation.
désormais on régresse le résidus sur sa valeur retardé.
uˆt = ρut−1
ˆ + εt (238)
48
αˆ0 , αˆ1 (241)
on pose
eˆ1t = Yt − αˆ0 − αˆ1 Xt (242)
Yt = P1 + P2 Xt + ut (243)
eˆ1t = ρ1 e1t−1
ˆ + ε1t (244)
J’estime désormais le modèle suivant
49