Vous êtes sur la page 1sur 49

Économétrie

Julien H Bouvet
Second Semestre 2015

Introduction
Chapitre Premier

Rappel des hypothèses du modèle classique et remise en cause des hypothèses.

Chapitre Deuxième

La multicolinéarité, estimation et test.

Chapitre Troisième

L’hétéroscédasticité, estimation, estimateur des MCO et test.

Chapitre Quatrième

L’autocorellation, estimation et test.

Un modèle économique formalise un phénomène donné


La consommation

C = α + βR (1)
On peut estimer β pour plusieurs pays sur une seule période ou pour i pays sur
t périodes.
On nomme cross-section une estimation en coupe instantanée, et panel un esti-
mation pour t périodes et i pays.

Le modèle de régression simple

yt = α + βxt + εt (2)
On estime les paramètres en minimisant les erreurs d’estimation au carré.

1
P
(xt − x̄)(yt − ȳ)
β̂ = P (3)
(xt − x̄)
E(β̂) = E(β) = 0 (4)
Il s’agit donc d’un estimateur sans biais

δ(εt 2 )
V ar(β̂) = P =0 (5)
(xt − x̄)2

lim = V ar(β̂) = 0 (6)


t→∞

Sous les hypothèses structurelles du modèle on teste une hypothèse nulle, test
de Student.

Figure 1: Loi Normale

β̂
∼ Student(T − 2) (7)
σ̂β̂

β̂
| | > Student(T − 2) (8)
σ̂β̂
X X X
(yt − ȳ)2 = (yˆt − ȳˆ)2 + εt 2 (9)
SCT = SCE + SCR (10)

(yˆt − ȳˆ)2
P
2
R =P (11)
(yt − ȳ)2

2
Il existe plusieurs types de modèles

lin-lin, linéaire à gauche et à droite

yt = α + βxt + εt (12)
Dans un modèle lin-lin quand x croı̂t de 1 y croı̂t de β
lin-log

yt = α + βlog(xt ) + εt (13)
Dans un modèle lin-log si x croit de 1% y croı̂t de β unité

log-lin

log(yt ) = α + βxt + εt (14)


En log-lin si x croit de 1 y croı̂t de β%

En lin-lin β représente l’élasticité


En log-lin β représente la semi-élasticité

En modèle de régression multiple

(Y, X) ∈ Mn,n R

Y = X + β + ε (15)
(n,1) (n,k+1) (k+1,1) (n,1)

β̂ = (X t X)−1 X T Y (16)
Si notre but est d’estimer les paramètres, les MCO sont suffisants. Mais si
on recherche les valeurs de ces paramètres, la valeur prédite de la variable à
expliquer est proche de l’espérance de Y sachant xi
On doit faire des hypothèses sur la façon dont les valeurs sont obtenues.
yi dépend de xi et de εi . Il convient donc de spécifier xi et εi pour trouver des
inférences statistiques sur yi , α et β.
Une fois ces valeurs obtenues il faut tester les hypothèses qu’on a supposées
valides.

3
Les 11 postulats du modèle gaussien-classique de la régression
linéaire
Premier Postulat : Linéarité en paramètres ou en variables

Yt = α1 α2 Xt + εt (17)
On ne peut estimer séparément les paramètres car l’équation n’est pas linéaire
dans ses paramètres. Il en va tout autant de l’équation suivante.

Y = αn Xt + εt (18)

Deuxième Postulat : Échantillonage

Les valeurs de la variable explicative x sont fixées dans un échantillonage


repéré. Les valeurs prises par des variables indépendantes sont considérées
comme fixées et x est supposée non stochastique.
Compte tenu de ce postulat on a une régression conditionnelle faite sur les
valeurs connues de la variable explicative.

Tiers Postulat : Nullité de l’erreur moyenne


La distribution du résidu de l’estimation a une moyenne de 0, compte tenu de
la valeur de x, la valeur espérée de εt est 0. E(εt |X) = 0

Quart Postulat : Homoscédasticité


La variance est constante au cours du temps

V ar(εt |Xt ) (19)

On suppose un modèle

Yi = β1 + β2 xi + ui (20)

les résidus ont une distribution dont la variance est la même quelque soit la
variable x
V ar(ui |xi ) = σi 2 (21)
Il y a plus de dispersion dans la consommation des riches. Plus les valeurs
de x sont élevées, plus ui varie et moins l’estimation de Y est précise.

Cinquième Postulat : Absence d’autocorrélation entre les résidus


Compte tenu des deux valeurs de X, X étant une variable explicative xi et xj
avec Xi 6= Xj la corrélation entre ui et uj est égale à 0.

Cov(ui , uj |Xi , Xj ) (22)

= E[(ui − E(ui )|Xi )(uj − E(uj )/Xj )]


= E[(ui /Xi )(uj /Xj )] = 0

4
Figure 2: Dispersion des consommations

Pour les valeurs données de Xi la déviation des valeurs de y de leurs moyennes


ne suit pas un trend (une tendance).
Il existe une corrélation positive entre les résidus, En noir et en rouge il existe
une corrélation, pour la collection verte, il y a absence de corrélation entre les
résidus. Le problème majeur lié à l’autocorréltion

Yt = β1 + β2 Xt + ut (23)
ut et ut−1 sont positivement corrélées.

Yt−1 = β1 + β2 Xt−1 + ut−1 (24)


alors Yt ne dépends pas seulement de Xt mais également de ut à la période
précédente.
Sixième Postulat
La covariance entre ui et Xi est égale à 0

Cov(ui , Xi ) (25)

= E[(ui − E(ui )(Xi − E(Xi )]


= E[ui (Xi − E(Xi )]
= E(ui Xi ) − E(ui )(Xi )
= E(ui Xi ) = 0

Si ui est corrélé avec Xi on ne peut pas mesurer l’effet séparer de X sur Y

Septième Postulat
Le nombre d’observations doit être plus grand que le nombre de paramètres à
estimer. Si on a deux variables X et Y et seulement deux observations, il n’y
a pas de variations donc on ne peut pas estimer les valeurs des paramètres. Il
faut au moins deux autres observations.

5
Figure 3: Dispersion des consommations

Huitième Postulat

Les valeurs de X ne peuvent pas être les mêmes quelques soient les observa-
tions. X ne peut pas avoir toujours la même valeur.
P
(xi − x̄)(yi − ȳ)
β= P (26)
(xi − x̄)2

Neuvième Postulat
Le modèle de régression est correctement spécifié, il n’y a pas de biais de
spécifications. Avant de construire le modèle il faut s’interroger sur les vari-
ables à inclure dans le modèle. Quel doit être la forme fonctionnelle du modèle,
le modèle est-il linéaire par rapport aux paramètres ou par rapport aux vari-
ables?
Dans la courbe de phillips Xi est le taux de chômage et Yi le taux de variation
du salaire nominale dans le pays i

Yi = α1 + α2 Xi + ui (27)

1
Yi = β1 + β2 + ui (28)
Xi

6
L’équation (28) présente un modèle qui n’est pas linéaire entre Yi et Xi
à cause du biais de spécification entre les valeurs a et b on surestime systématiquement
la liaison qui existe entre chômage et inflation. On surestime les valeurs de
l’inflation et les conclusions seront biaisées. Il faut donc estimer le modèle (28)
et non le modèle (27).

Figure 4: Deux modèles pour la courbe de Phillips

Dixième Postulat
Absence de multicolinéarité parfaite
Onzième Postulat
Normalité de u. Les résidus sont normalement distribués. Même si les résidus
ne sont pas normalement distribués on peut faire l’hypothèse que u suit une loi
normale quand le nombre d’observations tend vers l’infini.

7
1 Chapitre Premier : Multicolinéarité
Quelle est la nature de la multicolinéarité ?
La multicolinéarité est-elle véritablement un problème ?
Quelles sont les conséquences pratiques de la multicolinéarité ?
Comment détecter la multicolinéarité ?
Quelles sont les mesures correctives utiles pour atténuer la multicolinéarité ?

Tout d’abord une distinction entre multicolinéarité et colinéraité. Une mul-


ticolinéarité parfaite signifie qu’il existe plusieurs relations linéaires parfaites
entre les variables explicatives alors que la colinéarité signifie qu’il existe une
seule relation linéaire parfaite.
Si on a k variables explicatives X1 , X2 ...Xk une relation linéaire parfaite ex-
iste si la condition suivante est satisfaite.
X
λi Xi = 0 (29)
Il peut y avoir une relation linéaire parfaite entre les variables explicatives mais
aussi ces variables x peuvent être corrélées entre elles d’une manière moins
parfaite
X
λi Xi + vi = 0 (30)
vi est le terme d’erreur stochastique. Il s’agit toujours d’une multicolinéarité,
même imparfaite. En combinant les équations (26) et (27).

−λ1 X1i λ3 X3i


X2i = − ... (31)
λ2 λ2

X2 X3 X4
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152

Il y a une colinéarité parfaite entre X2 et X3


σ2,3
rX2 ,X3 = =1 (32)
σ2 σ3
σ2,4
rX2 ,X4 = = 0, 9959 (33)
σ2 σ4
Les cercles donnent les variations des variables. Le degré de colinéarité peut
être mesuré par les surfaces de chevauchement des cercles de X1 et X2 . Dans
le deuxième graphique la corrélation est faible. Dans le troisième la colinéarité
est parfaite.

8
Figure 5: Léonidas aux Thermopyles

La multicolinéarité se réfère uniquement à des relations linéaires entre X

Yi = β0 + β1 X1 + β2 X2 2 + β3 X3 3 + εi (34)

Xi est la production de l’entreprise i. Relation non linéaire avec Y, donc


l’absence de multicolinéarité est satisfaite. Il existe plusieurs sources de multi-
colinéarité

Première source
La méthode de collecte des données. Lorsqu’on estime des modèles économétriques
on utilise un échantillon de la population qui contient un nombre limité de
valeurs prises par les variables explicatives. Si je dispose des valeurs de toute
la population peut-être que X1 et X2 ne sont pas colinéaires, le problème peut
venir de l’échantillonage.

Deuxième source
Les contraintes sur le modèle ou dans la population, si je veux estimer la
consommation d’électricité comme variable dépendante et le revenu du ménages,
et la surface de la maison comme variables explicatives. Il y a une contrainte
physique, normalement lorsque le revenu des ménages augmente, la surface des
maisons augmente également, il y a donc un problème de colinéarité dans le
modèle.

Troisième source
La spécification du modèle. Si on inclut des termes polynômiaux à un
modèle de régression on ajoute également le problème de multicolinéarité dans
le modèle. Si par exemple on veut étudier l’hypothèse de Kuznets.

Ginit = α + β1 P IBt + β2 P IB 2 + εt (35)

9
Figure 6: Le coefficient de Gini illustre la courbe de Kuznets

Ici le modèle est surdéterminé.

Quatrième source
Trop de variables explicatives et trop peu d’observations : surdétermination

Cinquième source
Quand on travail avec des séries temporelles. Si on veut expliquer la consom-
mation de la France, on a des données annuelles, trois variables explicatives qui
suivent plus ou moins les mêmes tendances au cours du temps (PIB, Revenu,
...)
Si on veut étudier la consommation en France selon les importations et le revenu
il y a une colinéarité entre revenu et importations.
Estimation en colinéarité parfaite

Yi = βˆ1 + βˆ2 X2i + βˆ3 X3i + ûi (36)


Il faut minimiser X
min ûi 2 (37)

d ûi 2
P
=0 (38)
dβ̂i
X2i − X̄2 = x2i (39)
X3i − X̄3 = x3i (40)
( yi x2i ) x23i − ( yi x3i ) x2i x2i
P P P P
ˆ
β2 = P 2P 2 P (41)
x2i x3i − ( x2i x3i )2

10
( yi x3i ) x22i − ( yi x2i ) x2i x3i
P P P P
βˆ3 = P 2P 2 P (42)
x2i x3i − ( x2i x3i )2
x3i = λx2i (43)
yi x2i )(λ2 x22i − (λ yi x2i )(λ x2i x2i )
P P P P
(
βˆ2 = P 2 2P 2 P (44)
x2i (λ x2i ) − λ2 ( x2i 2 )2
On obtint quelque chose d’indéterminé de la forme 00
β2 comme β3 mesure le taux de variation de la valeur moyenne de y suite à
une variation de x2 en maintenant constante x3 . Lorsqu’il y a une colinératié
parfaite entre x2 et x3 il n’y a aucun moyen de garder constante x3 quand x2
varie. Dans ce cas on ne peut pas faire d’analyse ceteris paribus

yi = (βˆ2 + λβˆ3 )x2i + ûi (45)

yi = α̂x2i + ûi (46)


X X
min ûi 2 = (yi − α̂x2i )2 (47)

ûi 2
P
d X
=2 (yi − α̂x2i )(−x2i ) = 0 (48)

X X
α̂ = x2i yi x2 2 (49)

α̂ = βˆ2 + λβ1 (50)


Dans le cas de la multicolinéarité parfaite on ne peut pas calculer les paramètres
du modèle.
En colinéarité imparfaite on trouve pour

yi x2i (λ2 + x22i + (u2i )) − (λ yi x2i + yi ui )(λ x2i 2 ))


P P P P P P
βˆ2 = P 2 2P 2 P 2 P 2 2 (51)
x2i (λ x2i + ui ) − (λ( x2i ) )

la multicolinéraité n’est un problème qu’en cas de multicolinéarité parfaite.

Les conséquences théoriques


La multicolinéraité ne viole aucune hypothèse de régression.
Les estimateurs sont sans biais, consistant, et les écarts types sont correctement
estimés. Le seul effet est la difficulté pour avoir des estimations des coefficients
avec des écarts types petits. C’est la cas avec peu d’observations. Ce que je
dois faire en multicolinéraité revient à se demander ce qu’on fait quand il n’y a
que peu d’observations. C’est à dire qu’on ne peut rien faire.
Les estimateurs sont toujours sans biais parce qu’en conservant les valeurs des
variables x fixes. Si on a des observations répétées pour y on peut calculer les
estimateurs des MCO et la moyenne des valeurs est la moyenne des valeurs pour
chaque échantillonage convergent vers les vraies valeurs des estimateurs de la

11
population lorsque le nombre d’échantillons augmente.
La consommation dépend de deux variables, le revenu et la richesse

Consommationi = β1 + β2 Revenui + β3 Richessei + ui (52)

Or, revenu et richesse sont corrélés, il y a donc colinéarité certainement im-


parfaite entre ces deux variables. On ne peut pas calculer les effets partiels de
chaque variable car le revenu est une fonction croissante de la richesse. Pour
calculer des effets partiels il me faut beaucoup d’observations dans lesquels je
peux observer des individus qui ont des richesses faibles et revenus élevés ou
revenus faibles mais richesses élevées.

Cinq conséquences pratiques de la multicolinéarité


1. Les estimateurs des MCO sont BLUE mais on a des variances et des covari-
ances qui sont élevées.
2. Il suit de 1. que les intervalles de confiance ont tendance à être beaucoup
plus larges. Il y a beaucoup plus de chance d’accepter l’hypothèse nulle
3. Le ratio t de Student d’un ou de plusieurs coefficients a tendance à être
statistiquement non significatif.
4. Même si nous avons la conséquence 3. le coefficient de détermination du
modèle peut être très élevé.
5. Les estimateurs et leurs écarts-types peuvent être très sensibles à des petits
changements dans les données.

Première Conséquence

yi = βˆ2 X2i + βˆ3 X3i + ûi (53)


2
σ
V ar(βˆ2 ) = P 2 (1 2 ) (54)
X2i − r23

σ2
V ar(βˆ3 ) = P 2 (1 2 ) (55)
X3i − r23
Avec r le coefficient de corrélation entre x2 et x3 La vitesse de l’augmentation
de la variance peut être mesurée par un coefficient appelé VIF (Variance inflating
factor)
1
V IF = 2 (56)
1 − r23
σ2
V ar(βˆ2 ) = P 2 .V IF (57)
x2i
2
Si r = 0 alors on obtient une valeur de Pσ 2
x2i

12
Figure 7: Le VIF en fonction du coefficient de colinéarité

r23 V IF
0 0,5
0,5 1,33
0,9 5,76
0,95 10,26
0,999 100
0,9999 500

Avec r le coefficient de colinéarité

13
Deuxième Conséquence
Dans un modèle à k variables on à
σ2 1
V ar(βˆj ) = P 2 . (58)
xj 1 − Rj 2

La tolérance est noté par


1
T OLj = = 1 − Rj2 (59)
V IFj

pour un V IF > 10 alors il y a une colinéarité


P dans le modèle.
La variance de βˆ2 dépend également de x22i Lorque la variance les écarts
type I augmentent entrainent l’augmentation de l’intervalle de confiance cela
augmente la probabilité d’avoir une erreur de type II
Type I → faux positif, α → on rejette à tort H0
Type II → faux négatif → accepter à tort H0

r23 2 95% q 2
0 βˆ2 ± 1, 96 Pσx2
2iq

βˆ2 ± 1, 96. 1, 33 Pσx2
2
0,5
2i
√ q
βˆ2 ± 1, 96. 10, 26 Pσx2
2
0,95
2i

Troisième conséquence
βˆ2
t= (60)
σβˆ2
Quand σβˆ2 , t décroı̂t, on a plus de chance d’être dans la zone H0 on aura
tendance à accepter H0 à tort

Quatrième conséquence
Compte tenue de la troisième conséquence on accepte à tort H0 si on fait un test
de Fischer, on trouve globalement que les paramètres sont globalement signifi-
catifs, test de Student et de Fischer sont contradictoires et le R2 est très élevé,
c’est le signe de la multicolinéarité. En cas de multincolinéarité les MCO sont
impuissants à calculer les paramètres du modèle.

Cinquième Conséquence
La sensibilité des résultats de l’estimation. En multicolinéarité les résultats de
l’estimation sont très sensibles à des variations dans les bases de données. On
peut utiliser une base données de dix observations, on trouve des paramètres
non significatifs. Si on modifie une seule observation, une seule valeur alors on
peut avoir des paramètres qui sortent significatifs. Toutes les conclusions sont
alors différentes. En multicolinéarité l’estimateur de MCO est hypersensible.

14
Détection de la colinéarité
La multicolinéarité est une question de règle et non de nature. Il ne s’agit
pas de savoir s’il y à colinéarité, mais de savoir si cette colinéarité est forte ou
faible.
La multicolinéarité est une caractéristique de l’échantillon et non pas de la pop-
ulation. Dans chaque échantillon les variables économiques sont non stochas-
tiques. On peut mesurer la multicolinéarité dans un échantillon donné. Cette
multicolinéarité sera spécifique à un échantillon donné. Quand on a des valeurs
de coefficients de déterminations élevés mais peu de statistiques de t significa-
tives (un coefficient de détermination élevé, disons 0,95 mais individuellement
les paramètres ne sont pas significatifs) alors il faut dire qu’il peut y avoir une
multicolinéarité.
On peut utiliser les coefficients de de TOL ou de VIF si Rj2 , imaginons le modèle.

Y = α + β1 X1 + β2 X2 + β3 X3 + ε (61)

Si on trouve Rj2 > 0, 9 et V IF > 10 alors on a des problèmes de colinéarité.

σ2 1
V ar(βˆj ) = P 2 ( ) (62)
Xj 1 − Rj2
P 2
Si on a une valeur de VIF élevée, on peut avoir une valeur de Xj elevée
également, donc les deux valeurs peuvent se compenser. D’où suit qu’une valeur
élevée de VIF n’est une condition ni nécessaire ni suffisante pour conclure à la
multicolinéarité. Le problème de multicolinéarité ne se pose pas ici. Même si
les variables sont colinéaires on a V ar(βˆj ) faible.

xj = Xj − X̄ (63)

I. Test de Klein

Yi = α0 + α1 X1 + ... + αk Xk + ε̂ (64)

Si le coefficient de corrélation de ce modèle est supérieur au coefficient de


détermination.
r21 est le coefficient de corrélation entre les variables X2 et X1 . On rappelle :

2 Cov(Xi , Xj )2
rX i Xj
= (65)
V (Xi ).V (Xj )
1X
Cov(Xi , Xj ) = (Xi − X̄)(Yi − Ȳ ) (66)
T
et

SCE V (Ŷ )
R2 = = (67)
SCT V (Yt )
Si
2
rX i Xj
> R2 (68)

15
Alors il y a présomption de multicolinéarité.
Toutefois, attendu que la multicolinéarité augmente la valeur de R2 le test
de Klein n’est pas un test fiable pour rejeter la multicolinéarité. Il convient de
le compléter avec un test de Farrar et Glauber.
II. Test de Farrar et Glauber

Y = βˆ0 + βˆ1 X1 + ... + β̂i Xi + ε̂ (69)

Si le déterminant de la matrice des coefficients de corrélation est proche de


0, il y a présomption de multicolinéarité. Il faut calculer une matrice des coef-
ficients de corrélations.

X r11 r12 ... r1k


r11 1
r21 1
... ...
rk1 1

Lorsque le déterminant de la matrice tend vers 0 le risque de multicolinéarité


augmente.
1
F G = −[T − 1 − (2(k + 1) + 5)]logD (70)
6
Avec T le nombre d’observations et k le nombre de variables explicatives.
On rappelle le calcul du déterminant pour une matrice 2x2
 
a b
A= (71)
c d

DA = ad − bc (72)
Et pour une matrice 3x3
 
a b c
B = d e f (73)
g h i

DB = (aei + dhc + gbf ) − (gec + ahf + dbi) (74)


H0 : D = 1 pas de colinéarité
H1 : D < 1 colinéarité
F G ∼ χ 21 k(k+1) (75)
La règle de décision est alors la suivante :
- Si F G < χ 21 k(k+1) l’hypothèse d’orthogonalité n’est pas rejetée.
- Si F G > χ 12 k(k+1) l’hypothèse d’orthogonalité est rejetée et il y a présomption
de multicolinéarité.
Première solution

16
On ne fait rien, les estimateurs sont BLUE. La multicolinéarité vient de
l’échantillon.

Deuxième solution
Normalement certaines variables peuvent être corrélés (revenus et richesses
par exemple) pour diminuer cette colinéarité on peut faire une transformation
de variables.
Y = β1 + β2 X2 + β3 X3 + ui (76)
on pose a priori β3 = 0, 1β2 . On pose que l’effet de la richesse sur la con-
sommation est 10% du revenu sur la consommation.

Troisième solution
Combinaison des séries en coupe instantanée et des séries temporelles

lnCt = β1 + β2 lnPt + β3 lnIt + ut (77)


Ct est le nombre total de voitures vendues en t, P est le prix moyen des
voitures et I le revenu des individus. Les variables P et I sont assez corrélées.
Probablement un problème de colinéarité dans ce modèle car lorsqu’on a des
séries temporelles on a plus de chances d’avoir un problème de colinéarité. La
solution est si on a des données en panel plutôt des panels micro (enquête auprès
des ménages). On peut estimer βˆ3 car en temps t les prix ne varient pas.

Ct∗ = β1 + β2 lnPt + ut (78)


Avec C∗ = lnC − βˆ2 lnI
Ainsi on peut estimer βˆ2 . On fait l’hypothèse que l’élasticité revenu ne varie
pas au cours du temps.

Quatrième solution
On peut supprimer l’une des variables colinéaires, mais cela peut induire un
biais de spécification. Si la variable enlevée expliquait notre variable à expliquer
alors le paramètre à estimer à la fin sera biaisé.
Cinquième possibilité
La transformation des variables.

Yt = β1 + β2 X2t + β3 X3t + ut (79)

Yt − Yt−1 = β2 (X2t − X2t−1 ) + β3 (X3t − X3t−1 ) + ut (80)


On a probablement un problème de colinéarité alors on peut estimer le modèle
non pas en niveau mais en per capita pour évaluer l’effet sur la consommation
de la richesse et du revenu.

vt = ut − ut−1 (81)
Or d’après l’hypothèse 5 COV (Vt , Vt−1 ) 6= 0

17
vt et vt−1 sont corrélés donc COV (Vt , Vt−1 ) 6= 0

On verra au chapitre 3 que si ut n’est pas autocorrélé alors vt le sera. Si ut


est homoscédastique, il y a un risque de biais des paramètres.

Sixième solution
Lorsqu’on détecte une colinéarité, il peut y avoir moins de colinéarité dans
un autre échantillon

σ2 1
V ar(βˆj ) = P 2 . (82)
xj 1 − Rj 2
X X
x2i = X2 − X̄2 (83)
Le risque est de rejeter H0 à tort alors qu’elle est vérifiée. on a α − 1% de
chance de se tromper dans ce sens.
On dit parfois que la multicolinéarité n’est pas un problème si notre objectif
est de faire des prévisions. On peut effectivement utiliser un modèle estimé pour
faire des prévisions même s’il y a multicolinéarité. Cet argument est vrai si et
seulement si la multicolinéarité existe dans chaque période à venir. Les valeurs
des paramètres sont tellement élevées que même en divisant par les écarts-types
on obtient encore des valeurs significatives.

18
2 Chapitre II: Hétéroscédasticité.
Homoscédasticité signifie l’égalité de la variance, l’espérance de E(u2i ) = σ 2 la
variance des termes de l’erreur est une constante, ne variant pas d’un individu
à un autre, ni d’une période à une autre.
Plusieurs cas de figure quant à la distribution des résidus.
Les ménages riches consomment plus que les ménages pauvres mais il y a
plus de variation dans leur consommation.

Figure 8: Jeune homme nu assis au bord de la mer (1836), Hippolyte Flandrin

Aux sources de l’hétéroscédasticité

1. La raison d’apprentissage : avec la pratique, les erreurs diminuent. Si


on prend l’exemple des fautes de frappes (Y) représentées en fonction
du temps de frappe (X), quand X augmente Y diminue. La distribution
des erreurs d’estimation. Les gens qui pratiquent davantage font moins
d’erreur et la variance se réduit. Dans les modèles d’apprentissage il y a
un problème d’hétéroscedasticité.
2. Lorsque le revenu des individus augmente, ils ont plus de choix dans la
disposition de leur revenu dans l’arbitrage consommation-épargne σ 2 aug-
mente avec le revenu.

3. L’hétéroscédasticité augmente à cause des valeurs aberrantes (les outliers).


Soit la croissance du PIB g et les émissions de CO2 au sein d’un échantillon

19
de tous les pays développés avec la Chine. La Chine sera la seule a avoir
une croissance forte pour de fortes émissions, on peut alors estimer des
valeurs des paramètres incorrectement.
4. Si le modèle est mal spécifié il peut y avoir un problème d’hétéroscédasticité,
soit la forme fonctionnelle estimée n’est pas correcte, soit il y a des vari-
ables omises, à causes de ces deux raisons. Il apparaı̂t une hétéroscédasticité.
Il faut revenir à la construction du modèle.
5. La présence d’une asymétrie dans la distribution d’une ou plusieurs vari-
ables. Si le revenu des individus est la variable explicative, on sait que
la distribution du revenu n’est pas égalitaire cela peut engendrer une
hétéroscédasticité.
6. On a plus de chance d’avoir une hétéroscédasticité lorsqu’on travail avec
des données en coupe instantannée. Si on considère la taille des en-
treprises et le salaire moyen dans ces entreprises on constate une rela-
tion linéaire positive entre le salaire moyen et l’écart-type des salaires. En
général lorsque la taille de l’entreprise augmente le salaire moyen augmente
également mais il y a plus de variations dans les salaires.

Estimation en présence d’hétéroscédasticité

Yi = β1 + β2 Xi + ui (84)
Au premier semestre on a vu que
P P
(Xi − X̂)(Yi − Ŷ ) si yi
βˆ2 = = P 2 (85)
yi
P
(Xi − X̂)2
X X
xi Yi − Ŷ Xi − X̂ (86)
P
or Xi − X̂ = 0 X
xi Yi (87)
d’où suit P
ˆ xi Yi X
β2 = P 2 = ki Yi (88)
xi
avec ki = Pxi 2
xi
X
βˆ2 = ki (β1 + β2 Xi + ui ) (89)

X X X
βˆ2 = ki β1 + β2 ki Xi + ki ui (90)
P P
Or ki = 0, ki Xi = 1 et E[ui ] = 0

E[βˆ2 ] = β2 (91)

20
X
V ar(βˆ2 ) = E( ki ui )2 (92)
Lorsque les résidus sont homoscédastiques la variance est constante pour
tout i. Pas de corrélation entre les résidus E(ui uj ) = 0∀i 6= j
X
V ar(βˆ2 ) = ki2 σi2 (93)
P 2 2
ˆ x σ
V ar(β2 ) = P i2 i2 (94)
( xi )
L’estimateur des MCO est toujours sans biais parce que la variance de ui ne
joue pas un rôle dans la détermination des propriétés de biais des estimateurs.
βˆ2 est sans biais sans pour autant être le meilleur estimateur car la variance
n’est pas minimale.
Ici X est certaine, une matice de plein rang. Si on ne respecte pas l’hypothèse
Y = Xβ ou E(u) = 0 alors le paramètre est biaisé.
On rappelle l’hypothèse 2 qui rejette l’autocorrélation entre les résidus sans
cela le MCO n’est plus le meilleur. Pour trouver l’estimateur BLUE il faut
trouver l’estimateur des moindres carrés généralisés (MCG).
Pour des classes d’entreprises différentes on a des salaires différents et des
écarts-types différents. Quand la taille de l’entreprise augmente, l’écart-type et
le salaire moyen augmente. La méthode des moindres carrés généralisés est de
pondérer davantage la classe qui a le moins de variations. on reprend le modèle

Yi = β1 X0i + β2 Xi + ui (95)
avec X0i = 1∀i On divise toutes les variables par σi
Yi X0i Xi ui
= β1 + β2 + βi (96)
σi σi σi σi

Yi∗ = β1∗ X0i



+ β2∗ Xi∗ + u∗i (97)

ui 2 E(u2i ) σ2
V ar(u∗i ) = E(u∗i )2 = E( ) = 2 = i2 = 1 (98)
σi σi σi
Ainsi les meilleurs estimateurs sans biais sont βˆ1∗ et βˆ2∗ . En introduisant une in-
formation supplémentaire dans le modèle on obtient des résidus homoscédastiques.
Ainsi pour que les estimateurs soient BLUE il faut que la variance des résidus
soit homoscédastique.
P ∗2
ˆ
P ∗
On cherche désormais à minimiserP ui2 = (Yi − β1∗ X0i∗
− β2∗ Xi∗ )2 On
1
note wi = σ2 il faut donc minimiser wi ûi
i
En présence d’homoscédasticité, si wi = w alors Ȳ ∗ = Y et X̄ ∗ = X
P P P P
ui ( wi Xi Yi ) − wi Xi wi Yi
(99)
wi wi Xi2 − ( wi Xi )2
P P P

21
wi u2i . C’est à dire qu’on minimise la somme
P
Avec les MCG on minimise
des carés résiduels pondérés par
P w2i . Dans les méthodes des MCO en revanche
les résidus sont équipondérés ui Dans la méthode MCG les observations qui
viennent des populations avec σi élevé auront un poids relativement plus faible
et celles qui viennent des populations avec σi faible auront un poids plus élevé.
Avec la méthodes des MCO tous les points sont équipondérés quel que soit la
distance entre le points et la droite de régression. Mais en estimation MCG les
points les plus éloignés de la droite de régression auront des poids relativement
plus faible.

Figure 9: En estimation MCG les points les plus éloignés de la droite de


régression auront des poids relativement plus faible.

Si wi = w on a la même variance pour toutes les observations alors l’estimateur


des MCO est égal à l’estimateur des MCG.

βˆ2 = βˆ2∗ (100)

V ar(βˆ2 ) = V ar(βˆ2∗ ) (101)


Les conséquences des l’hétéroscédasticité

Lorsque la taille de l’échantillon augmente les deux paramètres convergent


vers la valeur réelle du paramètre β2 . βˆ2∗ est l’estimateur le plus efficace car il
a la variance la plus petite. On considère deux cas.

1. On utilise βˆ2 P 2 2
x σ
V ar(βˆ2 ) = P i2 i2 (102)
( xi )

22
En général
∗ ∗
V ar(βˆ2 ) ≤ V ar(βˆ2 ) (103)
On a donc une variance inutilement élevée. Et les intervals de confiance
seront dans ce cas la plus large. Alors les statistiques de t peuvent donner
des résultats incorrects. J’aurais tendance à accepter l’hypothèse nulle et
conclure que la variable n’est pas significative alors qu’elle l’est.
2.
σ2
V ar(βˆ2 ) = P 2 (104)
xi
La valeur de V ar(βˆ2 ) est fausse s’il y a hétéroscédasticité. Il peut s’agir
d’une surestimation ou d’une sous-estimation.

Dans le cas d’hétéroscédasticité


u2i
P
= σˆ2 (105)
n−2
Avec n le nombre d’observations. En hétéroscédasticité ce n’est plus une
estimation sans biais de σ2 D’où suit qu’on ne peut plus faire confiance
aux statistiques de t et de F.

βˆ2 + −tα/2 σσˆ2 (106)

Davidson et Mackinnon 1993 analysent le modèle suivant

Yi = β1 + β2 Xi + ui (107)

Ils supposent que


β 1 = β2 = 1 (108)
Et que ui suit une loi normale centrée de variance Xiα

u → N (0, Xiα ) (109)


Ils effectuèrent ensuite des simulations selon les valeurs de α. Dans le premier
cas estimation par MCO mais variance par hétéroscédasticité, c’est le modèle
M COH .

α M CO M COH M CG
0,5 0,285 0,27 0,24
1 0,246 0,247 0,17
2 0,2 0,22 0,10
3 0,17 0,206 0,05
4 0,15 0,19 0,01

23
Systématiquement le MCO surestime l’écart-type. L’écart type est toujours
plus petit avec la méthode MCG. M COH est plus équivoque. D’où suit que
l’hétéroscédasticité nécessite d’utiliser la méthode MCG.
σ 2 peut être connue si nous avons toute la population Y correspondant aux
valeurs de x choisies. En économie on utilise des échantillons dans lesquels une
seule valeur de Y correspond à une valeur particulière de x. Dans le cas d’une
étude économétrique l’hétéroscédasticité peut-être une question d’intuition d’une
expérience ou bien d’une étude ex-ante.
Les méthodes informelles pour détecter l’hétéroscédasticité.
On peut considérer la nature du problème étudié, dans des données en coupe
instantanée qui contiennent des données hétérogènes l’hétéroscédasticité est sou-
vent présente. Lorsqu’on étudie le revenu des individus comme une variable
explicative ou bien comme une variable à expliquer il convient d’être attentif à
l’hétéroscédasticité.
On peut utiliser la méthode graphique. En regardant les résidus au carrés
on peut étudier uˆ2i pour voir s’il y a une tendance systématique.

Figure 10: Nuages de points (1880), Georges Seurat, Musée d’Orsay

Premier graphique une tendance linéaire. Deuxième et troisième une ten-


dance à la hausse dans Y augmente. Et enfin une tendance concave. Une
tendance exponentielle dans le cinquième cas. Si on constate graphiquement
une tendance il y a un risque d’hétéroscédasticité.
On choisit par intuition la variable explicative et la variable expliquée.

24
Méthodes formelles
Test de Park

σi2 = σ 2 xβi evi (110)


lnσi2 = lnσ 2 + βlnXi + vi (111)

σ 2 n’est pas connu, on se propose donc d’utiliser uˆ2i comme un proxy de σ 2 .

Yi = βˆ0 + βˆ1 Xi + ûi (112)


On estime ce modèle par MCO, on calcule les valeurs des paramètres. Si β est
statistiquement significativement différent de 0 alors on conclu à l’hétéroscédasticité
dans le modèle initial.

lnûi 2 = lnσ 2 + βlnXi + vi (113)

lnûi 2 = α + βlnXi + vi (114)


Avec cette méthode vi pose problème et peut lui même être hétéroscédastique.
Règle de Décision
-Si tβ > ttab alors Xi est significatif et il y a une relation entre résidus et Xi , on
conclue donc à l’hétéroscédasticité.
Le test de Glejser
On estime le modèle de base et on obtient des valeurs de ûi . On regresse ces
valeurs en valeur asbolue sur les valeurs de xi

|ûi | = β1 + β2 Xi + vi (115)

On teste la significativité du paramètre β2 , si β2 est significatif, le modèle


de base contient une hétéroscédascticité.
-Si tβ2 >ttab alors il y à hétéroscédasticité. vi peut être autocorrélé, ou pire !
avoir une moyenne non nulle !!! (!)
Test de Goldfeld et Quandt
Ce test peut être utilisé si on suppose que la variance hétéroscédastique σi2
est positivement reliée à l’une des variables explicatives. σi2 est positivement
reliée à xi si on suppose σ 2 = σ 2 x2i ou si σ 2 est une constante. On suppose que
la variance hétéroscédastique est positivement liée à une variable explicative.
Lorsque que x augmente σi2 augmente. Plusieurs étapes dans ce test. D’abord
il faut trier les observations par ordre croissant par rapport aux valeurs de x.

i Yi Xi Yi Xi
1 65 2 30 1
2 60 3 40 1,5
3 30 1 65 2
4 40 1,5 60 3

25
Pour choisir quel X qu’on va utiliser pour trier les données on peut utiliser
le test de Park alors on estime le modèle linéaire et pour chaque X on fait un
text de park et on regarde à chaque fois la significativité du test de park. Alors
on a trié nos données. On passe ainsi à l’étape 2, on va supprimer une quantité
c d’observations centrales (au milieu de la base de données). On va faire une
régression des MCO séparément sur ces deux sous-échantillons. La Somme des
carrés résiduel du modèle 1 est pour le sous-échantillon qui contient les valeurs
les plus petites pour xi . étape 4

SCR2 /dl
λ= (116)
SCR1 /dl

Avec dl le degré de liberté


n−C 1 − c − 2k
dl = −k = (117)
2 2
Si on suppose que les résidus sont normalement distribués et si on suppose
également qu’il n’y a pas de problèmes d’hétéroscédasticité. Alors le ratio λ
suit une distribution à dl degré de liberté. Si la valeur calculé pour λ est
supérieure à la valeur critique de F pour un seuil donné on rejette l’hypothèse
nulle d’homoscédasticité. Les observations qui se trouvent au milieu sont omises
pour augmenter la différence entre les variances de ces deux sous-échantillons.
n =30 on peut supprimer 8 observations et si n=60 on peut en supprimer 16.
Le nombre d’observations à supprimer varie selon les auteurs.
Test de White

Yi = β1 + β2 X2i + β3 X3i + vi (118)


On estime ce modèle en utilisant la méthode des MCO. On estime les
paramètres. 1 .On estime ûi . 2. On estime cette fois ci un autre modèle

uˆ2i = α1 + α2 X2i + α3 X3i + α3 X22i + α5 X32i + α6 X2i X3i + vi (119)

On estime le modèle et on calcule le coefficient de détermination R2 . Sous


l’hypothèse nulle de l’homoscédasticité, la taille de l’échantillon multiplié par le
coefficient de détermination donc n.R2 , suit une loi χ2 à k degré de liberté. Où
k est le nombre de variables explicatives dans le modèle de l’étape 2. 3.

n.R2 ∼ χ22k (120)

Si cette valeur nR2 est supérieure à la valeur critique pour un seuil donné,
on rejette l’hypothèse nulle et on conclue qu’il existe une hétéroscédasticité.
Dans ce cas lo il faut conclure que la variance de l’erreur de l’estimation est
fonctionnellement reliée aux variables explicatives. Si en revanche la valeur
trouvée est inférieur à la valeur critique alors il y a homoscédasticité.
Sous l’hypothèse nulle

α2 = α3 = α4 = α5 = α6 = 0 (121)

26
Le nombre de variables élevé tend à diminuer la fiabilité du modèle. Quand
on a peu d’observation ce test peut donner des estimation biaisées. Plus le degré
de liberté est élevé par rapport au nombre d’observations moins l’estimation est
fiable.
Si en faisant le texte de white on rejette l’hypothèse nulle cela n’implique pas
nécessairement une hétéroscédascticité, on a peut-être un biais de spécification.
On accepte l’argument selon lequel si on introduit pas les variables croisées à
l’étape 2, le test de white devient un test d’hétéroscédasticité pure. Si on a dans
l’équation des variables croisées, alors il s’agit d’un test à la fois d’hétéroscédasticité
et de biais de spécification.
Des mesures correctives En présence d’hétéroscédasticité les
estimateurs des MCO ne sont pas les meilleurs. Les test peuvent être faux il
faut donc corriger le problème. Il existe principalement deux approches.
Première approche
σi2 est connu. Si on connait la variance hétéroscédastique, alors la méthode
MCG est la méthode qui nous donne les estimateur BLUE.
Première approche
σi2 n’est pas connu. On a alors la méthode des variances consistantes d’hétéroscédasticité
de White. Pour corriger l’hétéroscédasticité il faut calculer les variances consis-
tante d’hétéroscédasticité de white.On considère un modèle de régression simple
et on suppose qu’il s’agit d’une hétéroscédasticité.

Yi = β1 + β2 Xi + vi (122)
On sait que P 2 2
ˆ x σ
V ar(β2 ) = P i2 i2 (123)
( xi )
White propose d’utiliser ûi 2 au lieu des σi2
d’où P 2 2
x ûi
V ar(βˆ2 ) = P i 2 2 (124)
( xi )
White montre que lorsque la taille de l’échantillon augmente la valeur de l’équation
(117) converge vers l’équation (116). On calcule l’équation 117 considérée
comme la variance de βˆ2 On corrige

wˆji 2 ûi 2
P
ˆ
V ar(βj ) = P (125)
( wˆji 2 )2

Ici on a plusieurs variables explicatives, ûi est le résidu de l’estimation. ŵj


est le résidu de l’équation qui a Xj pour variable expliquée, toutes les autres
sont explicatives.

wˆ2i 2 ûi 2
P
ˆ
V ar(β2 ) = P (126)
( wˆ2i 2 )2

wˆ2i → X2i = α1 + α2 X3i + w2i (127)

27
On les appelle les variance de White ou les variances robustes. Un autre
manière de traiter l’hétéroscédasticité est de faire des hypothèse sur la nature
de l’hétéroscédasticité. Plus complexe que la méthode de White car la méthode
de White nécessite un échantillon assez large. On suppose que la variance de
l’erreur est proportionnel à X 2 on a donc E(u2i ) = σ 2 Xi2 . Entre x et σ 2 on a
une relation comme suit.

Figure 11: La variance du modèle transformé est égal à la variance de ( uxii )2

1 1
E(vi2 ) = E.(u2i ) = 2 σ 2 Xi2 = σ 2 (128)
Xi2 Xi
On obtient bien une variance homoscédastique
Deuxième Hypothèse

E(u2i ) = σ 2 Xi (129)

Figure 12: La Variance de l’erreur est proportionnelle à xi

28
1 p
β1 √ + β2 Xi + vi (130)
Xi
Troisième hypothèse

Figure 13: la variance de l’erreur est proportionelle à la valeur moyenne de u2i

Yi β1 Xi ui
= + β2 + (131)
E( Yi ) E(Yi ) E(Yi ) E(Yi )

E(vi2 ) = σ 2 (132)
Pour corriger l’hétéroscédasticité en faisant la troisième hypothèse on passe
par deux étapes, d’abord on fait une regression de notre modèle initial, après
on estime les paramètres βˆ1 , et βˆ2 , on obtient Ŷi
Yi 1 Xi
= β1 + β2
+ vi (133)
Ŷi Ŷi Ŷi
4. Quatrième hypothèse On peut transformer le modèle en un modèle log-
linéraire.
Yi = β1 + β2 Xi + ui (134)
Silver loup transformation

logYi = α1 + α2 logXi + vi (135)


Ces transformations diminuent l’échelle dans laquelle les variables sont mesurées.
Prenons les valeurs 3, 30 et 300. ln 3 = 1,09, ln 30 = 3,4 et ln 300 = 5,7. On a
réduit l’échelle. Or quand on réduit l’échelle on réduit également l’hétéroscédasticité.
Si X augmente d’1% alors y augmente de α% alors que dans le modèle initiale,
β2 mesure l’impact au niveau de la variable X sur la variable Y.
Les problèmes associés à ces transformations
Si on a un modèle multivarié on peut ne pas savoir quelle variable x choisir
pour transformer le modèle. On peut représenter les valeurs de u2i sur chaque

29
x pour décider quelle hypothèse retenir. Si pour une variable explicative x2 on
trouve des résidus plutôt à variance croissante exponentiellement alors on peut
décider de diviser le modèle par x2 La transformation en log ne peut pas être
effectuée si Y ou X ont des valeurs nulles ou négatives. avec des observations
nulles ou négatives, même une seule, alors on ne peut pas faire ces transforma-
tions. Pour chaque variable une constante k suffisamment grande pour avoir à
chaque fois Yi + k > 0 et Xi + k supérieur à 0.
La transformation du modèle peut créer une fausse corrélation. Si les vari-
ables, x1 , x2 , x3 sont non corrélées, autrement dit r12 = r13 = r23 = 0. alors
X1
on aura des variables expicatives X 3
et X
X3 alors les variables seront corrélées.
2

Alors on a introduit un problème de corrélation dans le modèle.


La méthode des moindres carrés généralisées faisable
Lorsqu’on étudie la méthode des moindres carrés généralisés, si on connaı̂t
σi on peut avoir des estimateurs sans biais et les meilleurs. Mais dans la plupart
des cas on ne connaı̂t σi C’est la raison pour laquelle on développe une autre
estimation qui utilise le même principe des MCG on appelle cette procédure la
méthode des moindre carrés généralisés faisable. On suppose que

E(u2i ) = σ 2 h(X) = σi2 (136)

La méthode des MCG faisable Nous pouvons modéliser la fonction h et


estimer hi pour chaque i noté ĥi et on utilise ensuite les ĥi pour transformer le
modèle initial.
Pour estimer les paramètre δ on régresse e(uˆ2i ) sur X1 ...Xn avec uˆ2i tel que
Yi = β0 + β1 X1 etc...
on estime ce modèle, on trouve les paramètres de ce modèle, et dès lors,

ĥi = egˆi (137)

Si on ne connaı̂t pas la fonction h(x), si on a aucune information on peut


utiliser la méthode FGLS pour estimer la fonction h(x). On suppose que

h(x) = exp(δ0 + δ1 X1 + ... + δn Xn ) (138)

On suppose que

u2 = δ 2 + δ0 + δ1 X1 + ... + δn Xn (139)

lnu2 = α0 + δ1 X1 + ... + δn Xn (140)


2
Avec α0 = lnσ + δ0 Pour chaque i je calcule une valeur de i

Yi = β̂0 + β1 X1i + β2 X2i ... + βh Xhi + ui (141)

Pour chaque i je trouve la valeur ajustée de lnûi 2

ln(ûi 2 ) = αˆ0 + δˆ1 X1i + δˆ2 X2i + δˆh Xhi (142)

ln(ûi 2 ) = gˆi (143)

30
ĥi = exp(gˆi ) (144)
On divise par ĥi . Comme on ne connait pas σi on utilise h pour remplacer
σi
Yi β0 X1 i X2 i Xh i
= + β1 + β2 + ... + βh (145)
ĥi ĥi ĥi ĥi ĥi
En définitive l’hétéroscédasticité ne doit pas être une raison de rejeter un
bon modèle. Il est difficile de faire des conclusions générales sur le dommage
causé par l’hétéroscédascticité. Cela dépends de la variation de σi2 , de la taille
de l’échantillon, ou encore de la relation entre les X et σi2 . La méthode des
MCG est plus efficace que celle des MCO. On peut dire que si la plus grande
variance de l’erreur est dix fois plus élevée que la plus petite variance on peut
s’inquiéter du problème d’hétéroscédasticité.

31
3 Chapitre Troisième : Autocorrélation
Il existe trois types de données pour des analyses empiriques
1. Les données en coupe instantannée ou cross section
2. Les série temporelles ou time series
3. Les données en panel ou panel data

Certaines hypothèses des MCO peuvent ne pas être vérifiées pour chaque
type de données. L’hypothèse d’homoscédasticité ne se vérifie pas en général
lorsqu’on utilise des données en coupe. Cependant lorqu’on utilise ces données
en coupe elles viennent d’un échantillon aléatoire. Il n’y a aucune raison d’avoir
une corrélation entre les termes d’erreur des différents ménages ou des en-
treprises. Le problème d’autocorrélation ne se pose pas en coupe instantannée
(la plupart du temps) car les données proviennent d’un tirage aléatoire.
En revanche, en série temporelle, les données suivent un ordre au fil du temps
et les observations successives sont susceptibles de présenter des intercorrélations
surtout lorsque l’intervalle de temps entre les observations est court. Si par
exemple on observe les indices de prix des actions sur le CAC40 on observe
que ces indices augmentent ou diminuent pendant plusieurs jours successifs.
Alors l’hypothèse de l’absence d’autocorrélation entre les résidus sera violée
(hypothèse 5).
Quelle est la nature de l’autocorrélation ?
Quelles conséquences théoriques et pratiques ?
Comment détecter l’autocorrélation ?
Comment peut-on résoudre le problème d’autocorrélation ?

La nature de l’autocorrélation
On peut définir l’autocorrélation comme la corrélation entre les membres
d’une série d’observations ordonnées dans le temps ou dans l’espace. Le modèle
classique de régression linéaire suppose qu’une telle autocorrélation n’existe pas
pour le terme d’erreur u.
E(ui , uj ) = 0 (146)
avec i 6= j La covariance est nulle.
Le terme d’erreur associé à une observation i n’est pas influancé par le terme
d’erreur associé par une autre observation j. ui n’a pas d’effet sur uj . Si
nous avons des données trimestrielles et que nous faisons une régression de la
production sur le capital et le travail. Et s’il y a eu une grève qui a affecté
le facteur travail sur un trimestre, on peut imaginer qu’elle n’affectera pas le
facteur suivant. Un choc exogène n’affecte que le terme d’erreur d’une période.
L’effet d’une augmentation du revenu d’un ménage sur sa consommation ne
doit pas affecter les dépenses de consommation d’un autre ménage. S’il y a
dépendance entre les termes d’erreur il y a autocorrélation et E(ui , uj ) n’est
pas égal. Symétriquement l’augmentation de la consommation d’un ménage
affecte celle de l’autre.

32
Figure 14: L’autocorrélation illustrée (1887, Armand Colin)

a, tendance cyclique, b tendance linéaire, c tendance linéaire, d une tendance


linéaire et quadratique.
Pourquoi l’autocorrélation ? On peut citer plusieurs raisons à l’autocorrélation.
Première raison
L’inertie. La plupart des séries temporelles en économie possèdent une iner-
tie (Le PIB, les indices de prix, la production, l’emploi etc. suivent des tendances
ou des cycles). On a tout d’abord une récession, la valeur actuelle de la série est
supérieure à sa valeur précédente. Dans ces cycles économiques les observations
successives sont susceptibles d’être interdépendantes.

Deuxième raison
Le biais de spécification, cas de variables omises. Lorsqu’on fait un modèle
empirique, après avoir estimé le modèle on vérifie si les résultats sont conformes
à la théorie économique ou aux intuitions a priori. Si ce n’est pas le cas, on peut
tracer les résidus pour voir s’il y a une tendance. Ces résidus peuvent indiquer
que certaines variables omises doivent être incluses dans le modèle. Lorsqu’on
introduit ces variables initialement omises on fait disparaı̂tre l’autocorrélation
des résidus.

Yi = β1 + β2 X2t + β3 X3t + β4 X4t + ut (147)


La quantité de la viande de boeuf demandée, X2t la quantité de viande de boeuf,
X3t le revenu des ménages, et X4t prix de la viande meilleur substitut. un autre

33
modèle

Yi = β1 + β2 X2t + β3 X3t + vt (148)


Si le modèle correcte est le premier modèle alors la terme d’erreur contient
la variable omise
vt = β4 X4t + ut (149)
Dans la mesure où X4 affecte le terme d’erreur on est devant une erreur
systématique, ce qui crée une autocorrélation.
Dans le cas d’une forme fonctionelle incorrecte.
On modélise le coût marginal de la production par rapport au coût de pro-
duction.

Cmi = β1 + β2 Yi + βYi2 + ui (150)


si on considère
Cmi = β1 + β2 Yi + vi (151)
On crée une autocorrélation.

Figure 15: La Mal Spécification, Edouard Manet (1831), Musée d’Orsay

Entre A et B la droite de régression va surestimer le vrai coût marginal,


avant et après B elle sousestime le vrai coût marginal. Dans ce cas on a

vi = β3 Yi2 + ui (152)
Le terme d’erreur capte l’effet de Y 2 ce qui engendre une autocorrélation.

Troisième raison
Le phénomène de la toile d’araignée. Dans la plupart des cas l’offre des pro-
duits agricoles peut être représentée par un modèle de la toile d’araignée. Pour
les cultivateurs le prix actuel d’un produit agricole permet d’anticiper les prix
futurs de ce même produit. Si le prix du blé est supérieur à celui du maı̈s, alors
l’offre de maı̈s sera très faible à la période suivante. L’offre réagit au prix relatif

34
avec un décalage d’une période de temps. La production de blé à t dépend des
prix à t-1. Si pt < pt−1 c’est qu’on a produit trop de blé à t, donc à la période
suivante on va passer au maı̈s. Alors les erreurs ut ne peuvent pas être aléatoires
car si les cultivateurs surproduisent en t alors ils diminuent leurs productions
en t+1 ce qui engendre une autocorrélation des résidus.

Quatrième raison
Les retards. La consommation en t peut-être expliquée par la consomma-
tion en t-1 et le revenu actuel. Cet ajustement s’appelle une autorégression car
l’une des variables explicative est la valeur retardée de la variable à expliquer.
Les consommateurs ne changent pas leurs comportements de consommations
pour des raisons psychologiques, technologiques ou sociales. Si nous négligeons
la consommation retardée dans cette analyse empirique, le terme d’erreur aura
une tendance systématique en raison de l’influance de la consommation retardée
sur la consommation actuelle.

Cinquième raison Transformation ou manipulation des données. On est


parfois obligé de transformer les données pour étudier des relations spécifiques.

Yt = β1 + β2 Xt + ut (153)
Yt est la consommation à t et X le revenu.

Yt−1 = β1 + β2 Xt−1 + ut−1 (154)


Les variables sont retardée d’une période. Si on fait la différence entre ces
deux dernières équations. On obtient

∆Yt = β2 ∆Xt + ∆vt (155)

Le première équation est le modèle en niveau, la troisième est le modèle en


différence première, il s’agit d’un modèle dynamique, le première modèle est
statique. Les deux modèles sont utilisés dans les modèles empiriques. Si X et Y
sont en log on peut avoir les taux de croissance des variables X et Y en prenant
les différences des log et on peut donc étudier les relations entre les taux de
croissance de ces variables. Si le terme d’erreur de l’équation première satisfait
toutes les hypothèses des MCO et en particulier l’absence d’autocorrélation on
aura
E(ut , ut−1 ) = 0 (156)
Mais désormais nous avons fait une transformation du modèle,

Cov(vt , vt−1 ) = E(vt , vt−1 ) = E[(ut − ut−1 )(ut−1 − ut−2 )] = σ 2 (157)

La condition nécessaire pour qu’on puisse avoir absence d’autocorrélation.


Les vt sont autocorrélés.

35
Sixième raison
La non stationnarité. Une série temporelle est stationnaire si ses caractéristiques
(la moyenne, la variance et la covariance) sont constante dans le temps, si ce
n’est pas le cas la série est dire non stationnaire, si X et Y sont non stationnaire
alors u sera également non stationnaire. Lorsque u est non stationnaire il est
également autocorrélé. La plupart des séries temporelles en économie présentent
une autocorrélation positive.

Figure 16: Premier prix 1997 du concours de l’école des Beaux Arts de Nı̂mes

Ici la corrélation est positive. Lorsque ut est positive ut−1 est positive.

Estimation MCO en présence d’autocorrélation


Qua se passe-t-il quand
E(ut , ut+s ) 6= 0 (158)
On considère un modèle de régression simple.

Yt = β1 + β2 Xt + ut (159)
On suppose un mécanisme pour le terme d’erreur. On suppose que

ut = ρut−1 + εt (160)

Où −1 < ρ < 1. ρ est le coefficient d’autocovariance. Si ρ = 0 il n’y a plus


de problème. On appelle ces résidus bruit blanc. La valeur du terme d’erreur
en t est égale à ρ fois sa valeur précédente. Cette structure s’appelle également
une structure auto-régressive d’ordre 1. On la note par AR(1). On régresse ut
sur sa valeur retardée d’une seule période.

ut = ρ1 ut−1 + ρ2 ut−2 + εt (161)


Ici est une structure AR(2) on a deux retards des résidus.

36
On suppose qu’on a un AR(1)

ut = ρut−1 + εt (162)
E(ut ) = ρE(ut−1 ) + E(εt ) (163)
2
V ar(ut ) = ρ var(ut−1 ) + var(εt ) (164)
Cov(ut−1 , εt ) = 0 (165)

V ar(ut−1 ) = V ar(ut ) = σ 2 (166)


V ar(εt ) = σε2 (167)
σε2
V ar(ut ) = (168)
1 − ρ2

ut = ρut−1 + εt (169)
On multiplie de chaque part par ut−1

ut−1 .ut = ρu2t−1 + εt ut−1 (170)

E(ut−1 .ut ) = E(ρu2t−1 + εt ut−1 ) (171)


Cov(ut−1 , ut ) = ρE(u2t−1 ) + E(εt ut−1 )) (172)
ρE(u2t−1 ) = ρV ar(ut−1 ) (173)
Or on a supposé l’homoscédasticité

ρE(u2t−1 ) = ρV ar(ut ) (174)

σε2
ρ. = Cov(ut−1 , ut ) (175)
1 − ρ2
Le terme d’autoregression définit une forme fonctionnelle. Désormais on
multiplie des deux parts par ut−2

E(ut−2 ut ) = Cov(ut , ut−2 ) (176)

E(ρut−1 ut−2 + εt ut−2 ) = ρE(ut−1 , ut−2 ) (177)


ρE(ut ut−1 ) = ρCov(ut , ut−1 ) (178)
σε2
ρ2 = Cov(ut , ut−2 ) (179)
1 − ρ2
σε2
Cov(ut , ut−3 ) = ρE(ut−1 .ut−3 ) = ρCov(ut−1 , ut−3 ) = ρCov(ut , ut−2 ) = ρ3
1 − ρ2
(180)

37
ρ est le coefficient d’autocorrelation d’ordre 1

Cov(ut , ut−1 )
ρ= (181)
V (ut )

Cov(ut , ut−2 )
ρ2 = (182)
V (ut )
Comme ρ est constant et compris entre -1 et 1 la variance de ut est toujours
homoscédastique. Si ρ = 1 alors les variances et les covariances ne sont pas
définies. Lorsque la valeur absolue de ρ est inférieure à 1, le processus AR(1)
est dit stationnaire. La moyenne, la variance et la covariance de ut ne varient
pas au cours du temps. Lorsque |ρ| < 1 alors la valeur de la covariance entre
ut et ut+s diminue au cours du temps. Plus je me déplace vers le passé plus la
covariance entre la valeur présente et la valeur passée diminue.

Yt = β1 + β2 Xt + εt (183)
En AR(1)

σ2 σ2 X X
V ar(βˆ2 ) = P 2 + 2 P 2 2 . t = 1n − 1 j = 1n − tρj xt xt+j (184)
xt ( xt )

σ2
P P P
xt xt+1 2 xt xt+2 n−t Pxt xn
= .[1 + 2ρ ] + 2ρ ] + ... + 2ρ ] (185)
x2t x2t x2t x2t
P P P

On pose
P P P
xx xx xx
A = [1 + 2ρ Pt 2t+1 ] + 2ρ2 Pt 2t+2 ] + ... + 2ρn−t P t 2n ] (186)
xt xt xt

V ar(βˆ2 )AR(1) = V ar(βˆ2 ).A (187)


Cette somme A dépends de ρ et des valeurs d’autocorrélation entre les x. Si
ρ = 0 on trouve la même variance. Supposons que la variance X suit également
un processus d’autorégression d’ordre 1 (AR(1))

Xt = ρx Xt−1 + εt (188)
P
xt xt+1
ρx = P 2 (189)
xt
σ 2 1 + ρx + ρ
V ar(βˆ2 )AR(1) = P 2 ( ) (190)
xt 1 − ρx ρ
Si ρx = 0, 6,ρ = 0, 8 → V (βˆ2 )AR(1) = 2, 8V (βˆ2 ) V (βˆ2 ) = 0, 35 et V (βˆ2 )AR(1)
Lorsqu’on a une autocorrélation des résidus, la méthodes des MCO sous-estime
la variance. Ici la variance est sous-estimée d’environ 65
On continue d’utiliser des estimateur des MCO. Désormais on ajuste l’estimation

38
P
ˆ xt yt
βL = P 2 (191)
xt
Qulles sont les propriétés de βˆ2 ?
βˆ2 est toujours sans biais. L’hypothèse de l’absence de l’autocorrélation et
celle de l’homoscédasticité ne sont pas nécessaires pour prouver que βˆ2 est sans
biais. Toutefois βˆ2 n’est pas toujours blue car il n’a pas la variance minimale.
βˆ2 est sans biais mais n’est plus efficace.
Il faut donc utilise les estimateurs des MCG. Dans le cas d’autocorrélation,
les estimateurs MCG sont des estimateurs BLUE.

M CG ˆ (xt − ρx )
P
ˆ
X
βˆ2 = t−1
yt − ρyt−1 ) (xt − ρxt − 1)2 (192)
(

M CG σ2
V ar(βˆ2 )= P (193)
ˆ (xt − ρxt − 1)
Pour obtenir ces estimateurs
M CG
on utilise l’information additionelle sur l’autocorrélation
des résidus. On a obtenu βˆ2 lorsqu’on on a considéré le paramètre qui était
négligé par les MCO. Comme les MCG utilisent toute l’information disponible,
il est normal qu’il soit plus efficace que MCO. si ρ = 0 on n’a pas besoin
d’information additionelle. On a exactement la même équation.
Que se passe-t-il si on continue d’utiliser les estimateur MCO en terme
d’autocorrélation ?
Quelles sont les conséquences de l’autocorrélation ?
On va tout d’abord considérer une estimation MCO en considérant l’autocorrélation.
Soit on utilise les estimateurs MCO en sachant qu’il y a un problème d’autocorrélation
soit on utilise les MCG. Même en utilisant V ar(βˆ2 )AR(1) avec β2 les intervalles
de confiance qu’on va obtenir seront plus larges. Même si la taille de l’échantillon
augmente on a toujours le même résultat. βˆ2 n’est donc pas asymptotiquement
efficace. L’implication de ce résultat pour les tests hypothèses est assez évident:
nous allons trouver un coefficient statistiquement non significatif alors qu’en fait
il pourrait être significatif si nous avions employé les estimateurs MCG
En vers l’intervalle de confiance au seuil de 5% pour les MCG et en rouge
l’intervalle de confiance pour les MCO au seuil de 5%, on teste H0 : β2 = 0 En
MCO on accepte l’hypothèse nulle et β2 n’est pas significatif. Alors qu’en MCG
il est significatif. On accepte l’hypothèse nulle à tort, il s’agit d’un faux négatif,
on dit que la variable est non significative alors qu’elle est : erreur de type II.
IL faut donc utiliser le modèle MCG et non pas le modèle MCO même si les
estimateurs obtenus de ce derniers ne sont pas biaisés.
Deuxième cas de figure : estimation MCO sans tenir compte de l’autocorrélation.
2
Désormais on utilise βˆ2 avec var(βˆ2 ) = Pσ x2
t
On néglige complètement l’autocorrélation et on croit à tort que les hy-
pothèses du modèle classique se vérifient. On a alors plusieurs problèmes.

39
Figure 17: ???

1. D’une part la variance résiduelle est susceptible d’être inférieure à la vari-


ance réelle σ2 on va probablement sous estimer le vrai σ2 .
P 2
uˆt
σˆ2 = (194)
n−2

2. la valeur de R2 sera surestimée car la variance résiduelle est sous-estimée.


3. Même si σ 2 n’est pas sous-estimée,V ar(βˆ2 ) peut sous estimer la variance
de βˆ2 AR(1) . Même cette dernière est inefficace par rapport à la variance
des MCG.
4. Les test de t et de F ne sont plus validés. S’ils sont appliqués ils sont
susceptibles de donner des conclusions trompeuses en ce qui concerne la
significativité statistique des coefficients estimés.
Désormais on étudie chacun de ces problèmes la semaine prochaine développera
le document qu’on trouvera sur la pagePperdonnelle de Fatih sur economix
On sait que σˆ2 chapeau est égal à ... est un estimateur sans biais de σ 2
sont
E(σˆ2 ) = σ 2 (195)
Avec une AR(1) on a

σ 2 [n − (2(1 − ρ))2ρ.ρx )]
E(σˆ2 ) = (196)
n−2
Si ρ et ρx sont tous les deux positifs alors

E(σˆ2 ) < σ 2 (197)


On sous-estime la valeur réelle de la variance des résidus. La variance
résiduelle des MCO est biaisée vers le bas si on a une autocorrélation. Cette

40
variance résiduelle sous-estimée affecte ensuite la variance du paramètre estimé.
Si on a sous-estimé βˆ2 c’est qu’on va également sous estimer V ar(βˆ2 )

βˆ2
t= (198)
σˆ2β
ˆ2

A cause d’une autocorrélation on sous-estime la variance résiduelle


Procédons à une expérience Monte-Carlo, on considère des suites aléatoires
pour faire cette expérience. On connait les paramètres de notre population.

Estimateurs MCO en présence de l’autocorrélation des erreurs


(support de cours)
On suppose qu’on connaı̂t les valeurs réelles des paramètres d’un modèle de
régression simple donné par :

Yt = α0 + α1 Xt + ut (199)

où α0 = 5 et α1 = 0.7
On suppose que ut suit un processus AR(1). On a donc :

ut = ρut1 + εt (200)

où εt satisfait toutes les hypothèses de MCO. On suppose également que εt Ñ (0, 1)
On va considérer une autocorrélation positive avec ρ = 0.75. On crée tout
d’abord une série εt puis en utilisant l’équation (200) on obtient la série pour
u1t Le Tableau 1 présente ces séries.
On remarque une autocorrélation dans la représentation graphique. Le pre-
mier modèle avec une variable à expliquer qui contient des résidus autorégressifs
et une deuxième qui ne contient pas des résidus autorégressifs. La variable X et
la constante sont significatives. J’obtiens un coefficient égal à 0,57 (pente). La
somme des carrés résiduels est égale à 8. Le coefficient de corrélation égal à 0,77.
J’estime le deuxième modèle qui ne contient pas un processus autorégressif. Si
on applique les MCO dans le premier modèle on trouve une statistique de t
surestimée.
Maintenant nous avons la somme des carrés résiduels égale à 0.99, dans le
modèle avec autocorrélation cette somme est égale à 8 il y a donc surestimation.
Nous avons surestimé.
Quand les résidus suivent un processus autorégressif on a tendance à sures-
timer le coefficient de détermination du modèle. La deuxième estimation est
beaucoup plus proche de la vérité. Le second modèle est meilleur que le pre-
mier. Surestimer la somme des carrés résiduelle implique une surestimation des
statistiques de t.

41
La détection de l’autocorrélation

1. La méthode graphique
On utilise des figures pour détecter l’autocorrélation. L’hypothèse d’absence
d’autocorrélation du modèle classique concerne le terme d’erreur de la popula-
tion ut qui n’est pas observable. Ce que nous avons à la place de ut sont des
proxy, id est des résidus estimés uˆt Même si ut et uˆt ne sont pas exactement
la même chose si on étudie visuellement les uˆt on peut obtenir quelques indices
sur la présence probable d’autocorrélation dans les ut . Cette étude visuelle peut
nous donner des informations non seulement sur l’autocorrélation mais encore
sur l’hétéroscédasticité. Il existe différentes façons de tracer les résidus. En fonc-
tion du temps ou encore tracer les résidus standardisés en fonction du temps.
Les résidus standardisés sont
uˆt
(201)
σ̂
L’avantage de tracer les résidus standardisés vient du fait que les ut sont ex-
primmés en unité de notre étude. Si les variables sont en dollars, uˆt est en
dollar. Et σ̂ est également exprimé en dollar. Le rapport précédent est donc
sans unité. Ces résidus standardisé ont une moyenne nulle et une variance ap-
proximativement égale à 1. C’est pourquoi on les appelle des résidus studentisés.
En abscisse le temps et en ordonné les résidus estimés.

Figure 18: résidus estimés et résidus standardisés

Ici il y a une tendance, les résidus ne sont pas aléatoires, on peut tracer uˆt
en fonction de ut−1ˆ . La plupart des résidus sont dans les zones 1 et 4 ce qui
indique une forte autocorrélation entre les résidus.
On regarde désormais le deuxième document de cours. On constate avec
le nuage de point une relation plutôt positive. L’augmentation des prix des
logements est une incitation à investir davantage dans le logement. Mon modèle
explique 50% de la variation de l’investissement dans le logement aux Etats-
Unis. Il peut y avoir une autocorrélation car nous avons des périodes où il

42
Figure 19: ???

y a des tendances. On a une tendances à la hausse, une autre à la baisse, il


peut y avoir effectivement une autocorrélation. C’est donc la figure avec les
quatre rectangle. residuals,l désigne le retard des résidus. En ordonné on a les
résidus. On constate que c’est assez proche de ce qu’on a vu, on a donc une
autocorrélation positive.
ii) test de wald.
Les résidus sont initialement négatifs puis pendant une période donnée posi-
tifs et après encore négatifs (si on revient à la figure avant la précédente) Si les
résidus étaient aléatoires pourrait-on observer une telle évolution ? Non !!! On
peut vérifier cela par un test non paramétrique : le test des suites. On utilise
les valeurs de uˆt , résidus de l’estimation et on définit des suites, ou encore des
séquences. Que signifie dans ces séquences. On commence avec huits résidus
négatifs, puis une deuxième séquences avec 22 signes positifs et enfin 10 signes
négatifs
(- - - - - - - -)(++++++++++++++++++++++)(- - - - - - - - - -)
On pose la question suivante :
Ces trois séquences qui contiennent au total 40 observations sont trop ou
bien trop peu par rapport au nombre de séquences prévues pour un échantillon
de 40 observations ?
S’il y a trop de séquences c’est que les résidus changent de signes très
fréquemment, cela indique une autocorrélation négative. En revanche s’il y
a trop peu de séquences cela indique une autocorrélation positive. N1 est le
nombre total des résidus positifs et N2 le nombre des résidus négatifs. Sous
l’hypothèse nulle qui indique que les résidus sont indépendants et pour N1 et
N2 supérieurs à 10 le nombre des suites est asymptotiquement, normalement
distribué avec la moyenne

43
2N1 N2
E(R) = +1 (202)
N
et

2 2N1 N2 (2N1 N2 − N )
σR = (203)
N 2 (N − 1)
R − E(R)
Ñ (0, 1) (204)
σR
Au seuil de 5 % si on trouve
R − E(R)
| | > N5Y (205)
σR
On rejette l’hypohtèse nulle. Il faut compter les valeurs négatives, les valeurs
positives et les séquences. Dans l’exemple du document de cours nous avons 12
séquences. Désormais on obtient la statistique de test.

R − E(R) 12 − 21, 809


| |=| | = | − 3, 09| (206)
σR 3, 17
Avec R désignant le nombre de séquences On est dans la zone de rejet. Je
rejette l’hypothèse nulle. Le test conclue donc à l’autocorrélation.
On a effectivement une autocorrélation, en général, s’il y a peu de séquences,
l’autocorrélation est positive. S’il y a beaucoup de séquences alors on a une au-
tocorrélation négative. Ici l’autocorrélation est positive pour 40 observations et
12 séquences. Si on a N1 < ou = 20 et N2 < ou = 20. Le tableau spécifique.
On va calculer la statistique du test. Au seuil de 5% si R est inférieur ou égal à
C1 ou bien si R >= C2 on rejette l’hypothèse nulle et on conclue qu’il y a une
autocorrélation. Nous avonsN1 est égal à 23 et N2 est égal à 19. N1 dépasse 20.
Mais imaginons que nous avons 20 résidus positifs au lieu de 23 et 19 résidus
négatifs. Je garde le nombre de suite égal à 12. N1 est égal à 20 ( on est dans le
premier tableau qui donne les valeur deC1 ) et N2 = 19, l’intersection de N2 = 19
etN1 = 20nous donne on trouve C1 = 13. Dans le deuxième tableau on trouve
C2 = 27. Soit la première condition soit la deuxième condition est satisfaite.
Au lieu de faire ces calculs il suffit de regarder ces tableaux.

iii) Le test de Durbin-Watson

C’est le test le plus populaire


Pn
ˆ )2
(uˆt − ut−1
d = t=2Pn (207)
ˆt 2
t=1 u

on part bien de u2 −u1 Pour qu’on puisse appliquer ce test il faut faire l’hypothèse
que les résidus suivent un processus autorégressif d’ordre 1.

44
ut = ρut−1 + εt (208)
il faut que le modèle ait une constante
P 2 P
ˆ 2 − 2 uˆt 2 ut−1
ˆ 2
P
uˆt + ut−1
d= P 2 (209)
uˆt
ˆ 2
P
Il y a une différence d’une seule observation entre les deux sommes ut−1
P 2
et uˆt
P peut
On dire que ces deuxP sommes sont approximativement égales. Au lieu
de ˆ 2 on va utiliser
ut−1 uˆt 2 On otient don
P 2
uˆt ut−1ˆ 2
d ≈ 2(1 − P 2 ) (210)
uˆt
or X X
uˆt 2 ut−1
ˆ 2 = COV (uˆt ) et uˆt 2 = V ar(uˆt ) (211)
On a donc
d ≈ 2(1 − ρ̂) (212)
d est la statistique de test.
On fait d’abord une estimation par MCO, après on calcule d tenant en
compte la taille de l’échantillon et le nombre de variables explicatives. Après
quoi on treuve les valeurs critiques du test qui sont dL et dU lower et upper.

Figure 20: ???

Le partiel peut demander de calculer soi même, alors pour trouver la valeur
de d il faut calculer ρ̂ à une vache près. Dans le tableau 3 il y a une régression.
La variable explicative est le retard. L1 signifie qu’il s’agit du premier retard de
notre variable u. uL 1 signifie le retard ou encore ut−1
ˆ . on retrouve le coefficient
ρ̂ devant ut−1
ˆ N est le nombre d’observations, k’ est le nombre de variables
explicatives dans le modèle, sans compter la constante. On a 42 observations. Il
faut que le modèle ne contienne pas les valeurs retardées de la variable expliquée.
Cela signifie que dans un modèle dynamique Cette zone indécise là où j’ai écrit
des points d’interrogation, diminue lorsque la taille de l’échantillon augmente,
car cela augmente la précision du test.

Yt = α0 + α1 Xt + α2 Xt−1 + ut (213)
On ne peut pas utiliser le test de Durbin Watson pour une autoregresseion
d’ordre supérieur à 1. Il faut utiliser une autre test.

45
iv) Test de Breusch-Godfrey (BG)

Yi = β1 + β2 Xt + ut (214)
On choisit ici un processus autoregressif d’ordre p

ut = l1 ut−1 + l2 ut−2 + ... + lp ut−p + εt (215)

εt est un bruit blanc Le test BG comprend les étapes suivantes. on teste


l’hypothèse nulle H0 = l1 = l2 = ... = lp = 0
1. Estimer le modèle par la méthode MCO
2. Regression de ut sur Xt mais également sur les résidus retardés et tous les
ut−i . Donc si p = 3 on a 4 régression.

uˆt = α1 + α2 Xt + ρ̂1 ut−1


ˆ + ... + ρ̂p ut−p
ˆ (216)

MCO sur R2
3.
(n − p)R2 ∼2n−p (217)
Finalement si cette valeur dépasse la valeur critique lue dans le tableau
de distribution de khi deux, en rejette l’hypothèse nulle et on conclue
qu’il existe au moins un ρ qui est différent de zéro. On a donc une auto-
corrélation. On estime le modèle, on obtient les résultats de l’estimation.
A l’étape 2 on obtient les résidus de cette estimation uˆt
La seule chose dont on a besoin est le coefficient de détermination du modèle.
Exemple : pour R2 = 0, 629, et n − p = 42 − 4 = 38 plus on ajoute de retards
plus on perd des observation. 38 . 0.629 = 23,902
Dans le tableau il n’y a pas la valeur 38 mais la valeur 40, on trouve 20,7
pour la valeur 40. On est donc bien dans la zone de rejet 23,9¿20,7 on rejette
donc l’hypothèse nulle et on accepte l’hypothèse alternative. Un ρ au moins est
significativement différent de zéro.
Comment déterminer la valeur de p, le nombre de retards à inclure dans
l’estimation ? On peut faire ça progressivement, ajoutant 6 ou 7 retards puis
regardant la significativité du dernier retards, s’il n’est pas significatif on le
supprime et on continue. On peut tatonner différemment en sélection progres-
sive ajoutant progressivement des retards et s’arrêtant quand le dernier retard
ajouter est non significatif.
Aikaike Information Criterium
SCR 2k
AIC = ln( )+ (218)
n n
Le modèle qui minimise cette information est le bon modèle. à chaque
modèle on calcule la somme des carrés résiduels. Dans notre exemple la valeur

46
minimale se trouve pour le processus autoregressif d’ordre 2, on ne garde donc
que 2 retards.
Désormais, dès qu’on détecte une autocorrélation on s’intéresse aux mesures
correctives les mesures correctives.
A-t-on une pure autocorrélation ou une mal-spécification du modèle ? Il
faut estimer plusieurs modèles pour savoir s’il s’agit d’une pure autocorrélation.
D’une part on peut estimer un modèle

Yt = β1 + β2 Xt + β3 t + ut (219)
Dans ce premier modèle on à ajouter le trend t On estime ce modèle pour voir
s’il y a toujours une autocorrélation. Ou on peut estimer un autre modèle si on
suppose que la relation entre y et x n’est pas linéaire.

Yt = β1 + β2 Xt + β3 Xt2 + ut (220)
On regarde l’estimation de ces deux modèles dans les documents de cours.
Ici le trend t sort significative mais la variable explicative ne l’est plus. Le test de
Durbin-Watson donne On a toujours une autocorrélation positive. L’autocorrélation
ne vient pas du problème que j’ai oublié de mettre la tendance dans mon modèle.
Quand j’estime le deuxième modèle j’ai ajouté le terme quadratique dans mon
équation, on a les prix et les prix au carré. Ici la variable explicative n’est plus
significative, pire Durbin Watson donne toujours une autocorrélation.
On peut conclure qu’il y a une pure autocorrélation. Elle ne vient pas de la
mal-spécification du modèle.
CORRECTION DE l’Autocorrélation
On considère un modèle de régresstion simple

Yt = β1 + β2 Xt + ut (221)

et un modèle AR(1)
ut = ρut−1 + εt (222)
or
Yt−1 = β1 + β2 Xt−1 + ut−1 (223)
ρYt−1 = ρβ1 + ρβ2 Xt−1 + ρut−1 (224)
On soustrait maintenant cette dernière équation à l’avant dernière.

Yt−1 − ρYt−1 = β1 (1 − ρ) + β2 (Xt − ρXt−1 ) + εt (225)

on pose
Yt−1 − ρYt−1 = Yt∗ (226)
β1 (1 − ρ) = β1 ∗ (227)
β2 (Xt − ρXt−1 ) = β2∗ Xt∗ (228)
Par définition εt n’est pas autocorrélé on a donc dans ce dernier modèle des
estimateurs blue. Ici l’estimation est une estimation MCG car on a utilisé une
information pour corriger l’autocorrélation.

47
Quand ρ n’est pas connu, on peut en premier lieu utiliser la méthode des
différences premières, on fait une différence première de ces deux variables X et
Y en supposant que ρ est égal à 1. ρ = 1

Yt − Yt−1 = β2 (Xt − Xt−1 ) + ut − ut−1 (229)

∆Yt = β∆Xt + εt (230)


l’erreur suit une loi normale
Maddala, économètre, dit qu’on peut utiliser cette méthode si la statistique
de DW est inférieur au coefficient de corrélation du modèle.
Dans les tableaux, D1 désigne la différence première. La statistique de DW
désormais indique qu’il n’y a plus d’autocorrélation. ρ = 0, pas d’autocorrélation.
La différence première a effectivement supprimé l’autocorrélation. Cette méthode
supprime l’autocorrélation mais on a désormais des variables non significatives.
En supposant que ρ est égal à 1, on supppose qu’on avait une autocorrélation
très forte. Si l’autocorrélation n’est pas déjà très forte (supérieure à 80%) alors
il vaut mieux éviter d’utiliser cette méthode.
Désormais on estime ρ
On peut estimer ρ en utilisant la statistique D de Durbin-Watson.
d
ρ̂ ≈ 1 − (231)
2
d ≈ 2(1 − ρ̂) (232)
0, 475
ρ̂ = 1 − = 0, 762 (233)
2

Yt ∗ = Yt − ρ̂Yt−1 (234)
Xt∗ = Xt − ρ̂Xt−1 (235)
linvt∗ = linvt − 0, 762linvt−1 (236)
lprice∗t = lpricet − 0, 762lpricet−1 (237)
avec un estimateur MCG faisable (feasable) on corrige l’autocorélation.
désormais on régresse le résidus sur sa valeur retardé.

uˆt = ρut−1
ˆ + εt (238)

Méthode itérative de Cochrane-Orcutt


On utilise l’estimation de

ρ̂ → uˆt = ρut−1 + εt ρ̂ = ρˆ0 (239)

On applique ensuite la différence

Yt − ρˆ0 yt−1 = α0 + α1 (Xt − ρˆ0 Xt−1 ) + εt (240)

48
αˆ0 , αˆ1 (241)
on pose
eˆ1t = Yt − αˆ0 − αˆ1 Xt (242)

Yt = P1 + P2 Xt + ut (243)
eˆ1t = ρ1 e1t−1
ˆ + ε1t (244)
J’estime désormais le modèle suivant

Yt − ρˆ1 Yt−1 = α10 + α11 (Xt − ρ1 Xt−1 ) + εt (245)

eˆ2t = Yt − αˆ10 + α11 Xt (246)


eˆ2t = ρ2 e2t−1
ˆ + ε2t (247)
Pn
t=1 eˆ
2t .e2t−1
ˆ
ρˆ2 = P n 2 (248)
t=1 eˆ 2t

Le dernier ρ̂ = 0, 78, c’est la meilleure estimation de ρ Les coefficients sont


assez proches de ce qu’on a trouvé tout à l’heure. La valeur de la statistique de
Durbin-Watson = 0,777
On n’a plus d’autocorrélation ici, les estimateurs sont BLUE.
En présence d’autocorrélation les estimateurs MCO sont blue mais ne sont
pas efficace, en revanche les estimateurs MCG sont blue et efficace. La per-
formance des estimateurs MCG peut être pire que celles des MCO quand nous
avons peu d’observations. Si le coefficient d’autocorrélation ρ < 0, 3 alors les
MCO sont meilleurs que les MCG pour un petit échantillon. Si on a plus de 40
ou bien 50 observations, on a suffisamment d’observations.

49