Vous êtes sur la page 1sur 118

Econometrie

Inspire du cours de Bruno Crepon


21 fevrier 2003
1
2 1 INTRODUCTION : LE MOD
`
ELE LIN

EAIRE
1 Introduction : le mod`ele lineaire
On consid`ere le mod`ele :
y = b
0
+x
1
b
1
+ +x
k
b
k
+u
O` u
_

_
y = variable dependante
x = variables explicatives
u = terme derreur
b = inconnue du probl`eme
Le but de leconometrie est destimer ce mod`ele, cest-`a-dire de trouver une
fonction

b = b(Y, X) qui satisfasse les conditions suivantes :
sans biais : E(

b) = b ;
obeissance `a un principe, comme le maximum de vraisemblance : si la loi
des residus est connue, on connat la loi conditionnelle Y [X et on choisit

b ;
optimisation dun crit`ere, comme min
_
(y xb)
2
_
;
minimisation de Var(

b).
On travaille sur des donnees appartenant `a trois grands types :
Donnees temporelles, par observation du meme phenom`ene dans le temps,
cest-`a-dire des variables y
t
, x
t
, u
t
, t [1, . . . , T]. T doit alors etre moyen-
nement grand, de lordre de 50 periodes.
Exemple (Consommation et revenu). C
t
= +R
t
+
t
+u
Donnees en coupe :y
i
, x
i
, u
i
, i = 1, ..., N. N peut etre grand, voire tr`es
grand (plusieurs milliers dobservations).
Lajustement est en general beaucoup moins bon que dans le cas des don-
nees temporelles.
Exemple (Enquete-emploi). On a plus de 150000 personnes enquetees,
avec un grand nombre de questions.

i
=
0
+
1
sco
i
+
1
exp
i
+
2
exp
2
i
+u
i
Cest le type de donnees le plus adapte au calibrage macro-economique.
Donnees de panel, doublement indicees :
y
i,t
, x
i,t
, i = 1, ..., Ngrand(> 100), t = 1, ..., Tpetit(< 10).
Exemple (Fonctions de production dentreprises).
Y
it
= A
it
K

it
L

it
y
it
= a
it
+k
it
+l
it
Le residu, dit residu de Solow, est alors a
it
, et lobservation unitaire, ou
unite statistique le T-uplet (y
i1
, ..., y
iT
).
1.1
`
A quoi sert lestimation?
Il sagit de verier quune variable X a bien un eet sur la variable Y , et de
quantier cet eet.
Lestimation peut aussi avoir un but de simulation. Si la consommation des
bien modelisee par C
t
=
0
+
1
R
t
+
2
T
t
+u
t
, quel est leet de prel`evements
scaux T sur la consommation, autrement dit, quel est le signe de
2
? La theorie
de lequivalence ricardienne dit que
2
= 0.
On peut enn vouloir faire de la prevision : si Y
t
=

bX
t
, alors il y a une
probabilite, `a determiner, pour que Y
t+1
=

bX
t+1
.
1.2 Do` u vient le mod`ele ? 3
1.2 Do` u vient le mod`ele ?
Le mod`ele vient de la theorie economique ;
Exemple. Fonction de production Y = F(X), la theorie donnant une
idee de la modelisation, comme Y =

K
k=1
X

k
k
.
fonction translog : log C = log Q+

log P
X
+ log P

X
log P
X
.
Pour pouvoir evaluer le mod`ele, il faut souvent imposer une restriction sto-
chastique.
Exemple. On specie la loi de u[X (en general une loi Normale), ce qui permet
destimer le mod`ele, puisque cela donne la loi de Y [X.
Comme E(u[X) = 0 est une hypoth`ese forte, on pref`ere en general faire des
hypoth`eses moins fortes.
Exemple. Y
d
= p +X
d

d
+u
d
, Y
0
=
p
+X
0

0
+u
0
. On observe (Y, P, X),
et on sinteresse principalement `a la premi`ere equation avec un choc u
d
= 0.
Si p = f(u), la connaissance du prix donne une information sur le residu,
donc E(u[X) ,= 0.
On doit donc faire la reduction sctochastique E(u
d
[X
d
, X
0
) = 0.
On peut egalement essayer de specier la loi des observations. Cependant,
specier la loi de u
i
[X
i
ne sut pas. Il faut une hypoth`ese supplementaire pour
passer `a L(y
1
, ..., y
N
[x
1
, ..., x
N
). On peut par exemple supposer que les (y
i
, x
i
)
sont iid.
4 TABLE DES MATI
`
ERES
Table des mati`eres
1 Introduction : le mod`ele lineaire 2
1.1
`
A quoi sert lestimation? . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Do` u vient le mod`ele ? . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Le Mod`ele lineaire standard 7
2.1 Hypoth`eses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 LEstimateur des MCO . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 Interpretation geometrique . . . . . . . . . . . . . . . . . 8
2.3 Proprietes algebriques de lestimateur des MCO . . . . . . . . . . 9
2.4 Proprietes statistiques de lestimateur MCO . . . . . . . . . . . . 11
2.5 Optimalite de

b
MCO
. . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Estimation de
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.7 Application `a la prevision . . . . . . . . . . . . . . . . . . . . . . 13
2.8 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 14
2.9 Le Mod`ele lineaire statistique . . . . . . . . . . . . . . . . . . . . 15
2.9.1 Intervalles de conance . . . . . . . . . . . . . . . . . . . 16
2.10 Test dhypoth`eses . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.11 MCO et EMV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Estimation sous contraintes lineaires 19
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Questions : . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 Formulation : Exemple . . . . . . . . . . . . . . . . . . . . 19
3.1.3 Reecriture sous forme matricielle : . . . . . . . . . . . . . 19
3.1.4 Formulation generale . . . . . . . . . . . . . . . . . . . . . 20
3.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . 20
3.2.1 Expression de lestimateur des MCC . . . . . . . . . . . . 20
3.2.2 Proprietes Statistiques de

b
mcc
. . . . . . . . . . . . . . . 21
3.2.3 Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Estimateur de la Variance des residus
2
. . . . . . . . . . . . . 23
3.4 Estimation par integration des contraintes . . . . . . . . . . . . . 24
3.5 Test dun Ensemble de Contraintes . . . . . . . . . . . . . . . . . 25
3.5.1 Expression simpliee de la statistique . . . . . . . . . . . 26
3.5.2 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . 26
3.5.3 Application : Test de legalite `a une valeur donnee de plu-
sieurs coecicents : . . . . . . . . . . . . . . . . . . . . . 27
3.6 Test de la signicativite globale des coecients dune regression . 27
3.7 Le Test de Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.7.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.7.2 Principe dapplication du test de Chow (sous hypoth`ese
dhomosc edasticite et non-correlation des residus). . . . . 29
4 Proprietes asymptotiques de lestimateur des MCO 30
4.1 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . 30
4.1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . 30
4.1.2 Convergence en probabilite . . . . . . . . . . . . . . . . . 30
4.1.3 Dierents resultats . . . . . . . . . . . . . . . . . . . . . . 30
TABLE DES MATI
`
ERES 5
4.1.4 Theor`eme central limite (Lindeberg-Levy) . . . . . . . . . 31
4.2 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . 32
4.3 Estimation de la variance de lestimateur . . . . . . . . . . . . . 35
5 Tests asymptotiques 35
5.0.1 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1 Test dhypoth`eses lineaires . . . . . . . . . . . . . . . . . . . . . . 36
5.1.1 Cas dune seule contrainte, p = 1 : test de Student. . . . . 36
5.1.2 Cas de plusieurs contraintes, p K : test de Wald. . . . . 37
5.2 Test dhypoth`eses non lineaires . . . . . . . . . . . . . . . . . . . 38
6 Le mod`ele lineaire sans lhypoth`ese IID 39
6.1 Presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.2 Exemples : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3 Conclusion des exemples . . . . . . . . . . . . . . . . . . . . . . . 42
6.4 Le mod`ele lineaire heteroscedastique . . . . . . . . . . . . . . . . 43
6.4.1 Denition et hypoth`eses . . . . . . . . . . . . . . . . . . . 43
6.5 Estimation par les MCO . . . . . . . . . . . . . . . . . . . . . . . 43
6.6 La methode des Moindres Carres Generalises (MCG) . . . . . . . 44
6.7 Proprietes statistiques de lesperance et de la variance condition-
nelle des MCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Lestimateur des MCQG 47
7.0.1 Cas o` u = () et de dimension nie . . . . . . . . . . 47
7.0.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.0.3 Retour sur les regressions SUR . . . . . . . . . . . . . . . 51
7.0.4 Cas o` u = (, X) et de dimension nie . . . . . . . . 52
7.0.5 Application : . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.0.6 Cas o` u = () et de dimension quelconque . . . . . . 54
7.0.7 Application . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.1 Tests dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . 55
7.1.1 Test de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . 55
7.1.2 Test de Breusch-Pagan . . . . . . . . . . . . . . . . . . . . 56
8 Autocorrelation des residus 58
8.1 Les diverses formes dautocorrelation des perturbations . . . . . 58
8.1.1 Perturbations suivant un processus autoregressif dordre
1 (AR1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.1.2 Stationnarite au premier et au second ordre dun proces-
sus AR1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.1.3 Covariance entre deux perturbations dun processus AR(1) 59
8.1.4 Matrice de variances-covariances des perturbations . . . . 60
8.1.5 Perturbations suivant un processus AR(p) . . . . . . . . 60
8.1.6 Perturbations suivant un processus de moyenne mobile
dordre q MA(q) . . . . . . . . . . . . . . . . . . . . . . . 61
8.1.7 Perturbation suivant un processus ARMA(p,q) . . . . . . 62
8.1.8 Detection de lautocorrelation : le test de Durbin et Wat-
son (1950, 1951) . . . . . . . . . . . . . . . . . . . . . . . 63
8.2 Estimateurs des MCO, des MCG et des MCQG dans un mod`ele
dont les perturbations sont autocorrelees . . . . . . . . . . . . . . 65
6 TABLE DES MATI
`
ERES
8.2.1 Estimation de la matrice de variance . . . . . . . . . . . . 65
9 Introduction aux variables instrumentales 69
9.0.2 Erreur de mesure sur les variables . . . . . . . . . . . . . 69
9.0.3 Omission de regresseur, heterogeneite inobservee . . . . . 70
9.0.4 La simultaneite . . . . . . . . . . . . . . . . . . . . . . . . 70
9.0.5 La methode des variables instrumentales . . . . . . . . . . 71
9.1 Instruments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.1.1 Identication . . . . . . . . . . . . . . . . . . . . . . . . . 73
9.2 Moindres carres indirects . . . . . . . . . . . . . . . . . . . . . . 73
9.2.1 Propriete asymptotiques des estimateurs des MCI . . . . 74
9.2.2 Estimation robuste de la matrice de variance . . . . . . . 75
9.2.3 Estimateur `a variables instrumentales optimal ou estima-
teur des doubles moindres carres . . . . . . . . . . . . . . 75
9.2.4 Expression de lestimateur optimal . . . . . . . . . . . . . 76
9.2.5 Cas des residus heteroscedastiques . . . . . . . . . . . . . 77
9.2.6 Interpretation de la condition rangE (z

i
x
i
) = K + 1 . . . 78
9.2.7 Test de suridentication . . . . . . . . . . . . . . . . . . . 78
9.2.8 Test dexogeneite des variables explicatives . . . . . . . . 83
10 La Methode des moments generalisee 86
10.1 Mod`ele structurel et contrainte identiante : restriction sur les
moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
10.2 La methode des moments generalisee . . . . . . . . . . . . . . . . 86
10.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . 88
10.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . 89
10.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.6 Mise en oeuvre : deux etapes . . . . . . . . . . . . . . . . . . . . 91
10.7 Application : instruments dans un syst`eme dequations . . . . . . 92
10.7.1 Regressions `a variables instrumentales dans un syst`eme
homoscedastique . . . . . . . . . . . . . . . . . . . . . . . 93
10.7.2 Estimateur `a variables instrumentales optimal dans le cas
univarie et heteroscedastique . . . . . . . . . . . . . . . . 94
10.8 Test de specication. . . . . . . . . . . . . . . . . . . . . . . . . . 95
10.8.1 Application test de suridentication pour un estimateur `a
variables instrumentales dans le cas univarie et heterosce-
dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11 Variables dependantes limitees 98
11.1 Mod`ele dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . 98
11.1.1 Mod`ele `a probabilites lineaires . . . . . . . . . . . . . . . 98
11.1.2 Les mod`eles probit et logit. . . . . . . . . . . . . . . . . . 99
11.1.3 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . 101
11.1.4 Estimation des mod`eles dichotomiques . . . . . . . . . . . 102
11.2 Mod`eles de choix discrets : le Mod`ele Logit Multinomial . . . . . 105
11.2.1 Estimation du mod`ele logit multinomial : . . . . . . . . . 107
11.3 Selectivite, le mod`ele Tobit . . . . . . . . . . . . . . . . . . . . . 108
11.3.1 Rappels sur les lois normales conditionnelles. . . . . . . . 112
11.3.2 Pourquoi ne pas estimer un mod`ele Tobit par les MCO? . 115
11.3.3 Estimation par le maximum de vraisemblance . . . . . . . 115
7
2 Le Mod`ele lineaire standard
Mod`ele : y
i
= b
0
+b
1
x
1i
+ +b
K
x
ki
+u
i
2.1 Hypoth`eses
Hypoth`ese (H
1
). E(u
i
) = 0
Hypoth`ese (H
2
). Var(u
i
) =
2
Hypoth`ese (H
3
). i ,= i

Cov(u
i
, u
i
) = 0
Ces hypoth`eses reviennent `a dire que les observations sont independantes les
unes des autres.
Hypoth`ese (H
4
). La matrice des observations X est connue.
Cette hypoth`ese est etrange : tout se passe comme si on pouvait modier
X `a sa guise. Elle nest cependant pas indispensable sous sa forme forte. On
peut en eet lassouplir en formulant les autres hypoth`eses parametrees par la
connaissance de X, comme E(u
i
[X) = 0.
Hypoth`ese (H
5
). Les vecteurs dobservation X
i
sont non colineaires.
Matriciellement, on ecrit ce mod`ele :
y =
_
_
_
y
1
.
.
.
y
N
_
_
_X =
_
_
_
1 x
11
. . . x
K1
.
.
.
.
.
.
.
.
.
1 x
1N
. . . x
KN
_
_
_u =
_
_
_
u
1
.
.
.
u
N
_
_
_
Y = Xb +u
Avec les hypoth`eses :
Hypoth`ese (H
1
). E(u) = 0
Hypoth`ese (H
2
et H
3
). Var(u) =
2
I
N
Hypoth`ese (H
4
). La matrice des observations X est connue.
Hypoth`ese (H
5
). Rang(X) = K +1, ce qui revient `a dire que X

X est inver-
sible.
Demonstration. Supposons X

X non inversible. Alors,


,= 0/X

X = 0

X = 0 |X|
2
= 0 X = 0
Il existe donc une combinaison lineaire nulle des X
i
, ce qui est contraire `a
notre hypoth`ese.
2.2 LEstimateur des moindres carres ordinaires
2.2.1 Denition
Denition 2.1 (Estimateur MCO). On denit lestimateur des moindres
carrees ordinaires comme :

b
mco
= Arg min
b
_
N

i=1
(y
i
x
i
b)
2
_
= Arg min
_
N

i=1
(u
i
(b))
2
_
8 2 LE MOD
`
ELE LIN

EAIRE STANDARD
Comme u
i
(b) = y
i
x
i
b, on a

b
mco
= Arg min
b
((Y Xb)

(Y Xb))
On dit que lestimateur mco minimise le crit`ere c = (Y Xb)

(Y Xb).
Demonstration.
dc
db
= 2(Y Xb)

X = 0
dc

e = 2c

dc
dXb = db d(Y Xb) = Xdb
On optimise le crit`ere :

b tel que 2(Y X

b
MCO
)

X = 0 : K + 1 equations et K + 1 inconnues
(Y Xb)

x = 0 (Y

)X = 0
Y

X = b

(X

X)
(X

X)

b = X

Y
H
5

b = (X

X)
1
(X

Y )
NB : (Y X

b)

X = 0 les residus sont orthogonaux `a X.


2.2.2 Interpretation geometrique
Denition 2.2 (Valeurs predites). Soit
y =

bX la valeur predite par le mod`ele ;


u = y y les residus estimes par le mod`ele.
Proposition 2.1.

Etant donnees ces denitions,
y est la projection orthogonale de y sur Vect(X) ;
matriciellement,

Y = X

b = X(X

X)
1
X

Y .
Proposition 2.2. On a alors :
1. On pose : P
X
= X(X

X)
1
X

la matrice de projection orthogonale sur


Vect(X). Elle verie :
P
X
= P

X
;
P
2
X
= P
X
.
2. On a alors, en notant M
X
la matrice de projection orthogonale sur lor-
thogonal de Vect(X), avec

U = Y P
X
Y = (I P
X
)Y = M
X
Y . Elle
verie :
M
X
= M

X
;
M
2
X
= M
X
.
Proposition 2.3. Il sensuit :
1. P
X
M
X
= 0 ;
2.

U

X = 0 ;
3.

Y

u = 0 : valeur predite et residus estimes sont orthogonaux.


Demonstration.
1. Vect(X) et Vect(X)

sont orthogonaux et supplementaires ;


2. idem ;
2.3 Proprietes algebriques de lestimateur des MCO 9
3.

Y

U = Y

X
M
X
Y .
Proposition 2.4. Dans le cas dun mod`ele avec terme constant, soit :
Y =
1
N
N

i=1
Y
i

Y =
1
N
N

i=1

Y
i
On a alors : Y =

Y
De plus,

U =
1
N
N

i=1
u
i
= 0
.
Demonstration.
Soit e

= (1, . . . , 1), e /
N,1
Y =
1
N
e

Y =
1
N
e

Y = P
X
Y , donc

Y =
1
N
e

P
X
Y , puisque P
X
e = e, donc

Y =
1
N
P
X
e

Y =
1
N
e

Y = Y
De plus, Y =

Y +

U
2.3 Proprietes algebriques de lestimateur des MCO
Theor`eme 2.5 (Theor`eme de Frish et Waught). Soit Y = Xb + u le
mod`ele.
On pose X = [X
1
X
2
] X /
N,K+1
X
1
/
N,K
1
X
2
/
N,K
2
On ecrit donc le mod`ele : Y = X
1
b
1
+X
2
b
2
+u
On a alors :
_

b
1
= (X

1
M
X
2
X
1
)
1
X

1
M
X
2
Y

b
2
= (X

2
X
2
)
1
X

2
(Y X
1

b
1
)
Do` u :

b
1
= (X

1
M

X
2
M
X
2
X
1
)

1
M

X
2
Y
= [(M
X
2
X
1
)

M
X
2
X
1
]
1
(M
X
2
X
1
)

M
X
2
Y
Donc

b
1
est lestimateur mco de la regression de M
X
2
Y , residu de la regression
de Y sur X
2
, sur M
X
2
X
1
, matrice des residus de la regression de X
1
sur X
2
.
10 2 LE MOD
`
ELE LIN

EAIRE STANDARD
En dautres termes, lestimateur

b
1
peut etre obtenu comme la regression du
residu de la regression de Y sur X
2
sur les residus des regressions des variables
presentes dans X
1
sur X
2
.
Exemple. Soit le mod`ele : Y
it
= X
it
b + u
i
+ u
it
(donnees de panel), o` u u
i
est
un param`etre propre `a chaque entreprise.
Pour le mod`ele complet,

b
c
=
_
_
_
_
_
b
u
1
.
.
.
u
N
_
_
_
_
_
/
N+K,1
X
c
= [X, I
N
e
T
]
Le theor`eme de Frish-Waught dit qui si
on regresse Y sur I
N
e
T
;
on regresse chacun des x
k
sur I
N
e
T
et on recup`ere les dierents residus,
qui sont orthogonaux `a I
N
e
T
,
On a alors, en notant x
i
=
1
N

T
t=1
x
it
, on peut sans perte dinformation consi-
derer y
it
y
i
= (x
it
x
i
)b + u
it
+ u
i
, les ecarts `a la moyenne temporelle pour
chaque individu.
Autrement dit, le theor`eme indique que quand on a une foultitude dindica-
teurs, on peut se simplier la vie en regressant dabord les variables explicatives
sur les indicatrices.
Demonstration. On part des equations normales pour ce mod`ele :
X

(Y Xb) = 0 (X
1
X
2
)

(Y X
1

b
1
X
2

b
2
) = 0
Do` u
X

1
(Y X
1

b
1
X
2

b
2
) = 0 (1)
X

2
(Y X
1

b
1
X
2

b
2
) = 0 (2)
On consid`ere dabord (2) :
X

2
(Y X
1

b
1
) (X

2
X
2
)

b
2
= 0

b
2
= (X

2
X
2
)
1
X

2
(Y X
1

b
1
)
X

b
2
= X
2
(X

2
X
2
)
1
X

2
(Y X
1

b
1
)
X

b
2
= P
X
2
(Y X
1

b
1
)
On reint`egre cela dans (1) :
X

1
(Y X
1

b
1
P
X
2
(Y X
1

b
1
)) = 0 X

1
(I P
X
2
)(Y X
1

b
1
) = 0
X

1
M
X
2
(Y X
1

b
1
) = 0


b
1
= (X

1
M
X
2
X
1
)
1
X

1
M
X
2
Y


b
1
= [(M
X
2
x
1
)

(M
X
2
X
1
)]
1
(M
X
2
X
1
)

M
X
2
Y
On purge ainsi X
1
des variables de X
2
correlees avec X
1
.
Remarque. Soient les mod`eles : Y = X
1

b
1
+X
2

b
2
+u et Y = X
1

b
1
+v Lestima-
teur

b
1
issu du seul second mod`ele est non biaise M
X
2
X
1
= X
1
, cest-`a-dire
X
1
X
2
. Cest pourquoi on commence par regresser X
1
sur X
2
et quon prend
le residu.
2.4 Proprietes statistiques de lestimateur MCO 11
2.4 Proprietes statistiques de lestimateur MCO
Proposition 2.6.

b
MCO
est sans biais.
Demonstration.
Si X est connu :

b
MCO
= (X

X)
1
X

Y
= (X

X)
1
(X

Xb +X

u)
= b + (X

X)
1
X

u
Donc :
E(

b
MCO
) = E
_
(X

X)
1
X

u)
_
H
1
= E(b)
Si X est inconnu, on a par le meme calcul, E(

b
MCO
[X) = b.
Proposition 2.7. Var(

b
MCO
) =
2
(X

X)
1
Demonstration.
Var(

b) = E
_
(

b b)(

b b)

_
Comme

b = (X

X)
1
X

Y ,

b b = (X

X)
1
X

u.
Donc Var(

b[X) = E
_
(X

X)
1
X

uu

X(X

X)
1
[X

. Or, dapr`es H
2
et H
3
,
E(uu

) =
2
I.
Si X est aleatoire, on a : Var(

b) =
2
E
X
_
(X

X)
1
_
.
Exemple (Le mod`ele lineaire simple y = xb +u). Supposons les variables
centrees : E(y) = E(x) = 0.
On a alors : x

x =

x
2
i
=
1
N

x
2
i
N
= N
2
x
Donc, Var(

b) =

2
N
2
x
, donc quand
N augmente, Var(

b) decrot au rythme de 1/N, ce qui signie que decrot en


1/

N, qui est la vitesse standard de convergence des estimateurs.


En outre,
2
x
joue un r ole essentiel. Si
2
x
= 0,

b
MCO
na pas de sens : il faut
que la variable explicative soit susemment dispersee.
Exemple (Mod`ele `a deux variables explicatives). On a x
1
et x
2
, avec

2
x
1
=
2
x
2
et Cov(x
1
, x
2
) =
2
.
(X

X)
1
=
1
N
2
(1
2
)
_
1
1
_
Si est proche de 1, les estimateurs sont tr`es imprecis.
2.5 Optimalite de

b
MCO
Denition 2.3 (Crit`ere doptimalite). On prend comme crit`ere doptimalite
la minimisation de la variance.
Soit

b un estimateur de b. On dit que

b est optimal ssi , Var(

b) est mini-
male, cest-`a-dire que la variance de toute compostion lineaire des composantes
est minimale.
Theor`eme 2.8 (Theor`eme de Gauss-Markov). Sous les hypoth`eses H
1
` a
H
5
, dans la classe des estimateurs de b lineaires dans les variables ` a expliquer et
sans biais,

b
MCO
est optimal au sens du crit`ere de minimisation de la variance.
12 2 LE MOD
`
ELE LIN

EAIRE STANDARD
Demonstration.

b lineaire en Y

b = AY

b sans biais E(AXb +Au) = b


Comme E(u) = 0, AXb = b, b, AX = I.
En outre,

b b = AY b = AXb +Au b = Au,
donc Var(

b) = E
_
(

b b)(

b b)

_
= E(Auu

) = AE(uu

)A

.
Or, on a suppose que E(uu

) =
2
I, donc Var(

b) =
2
AIA

Ecrivons
I = P
X
+M
X
_
P
X
= X

(X

X)
1
X

M
X
= I P
X
Var(

(b)) =
2
(AP
X
A

+AM
X
A

)
Or,
2
AP
X
A

=
2
AX(X

X)
1
X

.
Comme

(b) est sans biais, AX = I = X

, donc
2
AP
X
A

=
2
(X

X)
1
,
et donc :
Var(

b) =
2
(X

X)
1
. .
Var(

b
MCO)
+AM
X
A

Comme, AM
X
A

est symetrique denie positive, on a :


, Var(

b) = Var(

b
MCO
) +
2
(A

)M
X
(A

)
Donc Var(

b) Var(

b
MCO
).
Il faut noter que cette demonstration repose tr`es fortement sur lhomosce-
dasticite de u.
2.6 Estimation de
2
Il est important de bien estimer ce param`etre, car Var(

b
MCO
) =
2
(X

X)
1
en depend. On va avoir :

Var(

b) =

2
(X

X)
1
Dautre part,

2
= Var(u), et donc constitue une mesure de la qualite de lajus-
tement.
Denition 2.4.

2
MCO
=

u
2
i
N K 1
=
u

u
N K 1
Proposition 2.9 (Proprietes de

2
MCO
).

2
MCO
verie :
1. E(

2
MCO
) =

2
:

2
MCO
est sans biais ;
2. u et

b
MCO
sont non correles.
Demonstration.
2.7 Application `a la prevision 13
1. Sans biais :

2
MCO
=
u

u
N K 1
=
u

M
X
u
N K 1
Or, u

M
X
u est un scalaire, donc u

M
X
u = Tr(u

M
X
u) = Tr(M
X
uu

).
Donc,
E
X
(

2
MCO
) =
E(Tr(M
X
u

u))
N K 1
=
Tr(M
X
E(uu

[X))
N K 1
Or, E(uu

[X) =
2
I, donc E
X
(

2
MCO
) =

2
Tr(M
X
)
NK1
.
Comme M
X
est la matrice de projection sur un espace de dimension N
K 1, Tr(M
X
) = N K 1, donc E
X
(

2
MCO
) =
2
.
2. Non-correlation :
E
X
( u (

b b)

. .
on centre
) = E
X
(M
X
uu

X(X

X)
1
)
= M
X
E
X
(u

u)X(X

X)
1
=
2
M
X
X(X

X)
1
Comme M
X
X = 0, E
X
= (u

b b)

) = 0.
Les param`etres du premier et du second ordre sont donc independants.
2.7 Application `a la prevision
Mod`ele :
_
_
_
Y
i
= bX
i
+u
i
H
1
`a H
5
N observations
On suppose que pour une observation N + 1, le mod`ele reste vrai :
Y
N+1
= bX
N+1
+u
N+1
H
1
`aH
5
:
_
E(U
n+1
) = 0
Cov(u
N+1
, u
i
) = 0 i = 1 . . . N
On connat donc X
N+1
, et on veut prevoir Y
N+1
.
Denition 2.5. La prevision mco de Y est :
Y
p
N+1
= X
N+1

b
MCO
Proposition 2.10. Y
p
N+1
= X
N+1

b
MCO
est le meilleur predicteur lineaire en
Y sans biais de Y
N+1
.
Demonstration.
Sans biais :
E(Y
p
N+1
Y
N+1
) = E(X
N+1

b
MCO
X
N+1
b u
N+1
= X
N+1
E(

b
MCO
b) E(u
N+1
)
= 0
14 2 LE MOD
`
ELE LIN

EAIRE STANDARD
Soit

Y
N+1
predicteur lineaire sans biais de Y
N+1
.
E
_
(

Y
N+1
Y
N+1
)
2
_
= E
_
(

Y
N+1
X
N+1
b +u
i
)
_
Comme

Y
N+1
est une combinaison lineaire des y
1
, . . . , y
N
, cen est une des
u
1
, . . . , u
N
, donc (

Y
N+1
X
N+1
b) et u
N+1
ne sont pas correles, do` u
E
_
(

Y
N+1
Y
N+1
)
2
_
= E
_
(

Y
N+1
X
N+1
b)
2
_
+E
_
(u
N+1
)
2
_
En raison du theor`eme de Gauss-Markov (2.8), le meilleur estimateur

Y
N+1
de X
N+1
b est X
N+1

b
MCO
.
On peut calculer la variance de la prevision :
Var(Y
N+1
X
N+1

b
MCO
) = Var(X
N+1
(b

b
MCO
) +u
N+I
)
= Var
_
X
N+1
(

b
MCO
b)
_
+Var(u
N+1
)
=
2
X
N+1
(X

X)
1
X

N+1
+
2
Le second terme est lerreur standard du mod`ele, le premier represente lerreur
due `a lestimation de b sur les seuls x
1
, . . . , x
N
.
2.8 Analyse de la variance
Hypoth`ese. On suppose que la constante est incluse dans les variables expli-
catives
Theor`eme 2.11 (Decomposition de la variance). Si la constante est incluse
dans les variables explicatives, la variance se decompose comme :
1
N

_
(y
i
y)
2
_
. .
Variance totale
=
1
N

_
( y
i

y)
2
_
. .
Variance expliquee
+
1
N

u
2
i
. .
Variance residuelle
Demonstration.
On a : y = y + u. Comme la constante est incluse dans la regression, y =

y,
et

u = 0. Do` u :
y ye = y

ye + u
(y ye)

(y ye) =
N

i=1
_
(y
i
y
2
_
_
( y

ye) + u
_

_
( y

ye) + u
_
= ( y

ye)

( y

ye) + u

( y

ye) + u

u
Or, u = M
X
u, y = P
X
y et e X u

( y

y) = u

M
X
(P
X
y e

y)
Or, M
X
P
X
= 0, do` u le resulat.
Cette equation permet de denir une mesure synthetique de lajustement du
mod`ele :
Denition 2.6 (R
2
).
R
2
=
Variance expliquee
Variance totale
=
_
( y
i

y)
2
_

((y
i
y)
2
)
2.9 Le Mod`ele lineaire statistique 15
Du fait du theor`eme de decomposition, R
2
[0, 1], et
R
2
= 1

u
2
i

((y
i
y)
2
)
Comme R
2
fait intervenir la variance de Y , il est sensible `a la forme de la
modelisation. Ainsi, si on compare les deux mod`eles :
y = log(L) + log(K) +u (3)
y l = ( 1 = log L + log K +u (4)
Le mod`ele (3) aura une variance beaucoup plus importante que le mod`ele (4),
alors que les deux modelisations (en production ou en productivite par tete)
sont equivalentes en termes de theorie economique.
En outre, on a le probl`eme que le R
2
augmente mecaniquement quand la liste
des variables explicatives augmentent. On peut cependant essayer de lamelio-
rer :
R
2
= 1
| u|
2
|y ye|
2
| u|
2
=

u
i
2
=

2
MCO
(N K 1)
Donc :
R
2
= 1

2
MCO
(N K 1)

2
y
(N 1)
O` u :

2
y
=
y ye
2
N1
est un estimateur non biaise de Var(Y ). En consequence :
Denition 2.7 (R
2
ajuste).
R
2
ajsute
= 1

2
y
On se debarasse ainsi de linuence des degres de liberte.
2.9 Le Mod`ele lineaire statistique
On part du mod`ele et du jey dhypoth`eses de la section precedente. On
suppose en outre :
Hypoth`ese (H
6
).
u ^(0,
2
)
Proposition 2.12 (Proprietes). Sous H
6
, les estimateurs mco verient les
proprietes suivantes :
1.

b
MCO
^(b,
2
(X

X)
1
)
2. Loi de

2
:
u = M
X
u u ^(., .), do` u :
_

b
u
_
=
_
(X

X)
1
X

Y
M
X
u
_
=
_
b
0
_
+
_
(X

X)
1
X

M
X
u
_
u
16 2 LE MOD
`
ELE LIN

EAIRE STANDARD
La loi jointe de (

b, u) est une loi normale, or



b et u ne sont pas correles,
donc

b est independant de u.
Or,

2
=
u
2
NK1
et u

b, donc

2
est independant de

b.
Alors,
(N K 1)

2

2
(N K 1)
Demonstration de la loi de

2
.
Lemme. Si Z ^(0, I
L
) Z
1
2
+ +Z
L
2

2
(L).
Soit P un projecteur sur un espace de dimensionL
1
, alors :
Z

PZ
2
(L
1
)
Demonstration. P est diagonalisable dans le groupe orthogonal : D dia-
gonale et Q orthogonale lettes que P = Q

DQ, avec :
D =
_
I
L
1
0
0 0
_
Do` u : Z

PZ = Z

DQZ. On pose : Z

= QZ, et donc Z

PZ = Z

DZ

.
Var(Z

= E(Z

) = QE(ZZ

)Q

= QQ

= I Z

^(0, I)
Donc Z

DZ

= Z

1
+ +Z

L
1

2
(L
1
).
(N K 1)

2
MCO

2
= (N K 1)
u

2
= (N K 1)
u

M
X
u

2
u ^(0,
2
I) v =
u

^(0, 1)
(N K 1)

2
MCO

2
= (N K 1)
v

M
X
v
N K 1
= v

M
X
v
Le lemme donne le resultat voulu.
2.9.1 Intervalles de conance
Denition 2.8 (Intervalle de conance). Un intervalle de conance au seuil
(1 ) pour un param`etre b
k
est la donnees dun intervalle [a
1
, a
2
] tel que :
P (b
k
[a
1
, a
2
]) = (1 ).
Proposition 2.13. Soit v
k
x
le k
i`eme
element de la diagonale de (X

X)
1
.

b
k
b
k

_
v
k
x
ot(N K 1)
Demonstration.
On sait que

b ^(b,
2
(X

X)
1
), donc

b
k
^(b
k
,
2
v
k
x
) et

b
k
b
k

v
k
x
^(0, 1).
2.10 Test dhypoth`eses 17
Seulement, est un param`etre inconnu, mais on sait que :

2
(N K 1)
2
(N K 1)
.
Or,
X ^(0, 1)
Y
2
(L)
X, Y independantes
_
_
_

X
_
V/L
ot(L)
Donc,

b
k
b
k

v
k
x
_
(NK1)

2
(NK1)
2
ot(N K 1).
Donc si on cherche un intervalle de conance au seuil (1), on va charcher
des bornes [t
1/2
, t
1/2
] telles que lintegrale hors de ces bornes soit egale `a
.
Si S ot(L), P
_
s [t
1/2
, t
1/2
]
_
= 1 .
Donc, on connat [t
1/2
, t
1/2
] par la lecture dune table des quantiles
de ot.
P
_
t
1/2
<

b
k
b
k

_
v
k
x
< t
1/2
_
= 1
P
_

b
k

_
v
k
x
t
1/2
< b
k
<

b
k
+
_
v
k
x
t
1/2
_
= 1
On peut se demander quelle est linuence du nombre de degres de liberte.
Graphiquement, on voit que moins il y a de degres de liberte, plus la courbe est
etalee. Au contraire, quand le nombre de degres de liberte est tr`es grand, elle
tend vers une ^(0, 1).
De meme, si on consid`ere une combinaison lineaire des param`etres,

b,

b ^(

b,
2

(X

X)
1
), donc :

2
_

(X

X)
1

ot(N K 1)
2.10 Test dhypoth`eses
On a une hypoth`ese H
0
: b
k
= b
0
k
avec b
0
k
une valeur donnee, et H
1
=

H
0
.
On denit une region critique W `a un seuil 1 donne telle que :

b
k
W on rejette H
0
et
P(

b
k
W[b
k
= b
0
k
) =
represente donc le risque de rejeter `a tort H
0
.
18 2 LE MOD
`
ELE LIN

EAIRE STANDARD
On utilise le resultat precedent : sous H
0
,

b
k
b
0
k

_
v
k
x
ot(N K 1)
Do` u la region critique :
W telle que :

b
k
b
0
k

_
v
k
x

> avec tel que : P


_

b
k
b
0
k

_
v
k
x

>
_
=
est le quantile dordre 1 /2 = t
1/2
dune ot(N K 1). Do` u :
W =
_

b
k
> b
0
k
+
_
v
k
x
t
1/2
(N K 1)

b
k
< b
0
k

_
v
k
x
t
1/2
(N K 1)
2.11 Estimateurs MCO et estimateurs du maximum de
vraisemblance
On sait que :
L(y
i
[x
i
; b) =
e

(y
i
x
i
b)
2
2
2

2
Par independance des observations,
L(y[x, b) =

i
l(y
i
[x
i
, b)
L(y[x, b) =
e

(y
i
x
i
b)
2
2
2
(

2)
N
ln (L(y[x, b)) =
N
2
log(
2
)
1
2
2

(y
i
x
i
b)
2
N ln
_

2
_
Lestimateur du maximum de vraisemblance de b realise donc le programme :
max
b
_
1
2
2

(y
i
x
i
b)
2
_
Il sagit donc de lestimateur mco.
Lestimateur de

2
est obtenu par :
max

2
_
_
_

N
2
ln
2

_
(y
i
x
i

b)
2
_
2
2
_
_
_
Do` u :

2
MV
=

_
(y
i
x
i

b)
2
_
N
=
N K 1
N

2
MCO
19
3 Estimation sous contraintes lineaires
3.1 Introduction
On souhaite estimer un mod`ele econometrique lineaire en incorporant une
information a priori sur les param`etres prenant la forme de contraintes lineaires.
Exemple. Fonction de production Cobb-Douglas `a k facteurs, et `a rendements
dechelle constants :
log y = log +
1
log x
1
+... +
k
log x
k
+u
c.a.d un mod`ele lineaire standard
mais avec

k
j=1

j
= 1
3.1.1 Questions :
1. Comment tenir compte de cette information a priori dans la procedure
destimation des param`etres du mod`ele ?
On va introduire un nouvel estimateur : lestimateur des moindres carres
contraints :

b
c
2. Quelles sont les consequences de cette prise en compte pour les estimations
obtenues ? Les estimations sont-elles biaisees, sont elles plus precises ?
On va voir quil y a un arbitrage entre robustesse et ecacite
3. Peut-on tester linformation a priori ?
On va introduire un test tr`es courant : Le test de Fisher
3.1.2 Formulation : Exemple
Supposons quon souhaite estimer le mod`ele :
y
n
= b
0
+b
1
x
1n
+b
2
x
2n
+b
3
x
3n
+b
4
x
4n
+b
5
x
5n
+b
6
x
6n
+u
n
,
avec les hypoth`eses habituelles
H
1
: E (u
n
[X) = 0, H
2
: V (u
n
[X) =
2
, n,
H
3
: E(u
n
u
n
[X) = 0, n

,= n,
H
4
: X de plein rang
avec des contraintes lineaires sur les param`etres :
C
1
: b
1
+b
2
+b
3
= 1
C
2
: b
4
= b
5
soit b
4
b
5
= 0
3.1.3 Reecriture sous forme matricielle :
_
0 1 1 1 0 0 0 0
0 0 0 0 0 1 1 0
_
_
_
_
_
_
_
_
_
_
_
b
0
b
1
b
2
b
3
b
4
b
5
b
6
_
_
_
_
_
_
_
_
_
_
=
_
1
0
_
soit
20 3 ESTIMATION SOUS CONTRAINTES LIN

EAIRES
R b = r
avec R une matrice 2 (6 + 1) et r un vecteur 2 1
3.1.4 Formulation generale
On consid`ere le mod`ele lineaire :
y = X b +u
sous les contraintes
R b = r
(p, k + 1) (k + 1, p) (p, 1)
Le nombre de contraintes p doit etre au maximum egal ` a (k + 1) 1. Si on
en a k +1 ou plus, on en selectionne k +1 et on peut alors calculer le param`etre
b = R
1
r
3.2 LEstimateur des Moindres Carres Contraints (MCC)
Lestimateur

b
mcc
de b est deni comme celui minimisant la somme des carres
des residus sous les contraintes :
min
b
((y Xb)

(Y Xb))
Sous les contraintes Rb = r
Lagrangien :
min
b,
L = (Y Xb)

(Y Xb) + 2(Rb r)

multiplicateur de Lagrange : vecteur de dimension p 1


3.2.1 Expression de lestimateur des MCC
Lestimateur des MCC a pour expresssion

b
mcc
= (X

X)
1
X

Y (X

X)
1
R

_
R(X

X)
1
R

1
_
R(X

X)
1
X

Y r

Il sexprime simplement `a partir de



b
mco

b
mcc
=

b
mco
(X

X)
1
R

_
R(X

X)
1
R

1
_
R

b
mco
r
_
3.2 LEstimateur des Moindres Carres Contraints (MCC) 21
Lestimateur des MCC apporte une correction `a lestimateur

b
mco
dautant
plus importante que R

b
mco
r ,= 0.
Si R

b
mco
= r, les deux estimateurs sont identiques.
Demonstration.
L
b

mcc
= 2 X

Y + 2 X

X

b
mcc
+ 2 R


= 0
L

mcc
= R

b
mcc
r = 0
De la premi`ere condition on tire :

b
mcc
= (X

X)
1
_
X

Y R

_
Introduit dans la deuxi`eme condition il vient lexpression
R (X

X)
1
_
X

Y R

_
= r soit R (X

X)
1
R


= R (X

X)
1
X

Y r
dont on tire

=
_
R (X

X)
1
R

_
1
_
R (X

X)
1
X

Y r
_
reintroduit dans on trouve lexpression de

b
mcc

b
mcc
= (X

X)
1
X

Y (X

X)
1
R

_
R(X

X)
1
R

1
_
R(X

X)
1
X

Y r

3.2.2 Proprietes Statistiques de



b
mcc
.
Proposition 3.1 (Expression de lesperance de

b
mcc
).
E
_

b
mcc
[X
_
= b (X

X)
1
R

_
R(X

X)
1
R

1
[Rb r]
Si les contraintes Rb = r sont valides, lestimateur

b
mcc
est sans biais
E
_

b
mcc
[X
_
= b
Si ces contraintes sont imposes ` a tort (i.e. si Rb ,= r), lestimateur des
MCC est biaise :
E
_

b
mcc
[X
_
= b (X

X)
1
R

_
R(X

X)
1
R

[Rb r]
= b +B
avec B = (X

X)
1
R

_
R(X

X)
1
R

[Rb r]
Proposition 3.2 (Expression de la variance de

b
mcc
). Que lestimateur
soit biaise ou non sa variance est donnee par :
V
_

b
mcc
[X
_
=
2
_
(X

X)
1
(X

X)
1
R

_
R (X

X)
1
R

1
R (X

X)
1
_
soit :
V
_

b
mcc
[X
_
= V
_

b
mco
[X
_

2
(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
22 3 ESTIMATION SOUS CONTRAINTES LIN

EAIRES
Comme (X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
est une matrice symetrique
et positive on en conclut que
V
_

b
mco
[X
_
_ V
_

b
mcc
[X
_
3.2.3 Interpretation
Lestimateur des mcc

b
mcc
est potentiellement biaise
E
_

b
mcc
[X
_
= b +B
mais est toujours plus ecace que lestimateur des mco
V
_

b
mcc
[X
_
_ V
_

b
mcc
[X
_
Il y a donc un arbitrage entre robustesse et ecacite. Introduire plus de
contraintes ameliorent la precision des estimations mais risque de conduire `a
des estimateurs biaise.
A linverse, moins de contrainte produit des estimateurs plus robustes mais
moins precis.
Demonstration.
En rempla cant Y par (Xb +U), dans lexpression de

b
mcc
on peut re-ecrire
lestimateur des MCC comme :

b
mcc
= b+(X

X)
1
X

U (X

X)
1
R

_
R(X

X)
1
R

1
_
R(X

X)
1
X

u +Rb p

soit

b
mcc
= b (X

X)
1
R

_
R(X

X)
1
R

1
[Rb p]
+
_
(X

X)
1
X

(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
X

_
U
= b +B + (X

X)
1
_
I R

_
R(X

X)
1
R

1
R(X

X)
1
_
X

U
= b +B + (X

X)
1
[ I C] X

U
o` u B = (X

X)
1
R

_
R(X

X)
1
R

1
[Rb p] et
C = R

_
R(X

X)
1
R

1
R(X

X)
1
Expression de lesperance de

b
mcc
Compte tenu de H
1
E (U [X) = 0
E
_

b
mcc
[X
_
= b (X

X)
1
R

_
R(X

X)
1
R

1
[Rb r] = b +B
Expression de la variance de

b
mcc

b
mcc
E
_

b
mcc
[X
_
= (X

X)
1
[ I C] X

U
Par consequent comme E [UU

[X] =
2
I :
V
_

b
mcc
[X
_
= E
_
_

b
mcc
E
_

b
mcc
[X
___

b
mcc
E
_

b
mcc
[X
__

[X
_
3.3 Estimateur de la Variance des residus
2
23
= E
_
(X

X)
1
[ I C] X

UU

X [ I C

] (X

X)
1
[X

=
2
(X

X)
1
[ I C] X

X [ I C

] (X

X)
1
=
2
(X

X)
1
[ X

X CX

X X

XC

+CX

XC

] (X

X)
1
Compte tenu de lexpression de C = R

_
R(X

X)
1
R

1
R(X

X)
1
on a
CX

X = R

_
R(X

X)
1
R

1
R(X

X)
1
X

X
= R

_
R(X

X)
1
R

1
R = CX

X
CX

XC

= CR

_
R(X

X)
1
R

1
R
= R

_
R(X

X)
1
R

1
R(X

X)
1
R

_
R(X

X)
1
R

1
R
= X

XC

= CX

X
Il en resulte que
V
_

b
mcc
[X
_
=
2
(X

X)
1
[ X

X CX

XC

] (X

X)
1
=
2
(X

X)
1
_
X

X R

_
R(X

X)
1
R

1
R
_
(X

X)
1
=
2
_
(X

X)
1
(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
_
3.3 Estimateur de la Variance des residus
2
Lestimateur de la variance des residus est donne par :

2
c
=

U

U
c
N (k + 1) +p
=

n
u

nc
u
nc
N (k + 1) +p
Cest un estimateur sans biais de
2
si les contraintes Rb = r sont satisfaites
par le vrai mod`ele.
Demonstration.
A partir de lexpression de

b
mcc
= b + B + (X

X)
1
[ I C] X

U o` u C =
R

_
R(X

X)
1
R

1
R(X

X)
1
, on exprime le residu estime

U
c
= Y X

b
mcc
= Xb +U X
_
b +B + (X

X)
1
[ I C] X

U
_
= XB +
_
I X(X

X)
1
[ I C] X

U
= XB + (M +X(X

X)
1
CX

)U = XB + (M +P
c
)U
avec M =
_
I X (X

X)
1
X

_
et
P
c
= X(X

X)
1
CX

= X(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
X

Les matrices M et P
c
satisfont les proprietes suivantes :
24 3 ESTIMATION SOUS CONTRAINTES LIN

EAIRES
M = M

P
C
= P

C
M
2
= M P
2
C
= P
C
Tr (M) = N (K + 1) Tr (P
C
) = p
MP
C
= P
C
M = 0
On verie facilement P
C
= P

C
et P
2
C
= P
C
. En outre
Tr (P
C
) = Tr
_
X(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
X

_
= Tr
_
_
R(X

X)
1
R

1
R(X

X)
1
X

X(X

X)
1
R

_
= Tr
_
I
dim(R(X

X)
1
R

)
_
do` u Tr (P
C
) = p enn comme P
C
= XZ on a aussi donc P
C
M = 0
On en deduit que
E
_

U
c
[X
_
= E (B

+U

(M +P
c
)) (XB + (M +P
c
) U [X)
= E
_
B

XB U

(M +P
c
)XB B

(M +P
c
) U +U

(M +P
c
)
2
U [X
_
= E (B

XB +U

(M +P
c
)U [X)
Finalement
E (U

(M +P
c
)U [X) = TrE (U

(M +P
c
)U [X)
= TrE ((M +P
c
)UU

[X)
=
2
Tr(M +P
c
) =
2
(N (K + 1) +p)
3.4 Estimation par integration des contraintes
Le probl`eme destimation sous contrainte peut se ramener au resultat clas-
sique destimation par la methode des moindres carres en integrant directement
les contraintes dans le mod`ele.
On utilise les p contraintes pour exprimer p param`etres parmi les k + 1 `a
estimer en fonction des (k + 1 p) autres param`etres.
On re-ecrit les contraintes Rb = r de la fa con suivante :
r =
_
r
1
r
2
_
= [R
1
, R
2
]
_
b
1
b
2
_
R
1
: p p, R
2
: p (K + 1 p) ,
r
1
et b
1
: p 1, r
2
et b
2
: K + 1 p 1
R
1
est supposee reguli`ere. On peut alors ecrire :
r
1
= R
1
b
1
+R
2
b
2
soit encore b
1
= R
1
1
[r
1
R
2
b
2
]
Par consequent, en partageant le mod`ele de fa con analogue, on obtient :
Y = X
1
b
1
+X
2
b
2
+U = X
1
_
R
1
1
(r
1
R
2
b
2
)

+X
2
b
2
+U
3.5 Test dun Ensemble de Contraintes 25
Ceci revient `a estimer :
Y X
1
R
1
1
r
1
=
_
X
2
X
1
R
1
1
R
2

b
2
+U
Le mod`ele ainsi ecrit ne depend plus alors que de (k + 1 p) param`etres ` a
estimer sans contraintes. Les p autres param`etres se deduisent de ceux-ci par la
relation : b
1
= R
1
1
r R
2
b
2
3.5 Test dun Ensemble de Contraintes
On souhaite tester la validite des contraintes imposees, soit
H
0
: = Rb r = 0
On fait lhypoth`ese de normalite des residus : U ^(0,
2
I)
Sous lhypoth`ese H
0
on a

F =
1
p

_
R(X

X)
1
R


2
=

U

U
C


U

U

U

N (K + 1)
p
=
SCR
c
SCR
SCR

N (k + 1)
p
F(p,N-(k+1))
o` u

= R

b
mco
r et SCR
C
=

U

U
C
et SCR =

U

U sont la somme des


carres des residus du mod`ele contraint et non contraint.
Demonstration.
Le principe du test est dexaminer si lestimateur des mco

b
mco
est proche
de satisfaire les contraintes, c.a.d il concerne la quantite

= R

b
mco
r,
en utilisant le fait que lon connait la loi de

:

N (,
2
R(X

X)
1
R

)
puisque

b
mco
N (b,
2
(X

X)
1
) `a cause de lhypoth`ese de normalite des
residus.
Rappel :
1. Si Z vecteur de dimension h suit une loi normale N(0, V ) avec V inversible
alors Z

V
1
Z (h)
2. Si Q
1
(q
1
) et Q
2
(q
2
) et Q
1
Q
2
alors Z =
Q
1
/q
1
Q
2
/q
2
F(q
1
, q
2
) loi
de Fisher `a q
1
et q
2
degres de liberte.
Sous H
0
, = 0,on a donc :

2
R(X

X)
1
R

_
R(X

X)
1
R

2
(p)

2
est inconnue, on la remplace par
2
=

U


U
N(K+1)
On sait quen outre

U

2
= (N (K + 1))

2

2

2
N(K+1)
et que
2

b
mco
do` u

U

2


Q

sous H
0
: Rb = r, la statistique :
26 3 ESTIMATION SOUS CONTRAINTES LIN

EAIRES

F =
Q

/p
(N (K + 1))

2

2
/ (N (K + 1))
=
1
p

_
R(X

X)
1
R


2
F(p, N (k + 1))
3.5.1 Expression simpliee de la statistique
La statistique precedente, fonction de

b
mco
et
2
peut etre reecrite sous une
forme plus simple `a partir de

b
mco
et
2
et

b
mcc
et
2
mcc
.
En eet :

b = (X

X)
1
X

Y = b + (X

X)
1
X

U donc sous H
0
, on a :

= R

b r = R(X

X)
1
X

U, do` u

_
R(X

X)
1
R

= U

X(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
X

U
On reconnait P
C
= X(X

X)
1
R

_
R(X

X)
1
R

1
R(X

X)
1
X

On a donc

_
R(X

X)
1
R

= U

P
C
U.
Comme sous H
0

U
C
= (M +P
C
) U, et

U = MU et (M +P
C
)
2
= (M +P
C
) ,on
a

U

U
C
= U

(M +P
C
) U = U

MU +U

P
C
U =

U

U +U

P
C
U
Soit

_
R(X

X)
1
R

= U

P
C
U =

U

U
C


U

U
Do` u lexpression de la statistique communement utilisee :

F =
SCR
c
SCR
SCR

N (k + 1)
p
F(p,N-(k+1))
SCR est la somme des carres des residus estimes sans contraintes et SCR
c
est la somme des carres des residus estimes sous contrainte.
3.5.2 Mise en oeuvre du test
1. On estime le mod`ele avec et sans contraintes, et on deduit

U

U
C
et

U

U
(i.e. SCR
c
et SCR).
2. On calcule

F et on la compare au fractile dordre (1) de la loi F(p, N
(k + 1)), note F(1 ).
3. Si Q
c
> F(1 ) ; on rejette H
0
: la somme des carres des residus estimes
sous contraintes di`ere trop de celle des carres des residus estimes sous
contrainte pour admettre que H
0
est vraie.
4. Si Q
c
F(1 ), on accepte lhypoth`ese H
0
.
3.6 Test de la signicativite globale des coecients dune regression 27
3.5.3 Application : Test de legalite `a une valeur donnee de plusieurs
coecicents :
On veut tester H
0
:

b
1
= b
0
1
b
2
= b
0
2
.
.
.
b
J
= b
0
J
contre H
1
: H
c
0
Cest `a dire un test degalite de J coecients `a des valeurs donnees. La
dierence avec le test de Student standard est quon souhaite faire un test global,
sur lidentite simultannee des coecients
Avec le test de Fisher il sut destimer le mod`ele non contraint
Y = Xb +U
de calculer la somme SCR des carres des residus estimes, destimer le mod`ele
contraint
Y
k=J

k=1
X
k
b
0
k
= b
0
e +
k=K

k=J+1
X
k
b
k
+U
de calculer la somme SCR
C
des carres des residus estimes et de former la
statistique

F =
N (K + 1)
J
SCR
C
SCR
SCR
F (J, N (K + 1))
3.6 Test de la signicativite globale des coecients dune
regression
H
0
: b
1
= b
2
= b
3
= ... = b
K
= 0
Sous H
0
, le mod`ele secrit : Y = b
0
e + U, do` u

b
0
= y et

U
c
= Y y e.
La SCR
c
est donc donnee par : SCR
c
=
n
(y
n
y)
2
. Sous H
1
, SCR =

U

U.
Par consequent, sous H
0
,

n
(y
n
y)
2

U

U

N(K+1)
K
F(K, N (K + 1)). Or
R
2
= 1

U

n
(y
n
y)
2
, on obtient donc :

F =
R
2
1 R
2

N (K + 1)
K
F (K, N (K + 1))
Si

F est superieure au Fractile dordre (1 ) de la loi de Fisher `a (K, N
(K + 1)) ddl, on refuse lhypoth`ese H
0
.
3.7 Le Test de Chow
Question : le mod`ele est-il homog`ene entre deux groupes dobservation?
Exemple, dans le domaine de la consommation, on peut se demander si les
comportements de menages appartenant `a divers groupes socio-professionnels
sont similaires ou bien si, au contraire, des dierences marquees peuvent etre
constatees.
Cest par la mise en oeuvre du test de Chow que lon peut tenter dapporter
une reponse `a ces questions.
28 3 ESTIMATION SOUS CONTRAINTES LIN

EAIRES
3.7.1 Formalisme
Supposons que lon dispose de deux echantillons (Y
1
, X
1
) et (Y
2
, X
2
) de
tailles respectives N
1
et N
2
, relatifs `a deux groupes dobservations dierents
(i.e. deux periodes, deux categories de menages,...).
1. Mod`ele relatif au 1er groupe :Y
1
= X
1
b
1
+U
1
Y
1
vecteur N
1
1 des observations pour le premier groupe
X
1
matriceN
1
(K + 1) des variables explicatives (1, x
1
, . . . , x
K
)pour le
premier groupe
2. Mod`ele relatif au 2`eme groupe :Y
2
= X
2
b
2
+U
2
avec U
1
N(0,
2
I
N
1
), U
2
N(0,
2
I
N
2
) et U
1
U
2
= 0
La question posee est de savoir si le comportement modelise est identique
pour les deux groupes dobservations.
i.e. H
0
: b
1
= b
2
contre H
1
: b
1
,= b
2
On empile les deux regressions denies ci-dessus. Ceci nous am`ene `a ecrire :
_
Y
1
Y
2
_
=
_
X
1
0
0 X
2
_ _
b
1
b
2
_
+
_
U
1
U
2
_
Le test de Chow est donc un cas particulier du test de Fisher : on test ici
legalite de deux groupes de coecients.
Par consequent, on refuse H
0
si
SCR
c
SCR
SCR

(N
1
+N
2
) 2(K + 1)
(K + 1)
> f
(1)
(K + 1, N
1
+N
2
(K + 1))
o` u SCR
C
est la somme des carres des residus associees `a la regresion sous
lhyptoth`ese H
0
: b
1
= b
2
, SCR est la somme des carres des residus associees `a
la regression sous lhypoth`ese H
1
= b
1
,= b
2
.
Si cette inegalite est veriee, on rejette lhypoth`ese dhomogeneite des com-
portements.
Simplication du calcul des SCR et SCR
c
Sous lhypoth`ese H
0
: b
1
=
b
2
= b
0
, on peut ecrire :
_
Y
1
Y
2
_
=
_
X
1
X
2
_
b
0
+
_
U
1
U
2
_
On estime donc un seul mod`ele `a partir des deux echantillons pris ensemble
et on calcule la somme des carres des residus SCR
c
Sous lhypoth`ese H
1
on retrouve le mod`ele deni plus haut :
_
Y
1
Y
2
_
=
_
X
1
0
0 X
2
_ _
b
1
b
2
_
+
_
U
1
U
2
_
=

Xb +U
On verie aisement que M

X
= I

X
_


X
_
1

=
_
M
X
1
0
0 M
X
2
_
3.7 Le Test de Chow 29
Donc
SCR = Y

X
Y = Y

1
M
X
1
Y
1
+Y

2
M
X
2
Y
2
= SCR
1
+SCR
2
o` u SCR
1
est la somme des carres des residus associee `a la regression sur
le premier groupe et idem pour SCR
2
. La SCR sous H
1
peut sobtenir comme
sommation des SCR associees aux regressions sur chacun des sous-echantillons.
3.7.2 Principe dapplication du test de Chow (sous hypoth`ese dho-
mosc edasticite et non-correlation des residus).
1. Calculer SCR
c
en estimant un seul mod`ele pour les N
1
+N
2
observations.
2. Calculer SCR en estimant le mod`ele sur chaque echantillon et additionnant
les SCR associees `a chacune de ces regressions.
3. Comparer la quantite
SCR
c
SCR
SCR

N
1
+N
2
2(K+1)
(K+1)
au seuil theorique f(K+
1, N
1
+N
2
2(K + 1))
30 4 PROPRI

ET

ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO


4 Proprietes asymptotiques de lestimateur des
MCO
4.1 Rappel sur les convergences
Soit (X
n
) une suite de va. Soit F
n
la fonction de repartition de X
n
. Soit X
une va de fonction de repartition F.
Toutes ces va sont denies sur le meme espace probabilise, cest-`a-dire quun
meme evenement determine une valeur de X
n
(), X().
4.1.1 Convergence en loi
Denition 4.1. On dit que (X
n
) converge en loi vers X (X
n
L
X) si la suite
de fonctions (F
n
) converge, point par point, vers F :
x, F
n
(x) F(x).
4.1.2 Convergence en probabilite
Denition 4.2. On dit que (X
n
) converge en probabilite vers X (X
n
P
X o` u
plim
n
X
n
= X) si
> 0, Pr [X
n
X[ >
n
0.
(NB : Pr [X
n
X[ > = Pr , [X
n
() X()[ > .)
4.1.3 Dierents resultats
X
n
P
X X
n
L
X.
a constant, X
n
P
a X
n
L
a.
X
n
L
X et Y
n
L
Y X
n
+Y
n
L
X +Y et X
n
Y
n
L
XY.
Pour toute fonction g continue, X
n
L
X g(X
n
)
L
g(X) et X
n
P
a
g(X
n
)
P
g(a).
Theor`eme 4.1 (Theor`eme de Slutsky).
X
n
L
X et Y
n
P
a X
n
Y
n
L
Xa
X
n
+Y
n
L
X +a
X
n
/Y
n
L
X/a si a ,= 0
.
Theor`eme 4.2 (Loi des grands nombres (Chebichev)). Soit (X
i
) une
suite de va independantes telles que EX
i
= m et VX
i
= existent,
1
N
N

i=1
X
i
P
m qd N .
Demonstration.
Pour toute va positive X on a le resultat
Pr (X > a) <
E (X)
a
4.1 Rappel sur les convergences 31
en eet
E (X) =
_
a
0
Xf (X) dX +
_
+
a
Xf (X) dX >
_
+
a
Xf (X) dX
> a
_
+
a
f (X) dX = a Pr (X > a)
On a donc
Pr
_

1
N
N

i=1
X
i
m

>
_
= Pr
_
_
_
1
N
N

i=1
(X
i
m)
_
2
>
2
_
_
<
E
_
_
1
N

N
i=1
(X
i
m)
_
2
_

2
Comme
E
_
_
_
1
N
N

i=1
(X
i
m)
_
2
_
_
=
1
N
2
E
_
_
_
N

i=1
(X
i
m)
_
2
_
_
=

N
On voit que
Pr
_

1
N
N

i=1
X
i
m

>
_
<

N
2
0
4.1.4 Theor`eme central limite (Lindeberg-Levy)
Theor`eme 4.3 (Theor`eme central-limite). Soit (X
i
) une suite de va iid
telles que EX
i
= m et VX
i
= existent,

N
_
1
N
N

i=1
X
i
m
_
L
^(0, ).
Demonstration. La demonstration se fait `a partir des fonctions caracteris-
tiques. On appelle fonction caracte ristique dune variable aleatoire Z la fonction

Z
(t) = E (exp (it

Z))
Proposition 4.4 (Propriete dinjectivite). Si
Z
1
(t) =
Z
2
(t) alors F
Z
1
=
F
Z
2
, soit Z
1
d
= Z
2
On peut calculer la fonction de caracteristique dune loi normale
z ^ (0, )
z
(t) = exp
_

t
2
_
On a alors directement avec
n
(t) = E
_
expit

N
_
N
i=1
X
i
N
m
__
32 4 PROPRI

ET

ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO

n
(t) = E
_
exp
N

i=1
it

(X
i
m)

N
_
= E
_
i=n

i=1
exp
it

(X
i
m)

N
_
=
i=n

i=1
E
_
exp
it

(X
i
m)

N
_
=
_
E
_
exp
it

(X
i
m)

N
__
N

n
(t)
_
E
_
1 +
it

(X
i
m)

1
2N
(t

(X
i
m))
__
N
=
_
1
1
2N
t

t
_
N
exp
t

t
2
Theor`eme 4.5 (Methode delta). Pour toute fonction g continue, dieren-
tiable, si

n(X
n
m)
L
^(0, ),
alors

n(g(X
n
) g(m))
L
^
_
0,
_
g(m)
m

_
g(m)
m

_
.
Demonstration.
On a dabord X
n
P
m puisque
Pr ([X
n
m[ > ) <
E (X
n
m)
2

2
=
V (

n(X
n
m))
n
2


n
2
On applique le theor`eme de la valeur moyenne :
n
[0, 1] tq
g(X
n
) = g(m) +
g
m

(m+
n
(X
n
m)) (X
n
m) .

n(g(X
n
) g(m)) =
g
m

(m+
n
(X
n
m))

n(X
n
m)
m+
n
(X
n
m)
P
m donc Z
n
=
g
m

(m+
n
(X
n
m))
P

g
m

(m) .
Comme

n(X
n
m)
L
^(0, ), et Z
n
P

g
m

(m),

n(g(X
n
) g(m)) = Z
n

n(X
n
m)
L
^
_
0,
_
g(m)
m

_
g(m)
m

_
.
4.2 Proprietes asymptotiques de lestimateur des MCO
On consid`ere le mod`ele
y
i
= x
i
b +u
i
avec les hypoth`eses
Hypoth`ese (H
1
). E (u
i
[x
i
) = 0
4.2 Proprietes asymptotiques de lestimateur des MCO 33
Hypoth`ese (H
2
). V (u
i
[x
i
) = V (u
i
) =
2
Les observations(y
i
, x
i
) RR
K+1
, i =
1, ..., N, sont iid
Hypoth`ese (H
3
). N, X

X est non singuli`ere


Hypoth`ese (H
4
). E(x
i
x

i
)est inversible
Hypoth`ese (H
5
). Les moments de (y
i
, x
i
) existent au moins jusqu`a lordre 4.
Theor`eme 4.6. Sous les hypoth`eses H
1
` a H
5
,
Lestimateur des MCO

b
mco
= (X

X)
1
X

Y =
_
x

i
x
i
_
1
x

i
y
i
1.

b = (X

X)
1
X

Y
P
b,
2.

N
_

b b
_
L
^
_
0,
2
[E(x
i
x

i
)]
1
_
,
3.
2
=
1
NK1
_
Y X

b
_

_
Y X

b
_
P

2
,
qd N .
On dit que

b est convergent et asymptotiquement normal.
Demonstration.
1. Convergence de lestimateur
Lestimateur des mco secrit

b
mco
= (X

X)
1
X

Y = x

i
x
i
1
x

i
y
i
On remplace y
i
par sa valeur : y
i
= x
i
b +u
i
. On a donc

b
mco
= x

i
x
i
1
x

i
(x
i
b +u
i
) = x

i
x
i
1
_
x

i
x
i
b +x

i
u
i
_
= b +x

i
x
i
1
x

i
u
i
La loi des grands nombre appliquee `a x

i
x
i
et x

i
u
i
montre que
x

i
x
i
=
1
N
N

i=1
x

i
x
i
P
E(x
i
x

i
), et x

i
u
i
=
1
N
N

i=1
x

i
u
i
P
E(x

i
u
i
).
Remarque : Importance de lhypoth`ese dexistence des moments dordre
4.
On en deduit que
x

i
x
i
1
P
E(x
i
x

i
)
1
x

i
x
i
1
x

i
u
i
P
E(x
i
x

i
)
1
E(x

i
u
i
)

b
mco
= b +x

i
x
i
1
x

i
u
i
P
b + E(x
i
x

i
)
1
E(x

i
u
i
)
puisque E(x
i
x

i
) et E(x

i
u
i
) sont constants, que lapplication A A
1
est continue et que le produit et la somme de suites de va convergent en
probabilite vers des constantes converge en probabilite.
Comme
E(x
i
u
i
) = E[x
i
E(u
i
[x
i
)] = 0
On a bien

b
P
b
34 4 PROPRI

ET

ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO


2. Normalite asymptotique
De

b
mco
= b +x

i
x
i
1
x

i
u
i
on deduit

N
_

b
mco
b
_
=

Nx

i
x
i
1
x

i
u
i
= x

i
x
i
1

Nx

i
u
i
On applique le Theor`eme Central Limite `a

Nx

i
u
i
. On sait que
E(x

i
u
i
) = 0
V(x

i
u
i
) = V(E(x

i
u
i
[x
i
)) + E(V(x

i
u
i
[x
i
)) = E(x

i
V(u
i
[x
i
) x
i
) =
2
E(x

i
x
i
)
Les moments dordre 1 et 2 de x

i
u
i
existent donc.
Le TCL permet alors darmer

Nx

i
u
i
L
^
_
0,
2
E(x
i
x

i
)
_
Comme
x

i
x
i
1
P
E(x
i
x

i
)
1
.
qui est une matrice constante, on peut donc appliquer le theor`eme de
Slutsky `a x

i
x
i
1
et

Nx

i
u
i
:
x

i
x
i
1

Nx

i
u
i
L
E(x
i
x

i
)
1
^
_
0,
2
E(x
i
x

i
)
_
= ^
_
0, E(x
i
x

i
)
1

2
E(x
i
x

i
)E(x
i
x

i
)
1
_
= ^
_
0,
2
E(x
i
x

i
)
1
_
on a donc bien

N
_

b b
_
L
^
_
0,
2
[E(x
i
x

i
)]
1
_
3. Estimation de la variance
Lestimateur de la variance des residus

2
=
1
N K 1
_
Y X

b
_

_
Y X

b
_
secrit compte tenu de Y = Xb +U

2
=
1
N K 1
_
X
_
b

b
_
+U
_

_
X
_
b

b
_
+U
_
=
N
N K 1
_
x
i
_
b

b
_
+u
i
_

_
x
i
_
b

b
_
+u
i
_
=
N
N K 1
_
b

b
_

i
x
i
_
b

b
_
+
_
b

b
_

x
i
u
i
+u
i
x
i
_
b

b
_
+u
i
u

=
N
N K 1
_
_
b

b
_

i
x
i
_
b

b
_
+ 2
_
b

b
_

i
u
i
+u
2
i
_
P

2
puisque

b
P
bx

i
x
i
P
E
_
x

i
x
i
_
, x

i
u
i
P
E
_
x

i
u
i
_
, u
2
i
P
E
_
u
2
i
_
=
2
4.3 Estimation de la variance de lestimateur 35
4.3 Estimation de la variance de lestimateur
La matrice de variance-covariance asymptotique de lestimateur dilate

b est
V
as
_

b
_
=
2
[E(x

i
x
i
)]
1
.
Cette matrice peut etre estimee de fa con convergente par

V
as
_

b
_
=
2
_
x

i
x
i
_
1
=
2
_
1
N
X

X
_
1
.
La matrice de variance-covariance de

b est approxiamtivement
V
_

b
_

1
N

2
0
[E(x

i
x
i
)]
1
.
Cette matrice peut etre estimee de fa con convergente par

V
_

b
_

1
N

2
_
x

i
x
i
_
1
=
1
N

2
_
1
N
X

X
_
1
=
2
(X

X)
1
.
5 Tests asymptotiques
On denit une region critique RC pour une statistique

S telle que

S ( on rejette H
0
contre H
1
Denition 5.1. On dit que le test de region critique ( est asymptotique si
ses proprietes sont valables pour N grand; quil est de niveau asymptotique
si lim
N
Pr
_

S ( [H
0
_
= ; et quil est convergent si sa puissance tend vers
un ( lim
N
Pr
_

S ( [H
a
_
= 1).
Pr
_

S ( [H
0
_
est le risque de premi`ere esp`ece : la probabilite de rejeter
H
0
`a tort. est choisi petit : (5% , 1% ).
Pr
_

S ( [H
a
_
est le risque de deuxi`eme esp`ece : la probabilite daccepter
H
0
`a tort cest `a dire la puissance du test.
5.0.1 p-value
La statistique

S est choisie de telle sorte que sous H
0

S S
0
et la loi de S
0
est connue et positive (valeur absolue dune loi normale, loi
du khi deux). La region critique est denit comme
RC = S [S > q (1 , S
0
)
o` u q (1 , S
0
) est le quantile dordre 1 de S
0
.
Pr (S
0
> q (1 , S
0
)) =
Denition 5.2 (p-value). On denit la p-value p
_

S
_
comme

S = q
_
1 p
_

S
_
, S
0
_
i.e.
p
_

S
_
= Pr
_
S
0
>

S
_
.
36 5 TESTS ASYMPTOTIQUES
Pour tout seuil , on rejette H
0
au seuil ssi p
_

S
_
. En eet, si
p
_

S
_
cest que
= Pr S
0
> q (1 , S
0
) Pr
_
S
0
>

S
_

S > q (1 , S
0
)
_
5.1 Test dhypoth`eses lineaires
On teste un syst`eme de contraintes lineaires. Pour R R
p(K+1)
, une ma-
trice dont les lignes sont lineairement independantes, et r R
p
, on teste
H
0
: Rb = r contre H
a
: Rb ,= r.
Lestimateur des MCO etant asymptotiquement normal,

N
_

b b
_
L
^
_
0, V
as
_

b
_
=
2
[E(x

i
x
i
)]
1
_
on a sous H
0

N
_
R

b r
_
L
^
_
0, V
as
_

NR

b
_
=
2
R[E(x

i
x
i
)]
1
R

_
5.1.1 Cas dune seule contrainte, p = 1 : test de Student.
On ecrit R = c

R
K+1
et r R. Sous lhypoth`ese nulle
H
0
: c

b = r
On a donc

N
_
c

b r
_
L
^
_
0, c

V
as
_

b
_
c
_
ou encore

N
c

b r
_
c

V
as
_

b
_
c
L
^(0, 1).
V
as
_

b
_
=
2
[E(x

i
x
i
)]
1
est inconnue mais on en a un estimateur convergent

V
as
_

b
_
=
2
_
x

i
x
i
_
1
=
2
_
1
N
X

X
_
1
. On applique le theor`eme de
Slutsky. On en deduit que la statistique de Student :

T =

N
c

b r
_
c

V
as
_

b
_
c
=
c

b r
_
c

V
_

b
_
c
L
^(0, 1).
Test bilateral.H
0
: c

b r = 0 contre H
1
: c

b r ,= 0 On denit la region
critique comme
W =
_
T

[T[ > q
_
1

2
__
o` u q
_
1

2
_
est le quantile 1

2
de la loi normale ^(0, 1)
Sous H
0
on a
Pr
_

T W [H
0
_
Pr
_
[^(0, 1)[ > q
_
1

2
__
=
5.1 Test dhypoth`eses lineaires 37
Sous H
1
on a c

b r c

b r = m ,= 0 donc

N =

_
c

b r
_

_
_
c

V
as
_

b
_
c [m[
_
_
c

V
as
_

b
_
c
do` u

+Pr
_

T W [H
1
_
1
Test unilateral H
0
: c

b r = 0 contre H
1
: c

b r > 0 On denit la region


critique comme
W = T [T > q (1 )
o` u q (1 ) est le quantile 1 de la loi normale ^(0, 1)
Sous H
0
on a
Pr
_

T W [H
0
_
Pr ^(0, 1) > q (1 ) =
Sous H
1
on a c

b r c

b r = m > 0 donc

T
_

N =
_
c

b r
_
_
_
c

V
as
_

b
_
c m
_
_
c

V
as
_

b
_
c
do` u

+Pr
_

T W [H
1
_
1
5.1.2 Cas de plusieurs contraintes, p K : test de Wald.
Rappel Z ^(0, ), inversible =Z

1
Z
2
K
. Do` u
N
_
R

b r
_

_
RV
as
_

b
_
R

_
1
_
R

b r
_
L

2
p
.
On peut remplacer V
as
_

b
_
par un estimateur convergent et appliquer Slutsky.
Do` u, sous lhypoth`ese nulle, H
0
: Rb
0
= r, et apr`es simplication des N,

W = N
_
R

b r
_

_
R

V
as
_

b
_
R

_
1
_
R

b r
_
=
_
R

b r
_

_
R

V
_

b
_
R

_
1
_
R

b r
_
=
_
R

b r
_

_
R(X

X)
1
R

_
1
_
R

b r
_

2
= p

F
L

2
p
, sous H
0
Region critique et p-value On rejettera H
0
au seuil si la statistique de
Wald,

W, est superieure au quantile 1 de la loi du
2
`a p (le nombre de
contraintes) degres de liberte :

W > q
_
(1 ),
2
p
_
Sous H
0
on a
Pr
_

W > q
_
(1 ),
2
p
_
_
Pr
_

2
p
> q
_
(1 ),
2
p
__
=
38 5 TESTS ASYMPTOTIQUES
Sous H
1
on a R

b r Rb r = m ,= 0
Donc

W/N =
_
R

b r
_

_
R

V
as
_

b
_
R

_
1
_
R

b r
_
constante
et donc

W
La p value est denie comme p = Pr
_
S
0
>

W
_
Application : Test de la nullite des param`etres dune regression sauf
la constante. Pour tester la nullite de tous les param`etres dune regression
sauf la constante, on peut former la statistique de Fisher comme

F =
(SCR
C
SCR) /K)
SCR/(N K 1)
=
R
2
1 R
2
N K 1
K
.
Do` u

W = K

F =
R
2
1 R
2
(N K 1) .
Sous H
0
il est facile de voir que R
2
P
0 qd N . On a donc

W NR
2
On peut utiliser la statistique NR
2
et rejetter lhypoth`ese nulle si
NR
2
> q
_
(1 ),
2
p
_
.
5.2 Test dhypoth`eses non lineaires
Le principe du test de Wald sapplique au test dhypoth`eses non line aires
generales de la forme :
H
0
: g(b) = 0,
o` u g(b) est un vecteur de p contraintes non lineaires sur les param`etres telle que
g(b)
b

est de plein rang


g(b
0
)
b

_
g(b
0
)
b

inversible.
Remarque g(b) = Rb r ; alors
g(b)
b

= R.
En appliquant la methode delta :

N
_
g(

b) g(b)
_
L
^
_
0,
2
g(b)
b

[E(x
i
x

i
)]
1
_
g(b)
b

_
.
Cas dune seule contrainte, p = 1. On forme la statistique de student :

T =
g(

b)
_
g(

b)
b

V
_

b
__
g(

b)
b

et on proc`ede comme dans le cas dune contrainte lineaire.


39
Cas de plusieurs contraintes, p < K+1. On calcule la statistique de Wald :

W = g(

b)

_
g(

b)
b

V
_

b
_
_
g(

b)
b

_1
g(

b)
que lon compare au quantile 1 de la loi du
2
`a p (le nombre de contraintes)
degres de liberte.
6 Le mod`ele lineaire sans lhypoth`ese IID
6.1 Presentation
On consid`ere le cas dans lequel une variable aleatoire y
i
depend de K + 1
variables explicatives x
i
:
y
i
= x
i
b +u
i
On maintient lhypoth`ese
Hypoth`ese (H
1
). E (u
i
[x
i
) = 0
En revanche, on ne fait plus lhypoth`ese iid :
Hypoth`ese (Hypoth`ese iid).
Var (u
i
[x
i
) =
2
Cov (u
i
, u
j
[x
i
) = 0
6.2 Exemples :
Exemple (Series temporelles). Erreurs distribuees suivant une moyenne mo-
bile :
y
t
= x
t
b +u
t
u
t
=
t
+
t1
et E (
t
[X) = 0, E (
t

t
[X) = 0 pour t ,= t

, E
_

2
t
[X
_
=
2

donc
E
_
u
2
t
[X
_
= E (
t
+
t1
)
2
= E
_

2
t
+ 2
t

t1
+
2

2
t1
_
=
2

_
1 +
2
_
E
_
u
t
u
t1
[X
_
= E (
t
+
t1
) (
t1
+
t2
) =
2

E (u
t
u
t
[X) = 0 [t t

[ > 1
La matrice de variance covariance secrit alors pour un echantillon de taille
T
V (U [X) =
2

_
_
_
_
_
_
_
_
_
_
1 +
2
_
0 0

.
.
.
.
.
.
.
.
.
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.

0 0
_
1 +
2
_
_
_
_
_
_
_
_
_
_
,=
2
I
T
40 6 LE MOD
`
ELE LIN

EAIRE SANS LHYPOTH


`
ESE IID
Exemple (Donnees de panel). Donnees `a double indice :
y
it
, x
it
i = 1, . . . , N, t = 1, . . . , T
i indice representant les individus en general grand,
t indice temporel, en general faible
Le mod`ele secrit comme dhabitude :
y
it
= x
it
b +u
it
i = 1, . . . , N, t = 1, . . . , T
ou encore
y
i
= x
i
b +u
i
i = 1, . . . , N,
z

i
=
_
z
i1
z
iT
_
On fait les hypoth`eses
E (u
i
[X) = 0
E
_
u
i
u

j
[X
_
= 0 i ,= j
En revanche on ne fait pas lhypoth`ese
E (u
i
u

i
[X) =
2
I
T
Le residu u
it
incorpore des elements inobserves permanent dans le temps.
Exemple (Mod`ele `a erreurs composees).
u
it
=
i
+w
it
avec
E (w
i
w

i
[X) =
2
W
I
T
, E (
i
w

i
[X) = 0, E
_

2
i
[X
_
=
2

On determine facilement la matrice de variance


= E (u
i
u

i
[X) =
_
_
_
_
_
_

+
2
W

2

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2

+
2
W
_
_
_
_
_
_
ainsi que la matrice de variance covariance des residus empiles
E (UU

[X) = I
N

,=
2
I
NT
Exemple (Regressions empilees). M variables `a expliquer, K
m
+1 variables
explicatives x
mi
dans lequation de y
mi
:
y
mi
, x
mi
i = 1, . . . , N, m = 1, . . . , M
Le mod`ele secrit pour chaque variable dependante :
y
mi
= x
mi

b
m
+u
mi
i = 1, . . . , N
ou encore
6.2 Exemples : 41
_
_
_
y
1i
.
.
.
y
Mi
_
_
_ =
_
_
_
x
1i
0
0
.
.
.
0
0 x
Mi
_
_
_
_
_
_

b
1
.
.
.

b
M
_
_
_+
_
_
_
u
1i
.
.
.
u
Mi
_
_
_
y
i
=

X
i

b +u
i
i = 1, . . . , N,
o` u

X
i
est la matrice bloc diagonale dont les ele ments de la diagonale sont x
mi
.
Un tel syst`eme porte le non de SUR system, SUR signiant Seemingly Unrelated
Regressions. Elle correspnd `a la situation dans laquelle il ny a pas de restrictions
entre les coecients intervenant dans chaque equation. Un cas particulier est
donne par le fait que dans chaque equation lensemble des variables explicatives
soit le meme x
mi
= x
i
. Dans ce cas la matrice

X
i
secrit simplement

X
i
= I
M
x
i
Il peut y avoir `a linverse des specications plus contraintes. On peut par
exemple introduire des restrictions entre les param`etres des equations : egalite
de coecients entre deux equations, nullite de la somme de coecients dune
variable intervenant dans chaque equation...Ces restrictions peuvent secrire sous
la forme b et H tel que

b = Hb. Lequation generale se reecrit donc :
y
i
=

X
i
Hb +u
i
i = 1, . . . , N,
y
i
= X
i
b +u
i
i = 1, . . . , N,
avec X
i
=

X
i
H
On fait les hypoth`eses
E (u
i
[X) = 0
E
_
u
i
u

j
[X
_
= 0 i ,= j
E (u
i
u

i
[X) =
Les residus u
mi
nont pas necessairement la meme variance et peuvent en
outre etre correles entre eux. On peut distinguer le cas particulier o` u =
diag
_

2
1
, . . . ,
2
M
_
La matrice de variance covariance des residus empiles a alors pour expression
E (UU

[X) = I
N

,=
2
I
NT
Exemple (Mod`ele `a coecent aleatoire). (dim(x
i
) = 1)
y
i
= a +x
i
b
i
+v
i
b
i
= b +v
bi
avec , E (v
i
[X) = 0, E (v
i
v
j
[X) = 0 pour i ,= j, E
_
v
2
i
[X
_
=
2
v
,
et E (v
bi
[X) = 0, E (v
bi
v
bj
[X) = 0 pour i ,= j, E
_
v
2
bi
[X
_
=
2
b
,
et E (v
bi
v
j
[X) = 0 i, j
Le mod`ele se reecrit donc
y
i
= a +x
i
b
i
+v
i
= a +x
i
(b +v
bi
) +v
i
= a +x
i
b +x
i
v
bi
+v
i
= a +x
i
b +u
i
u
i
= x
i
v
bi
+v
i
42 6 LE MOD
`
ELE LIN

EAIRE SANS LHYPOTH


`
ESE IID
On a donc les proprietes
E (u
i
[X) = E (x
i
v
bi
+v
i
[X) = x
i
E (v
bi
[X) +E (v
i
[X) = 0
et
E (u
i
u
j
[X) = 0 i ,= j
= E ((x
i
v
bi
+v
i
) (x
j
v
bj
+v
j
) [X)
= x
i
x
j
E (v
bi
v
bj
[X) +x
i
E (v
bi
v
j
[X) +x
j
E (v
i
v
bj
[X) +E (v
i
v
j
[X) = 0
E
_
u
2
i
[X
_
= x
2
i

2
b
+
2
v
= E
_
(x
i
v
bi
+v
i
)
2
[X
_
= E
__
x
2
i
v
2
bi
+ 2x
i
v
bi
v
i
+v
2
i
_
[X
_
La matrice de variance covariance secrit donc
E (UU

) = Diag
_

2
v
+x
2
i

2
b
_
,=
2
I
N
Exemple (Mod`ele heteroscedastique en coupe).
y
i
= a +x
i
b +u
i
avec ,
E (u
i
[X) = 0,
E (v
i
v
j
[X) = 0 pour i ,= j,
E
_
v
2
i
[X
_
=
2
i
,
La matrice de variance covariance secrit donc
E (UU

[X) = Diag
_

2
i
_
,=
2
I
N
6.3 Conclusion des exemples
Une grande diversite de situations
La matrice de variance des perturbations peut
dependre ou non des variables explicatives :
cas par exemple du mod`ele `a coecients aleatoires
dependre de param`etres additionnel de dimension nie :
cas par exemple des donnees de panel, des regressions
empilees
dependre de param`etres additionnels de dimension innie :
cas du mod`ele heteroscedastique en coupe
6.4 Le mod`ele lineaire heteroscedastique 43
6.4 Le mod`ele lineaire heteroscedastique
6.4.1 Denition et hypoth`eses
On consid`ere le cas dans lequel une variable aleatoire y
i
depend de K + 1
variables explicatives x
i
:
y
i
= x
i
b +u
i
soit
Y = Xb +U
avec les hypoth`eses
Hypoth`ese (H
1
). E (U [X) = 0
Hypoth`ese (H
2
). E (UU

[X) = = (X, ) inversible


Hypoth`ese (H
3
). X

X inversible
Le mod`ele est dit heteroscedastique car on na plus lhypoth`ese
Hypoth`ese (Non-H
2
). E (UU

[X) =
2
I
Dans un tel cas le mod`ele aurait ete dit homoscedastique.
On peut distinguer deux types dheteroscedasticite
heteroscedasticite due au fait que les donnees ne sont pas iid : correlation
des perturbations, heterogene ite de la variance
E (UU

[X) = ()
cest le cas du mod`ele `a moyenne mobile du mod`ele de donnees de panel, du
mod`ele de regressions empilees et du mod`ele heteroscedastique en coupe.
heteroscedasticite due aux variables explicatives
E (UU

[X) = (X, ) , depend de X


cest le cas du mod`ele `a coecients variables
On se pose les questions suivantes
Les proprietes statistiques de lestimateur des MCO sont elles modiees ?
Lestimateur est-il toujours sans biais et convergent ?
Quelle est sa matrice de variance et comment lestimer ?
Lestimateur des MCO est-il toujours optimal ?
Comment detecter la presence dheteroscedasticite ?
6.5 Estimation par les MCO
Proposition 6.1. Sous les hypoth`eses H1, H2, H3, lestimateur des MCO,

b
MCO
= (X

X)
1
X

Y , est sans biais :


E
_

b
MCO
[X
_
= 0,
et sa variance sachant X est
V
_

b
MCO
[X
_
= (X

X)
1
X

X(X

X)
1
.
44 6 LE MOD
`
ELE LIN

EAIRE SANS LHYPOTH


`
ESE IID
Demonstration.
On a

b
MCO
= (X

X)
1
X

Y = (X

X)
1
X

(Xb +U)
= b + (X

X)
1
X

U
On a donc pour lesperance de lestimation
E
_

b
MCO
[X
_
= b +E
_
(X

X)
1
X

U[X
_
= b + (X

X)
1
X

E (U[X) = b
De plus
V
_

b
MCO
[X
_
= V
_
(X

X)
1
X

U[X
_
= (X

X)
1
X

V (U[X) X(X

X)
1
= (X

X)
1
X

X(X

X)
1
.
6.6 La methode des Moindres Carres Generalises (MCG)
Denition 6.1. Lestimateur des MCG est solution du probl`eme :
min
b
_
SCRG(b) (Y Xb)


1
(Y Xb)
_
Proposition 6.2. Sous les hypoth`eses H1, H2, H3, lestimateur des MCG
existe, il est unique et est donne par :

b = (X

1
X)
1
X

1
Y.
Demonstration.
Les conditions du premier ordre CN secrivent :
SCRG(

b)
b
= 2X

1
_
Y X

b
_
= 0 X

1
X

b = X

1
Y.
La matrice hessienne de lobjectif a pour expression
SCRG(

b)
bb

= 2X

1
X
Sous H1, H2, H3, X

1
X est inversible syme trique et positive : a ,= 0
R
K+1
, a, Xa ,= 0 sinon X

X non inversible. Comme est inversible on a


(Xa)


1
Xa > 0. Do` u

SCRG(

b)
bb

< 0 : Les CN sont necessaires et susantes,


b
MCG
= (X

1
X)
1
X

1
Y
car X

1
X inversible
6.7 Proprietes statistiques de lesperance et de la variance conditionnelle des MCG45
Sphericisation. Pour toute matrice symetrique et denie positive W il existe
une matrice W
1/2
telle que W =
_
W
1/2
_
2
. Cette matrice nest pas unique. On
peut clairement la choisir comme symetrique et semi-denie positive (Puisque W
est symetrique et semie de nie positive elle est diagonalisable dans le groupe
orthogonal : W = P

DP, avec P

P = I et D = Diag (
k
) la matrice dia-
gonale formee des valeurs propres de W. D
1/2
= Diag
_

k
_
existe et verie
_
D
1/2
_
2
= D. On peut denir W
1/2
= P

D
1/2
P, et on a W
1/2
symetrique semi
denie positive.). Dautres choix sont neanmoins possible et peuvent se reveler
int eressant, comme le fait de choisir W
1/2
triangulaire inferieure ou superieur.
Dune fa con ou dune autre, on denit ainsi
1/2
et
1/2
veriant

1/2
=
_

1/2
_
1
do` u

1
=
_

1/2

1/2
_
1
=
1/2

1/2
.
Si on multiplie le mod`ele par
1/2
on a :

1/2
Y =
1/2
Xb +
1/2
U

Y =

Xb +

U
Cette transformation des variables Y et X en
1/2
Y et
1/2
X est dite
operation de sphericisation. On dit : sphericiser un mod`ele .On a
H1 : E
_

X
_
= E
_

1/2
U

1/2
X
_
=
1/2
E (U [X) = 0
H2 : E
_

X
_
= E
_

1/2
UU

1/2
X
_
=
1/2
E (UU

[X)
1/2
=
1/2

1/2
= I
H3 :

X


X = X

1/2

1/2
X = X

1
X inversible
Lestimateur des MCG est lestimateur des MCO des coecients de la re-
gression de

Y sur les colonnes de

X :

b
MCO
=
_


X
_
1

Y =
_
X

1
X
_
1
X

1/2

1/2
Y
=
_
X

1
X
_
1
X

1
Y =

b
MCG
6.7 Proprietes statistiques de lesperance et de la variance
conditionnelle des MCG
Proposition 6.3. Lestimateur des MCG verie les proprietees suivantes
1. Lestimateur des MCG est sans biais : E
_

b
MCG
[X
_
= b
2. Lestimateur des MCG a pour matrice de variance
V(

b
MCG
[X) = (X

1
X)
1
3. Lestimateur des MCG est le meilleur estimateur lineaire sans biais (Th.
de Gauss Markov)
Demonstration.

b
MCG
= (X

1
X)
1
X

1
Y = (X

1
X)
1
X

1
(Xb +U)

b
MCG
= b + (X

1
X)
1
X

1
U
46 6 LE MOD
`
ELE LIN

EAIRE SANS LHYPOTH


`
ESE IID
1. Sans biais :
E
_

b
MCG
[X
_
= b +E
_
(X

1
X)
1
X

1
U [X
_
= b + (X

1
X)
1
X

1
E (U [X) = b
2. Variance
V
_

b
MCG
[X
_
= V
_
(X

1
X)
1
X

1
U [X
_
= (X

1
X)
1
X

1
V (U [X)
1
X(X

1
X)
1
= (X

1
X)
1
X

1
X(X

1
X)
1
= (X

1
X)
1
3. Optimalite : Provient directement de

b
MCG
=

b
MCO
et

b
MCO
optimal
47
7 Lestimateur des MCQG
La matrice est inconnue. Lestimateur des MCG et la matrice de variance
des MCO ne sont pas calculables. Il faut donc estimer cette matrice. Soit

un
estimateur de . On appelle estimateur des Moindres Carres Quasi-Generalises
lestimateur :

b
MCQG
= (X

1
X)
1
X

1
Y.
Lestimateur des MCQG nest en general pas sans biais ni lineaire en Y
puisque

depend de Y .
Les proprietes de

b
MCQG
ne peuvent donc etre quasymptotiques.
7.0.1 Cas o` u = () et de dimension nie
On consid`ere le mod`ele
y
i
= x
i
b +u
i
, y
i
de dim M 1, x
i
de dim M K + 1
avec les hypoth`eses
Hypoth`ese (H
1
). E (u
i
[x
i
) = 0
Hypoth`ese (H
2
). V (u
i
[x
i
) = V (u
i
) = () de dim M M, est alors
necessairement de dimension nie
Hypoth`ese (H
3
). Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont iid
Hypoth`ese (H
4
et H
5
). N X

X et E(x
i
x

i
) sont inversibles
Hypoth`ese (H
6
). Les moments de (y
i
, x
i
) existent au moins jusqu`a lordre 4.
Theor`eme 7.1. Sous les hypoth`eses H1 ` a H6, lestimateur des MCO

b
mco
= (X

X)
1
X

Y =
_
x

i
x
i
_
1
x

i
y
i
verie quand N
1.

b
mco
P
b, convergence ;
2.

N
_

b
mco
b
_
L
^
_
0, V
as
_

b
mco
__
, Normalite asymptotique ;
3. V
as
_

b
mco
_
= [E(x

i
x
i
)]
1
E(x

i
x
i
) [E(x

i
x
i
)]
1
4.

=
_
y
i
x
i

b
mco
__
y
i
x
i

b
mco
_

= u
i
u

i
P
, Estimation de
5.

V
as
_

b
mco
_
= (x

i
x
i
)
1
x

x
i
x

i
x
i
1
P
V
as
_

b
mco
_
Estimation de V
6.

N

V
as
_

b
mco
_
1/2
_

b
mco
b
_
L
^ (0, I)
Demonstration.
Si M est la longueur du vecteur y
i
: y

i
=
_
y
1i
y
Mi
_
X

X =

i=N,m=M
i=1,m=1
x

im
x
im
=

i=N
i=1

m=M
m=1
x

im
x
im
=

i=N
i=1
x

i
x
i
do` u lexpression de

b
mco
48 7 LESTIMATEUR DES MCQG
1. Convergence On a

b
mco
= b +
_
x

i
x
i
_
1
x

i
u
i
Comme les observations sont independantes entre deux individus i et j et
que les moments dordre 4 existent, do` u lexistence de moments dordre 2
pour x

i
x
i
et x

i
u
i
en appliquant la loi des grands nombre
_
x

i
x
i
_
1
x

i
u
i
P

E (x

i
x
i
)
1
E (x

i
u
i
) et E (x

i
u
i
) = E (x

i
E (u
i
[x
i
)) = 0
2. Normalite asymptotique

N
_

b
mco
b
_
=
_
x

i
x
i
_
1
Nx

i
u
i
Theor`eme central limite applique `a x

i
u
i
E (x

i
u
i
) = 0 et V (x

i
u
i
) =
E (V (x

i
u
i
[x
i
)) = E (x

i
V (u
i
[x
i
) x
i
) = E (x

i
x
i
) existent. On a donc

Nx

i
u
i
L
N (0, E (x

i
x
i
))
On applique le theor`eme de Slutsky
_
x

i
x
i
_
1
P
E (x

i
x
i
)
1
et

Nx

i
u
i
L

N (0, E (x

i
x
i
))
donc

N
_

b
mco
b
_
=
_
x

i
x
i
_
1
Nx

i
u
i
L
N
_
0, E (x

i
x
i
)
1
E (x

i
x
i
) E (x

i
x
i
)
1
_
3. Estimation de

=
_
y
i
x
i

b
mco
__
y
i
x
i

b
mco
_

= u
i
u

i
u
i
= y
i
x
i

b
mco
= x
i
_
b

b
mco
_
+u
i

=
_
x
i
_
b

b
mco
_
+u
i
__
x
i
_
b

b
mco
_
+u
i
_

= u
i
u

i
+x
i
_
b

b
mco
__
b

b
mco
_

i
+
x
i
_
b

b
mco
_
u

i
+u
i
_
b

b
mco
_

i
Le premier terme converge vers par la loi des grands nombres.
Le deuxi`eme terme est une matrice dont les elements sont somme de termes
x
k
li
_
b

b
mco
_
m
_
b

b
mco
_
m

x
k

i
=
_
b

b
mco
_
m
_
b

b
mco
_
m

x
k
li
x
k

i
comme
_
b

b
mco
_
P
0 et que x
k
li
x
k

i
P
E
_
x
k
li
x
k

i
_
le deuxi`eme terme
tend vers zero en probabilite. De meme pour le troisi`eme et le quatri`eme
terme.
4. Estimation de la variance de lestimateur des mco

V
_

b
mco
_
= (x

i
x
i
)
1
x

x
i
x

i
x
i
1
P
V
_

b
mco
_
Le seul terme important est x

x
i
et on a
x

x
i
E (x

i
x
i
) =
_
x

x
i
x

i
x
i
_
+
_
x

i
x
i
E (x

i
x
i
)
_
=
_
x

i
_


_
x
i
_
+
_
x

i
x
i
E (x

i
x
i
)
_
49
Le deuxi`eme terme tend vers zero en probabilite par la loi forte des grands
nombres.
Le premier terme tend vers zero en probabilite par le meme genre dargu-
ment que precedemment, puisque

Enn, comme

V
_

b
mco
_
P
V
_

b
mco
_
et

N
_

b
mco
b
_
L
^
_
0, V
_

b
mco
__
on a directement par le theor`eme de Slutsky

V
_

b
mco
_
1/2
_

b
mco
b
_
L
^ (0, I)
Hypoth`ese (H
7
).

P
, lestimateur des MCQG
Theor`eme 7.2. Sous les hypoth`eses H1 ` a H7, et si

b
mcqg
=
_
x

_
1
x
i
_
1
x

_
1
y
i
verie quand N
1.

b
mcqg
P
b, Convergence ;
2.

N
_

b
mcqg
b
_
L
^
_
0, V
as
_

b
mcqg
__
, Normalite asymptotique ;
3. V
as
_

b
mcqg
_
=
_
E(x

1
x
i
)

1
= V
_

b
mcg
_
Equivalence asymptotique
entre MCQG et MCG
4.

V
as
_

b
mcqg
_
= x

1
x
i
1
P
V
_

b
mcg
_
Estimation de la variance ;
5.

N

V
as
_

b
mcqg
_
1/2
_

b
mcqg
b
_
L
^ (0, I).
Demonstration. Soit

=
_

_
. Comme

P
,

1. Convergence

b
mcqg
= b +
_
x

1
x
i
_
1
x

1
u
i
Chaque terme de x

1
x
i
est somme de termes de la forme x
k
li

1
m,m
x
k

i
=

1
m,m
x
k
li
x
k

i
converge vers

1
m,m
x
k
li
x
k

i
P

1
m,m
E
_
x
k
li
x
k

i
_
et est le terme
correspondant de E
_
x

1
x
i
_
. On a donc
x

1
x
i
P
E
_
x

1
x
i
_
De meme
x

1
u
i
P
E
_
x

1
u
i
_
= E
_
x

1
E (u
i
[x
i
)
_
= 0
Do` u la convergence de lestimateur
50 7 LESTIMATEUR DES MCQG
2. Normalite asymptotique
Le seul point `a montrer est

Nx

1
u
i
L
N
_
0, E
_
x

1
x
i
__

Nx

1
u
i
=

Nx

i
_

1
_
u
i
+

Nx

1
u
i
Chaque terme de

Nx

i
_

1
_
u
i
est de la forme

Nx
k
li
_

1
m,m

1
m,m

_
u
l

i
=
_

1
m,m

1
m,m

Nx
k
li
u
l

i
Le premier terme converge en probabilite vers 0. Le deuxi`eme terme converge
en loi vers une loi normale.
Elle est donc bornee en probabilite :
X
N
bornee en probabilite si > 0 M

et N

tq N > N

P ([X
N
[ > M

) <
On peut montrer que le produit dune suite convergeant en probabilite
vers 0 et une suite bornee en probabilite converge en probabilite vers 0. Le
comportement asymptotique de

Nx

1
u
i
est donc le meme que celui
de

Nx

1
u
i
. Comme V
_
x

1
u
i
_
= E
_
x

1
x
i
_
, il converge donc en
loi vers une loi normale N
_
0, E
_
x

1
x
i
__
3. Les deux derniers points se demontrent de la meme fa con que pr ecedem-
ment.
7.0.2 Application
Donnees de panel et Regressions empilees
On estime le mod`ele
y
i
= x
i
b +u
i
par les MCO :

b
MCO
= (X

X)
1
(X

Y )
On calcule le residu pour chaque individu
u
i
= y
i
x
i

b
MCO
On calcule un estimateur de la matrice de variance des residus

= u
i
u

i
On peut alors determiner la variance asymptotique et la variance de les-
timateur des MCO par

V
as
_

b
mco
_
= (x

i
x
i
)
1
x

x
i
x

i
x
i
1

V
_

b
mco
_
=
1
N

V
as
_

b
mco
_
On calcule lestimateur des MCQG

b
mcqg
=
_
x

1
x
i
_
1
x

1
y
i
51
On calcule la variance asymptotique et la variance de lestimateur des
MCQG

V
as
_

b
mcqg
_
= x

1
x
i
1

V
_

b
mcqg
_
=
1
N

V
as
_

b
mcqg
_
7.0.3 Retour sur les regressions SUR
On consid`ere la situation dans laquelle lensemble des regresseurs intervenant
dans chaque equation est le meme, lorsquil ny a pas de contrainte entre les
param`etres dune equation `a lautre. Dans une telle situation on a,
Theor`eme 7.3 (Theor`eme de Zellner). Lestimateur des mcg est equivalent
` a lestimateur des mco eectue equation par equation.
Demonstration.
Un tel mod`ele secrit sous la forme :
y
i
= (I
M
x
i
) b +u
i
et b

=
_
b

1
, . . . , b

M
_
est de dimension M (K + 1) . Dans ce cas lestimateur des
MCG est donne par

b
MCG
= (I
M
x
i
)


1
(I
M
x
i
)
1
(I
M
x
i
)


1
y
i
Rappel sur les produits de Kronecker de matrices : si AC et BD existent, cest
`a dire si leurs dimensions sont conformes aux produits matriciels, on a
(AB) (C D) = (AC BD)
On rappelle aussi que (AB)

= (A

) .
Dans ces conditions, puisque
1
=
1
1 et que x
i
est de dimension
1 (K + 1) on a (I
M
x
i
)


1
=
_
I
M
x

i
_
_

1
1
_
=
_

1
x

i
_
. On a
de meme (I
M
x
i
)


1
(I
M
x
i
) =
_

1
x

i
_
(I
M
x
i
) =
_

1
x

i
x
i
_
et
(I
M
x
i
)


1
y
i
=
_
I
M
x

i
__

1
y
i
1
_
=
_

1
y
i
x

i
_
. On a donc

b
MCG
=
1
x

i
x
i
1
_

1
y
i
x

i
_
= x

i
x
i
1
_

1
y
i
x

i
_
= x

i
x
i
1
_

1
y
i
x

i
_
=
_
y
i

_
x

i
x
i
1
x

i
__
Comme
y
i

_
x

i
x
i
1
x

i
_
=
_

_
y
1i
_
x

i
x
i
1
x

i
_
.
.
.
y
Mi
_
x

i
x
i
1
x

i
_
_

_
=
_

_
x

i
x
i
1
x

i
y
1i
.
.
.
x

i
x
i
1
x

i
y
Mi
_

_
52 7 LESTIMATEUR DES MCQG
on voit que

b
MCG
= y
i

_
x

i
x
i
1
x

i
_
=
_

_
x

i
x
i
1
x

i
y
1i
.
.
.
x

i
x
i
1
x

i
y
Mi
_

_
=
_

b
MCO
(1)
.
.
.

b
MCO
(M)
_

_
o` u

b
MCO
(m) = x

i
x
i
1
x

i
y
mi
est lestimateur des mco sur l equation m prise
individuellement.
Remarquons toutefois que la variance de lestimateur secrit
V
as
_

b
MCG
_
= E
_
u
i

_
x

i
x
i
1
x

i
_
u

_
x

i
x
i
1
x

i
_

_
=
_
E
_
x

i
x
i
_
1
_
Bien que pouvant etre calcules simplement equation par e quation, les estima-
teurs pour chaque equations sont correles entre eux.
7.0.4 Cas o` u = (, X) et de dimension nie
On consid`ere le mod`ele
y
i
= x
i
b +u
i
avec les hypoth`eses
Hypoth`ese (H
1
). E (u
i
[x
i
) = 0
Hypoth`ese (H
2
). V (u
i
[x
i
) = V (u
i
) = (, x
i
) reguli`ere : C

Hypoth`ese (H
3
). Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont iid
Hypoth`ese (H
4
et H
5
). N X

X et E(x
i
x

i
) sont inversibles
Hypoth`ese (H
6
). Les moments de (y
i
, x
i
) existent au moins jusqu`a nimporte
quel ordre
Hypoth`ese (H
7
).

Theor`eme 7.4. Sous les hypoth`eses H1 ` a H7, lestimateur des MCQG

b
mcqg
=
_
X

I
N

_

, X
_
1
X
_
1
X

I
N

_

, X
_
1
Y
=
_
x

, X
_
1
x
i
_
1
x

, X
_
1
y
i
verie quand N
1.

b
mcqg
P
b, Convergence
2.

N
_

b
mcqg
b
_
L
^
_
0, V
as
_

b
mcqg
__
, Normalite asymptotique
3. V
as
_

b
mcqg
_
=
_
E(x

i
(x
i
, )
1
x
i
)
_
1
=V
_

b
mcg
_
Equivalence MCQG et
MCG
53
4.

V
as
_

b
mcqg
_
= x

_
x
i
,

_
1
x
i
1
P
V
as
_

b
mcqg
_
Estimation de V
5.

N

V
as
_

b
mcqg
_
1/2
_

b
mcqg
b
_
L
^ (0, I)
Demonstration. Soit

i
=
_

, x
i
_
.
1. Convergence

b
mcqg
= b +
_
x

1
i
x
i
_
1
x

1
i
u
i
x

1
i
z
i
= x

i
(x
i
, )
i
z
i
+ x

i
_

_
x
i
,

_
(x
i
, )
_
z
i
comme
P

i
1
z
i
P
E
_
x

i
(x
i
, )
1
z
i
_
Do` u la convergence de lestimateur puisque E
_
x

i
(x
i
, )
1
u
i
_
= 0
2. Normalite asymptotique
Le seul point `a montrer est

Nx

1
i
u
i
L
N
_
0, E
_
x
i
(x
i
, )
1
x
i
__

Nx

1
u
i
=

Nx

i
_

1
i
(x
i
, )
1
_
u
i
+

Nx

i
(x
i
, )
1
u
i

1
m,m

1
m,m
=
m,m
/
_

, x
i
__


_
, avec

<

Chaque terme de

Nx

i
_

1
_
u
i
est somme de termes de la forme

Nx
k
li
_

1
m,m

1
m,m

_
u
l

i
=

Nx
k
li
u
l

m,m
/
_

, x
i
__


_
Le
deuxi`eme terme converge en probabilite vers 0. Le premier terme converge
en loi vers une loi normale si x
k
li
u
l

m,m
/
_

, x
i
_
a des moments
dordre 1 et 2. Elle est donc bornee en probabilite et on proc`ede comme
precedemment.
3. Les deux derniers points se demontrent de la meme fa con que pr ecedem-
ment.
7.0.5 Application :
Mod`ele en coupe
y
i
= x
i
b +u
i
dans lequel on specie la forme de lheterogeneite (p.e. mod`ele `a coecient
aleatoire). On suppose quil existe des variables z
i
formees `a partir de x
i
telles
que

2
i
= exp z
i

log
_

2
i
_
= z
i

On proc`ede de la fa con suivante :


1. Calcul de

b
MCO
et des residus : u
i
= y
i
x
i

b
MCO
.
54 7 LESTIMATEUR DES MCQG
2. Regression de log
_
u
2
i
_
sur les variables z
i
: log
_
u
2
i
_
= z
i
+w
i
.
3. Construction dun estimateur de
i
par
i
= exp z

/2
4. Calcul des donnees sphericisees : y
i
= y
i
/
i
, x
i
= x
i
/
i
5. Calcul de lestimateur des MCO sur ces donnees
7.0.6 Cas o` u = () et de dimension quelconque
On consid`ere le mod`ele
y
i
= x
i
b +u
i
avec les hypoth`eses
Hypoth`ese (H
1
). E (u
i
[x
i
) = 0
Hypoth`ese (H
2
). V (u
i
[x
i
) = () et de dimension quelconque
Hypoth`ese (H
3
). Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont iid
Hypoth`ese (H
4
). N X

X est non singuli`ere


Hypoth`ese (H
5
). E(x
i
x

i
) est inversible
Hypoth`ese (H
6
). Les moments de (y
i
, x
i
) existent au moins jusqu`a lordre 8.
Theor`eme 7.5. Sous les hypoth`eses H1 ` a H6, lestimateur des MCO

b
mco
= (X

X)
1
X

Y =
_
x

i
x
i
_
1
x

i
y
i
verie quand N
1.

b
mco
P
b,
2.

N
_

b
mco
b
_
L
^
_
0, V
_

b
mco
__
,
3. V
_

b
mco
_
= [E(x

i
x
i
)]
1
E(x

i
u
i
u

i
x
i
) [E(x

i
x
i
)]
1
4.

V
_

b
mco
_
= (x

i
x
i
)
1
x

i
u
i
u

i
x
i
x

i
x
i
1
P
V
_

b
mco
_
5.

N

V
_

b
mco
_
1/2
_

b
mco
b
_
L
^ (0, I) ,
Demonstration.
1. Le premier point se demontre comme precedemment
2. Pour le deuxi`eme point

N
_

b
mco
b
_
=
_
x

i
x
i
_
1
Nx

i
u
i
3. Theor`eme central limite applique `a x

i
u
i
: E (x

i
u
i
) = 0 et V (x

i
u
i
) =
E (x

i
u
i
u

i
x
i
) existent. On a donc

Nx

i
u
i
L
N (0, E (x

i
u
i
u

i
x
i
))
On a donc

N
_

b
mco
b
_
=
_
x

i
x
i
_
1
Nx

i
u
i
L
N
_
0, E (x

i
x
i
)
1
E (x

i
u
i
u

i
x
i
) E (x

i
x
i
)
1
_
7.1 Tests dheteroscedasticite 55
4. Estimation de la matrice de variance
Le point important est de montrer que x

i
u
i
u

i
x
i
P
E (x

i
u
i
u

i
x
i
)
x

i
u
i
u

i
x
i
= x

i
_
x
i
_
b

b
mco
_
+u
i
__
x
i
_
b

b
mco
_
+u
i
_

x
i
= x

i
u
i
u

i
x
i
+x

i
x
i
_
b

b
mco
__
b

b
mco
_

i
x
i
+
x

i
x
i
_
b

b
mco
_
u

i
x
i
+x

i
u
i
_
b

b
mco
_

i
x
i
Le premier terme converge vers E (x

i
u
i
u

i
x
i
) car les moments dordre 8
existent.
Le deuxi`eme terme est une matrice dont les elements sont somme de termes
(x

i
x
i
)
l
1
l
2
_
b

b
mco
_
m
_
b

b
mco
_
m

(x

i
x
i
)
l

1
l

2
=
_
b

b
mco
_
m
_
b

b
mco
_
m

(x

i
x
i
)
l
1
l
2
(x

i
x
i
)
l

1
l

2
comme
_
b

b
mco
_
P
0 et
que (x

i
x
i
)
l
1
l
2
(x

i
x
i
)
l

1
l

2
P
E
_
(x

i
x
i
)
l
1
l
2
(x

i
x
i
)
l

1
l

2
_
le deuxi `eme terme tend
vers zero en probabilite. De meme pour le troisi `eme et le quatri`eme terme.
Cet estimateur de la matrice de variance de lestimateur des mco est connu
sous le nom de matrice de variance de White robuste `a lhet eros-
cedasticite. Il est tres couramment utilise et syst ematiquement propose
dans les logiciels standards.
Il faut neanmoins conserve `a lesprit que cet estimateur nest convergeant
que pour pour des echantillons de grandes taille pour lesquels on peut
esperer que les moments dordre quatre calcules soient proches de leurs
valeur moyenne
7.0.7 Application
Mod`ele heteroscedastique en coupe
V (u
i
) =
i
7.1 Tests dheteroscedasticite
On consid`ere le cas des regressions en coupe
y
i
= x
i
b +u
i
V (u
i
) =
2
i
(y
i
, x
i
) independants
7.1.1 Test de Goldfeld-Quandt
Si la variance
2
i
varie de fa con monotone en fonction demph des variables
explicatives (appelons-la z
i
R), on peut ordonner les observations en fonction
56 7 LESTIMATEUR DES MCQG
de z
i
et supposer que z
i
z
i+1
. On partitionne ensuite les observations en deux
groupes tels que :
y
1
=
_
_
_
y
1
.
.
.
y
N
1
_
_
_, X
1
=
_
_
_
x

1
.
.
.
x

N
1
_
_
_,
y
2
=
_
_
_
y
N
2
+1
.
.
.
y
N
_
_
_, X
2
=
_
_
_
x

N
2
+1
.
.
.
x

N
_
_
_.
Les seuils N
1
et N
2
sont choisis de fa con `a ecarter les deux echantillons. En
pratique on prend N
1
N/3 et N
2
2N/3.
On estime le mod`ele lineaire par la methode des MCO sur chaque sous-
echantillon. Soient

2
1
=
1
N
1
K 1
N
1

i=1
(y
i
x

b
1
)
2
,

2
2
=
1
N N
2
K 1
N

i=N
2
+1
(y
i
x

b
1
)
2
les deux estimateurs de la variance.
Sous lhypoth`ese dhomoscedasticite,

2
1


2
0
N
1
K 1

2
N
1
K1
,

2
2


2
0
N N
2
K 1

2
NN
2
K1
.
Si bien que

2
1

2
2
F
N
1
K1,NN
2
K1
.
On rejettera lhypoth`ese nulle dhomoscedasticite (sous lhypoth`ese mainte-
nue de normalite) au seuil si :

2
1

2
2
> F
N
1
K1,NN
2
K1
(1 )
o` u F
N
1
K1,NN
2
K1
(1) est le quantile 1 de la loi de Fisher `a N
1
K1
et N N
2
K 1 degres de liberte
7.1.2 Test de Breusch-Pagan
On consid`ere une hypoth`ese alternative `a lhypoth`ese dhomoscedasticite de
la forme :
H
a
:
2
i
=
2
0
+z

0
o` u
2
0
R et
0
R
M
sont deux param`etres et o` u z
i
est maintenant un vecteur
quelconque de M variables explicatives formees `a partir de x
i
(par exemple, les
7.1 Tests dheteroscedasticite 57
variables de x
i
et leurs produits croises). Attention, on ne garde dans z
i
que des
variables, pas de terme constant. Lhypoth`ese nulle dhomoscedaticite secrit :
H
0
:
0
= 0.
Le test de Breusch-Pagan se fait de la fa con suivante :
1. Estimer le mod`ele lineaire par MCO et calculer le carre des residus : u
2
i
;
2. Regresser par MCO u
2
i
sur les variables z
i
avec une constante. Soit R
2
le
coecient de determination de cette regression;
3. Sous lhypoth`ese nulle, NR
2
L

2
M
. On rejette H
0
au seuil si NR
2
>

2
1
(M).
Remarque. Le test se fait `a partir des residus estimes ( u
2
i
/
2
). Montrer que tout
se passe comme si lon travaillait avec u
2
i
/
2
0
necessite des hypoth`eses supple-
mentaires.
58 8 AUTOCORRELATION DES R

ESIDUS
8 Autocorrelation des residus
Dans les mod`eles en serie temporelles et en donnees de panel, lhypoth`ese
de non-autocorrelation des perturbations est assez forte et frequemment non-
veriee.
On consid`ere les mod`eles sur serie temporelle :
y
t
= x
t
b +u
t
, t = 1, . . . , T
On va voir ` a ce sujet :
les principales formes dautocorrelation;
les tests permettant de detecter lautocorrelation;
les methodes destimation adaptees en presence dautocorrelation.
8.1 Les diverses formes dautocorrelation des perturba-
tions
8.1.1 Perturbations suivant un processus autoregressif dordre 1 (AR1)
Selon cette hypoth`ese (AR1), les perturbations du mod`ele sont engendrees
par le processus :
u
t
= u
t1
+
t
, t = 1, ...T
avec :
E (
t
[X) = 0, V (
t
[X) =
2

, cov (
t
,
t
[X) = 0, t ,= t

: les hypo-
th`eses dhomoscedasticite et dindependance sont transferees aux innova-
tions du processus :
t
[[ < 1
8.1.2 Stationnarite au premier et au second ordre dun processus
AR1
u
t
= u
t1
+
t
= ( u
t2
+
t1
) +
t
=
t
+
t1
+
2
( u
t3
+
t2
)
=
t
+
t1
+ +
t1

1
+
t
u
0
Le processus u
t
est dit stationnaire au premier ordre et au second ordre si
et seulement si :
E (u
t
[X) = E (u
t1
[X) = = E (u
0
[X) = , t
V (u
t
[X) = V (u
t1
[X) = = V (u
0
[X) =
2
u
, t.
Le processus AR(1) u
t
est stationnaire si E (u
0
[X) = 0 et V (u
0
[X) =

/
_
1
2
_
et cov (
t
, u
0
) = 0. Ces conditions sont satisfaites si le processus
engendrant u
t
debute en .
Compte tenu de lexpression : u
t
=
t
+ +
t1

1
+
t
u
0
.
On a : E (u
t
[X) = E (
t
[X) + +
t1
E (
1
[X) +
t
E (u
0
[X) = 0
De meme, compte tenu de lindependance des chocs
s
entre eux et leur
independance avec u
0
8.1 Les diverses formes dautocorrelation des perturbations 59
V (u
t
[X) = V (
t
[X) +
2
V (
t1
[X) + +
2(t1)
V (
1
[X) +
2t
V (u
0
[X)
=
2

_
1 +
2
+ +
2(t1)
_
+
2t

2
u
0
=
2

1
2t
1
2
+
2t

2
u
0
=

2

1
2

2t

2

1
2
+
2t

2
u
0
Si
2
u
0
=
2

/
_
1
2
_
on a
V (u
t
[X) =
2

/
_
1
2
_
Si le processus remonte en on a :
u
t
= lim

s=0

ts
On a donc
V (u
t
[X) = lim

s=0

2s

=

2

(1
2
)
Reciproquement si le processus est stationnaire on a :
V (u
t
[X) = V (u
t1
+
t
[X) =
2
V (u
t1
[X) +V (
t
)
V (u
t
[X) =
2
V (u
t1
[X) +
2

2
u
_
1
2
_
=
2

8.1.3 Covariance entre deux perturbations dun processus AR(1)


Cov(u
t
, u
ts
[X) =
s

2

1
2
En eet, on a :
u
t
= u
t1
+
t
= [ u
t2
+
t1
] +
t
=
s
u
ts
+
s1

t(s1)
+... +
t
Par consequent
cov(u
t
, u
ts
[X) = E
__

s
u
ts
+
s1

ts+1
+... +
t
_
u
ts
[X
_
=
s
E
_
u
2
ts
[X
_
+
s1
E (
ts+1
u
ts
[X) +... +E (
t
u
ts
[X)
Comme E
_

t(si)
, u
ts
[X
_
= 0, i ,= 0 on a bien lexpression cherchee.
60 8 AUTOCORRELATION DES R

ESIDUS
8.1.4 Matrice de variances-covariances des perturbations
V (U [X) =

2

1
2
_

_
1
2

T1
1
T2
.
.
.
.
.
.
.
.
.

T2
1

T1

T2
1
_

_
Expression simple :
traduisant une idee simple : un choc exog`ene `a un moment donne, a un
eet persistant mais decroissant exponentiellement avec le temps.
permettant la mise en oeuvre facile de methodes destimation plus ecaces
que les MCO (telles les MCQG).
8.1.5 Perturbations suivant un processus AR(p)
u
t
suit un processus autoregressif dordre p note AR(p) si :
u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
soit
A(L) u
t
=
t
avec A(Z) = 1
1
Z
2
Z
2

p
Z
p
, E (
t
[X) = 0, V (
t
[X) =
2

et
cov(
t
,
t
[X) = 0, t ,= t

On montre que pour que le processus AR(p) soit stationnaire


V u
t
=
2
u
, cov (u
t
, u
ts
) =
s
il faut que les racines du polynome (Z) soient de module superieur `a 1.
Exemple (Cas dun processus AR(2)). Les contraintes sur
1
et
2
sont :

1
+
2
< 1,
2

1
< 1 et [
2
[ < 1
Les variances et covariances des perturbations u
t
sont alors :
V u
t
=
2
u
=
1
2
(1+
2
)[(1
2
)
2

2
1
]

=
0
, t
cov (u
t
, u
t1
) =

1
1
2

2
u
=
1
cov (u
t
, u
t2
) =
2

2
u
+

2
1
1
2

2
u
=
2
=
2

0
+
1

1
cov (u
t
, u
ts
) =
s
=
1

s1
+
2

s2
, s > 2
Exemple
u
t
= 0.5u
t1
+ 0.3u
t2
+e
t
Soit : (1 + 0.5L 0.3L
2
)u
t
= e
t
On determine les racines du polynome 1 + 0.5z 0.3z
2
Le discriminant vaut
= (0.5)
2
4(0.3) = 0.25 + 1.2 = 1.45 = (1.204)
2
> 0
et les racines sont donc
z
1
=
0.5 1.204
2(0.3)
= 2.84 et z
2
=
0.5 + 1.204
2x(0.3)
= 1.17
Le processus est donc stationnaire puisque les racines sont superieures `a 1
en valeur absolue.
8.1 Les diverses formes dautocorrelation des perturbations 61
8.1.6 Perturbations suivant un processus de moyenne mobile dordre
q MA(q)
La perturbation u
t
suit un processsus de moyenne dordre q note MA(q) si :
u
t
=
t
+
1

t1
+
2

t2
+ +
q

tq
avec E
t
= 0, V
t
=
2

et cov (
t
,
t
) = 0 t ,= t

L`a encore les hypoth`eses iid sont transposees au processus


t
.
Le mod`ele se reecrit donc :
u
t
= B(L)
t
avec B(Z) = 1 +
1
Z +
2
Z
2
+ +
q
Z
q
Application : Les valeurs anticipees de variables interviennent souvent dans
les mod`eles econometriques. Elles sont toujours non-observables et il faut donc
les modeliser. On retiend souvent un schema adaptatif. Lanticipation x

t
de la
variable x
t
est modelisee suivant un processus adaptatif
x

t
x

t1
=

(x
t1
x

t1
), [

[ < 1
x

t
= (1

) x

t1
+

x
t1
Les anticipations sont revisees dune periode `a lautre en fonction de lerreur
danticipation commise `a la periode precedente.
Le processus secrit encore
[1 (1

) L] x

t
=

x
t1
=

Lx
t
et on peut le resoudre comme
x

t
=

L
[1 (1

) L]
x
t
=

_
L

s=0
(1

)
s
L
s
_
x
t
=

s=0

(1

)
s
x
ts1
Les anticipations x

t
apparaissent ainsi comme une somme ponderee innie
(avec des poids decroissants exponentiellement) des valeurs passees de x
t
.
Si le mod`ele que lon souhaite estimer secrit :
y
t
= ax

t
+
t
en le premultipliant par [1 (1

) L] ,on obtient :
[1 (1

) L] y
t
= a [1 (1

) L] x

t
+ [1 (1

) L]
t
Le mod`ele se reecrit donc
y
t
= (1

) y
t1
+a

x
t1
+ [
t
(1

)
t1
]
= y
t1
+a

x
t1
+u
t
62 8 AUTOCORRELATION DES R

ESIDUS
avec = 1

, a

= a

et u
t
=
t

t1
.
La perturbation u
t
suit donc un processus MA(1) et on a dans ce cas par-
ticulier :
V u
t
= V (
t

t1
) =
2

(1 +
2
)
cov(u
t
, u
t1
) =
2

cov (u
t
, u
ts
) = 0, s > 1
soit la matrice de variance covariance :
V u =
2

_
1 +
2
0 0
1 +
2

.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.

0 0 1 +
2
_

_
8.1.7 Perturbation suivant un processus ARMA(p,q)
La perturbation u
t
suit un processus ARMA(p,q) si lon peut ecrire :
A(L)u
t
= B(L)
t
avec
A(L) = 1
1
L
2
L
2

p
L
p
B(L) = 1 +
1
L +
2
L
2
+ +
q
L
q
et
E (
t
) = 0, V (
t
) =
2

, Cov (
t
,
t
) = 0 t ,= t

Exemple (processus ARMA(1,1)).


u
t
= u
t1
+
t
+
t1
Par consequent

2
u
= V u
t
=
2
E
_
u
2
t1
_
+E
_

2
t
_
+
2
E
_

2
t1
_
+ 2E (u
t1

t1
)
Comme E (u
t

t
) = E
_

2
t
_
=
2

, on a
2
u
=
2

2
u
+
2

+
2

+ 2
2

, do` u
V u
t
=
2

_
1+
2
+2
1
2
_
=
2

w
0
, t.
De meme
cov(u
t
, u
t1
) = E
_
u
2
t1
_
+E (u
t1

t1
)
=
2
u
+
2

=
2

(1 +)( +)
1
2
=
2

w
1
et s > 1
8.1 Les diverses formes dautocorrelation des perturbations 63
cov(u
t
, u
ts
) = cov(u
t1
, u
ts
) = cov(u
t
, u
t(s1)
) =
s1

w
1
soit
V u =
2

_
w
0
w
1
w
1

2
w
1

T2
w
1
w
1
w
0
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.

2
w
1

2
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.
w
1
w
0
w
1

T2
w
1

2
w
1
w
1
w
1
w
0
_

_
8.1.8 Detection de lautocorrelation : le test de Durbin et Watson
(1950, 1951)
Considerons le mod`ele AR(1) : u
t
= u
t1
+
t
Pour ce mod`ele, tester labsence dautocorrelation revient `a tester : H
0
: =
0 contre H
1
: ,= 0
Le test le plus frequemment utilise est celui de Durbin-Watson, reposant sur
la statistique :

d =

T
t=2
( u
t
u
t1
)
2

T
t=1
u
2
t
Cette statistique est liee asymptotiquement au param`etre par la relation
suivante :
p lim
T

d = 2(1 )
En eet :
p lim
T

d = p lim
1
T

T
t=2
u
2
t
2
1
T

T
t=2
u
t
u
t1
+
1
T

T
t=2
u
2
t1
1
T

T
t=1
u
2
t
= 1 2 + 1 = 2(1 )
puisque
p lim
1
T
T

t=2
u
2
t
= p lim
1
T
T

t=2
u
2
t1
= p lim
1
T
T

t=1
u
2
t
et que
p lim
1
T

u
t
u
t1
p lim
1
T

T
t=1
u
2
t
=
Cov (u
t
, u
t1
)
V (u
t
)
=
Par consequent :
64 8 AUTOCORRELATION DES R

ESIDUS
si est nul (absence dautocorrelation),

d est proche de 2,
si est proche de 1 (forte autocorrelation positive),

d est proche de 0
si est proche de -1 (forte autocorrelation negative),

d est proche de 4
La loi de probabilite de la statistique

d est dicile `a e tablir car elle depend
des residus estimes et donc des valeurs prises par les variables explicatives du
mod`ele.
Sous lhypoth`ese H
0
: = 0, il existe deux statistiques, d
e
et d
u
, qui encadrent
toujours

d :
d

<

d < d
u
,
et dont la loi ne depend que de T et K.
Test de H
0
: = 0 contre H
1
: > 0 Si

d est proche de 2 on accepte lhypo-
th`ese. Si

d est en revanche trop faible on rejette lhypoth`ese. Si on connaissait la
loi d
0
de

d, on pourrait determiner le fractile d

() de cette loi permettant de


conclure au rejet ou `a lacceptation de lhypoth`ese H
0
de non-autocorrelation
pour un test au seuil .
P (d
0
< d

()) =
Ne connaissant pas la loi asymptotique de

d on determine les fractiles corres-
pondants d

() de d
l
et d

u
() de d
u
P (d
l
< d

()) =
P (d
u
< d

u
()) =
Comme
d
l
< d
0
< d
u
On a
d

() < d

() < d

u
()
Si

d est inferieure ` a d

(), alors

d < d

() : on refuse H
0
Si

d est superieure ` a d

u
(), alors

d > d

() : on accepte H
0
Si d

<

d < d

u
, on se trouve dans la zone dite inconclusive : le test ne
permet pas de conclure au rejet ou `a lacceptation de H
0
.
La pratique courante consiste `a inclure la zone inconclusive dans la zone
de rejet de lhypoth`ese H
0
pour se garantir contre le risque daccepter `a tort
labsence dautocorrelations. Lamplitude de la zone inconclusive, d

u
d

, est
dautant plus importante que le nombre T dobservations est faible et que le
nombre de variables explicatives est important.
Test de H
0
: = 0 contre H
1
: < 0 On utilise la statistque 4

d. Sous
H
0

d = 2 sous H
1
< 0, alors plim

d=2 (1 ) > 2 donc plim


_
4

d
_
< 2 On
rejettera lhypoth`eses pour des valeurs faibles de 4

d par rapport `a 2. On a :
4 d

u
< 4 d

< 4 d

Par conseqent :
si 4

d > 4 d

, alors 4

d > 4 d

: on accepte H
0
.
si 4

d < 4 d

u
, alors 4

d < 4 d

: on refuse H
0
.
8.2 Estimateurs des MCO, des MCG et des MCQG dans un mod`ele dont les perturbations sont autocorrelees65
enn, si 4 d

u
< 4

d < 4 d

: on est dans la zone inconclusive.


On inclut comme precedemment la zone inconclusive dans la zone de rejet de
H
0
.
Remarque. 1. Les lois (tabulees) de d

et d
u
ont ete etablies par Durbin et
Watson pour un mod`ele avec constante et perturbations AR(1) ;
2. Bien quil soit speciquement destine `a tester labsence dautocorrelation
contre lhypoth`ese alternative dune autocorrelation associee `a un proces-
sus AR(1), le test de D.W. se rev`ele capable de detecter dautres formes
dautocorrelations ;
Exemple. MA(1) ou AR(2). Dans les autres situations, il est preferable de
recouvrir `a dautres tests.
8.2 Estimateurs des MCO, des MCG et des MCQG dans
un mod`ele dont les perturbations sont autocorrelees
On consid`ere le cas dun mod`ele
y
t
= x
t
b +u
t
avec
E (U [X) = 0
V (U [X) = de dimension T T
1
T
X

X
P
Q
XX
, X

X et Q
X
inversibles
1
T
X

X
P
Q
XX
Alors lestimateur des mco

b
mco
= (X

X)
1
X

Y
verie
E
_

b
mco
[X
_
= b : lestimateur est sans biais
V
_

b
mco
[X
_
= (X

X)
1
X

X (X

X)
1

b
mco
P
b : convergence

T
_

b
mco
b
_
L
N
_
0, Q
1
XX
Q
XX
Q
1
XX
_
: normalite asymptotique
8.2.1 Estimation de la matrice de variance
Si la matrice depend dun nombre ni de param`etres : = (), cas par
exemple du mod`ele AR(1), du mod`ele MA(1), ou du mod`ele ARMA(1, 1), et
si on dispose dun estimateur

convergent de , on peut estimer de mani`ere
convergente la matrice de variance asymptotique Q
1
XX
Q
XX
Q
1
XX
par

V
as
=
_
X

X
T
_
1
X

_
X
T
_
X

X
T
_
1
Un tel estimateur

peut etre obtenu en general `a partir de lestimateur des
mco.
66 8 AUTOCORRELATION DES R

ESIDUS
Exemple. Dans le cas du mod`ele AR(1) on a
u
t
= u
t1
+
t
La variance des residus secrit
V u =
2
u
=

2

1
2
_

_
1
T2

T1
1
.
.
.

T2
.
.
.
.
.
.
.
.
.

T2
.
.
.
.
.
.

T1

T2
1
_

_
On peut construire le residu estime
u
t
= y
t
x
t

b
mco
et on estime par application des mco sur le mod`ele
u
t
= u
t1
+
t
soit
=

T
t=2
u
t
u
t1

T
t=2
u
2
t1
Lestimateur des MCG Sous les hypoth`eses
E (U [X) = 0, V (U [X) = de dimension T T inversible, X

X inversible
Le meilleur estimateur lineaire sans biais de b est :

b
mcg
= (X


1
X)
1
X


1
Y
Sa variance est donnee par :
V

b
mcg
= (X


1
X)
1
Il peut etre obtenu comme estimateur des mco dans le mod`ele :

1/2
Y =
1/2
Xb +
1/2
U
o` u
1/2

1/2

=
1
Dans le cas particulier o` u les perturbations suivent un processus AR(1), une
telle transformation peut etre donnee par :

1/2
=
_

_
_
1
2
0 0
1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 0
0 0 1
_

_
8.2 Estimateurs des MCO, des MCG et des MCQG dans un mod`ele dont les perturbations sont autocorrelees67
Lestimateur des MCG peut alors etre calcule comme estimateur des mco
appliqu e au mod`ele :
_

_
y
1
_
1
2
y
2
y
1
.
.
.
y
T
y
T1
_

_
=
_
_
_
_
_
x
1
_
1
2
x
2
x
1
.
.
.
x
T
x
T1
_
_
_
_
_
b +
_
_
_
_
_
u
1
_
1
2
u
2
u
1
.
.
.
u
T
u
T1
_
_
_
_
_
Remarque. 1. Si le mod`ele initial comporte une variable constante, le mod`ele
transforme nen comporte plus.
2. Pour calculer cet estimateur MCG, il faut connatre
Lestimateur des MCQG Sous les hypoth`eses
E (U [X) = 0
V (U [X) = () de dimension T T, de dimension nie
1
T
X

X
P
Q
XX
, X

X et Q
X
inversibles
1
T
X

1
X
P
Q
X
1
X
inversible

P
on dispose dun estimateur convergent de
Lestimateur des MCQG

b
mcqg
=
_
X

_
1
X
_
1
X

_
1
Y
verie

b
mcqg
P
b : convergence

T
_

b
mcqg
b
_
L
N (0, V
as
(mcqg)) : normalite asymptotique
V
as
(mcqg) = Q
1
X
1
X
= p limTV (mcg) equivalence entre mcqg et mcg

V
as
(mcqg) =
_
1
T
X

_
1
X
_
1
P
V
as
(mcqg) estimation de la matrice
de variance
Cas des perturbations AR(1) : Lestimateur de Prais-Watson (1954).
Cest un estimateur en plusieurs etapes :
estimation par MCO du mod`ele y
t
= x
t
b +u
t
, t = 1, ..., T
calcul des residus estimes : u
t
= y
t
x
t

b
mco
estimation de par application des mco au mod`ele :
u
t
= u
t1
+
t
, t = 2, ..., T
soit
=

T
t=2
u
t
u
t1

T
t=2
u
2
t1
calcul des donnees transformees :
y
1
=
_
1
2
y
1
et y
t
= y
t
y
t1
, t = 2, ..., T
x
1
=
_
1
2
x
1
et x
t
= x
t
x
t1
, t = 2, ..., T
estimation des MCO du mod`ele transforme sans constante :
y
t
= x
t
b + u
t
, t = 1, ..., T
68 8 AUTOCORRELATION DES R

ESIDUS
Lestimateur

b ainsi obtenu est convergent et asymptotiquement aussi ecace


que lestimateur des MCG.
69
9 Introduction aux variables instrumentales
On a considere jusqu`a present le cas de mod`ele se crivant
y
i
= b
0
+x
1
i
b
1
+ +x
K
i
b
K
+u
i
avec lhypoth`ese
E
_
x

i
u
i
_
= 0 ou E (u
i
[x
i
) = 0
Cette hypoth`ese peut aussi constituer une denition du param`etre b. Dans ce
cas le coecient b sinterprete comme le vecteur des coecients de la regression
lineaire de y
i
sur le vecteur de variables x
i
. Une telle denition presente un
interet dans une approche descriptive des donnees.
Neanmoins on est frequemment amener `a estimer des mod`eles structurels
dans lesquels les param`etres ont un sens economique. Le plus simple dentre eux
est certainement la fonction de production
y
i
= a +k
i
+l
i
+u
i
le param`etre mesure lincidence dune augmentation de 1 du stock de capital
sur la production. Ce param`etre na aucune raison de concider avec celui de la
regression lineaire. On est ainsi frequemment amener `a considerer des mod`eles
structurels pour lesquels on a une equation lineaire entre une variable dinteret
et des variables explicatives mais pour laquelle on na pas necessairement la
relation E (u
i
[x
i
) = 0.
On donne trois exemples type dans lesquels on a ce type dendogeneite des
regresseurs
9.0.2 Erreur de mesure sur les variables
On consid`ere la situation dans laquelle on a un mod`ele structurel
y
i
= x

i
b +u
i
La variable x

i
est suppose pour simplier de dimension 1 et centree comme
la variable y
i
et on fait l

hypoth`e se E (u
i
[x

i
) = 0
On suppose en outre que la variable x

i
est mesuree avec erreur :
x
i
= x

i
+e
i
avec E (e
i
[x

i
) = 0 et u
i
et e
i
non correlees.
Dans ces conditions le mod`ele dont on dispose est
y
i
= x
i
b +u
i
be
i
On est dans une situation dans laquelle le residu de lequation v
i
= u
i
be
i
est
correle avec la variable explicative
E (v
i
x
i
) = E ((u
i
be
i
) (x

i
+e
i
))
= E (u
i
x

i
) +E (u
i
e
i
) bE (e
i
x

i
) bE
_
e
2
i
_
= b
2
e
,= 0
70 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
On voit alors tres facilement qu`a la limite le parm`etre de la regression lineaire
ne concide pas avec celui du mod`ele : lestimateur des mco nest pas convergent.
b
mco
P
b +
E
_
x

i
v
i
_
E
_
x

i
x
i
_ = b
_
1

2
e

2
e
+
2
x

_
9.0.3 Omission de regresseur, heterogeneite inobservee
On consid`ere le mod`ele
y
i
= x
i
b +z
i
c +u
i
Il y a donc un facteur z
i
dont on sait quil explique la variable y
i
. On consid`ere
la situation dans laquelle cette variable nest pas observee.
Lomission de cette variable conduit `a une estimation non convergente du
mod`ele par les mco des lors que cette variable est correlee avec les regresseurs.
On a en eet

b
mco
P
b +E
_
x

i
x
i
_
1
E
_
x

i
(z
i
c +u
i
)
_
= b +E
_
x

i
x
i
_
1
E
_
x

i
z
i
_
c
= b +
z
i
/x
i
c
Avec E
_
x

i
u
i
_
= 0 et
z
i
/x
i
le coecient de la regression lineaire de z
i
sur
x
i
.
On peut considerer par exemple le cas dune fonction de production agri-
cole : y
i
est le rendement de la terre, x
i
la quantite dengrais, b le rendement
des ependages et z
i
la qualite de la terre. Lomission de cette variable biaise
lestimation du param`etre technologique b si les decisions dependage dengrais
dependent de la qualite de la terre.
Un autre exemple est donne par les equation dites de Mincer reliant le salaire
`a leducation
w
i
=
0
+
s
s
i
+u
i
Le param`etre
s
mesure leet dune annee detude supplementaire sur le
niveau de salaire. Dans lensemble des causes inobservees aectant le salaire se
trouve entre autres le niveau daptitude de lindividu. Mais le choix dun niveau
detude s
i
est une decision rationnelle de la part de lagent, fonction de laptitude
de lindividu.
9.0.4 La simultaneite
La simultaneite est la situation dans laquelle certains des regresseurs et la
variable `a expliquer sont determines simultanement. Un exemple typique est
celui dun equilibre ore-demande. Une equation de demande va ainsi secrire
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
La variable de prix p
i
ne peut pas etre consideree comme exog`ene. En eet,
il y a aussi une equation dore
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
9.1 Instruments 71
On peut resoudre ce syst`eme pour exprimer
p
i
=
1

s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
un choc de demande u
d
i
est transmis dans les prix : E
_
u
d
i
p
i
_
,= 0
9.0.5 La methode des variables instrumentales
Mod`ele `a variables endog`enes : Le mod`ele
y
i
= x
i
b +u
i
est dit `a variables endog`enes si on na pas la propriete
E
_
x

i
u
i
_
= 0
Les variables x
k
i
pour lesquelles E
_
u
i
x
k
i
_
,= 0 sont dites endog`enes, les autres
sont dites exog`enes
Dans ce mod`ele
Lestimateur des mco nest pas convergent ;
Lidentication du mod`ele necessite des hypoth`eses supplementaires ;
La methodes des variables instrumentales est un moyen privilegie pour
formuler et exploiter de telles hypoth`eses.
Lestimateur des mco nest pas convergent Lestimateur des MCO de b
est donne par :

b
mco
=
_
N

i=1
x

i
x
i
_
1
N

i=1
x

i
y
i
=
_
N

i=1
x

i
x
i
_
1
N

i=1
x

i
(x
i
b +u
i
)
= b +
_
N

i=1
x

i
x
i
_
1
N

i=1
x

i
u
i
b +E (x

i
x
i
)
1
E (x

i
u
i
) .
comme E (x

i
u
i
) ,= 0 on a E (x

i
x
i
)
1
E (x

i
u
i
) ,= 0 et donc
p lim

b
mco
,= b
9.1 Instruments
On consid`ere `a nouveau le mod`ele dore et de demande
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
On note x
i
=
_
x
d
i
, x
s
i
_
, certains ele ments peuvent etre commun aux deux en-
sembles et ninterviennent dans ce cas quune fois dans x
i
. On fait les hypoth`eses
E
_
x

i
u
d
i
_
= 0, E
_
x

i
u
s
i
_
= 0 (5)
c.a.d les variables observables qui deplacent lore et la demande sont exog`enes
pour u
d
i
et u
s
i
.
72 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
On peut resoudre comme precedemment en p
i
mais aussi en y
i
:
p
i
=
1

s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
y
i
=

s

s
+
d
x
d
i
b
d
+

d

s
+
d
x
s
i
b
s
+

s

s
+
d
u
d
i
+

d

s
+
d
u
s
i
Compte tenu des relations (5), on peut exprimer les coecients des regres-
sions lineaires de y
i
et p
i
sur x
i
`a partir des param`etres structurels.
La modelisation conduit `a des restrictions sur les param`etres des regres-
sions lineaires qui sont suceptibles de permettre lidentication des param`etres
structurels du mod`ele.
Plus precisement :
Si il existe une variable exog`ene intervenant speciquement dans lequation
dore, lequation de demande est identiee. Si x
s
1i
est une telle variable,
le coecient de cette variable dans la regression lineaire de p
i
sur x
s
i
et x
d
i
est
1

s
+
d
b
s
1
, et le coecient de cette variable dans la regression lineaire
de y
i
sur x
s
i
et x
d
i
est

d

s
+
d
b
s
1
. La comparaison de ces deux coecients
permet lidentication de
d
De meme, si il existe une variable exog`ene intervenant speciquement dans
lequation de demande, lequation dore est identiee.
Si on ne sinteresse qu`a une des deux equations, p.e. lequation de de-
mande, les hypoth`eses identicatrices peuvent etre assouplies. Il sut quil
existe au moins une variable x
s
1i
entrant dans lequation dore qui verie
E
_
_
x
d
i
x
s
1i

u
d
i
_
= 0. Dans ce cas les coecients
y
de la regressions lineaires
de y
i
sur x
i
=
_
x
d
i
x
s
1i

sont

y
= E
_
x

i
x
i
_
1
E
_
x

i
y
i
_
= E
_
x

i
x
i
_
1
E
_
x

i
_

d
p
i
+x
d
i
b
d
+u
d
i
_
_
=
d
E
_
x

i
x
i
_
1
E
_
x

i
p
i
_
+E
_
x

i
x
i
_
1
E
_
x

i
x
d
i
_
b
d
=
d

p
+
_
b
d
0
_

Des lors que le coecient de la variable x


s
1i
dans la regression de la variable
de prix sur x
i
, element de
p
, est non nul, on voit que le mod`ele est identie.
Cet exemple illustre bien, la demarche des variables instrumentales. Celle-ci
correspond `a la mobilisation de variables exterieures au mod`ele et qui poss`edent
la particularite de netre pas correlees avec le residu de lequation.
Dire quune variable est une variable instrumentale revient `a postuler une
relation dexclusion : il existe une variable aectant la variable `a expliquer et
la variable explicative endog`ene et dont tout leet sur la variable `a expliquer
transite par son eet sur la variable explicative endog`ene.
Une variable instrumentale ne tombe pas du ciel. Dans lexemple on justie le
choix de la variable comme etant une variable appartenant `a un mod`ele plus ge-
neral, le syst`eme ore-demande, conduisant `a lequation structurelle de demande
et `a une equation reduite expliquant la formation de la variable endog`ene.
On consid`ere le mod`ele structurel
y
i
= x
1i
b
1
+x
2i
b
2
+u
i
les variables x
2i
, (dim = K
2
+1) contiennent la constante et sont exog`enes,
mais on ne fait pas lhypoth`ese dexogeneite de la variable x
1i
(dim = K
1
= K K
2
).
9.2 Moindres carres indirects 73
On fait lhypoth`ese quil existe un ensemble de variables dites instrumentales
de dimension H + 1, non parfaitement correlees (rangE
_
z

i
z
i
_
= H + 1), car
veriant :
E
_
z

i
u
i
_
= 0. (6)
Le vecteur x
2i
fait trivialement parti de lensemble des variables instrumentales
Lhypoth`ese (6) est parfois ecrite sous la forme suivante :
E(u
i
[z
i
) = 0
9.1.1 Identication
La condition (6) peut etre reecrite comme suit :
E
_
z

i
(y
i
x
i
b)
_
= 0
Soit encore :
E
_
z

i
y
i
_
= E
_
z

i
x
i
_
b (7)
Cette condition denit un syst`eme de H + 1 equations `a K + 1 inconnues b.
Le mod`ele est identie si le syst`eme (7) admet pour unique solution le pa-
ram`etre structurel b
On distingue trois situations
Si H < K, le mod`ele est sous identie, puisquil y a moins dequations que
de variables. Il ny a pas susamment de variables instrumentales.
Si H = K et limrangE
_
z

i
x
i
_
= K + 1 le mod`ele est juste identie.
Si H > K, limrangE
_
z

i
x
i
_
= K +1 le mod`ele est dit sur-identie. Dans
ce cas il y a plus de variables instrumentales quil nest necessaire.
9.2 Moindres carres indirects
Si H = K et si Ez

i
x
i
est inversible, alors b = E
_
z

i
x
i
_
1
E
_
z

i
y
i
_
. On
obtient un estimateur de b appele Estimateur des Moindres Carres Indirects en
rempla cant les esperances par leurs contreparties empiriques :

b
mci
=
_
1
N
N

i=1
z

i
x
i
_
1
1
N
N

i=1
z

i
y
i
= (Z

X)
1
Z

Y
o` u Z est la matrice dont la i-i`eme ligne est z
i
, X la matrice dont la i-i`eme ligne
est x
i
et Y le vecteur dont la i -i`eme composante est y
i
.
Si H > K, on se ram`ene au cas precedent en selectionnant K + 1 combi-
naisons lineaires des instruments : Az
i
, o` u A est une matrice K + 1 H + 1,
de rang K + 1. Lhypoth`ese que lensemble des H + 1 variables dans z
i
est un
ensemble de variables instrumentales conduit `a la propriete que pour A tel que
AE
_
z

i
x
i
_
est inversible,
b =
_
AE
_
z

i
x
i
__
1
AE
_
z

i
y
i
_
.
74 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
On en deduit une classe destimateur :

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
= (AZ

X)
1
AZ

Y.
9.2.1 Propriete asymptotiques des estimateurs des MCI
Dans le mod`ele
y
i
= x
i
b +u
i
`a K + 1 variables explicatives.
Sous les hypoth`eses
Hypoth`ese (H
1
). E (z

i
u
i
) = 0 avec z
i
de dim 1 H + 1
Hypoth`ese (H
2
). Les observations (x
i
, z
i
, y
i
) sont iid
Hypoth`ese (H
3
). E(u
2
i
[z
i
) =
2
Hypoth`ese (H
4
). Les moments de (x
i
, z
i
, y
i
) existent jusqu`a un ordre susant
Hypoth`ese (H
5
). E
_
z

i
x
i
_
et z

i
x
i
sont de rang K + 1
Theor`eme 9.1. Sous ces hypoth`eses, il existe au moins une matrice A de di-
mension K + 1 H + 1 pour laquelle lestimateur

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
existe, et pour toute matrice A telle que lestimateur des MCI existe, on a :


b
mci
(A) est convergent : p lim

b
mci
(A) = b


b
mci
(A) est asymptotiquement normal :

N
_

b
mci
(A) b
_
L
N(0, (A)),
avec
(A) =
2
_
AE
_
z

i
x
i
__
1
AE (z

i
z
i
) A

_
E
_
x

i
z
i
_
A

_
1


(A) =
2
_
Az

i
x
i
_
1
Az

i
z
i
A

_
x

i
z
i
A

_
1
o` u
2
= u(A)
2
i
, est un estima-
teur convergent de (A)
Demonstration.
Existence dau moins un estimateur des MCI : Il sut de prendre A =
E
_
z

i
x
i
_

on a alors E
_
z

i
x
i
_

i
x
i
E
_
z

i
x
i
_

E
_
z

i
x
i
_
qui est inversible
puisque rangE
_
z

i
x
i
_
= K + 1 Comme le determinant est une fonction
continue det Az

i
x
i
det AA

,= 0 et donc la matrice Az

i
x
i
est inversible
pour N assez grand.
Convergence :

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
= b +

b
mci
(A) = b +
_
Az

i
x
i
_
1
Az

i
u
i
.
La convergence decoule simplement de la loi des grands nombres :
z

i
u
i
i
E
_
z

i
u
i
_
= 0.
9.2 Moindres carres indirects 75
Normalite asymptotique

N
_

b
mci
(A) b
_
=
_
Az

i
x
i
_
1
A

Nz

i
u
i
Comme V
_
z

i
u
i
_
= E(z

i
z
i
u
2
i
) = E
_
z

i
z
i
E(u
2
i
[ z
i
)
_
=
2
E
_
z

i
z
i
_
, la nor-
malite asymptotique decoule directement du theor`eme cental-limite :

Nz

i
u
i
loi
N(0,
2
Ez
i
z

i
)
et
_
Az

i
x
i
_
1
A (AE (z

i
x
i
))
1
A
Estimation de la matrice de variance-covariance asymptotique
Comme pour lestimateur des mco, on verie facilement que u(A)
2
i
=
_
u
i
+x
i
_
b

b (A)
__
2

2
puisque b

b (A) 0
9.2.2 Estimation robuste de la matrice de variance
Comme pour lestimateur des mco, il existe une version de la matrice de
variance-covariance (A) pour le cas de residus heteroscedastiques, i.e. lorsque
E(u
2
i
[z
i
) depend de z
i
. On peut donc supprimer lhypoth`ese H
3
. Les conclusions
sont simplement modiees en :


b
mci
(A) est asymptotiquement normal :

N
_

b
mci
(A) b
_
L
N(0,
het
(A)),
avec

het
(A) =
_
AE
_
z

i
x
i
__
1
AE
_
u
2
i
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1

het
(A) =
_
Az

i
x
i
_
1
A u(A)
2
i
z

i
z
i
A

_
x

i
z
i
A

_
1
9.2.3 Estimateur `a variables instrumentales optimal ou estimateur
des doubles moindres carres
Theor`eme 9.2. Il existe une matrice A

optimale au sens o` u pour toute suite


de matrice A
N
A

, la variance asymptotique de

b
mci
(A
N
) est de variance mi-
nimale dans la classe des estimateurs

b
mci
(A).Cette matrice a pour expression :
A

= E
_
x

i
z
i
_
E (z

i
z
i
)
1
La matrice de variance correspondante a pour expression
(A

) =
2
_
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
qui sobtient directement en remplacant A par E
_
x

i
z
i
_
E (z

i
z
i
)
1
(A) =
2
_
AE
_
z

i
x
i
__
1
AE (z

i
z
i
) A

_
E
_
x

i
z
i
_
A

_
1
et en operant des simplications.
76 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
Demonstration de loptimalite.
Pour montrer que (A) (A

) au sens des matrices, i.e.


,

((A) (A

)) 0
On peut clairement laisser tomber le facteur
2
. La matrice de variance (A

)
secrit :
(A

) =
_
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
= (C

C)
1
avec C = E (z

i
z
i
)
1/2
E
_
z

i
x
i
_
de dim H +1 K +1.La matrice (A) secrit :
(A) =
_
AE
_
z

i
x
i
__
1
AE (z

i
z
i
) A

_
E
_
x

i
z
i
_
A

_
1
= BB

avec B =
_
AE
_
z

i
x
i
__
1
AE (z

i
z
i
)
1/2
de dim K + 1 H + 1.On a la relation
BC =
_
AE
_
z

i
x
i
__
1
AE (z

i
z
i
)
1/2
E (z

i
z
i
)
1/2
E
_
z

i
x
i
_
=
_
AE
_
z

i
x
i
__
1
AE
_
z

i
x
i
_
= I
K+1
On a donc
(A) (A

) = BB

(C

C)
1
= BB

BC (C

C)
1
C

puisque BC = I. On a donc :
(A) (A

) = B
_
I C (C

C)
1
C

_
B

Comme I C (C

C)
1
C

est une matrice semi denie positive, (A) (A

)
est aussi une matrice semi denie positive.
9.2.4 Expression de lestimateur optimal
La matrice A

= E
_
x

i
z
i
_
E (z

i
z
i
)
1
est inconnue. Pour mettre l

estimateur
en oeuvre, on la remplace par un estimateur convergent A
N
= x

i
z
i
z

i
z
i
1

b
mci
(A
N
) =
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
y
i
=
_
X

Z (Z

Z)
1
Z

X
_
1
X

Z (Z

Z)
1
Z

Y
Cet estimateur a les memes proprietes asymptotiques que lestimateur

b
mci
(A

)
puisque A
N
A

.
On peut reecrire lestimateur en faisant intervenir la matrice de projection
orthogonale sur Z, P
Z
= Z (Z

Z)
1
Z

b
mci
(A

) = (X

P
Z
X)
1
X

P
Z
Y = ((P
Z
X)

P
Z
X)
1
(P
Z
X)

Y
Il correspond `a lestimateur des mco de la variable endog`ene Y sur la projec-
tion

X = P
Z
X des variables explicatives sur lensemble des instruments. Cest
9.2 Moindres carres indirects 77
pourquoi on appelle cet estimateur estimateur des doubles moindres carres et
on le note

b
2mc
.
Il resulte dune premi`ere regression par les mco des variables explicatives
X sur lensemble des instruments, permettant de determiner les predictions

X = P
Z
X = Z
_
(Z

Z)
1
Z

X
_
des X par les instruments puis dune seconde
regression par les mco de la variable `a expliquer sur les predictions

X.
La matrice de variance asymptotique de

b
2mc
est
(

b
2mc
) =
2
_
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
et la matrice de variance de lestimateur dans un echantillon de taille N est
V (

b
2mc
) = (

b
2mc
)/N =
2
_
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
/N
On peut lestimer par

V (

b
2mc
) =
2
_
X

Z (Z

Z)
1
Z

X
_
1
=
2
(X

P
Z
X)
1
=
2
_


X
_
1
Lecart-type des residus `a retenir est celui du mod`ele
y
i
= x
i
b +u
i
il peut etre estime par
_
y
i
x
i

b
2mc
_
2
.
9.2.5 Cas des residus heteroscedastiques
Dans ce cas lestimateur des doubles moindres carres nest plus optimal, et
la formule de sa variance nest plus correcte.
La formule exacte est donnee comme dans le cas general par

het
(A

) =
_
A

E
_
z

i
x
i
__
1
A

E
_
u
2
i
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1
=
_
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
u
2
i
z

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
= E
_
x

i
x
i
_
1
E
_
u
2
i
x

i
x
i
_
E
_
x

i
x
i
_
1
o` u x
i
= z
i
E (z

i
z
i
)
1
E
_
z

i
x
i
_
.
La matrice de variance de lestimateur des doubles moindres carres est
V
het
_

b
2mc
_
=
het
(A

)/N
Elle peut etre estimee par

V
het
_

b
2mc
_
=

het
(A

)
N
=
_

x
i

i
_
1
_
N

i=1
u
2
i

x
i

i
__
N

i=1

x
i

i
_
1
= (


X)
1
_

limdiag[ u
2
i
]

X
_
(


X)
1
,
qui est exactement la matrice de White.
78 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
9.2.6 Interpretation de la condition rangE (z

i
x
i
) = K + 1
La mise en oeuvre de la methode des variables instrumentales repose sur
la condition rangE (z

i
x
i
) = K + 1. Les variables du mod`ele sont scindees
en K
1
variables endog`enes x
1i
et K
2
+ 1 variables esxog`enes. Ces variables
interviennent egalement dans la liste des instruments qui contient en outre
H K
2
variables exterieures z
i
: z
i
=
_
z
i
x
2i

. Compte tenu de lhypo-


th`ese E
_
z

i
z
i
_
inversible, la condition rangE (z

i
x
i
) = K + 1 est analogue `a
la condition rangE
_
z

i
z
i
_
1
E (z

i
x
i
) = K + 1. Cette matrice correspond `a la
matrice des coecients des regressions des variables explicatives sur les instru-
ments. Comme les variables du mod`ele et les instrument ont les variables x
2
en
commun, on a :
E
_
z

i
z
i
_
1
E (z

i
x
i
) =
_
E
_
z

i
z
i
_
1
E (z

i
x
1i
)
0
I
K
2
+1
_
=
_

1 z
0

1x
2
I
K
2
+1
_
o` u
1 z
et
1x
2
sont les coecients de z et x
2
des regressions des variables
endog`enes sur les instruments. La condition rangE
_
z

i
z
i
_
1
E (z

i
x
i
) = K + 1
est donc equivalente `a la condition
rang
1 z
= K
1
Cette condition sinterpr`ete comme le fait que les variables instrumentales ex-
terieures expliquent susamment bien les variables endog`enes. Il nexiste pas
de test formel de cette condition. Neanmoins il est important de regarder la
fa con dont les variables instrumentales expliquent les variables endog`enes. On
peut par exemple, bien que cela ne garantisse pas que la condition est satisfaite
des quil y a plus dune variable endog`ene, eectuer chaque regression des va-
riables endog`enes sur lensemble des variables instrumentales et faire un test de
la nullite globale des coecients des variables instrumentales exterieures.
Dans le cas o` u la condition rangE (z

i
x
i
) = K+1 nest pas satisfaite, on aura
neanmoins en general `a distance nie rangz

i
x
i
= K + 1 et lestimateur pourra
etre numeriquement mis en oeuvre. La consequence du fait que rangE (z

i
x
i
) <
K + 1 est que
X

Z (Z

Z)
1
Z

X E (x

i
z
i
) E (z

i
z
i
) E (z

i
x
i
)
non inversible. Lestimateur sera donc tres instable et presentera des ecart-types
tres eleves sur certains coecients, `a linstar de ce qui se produit avec les mco
dans le cas de multicolinearite.
9.2.7 Test de suridentication
Lorsquil y a plus dinstruments que de variables explicatives le mod`ele est
suridentie. On a vu que dans le mod`ele
y
i
= x
i
b +u
i
9.2 Moindres carres indirects 79
avec pour restriction identiante
E
_
z

i
u
i
_
= 0,
on pouvait estimer le mod`ele par les MCI de tres nombreuses fa cons, lestimateur
le plus performant etant celui des doubles moindres carres. On avait

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
contrepartie empirique de la relation
b = (AE (z

i
x
i
))
1
AE (z

i
y
i
)
Cette derni`ere relation doit etre vraie pour toute matrice Atelle que AE (z

i
x
i
)
est inversible. Elle montre bien que le mod`ele impose plus de structure entre les
donnees quil nest necessaire pour identier le mod`ele : Tous les param`etres

b
mci
(A) doivent converger vers une meme valeur.
Par exemple dans le cas o` u il y a une variable endog`ene et o` u en plus des va-
riables exog`enes du mod`ele on a mobilise h variables instrumentales exterieures
au mod`ele, les h estimateurs que lon peut obtenir en choisissant comme vecteur
de variables instrumentales les exog`enes du mod`ele et lune des variables instru-
mentales exterieures doivent etre proches. En pratique, on est souvent amene
`a eectuer des estimation dune meme equation en etendant ou restreignant la
liste des variables instrumentales.
Pour rendre cette demarche plus transparente, il est utile davoir une proce-
dure qui permette de tester lhypoth`ese que pour un jeu de variables instrumen-
tales donne lensemble des estimateurs

b
mci
(A) convergent tous vers la meme
valeur.
On peut considere le test de lhypoth`ese nulle
H
0
: E (z

i
u
i
) = 0
On consid`ere le cas standard dans lequel les residus sont homoscedastiques.
Si le residu etait connu un tel test serait tres facile `a mettre en oeuvre.
Il consisterait simplement `a regarder si la moyenne empirique z

i
u
i
de z

i
u
i
est
proche de zero, cest `a dire si la norme de ce vecteur est proche de zero.
On rappelle le resultat suivant
W N (0, V (W)) W

V (W)


2
(rang (V (W)))
o` u V (W)

est un inverse generalise de la matrice V (W) , i.e tel que


V (W) V (W)

V (W) = V (W)
Sous lhypoth`ese H
0
on aurait donc en appliquant le teor`eme central-limite,
et compte tenu de lhypoth`ese dhomoscedasticite

Nz

i
u
i
N
_
0,
2
E
_
z

i
z
i
__
et donc
N

2
z

i
u
i

E
_
z

i
z
i
_
1
z

i
u
i

2
(dim(z
i
))
ou encore
N

2
z

i
u
i

i
z
i
1
z

i
u
i

2
(dim(z
i
))
80 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
Le probl`eme vient ici du fait que lon nobserve pas u
i
. On est en revanche
capable de determiner u
i
= y
i
x
i

b
2mc
. Le test que lon met en oeuvre est donc
base sur z

i
u
i
.
Determination de la matrice de variance de z

i
u
i
On ne peut pas transposer directement le test, il faut calculer la matrice de
variance de z

i
u
i
On a
u
i
= y
i
x
i

b
2mc
= x
i
b +u
i
x
i

b
2mc
= u
i
x
i
_

b
2mc
b
_
do` u
z

i
u
i
=
1
N
Z

U =
1
N
_
Z

U Z

X
_

b
2mc
b
__
comme

b
2mc
= (


X)
1

X

Y = b +(


X)
1

X

U, avec

X = P
Z
X, la projection
orthogonale de X sur Z, on a :
z

i
u
i
=
1
N
_
Z

U Z

X(


X)
1

X

U
_
en outre X = P
Z
X + (I P
Z
) X =

X + (I P
Z
) X et donc Z

X = Z


X.
Finalement
z

i
u
i
=
1
N
_
Z

U Z


X(


X)
1

X

U
_
=
1
N
_
Z

U Z

X
U
_
=
1
N
Z

_
I
N
P

X
_
U
On en deduit que
V
_
z

i
u
i
_
=

2
N
2
Z

_
I
N
P

X
_
Z =

2
N
2
__
I
N
P

X
_
Z
_

_
I
N
P

X
_
Z
Determination du rang de la matrice V
_
z

i
u
i
_
Le vecteur
_
I
N
P

X
_
Z est le residu de la projection de Z sur

X. Comme

X est la projection de X sur Z lespace vectoriel engendre par les colonnes de

X de dimension K + 1 est inclus dans celui engendre par les colonnes de Z de


dimension H+1. La matrice
_
I
N
P

X
_
Z est donc de rang HK. Il en resulte
que :
rangV
_
z

i
u
i
_
= H K
Inverse generalise de la matrice V
_
z

i
u
i
_
La matrice nest pas inversible, pour mettre le test en oeuvre en determiner
un inverse generalise. Lun dentre eux est
V
_
z

i
u
i
_

=
N
2

2
(Z

Z)
1
En eet , la matrice de variance secrit de fa con alternative comme

2
N
2
Z

_
P
Z
P

X
_
Z,
et on a

2
N
2
Z

_
P
Z
P

X
_
Z
N
2

2
(Z

Z)
1

2
N
2
Z

_
P
Z
P

X
_
Z
=

2
N
2
Z

_
P
Z
P

X
_
P
Z
_
P
Z
P

X
_
Z
9.2 Moindres carres indirects 81
le resultat decoule du fait que P

X
P
Z
= P
Z
P

X
= P

X
et que donc
_
P
Z
P

X
_
P
Z
_
P
Z
P

X
_
=
_
P
Z
P

X
_ _
P
Z
P
Z
P

X
_
=
_
P
Z
P
Z
P

X
_
P

X
P
Z
P

X
P
Z
P

X
=
_
P
Z
P

X
_
Le test et son interpretation
Finalement, sous lhypoth`ese H
0
: E
_
z

i
u
i
_
= 0, on a

S = z

i
u
i

V
_
z

i
u
i
_

i
u
i
=
1
N

Z
N
2

2
(Z

Z)
1
1
N
Z

U
=
1

P
Z

U N

P
Z

2
(H K)
Sous lhypoth`ese alternative, on a
u
i
= y
i
x
i

b
2mc
= x
i
b +u
i
x
i

b
2mc
= u
i
x
i
_

b
2mc
b
_
do` u
z

i
u
i
= z

i
u
i
z

i
x
i
_
A

i
x
i
_
1
A

i
u
i
= z

i
u
i
z

i
x
i
_
A

i
x
i
_
1
A

i
u
i
o` u A

= E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
Comme z

i
u
i
ne converge plus vers zero, cette quantite va converger vers
une limite non nulle en general, mais pas toujours. On peut se trouver dans la
situation dans laquelle
z

i
u
i
= z

i
x
i
_
A

i
x
i
_
1
A

i
u
i
soit
z

i
_
u
i
x
i
_
A

i
x
i
_
1
A

i
u
i
_
= 0
soit encore
z

i
_
y
i
x
i
_
A

i
x
i
_
1
A

i
y
i
_
= 0
ce qui signie que le residu de la regression de y
i
sur x
i
par les doubles moindres
carre peut etre orthogonal `a z
i
, alors quon na pas E (z

i
u
i
) = 0.
Ceci provient du fait que le test que lon met en oeuvre nest pas un test de
la validite des instruments dans le mod`ele structurel
y
i
= x
i
b +u
i
cest `a dire le test de lhypoth`ese
E
_
z

i
(y
i
x
i
b)
_
= 0
mais le test dune hypoth`ese moins forte :
c tq Ez

i
(y
i
x
i
c) = 0
82 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
Pour cette hypoth`ese nulle, sous H
0
la statistique converge vers la loi quon a
determine, et sous lhypoth`ese alternative, elle tend vers +.
Resultat :
Sous lhypoth`ese nulle
H
0
: c tq Ez

i
(y
i
x
i
c) = 0, la statistique

S = N

P
Z

U
L

2
(H K)
Sous lhypoth`ese alternative

S +
Le test est donc un test convergent. Pour un test au niveau , la r egion
critique est W

=
_
Q
1
_

2
(H K)
_
, +
_
, o` u Q
1
_

2
(H K)
_
est le
quantile dordre 1 dune loi du
2
`a H K degres de liberte.
Mise en oeuvre du test. Le test de suridentication est tres simple `a mettre
en oeuvre. Il correspond au test de la nullite globale des coecients de la regres-
sion de u
i
sur les variables instrumentales, y compris la constante. En pratique
on applique les doubles moindres carres, on construit les residus estimes et on
les regressent sur les variables instrumentales. La statistique de test est NR
2
de
cette regression.
Remarque. On a a priori toujours interet `a avoir un ensemble dinstru-
ments le plus large possible. En eet retirer une variable instrumentale et
mettre en oeuvre lestimateur des doubles moindres carres correspond `a
selectionner une matrice particuli`ere pour lestimateur des moindres carres
indirects avec le jeu complet dinstruments. Comme on la montre cet es-
timateur est alors necesairement moins ou aussi bon que lestimateur des
doubles moindres carres avec lensemble dinstruments complet. Quand
on etend lensemble des variables instrumentales, il est important de bien
verier la compatibilite globale des instruments utilises et de mettre en
oeuvre le test de suridentication.
La matrice de variance de lestimateur des doubles moindres carres est
toujours plus grande que celle de lestimateur des mco. Ceci se voit imme-
diatement en examinant lexpression des variances
V (b
mco
) =
2
(X

X)
1
et V (b
2mc
) =
2
(X

P
Z
X)
1
En outre, on voit aussi en comparant les expressions des estimateurs
b
mco
= (X

X)
1
X

Y et b
2mc
= (X

P
Z
X)
1
X

P
Z
Y
que lorsque lon etend la liste des variables instrumentales la dimension
de lespace sur lequel on projette les variables du mod`ele augmente et
quon en a donc une representation de plus en plus d`ele. La variance de
lestimateur des doubles moindres carres va sameliorer, mais lestimateur
des doubles moindres carres va se rapprocher de lestimateur des moindres
carres ordinaires. Il y a donc un risque `a etendre trop la liste des instru-
ments. A distance nie, on pourrait avoir une mise en oeuvre fallacieuse
conduisant `a un estimateur proche de celui des mco. Il est utile pour se
premunir de ce risque de regarder la regression des variables endog`enes sur
les instruments et de contr oler la signicativite globales des instruments.
9.2 Moindres carres indirects 83
9.2.8 Test dexogeneite des variables explicatives
Ayant estime le mod`ele par les double moindre carres, cest `a dire sous
lhypoth`ese
H
1
: c/E
_
z

i
(y
i
x
i
c)
_
= 0
On peut vouloir tester lhypoth`ese que les regresseurs x
i
sont exog`enes.
On consid`ere donc lhypoth`ese
H
0
: c/E
_
z

i
(y
i
x
i
c)
_
= 0etE
_
x

i
(y
i
x
i
c)
_
= 0.
Linteret de tester une telle hypoth`ese est immediat compte tenu du fait que
sous cette hypoth`ese lestimateur optimal sera lestimateur des mco qui domine
nimporte quel estimateur `a variables instrumentales.
Un test naturel dexogeneite est le test dHausman fonde sur la comparaison
de

b
2mc

b
mco
avec 0.
Le test peut etre fonde sur les coecients des endog`enes
En eet

b
2mc
=
_


X
_
1

Y et

b
mco
=
_
X

X
_
1
X

Y donc

X
_

b
2mc

b
mco
_
=

X

X
_
_

X
_
1

Y
_
X

X
_
1
X

Y
_
=
_

Y

X

X
_
X

X
_
1
X

Y
_
Comme

X


X =

X

X puisque X = P
Z
X + (I P
Z
) X =

X + (I P
Z
) X

X
_

b
2mc

b
mco
_
=

X

M
X
Y =
_

X

1
M
X
Y
0
_
On en deduit que
_

b
(2)
2mc

b
(2)
mco
_
=
_

X
_
21
_
_

X
_
11
_
1 _

b
(1)
2mc

b
(1)
mco
_
avec b
(1)
le vecteurs des coecients de x
1i
et sym etriquement pour b
(2)
, et les
notations standards
_
A
11
A
12
A
21
A
22
_
1
=
_
A
11
A
12
A
21
A
22
_
On peut donc se contenter de se fonder sur

b
(1)
2mc

b
(1)
mco
=

X

X
11

X

1
M
X
Y
pour eectuer le test.
Rang de la matrice de variance de

b
(1)
2mc

b
(1)
mco
Lexpression precedente montre que la matrice de variance de

b
(1)
2mc

b
(1)
mco
est
2
=

X


X
11

X

1
M
X

X
1

X


X
11
. Son rang est donc egal `a celui de

X

1
M
X

X
1
,
donc `a celui de M
X

X
1
. Supposons que lon ait pour un vecteur M
X

X
1
= 0
alors P
X

X
1
=

X
1
il existe donc un vecteur tel que

X
1
= X. Comme

X
1
84 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
appartient `a lespace engendre par Z =
_

Z, X
2
_
, necessairement X = X
2

2
.
Notant comme precedemment o` u
1 z
et
1x
2
les coecients de z et x
2
des r
egressions des variables endog`enes sur les instruments. Le quation

X
1
= X
2

2
,
secrit

Z
1 z
+X
2
(
1x
2

2
) = 0. Comme Z est de rang K+1 ceci necessite

1 z
= 0. Et on a vu que la condition rang
_
Z

X
_
= K + 1 etait equivalente `a

1 z
de rang K
1
on a donc necessairement sous cette condition = 0 et donc la
matrice de variance de

b
(1)
2mc

b
(1)
mco
est inversible : le nombre de degres de liberte
du test dexogeneite est egal `a K
1
.
Le test de Hausman Sous lhypoth`ese dhomoscedasticite, E(u
2
i
[x
i
, z
i
) =
2
,

b
mco
est lestimateur de variance minimale dans la classe des estimateur sans
biais dont fait parti lestimateur des doubles moindres carres. On a donc
V
_

b
2mc

b
mco
_
= V
_

b
2mc
_
V
_

b
mco
_

V
_

b
2mc

b
mco
_
=
2
_
_

X
_
1

_
X

X
_
1
_
.
On en deduit que sous lhypoth`ese nulle dexogeneite de x
i
, la statistique

S =
1

2
_

b
(1)
2mc

b
(1)
mco
_

_
_

X
_
11

_
X

X
_
11
_
1 _

b
(1)
2mc

b
(1)
mco
_
Loi

2
(K
1
)
suit une loi du
2
`a K
1
degres de liberte
Un test au niveau sera donc eectue en comparant la valeur de de la
statistique

S au quantile dordre 1 dune loi du
2
`a K
1
degres de liberte.
Test dexogeneite par le biais de la regression augmentee Le test
dHausman dexogeneite peut etre mis en oeuvre tr es simplement par le biais
dune simple regression des la variable dependante Y sur les variables endog`enes
et exog`enes du mod`ele X
1
et X
2
et sur la projection des variables endog`enes sur
les variables instrumentales

X
1
:
Y = X
1
c
1
+X
2
c
2
+

X
1
+W
Lestimateur MCO du coecient de sobtient aisement `a partir de theor`eme
de Frish-Waugh : il sagit du coecient de la regression des mco sur le residu
de la regression de

X
1
sur les autres variables, cest `a dire X. On a donc
=
_

X
1
M
X

X
1
_
1

X
1
M
X
Y
or on a vu precedemment

b
(1)
2mc

b
(1)
mco
=

X

X
11

X

1
M
X
Y
On en deduit que lon a :

b
(1)
2mc

b
(1)
mco
=

X

X
11
_

X
1
M
X

X
1
_

9.2 Moindres carres indirects 85
Le test de p lim

b
(1)
2mc
p lim

b
(1)
mco
= 0 est donc equivalent au test de = 0.
Le test peut donc etre eectue tres simplement par lintermediaire dun test
de Wald ou dun test de Fisher.
Remarquons en n que le test peut etre mene de fa con analogue sur sur les
residus des regressions des variables explicatives endog`enes sur les instruments
(X
1
) = X
1


X
1
. Lequation
Y = X
1
c
1
+X
2
c
2
+

X
1
+W
se reecrit de fa con analogue comme
Y = X
1
(c
1
+) +X
2
c
2
(X
1
) +W
= X
1
c
1
+X
2
c
2
+ (X
1
) +W
le test de = 0 est donc equivalent `a celui de = 0.
86 10 LA M

ETHODE DES MOMENTS G

EN

ERALIS

EE
10 La Methode des moments generalisee
10.1 Mod`ele structurel et contrainte identiante : restric-
tion sur les moments
Une equation :
y
i
= x
i
b +u
i
peut provenir du comportement doptimisation dun individu et de ce fait as-
socier au param`etre b un sens economique : elasticite de substitution, elasticite
de la demande aux prix, mais telle quelle est ecrite, elle ne constitue pas pour
autant un mod`ele econometrique.
Il faut pour cela ajouter `a cette ecriture une contrainte identiante. Si par
exemple on fait lhypoth`ese est lindependance des perturbations et des variables
explicatives, on a :
E
_
x

i
u
i
_
= 0
Cest sous cette derni`ere forme que le mod`ele peut etre considere comme un
mod`ele econometrique.
Cette contrainte identiante conduit `a des restrictions de moments, qui sont
`a la base de lestimation.
E
_
x

i
(y
i
x
i
b)
_
= 0
Dans certains cas, cest spontanement sous cette forme quun mod`ele emerge de
la theorie. Cest le cas en particulier des equations dEuler.
10.2 La methode des moments generalisee
La methode des moments generalisee concerne la situation dans laquelle on
dispose dun vecteur de fonctions g de dimension dimg dun param`etre dinteret
de dimension dim et de variables aleatoires observables z
i
dont lesperance
est nulle pour =
0
la vraie valeur du param`etre :
E (g (z
i
, )) = 0 =
0
de telles relations portent le nom de conditions dorthogonalite.
Cest un cadre tr`es general englobant de nombreuses situations speciques :
maximum de vraisemblance : On a des observations z
i
et un mod`ele dont
la vraisemblance secrit LogL(z
i
, ) . Comme
E
_
L(z
i
, )
L(z
i
,
0
)
_
=
_
L(z
i
, )
L(z
i
,
0
)
L(z
i
,
0
) dz
i
=
_
L(z
i
, ) dz
i
= 1
et que du fait de linegalite de Jensen
log
_
E
_
L(z
i
, )
L(z
i
,
0
)
__
> E
_
log
_
L(z
i
, )
L(z
i
,
0
)
__
pour ,=
0
, on a
0 > E (log L(z
i
, )) E (log L(z
i
,
0
))
10.2 La methode des moments generalisee 87
Lesperance de la vraisembleance est maximale pour =
0
:
E
log L(z
i
, )

= 0 =
0
mod`ele desperance conditionnelle, moindres carres non lineaires
On a une variable y
i
dont lesperance conditionnelle `a des variables expli-
catives x
i
secrit
E (y
i
[x
i
) = f (x
i
,
0
)
comme
E
_
(y
i
f (x
i
, ))
2
_
= E [y
i
f (x
i
,
0
) +f (x
i
,
0
) f (x
i
, )]
2
= E
_
(y
i
f (x
i
,
0
))
2
_
+2E [(y
i
f (x
i
,
0
)) (f (x
i
,
0
) f (x
i
, ))]
+E
_
(f (x
i
,
0
) f (x
i
, ))
2
_
> E
_
(y
i
f (x
i
,
0
))
2
_
on en deduit
E
_
(y
i
f (x
i
, ))
f (x
i
, )

_
= 0 =
0
methode ` a variables instrumentales pour un syst`eme dequations.
E
_
Z

i
(y
i
x
i

0
)
_
= 0
o` u y
i
est un vecteur de variables dependantes de dimension M 1, x
i
une matrice de variables explicatives de dimension M dim() et Z
i
une
matrice dinstruments de dimension M H o` u la ligne m contient les
instruments z
m
de leqution m : Z
i
= diag (z
mi
) de telle sorte que
Z

i
=
_

_
z

1i
.
.
.
z

Mi
_

_
_

1i
.
.
.

Mi
_

_ =
_

_
z

1i

1i
.
.
.
z

Mi

Mi
_

_
On a
E
_
Z

i
(y
i
x
i
)
_
= E
_
Z

i
x
i
_
(
0
)
Des lors que E
_
Z

i
x
i
_
est de rang dim()
E
_
Z

i
(y
i
x
i
)
_
= 0 =
0
Ce cas simple, lineaire, englobe lui meme de tres nombreuses situations,
comme celles vues jusqu`a present mco, variables instrumentales dans le
cas univarie mais bien dautres encore comme l econometrie des donnees
de panel, lestimation de syst`eme de demande, ou encore lestimation de
syst`emes ore-demande.
88 10 LA M

ETHODE DES MOMENTS G

EN

ERALIS

EE
10.3 Principe de la methode :
Le principe de la methode GMM est de trouver

, rendant
g
_
z
i
,

_
,
la contrepartie empirique de E (g (z
i
, )) aussi proche que possible de zero.
Si dim(g) = dim() on peut exactement annuler g
_
z
i
,

_
: le mod`ele est
juste identie (cas des mco, du maximum de vraisemblance, des moindres
carres non lineaires)
Si dim(g) > dim() On ne peut pas annuler exactement la contrepartie
empirique des conditions dorthogonalite. Le mod`ele est dit suridentie.
Cest le cas le plus frequent lorsque lon met en oeuvre des methodes de
type variables instrumentales.
Remarque. Lecriture du mod`ele signie quon peut annuler exactement lespe-
rance E (g (z
i
, )) m eme dans le cas de la suridentication, quand bien meme
cest impossible `a distance nie pour la contrepartie empirique des conditions
dorthogonalite.
Dans le cas de suridentication, la methode consiste `a rendre aussi proche
de zero que possible la norme de la contrepartie empirique des conditions dor-
thogonalite dans une certaine metrique :
_
_
_g (z
i
, )
_
_
_
S
N
= g (z
i
, )

S
N
g (z
i
, )
Lestimateur est alors deni par :

= Arg min

g (z
i
, )

S
N
g (z
i
, )
Exemple. Cas o` u les conditions dorthogonalite sont lineaires dans le param`etre
dinteret. Cest par exemple le cas des variables instrumentales dans un syst`eme
dequations puisqualors
g (z
i
, ) = Z

i
(y
i
x
i
) = Z

i
y
i
Z

i
x
i
= g
1
(z
i
) g
2
(z
i
)
On note g
1
= g
1
(z
i
) et g
2
= g
2
(z
i
). Lestimateur est alors deni par :

S
= Arg min

(g
1
g
2
)

S
N
(g
1
g
2
)
Il existe dans ce cas une solution explicite :

S
=
_
g
2

S
N
g
2
_
1
g
2

S
N
g
1
Dans le cas des variables instrumentales, on a par exemple

S
=
_
x

i
Z
i
S
N
Z

i
x
i
_
1
Z

i
x
i
S
N
Z

i
y
i
10.4 Convergence et proprietes asymptotiques 89
10.4 Convergence et proprietes asymptotiques
Theor`eme 10.1. Sous les hypoth`eses
Hypoth`ese (H
1
). Lespace des param`etres est compact. La vraie valeur est

0
interieure `a ,
Hypoth`ese (H
2
). E (g (z
i
, )) = 0 =
0
,
Hypoth`ese (H
3
). g (z
i
, ) est deux fois continuement derivable en ,
Hypoth`ese (H
4
). E
_
sup

[g (z
i
, )[ +sup

[g (z
i
, )[
2
+sup

g (z
i
, )[
_
< ,
Hypoth`ese (H
5
). g
k
(z
i
,
0
) a des moments nis dordre 1 et 2,
Hypoth`ese (H
6
). Le Jacobien G = E (

g (z
i
,
0
)) de dimension dimgdim
est de rang dim,
Hypoth`ese (H
7
). S
N
P
S
0
denie positive.
Lestimateur GMM

SN
minimisant Q
N
() deni par Q
N
() = g (z
i
, )

S
N
g (z
i
, ),
est convergent et asymptotiquement normal. Sa matrice de variance asympto-
tique est fonction de S
0
et de la matrice de variance des condition dorthogonalite
et peut etre estimee de facon convergente :

S
P

0
convergence


N
_

0
_
L
N
_
0, V
as
_

(S)
__
normalite asymptotique
V
as
_

S
_
= [G

S
0
G]
1
G

S
0
V (g (z
i
,
0
)) S
0
G[G

S
0
G]
1
o` u S
0
= p limS
N
et V (g (z
i
,
0
)) = E
_
g (z
i
,
0
) g (z
i
,
0
)


V (g (z
i
,
0
)) = g
_
z
i
,

S
_
g
_
z
i
,

S
_
V (g (z
i
,
0
)) et

G =
g

_
z
i
,

S
_


V
as
_

S
_
=
_

S
0

G
_
1

S
N

V (g (z
i
,
0
)) S
N

G
_

S
0

G
_
1
Demonstration.
Convergence :
Q
_

S
_
Q(
0
) =
_
Q
N
_

S
_
+
_
Q
_

S
_
Q
N
_

S
___

[Q
N
(
0
) + (Q(
0
) Q
N
(
0
))]
comme Q
N
_

S
_
Q
N
(
0
) et Q(
0
) Q
_

S
_
,on a
0 Q
_

S
_
Q(
0
)
_
Q
_

S
_
Q
N
_

S
__
(Q(
0
) Q
N
(
0
))
2sup

[Q() Q
N
()[
La condition E
_
sup

[g (z
i
, )[
_
< +permet de montrer quil y a conver-
gence uniforme de g (z
i
, ) vers E (g (z
i
, )), et donc de Q
N
() vers Q() =
E (g (z
i
, ))

SE (g (z
i
, )) .On en deduit donc que Q
_

S
_
P
Q(
0
) . Comme
la fonction Q est continue, que est compact, que Q(
0
) = 0 et Q() =
0 E (g (z
i
, )) = 0 =
0
on en deduit

S
P

0
.
90 10 LA M

ETHODE DES MOMENTS G

EN

ERALIS

EE
Normalite asymptotique
La condition du premier ordre denissant le param`etre

S
est denie par

g
_
z
i
,

S
_

S
N
g
_
z
i
,

S
_
= 0. En appliquant le theor`eme de la valeur
moyenne `a g
_
z
i
,

S
_
, on a
0 =

Ng
_
z
i
,

S
_

Ng (z
i
,
0
) +

g
_
z
i
,

S
_

N
_

0
_
, o` u

S
se trouve entre

S
et
0
converge donc aussi en probabilite vers
0
.
En multipliant par

g
_
z
i
,

S
_

S
N
, on a

g
_
z
i
,

S
_

S
N

g
_
z
i
,

S
_

N
_

0
_
=

g
_
z
i
,

S
_

S
N

Ng (z
i
,
0
)
La condition E
_
sup

g (z
i
, )[
_
< +garantit la convergence uniforme
en probabilite de

g (z
i
, ) vers E (

g (z
i
, )) . On en deduit que

g
_
z
i
,

S
_

S
N
P
G

S
et que
_

g
_
z
i
,

S
_

S
N

g
_
z
i
,

S
_
_
P
G

S
0
G
, matrice dimdim inversible compte tenu de rangG = dim. La condi-
tion que g
k
(z
i
,
0
) a des moments dordre 1 et 2 permet dappliquer le theo-
r`eme central limite `a

Ng (z
i
,
0
) :

Ng (z
i
,
0
)
Loi
N (0, V (g (z
i
,
0
))).
On en deduit la normalite asymptotique de lestimateur et lexpression
de sa matrice de variance. Remarquons que le developpement precedent
conduit aussi `a une approximation de lecart entre lestimateur et la vraie
valeur :

N
_

0
_

_
G

S
N
G
_
1
G

S
N

Ng (z
i
,
0
)
Estimation de la matrice de variance asymptotique
Le seul point `a montrer est que g
_
z
i
,

S
_
g
_
z
i
,

S
_
V (g (z
i
,
0
)) . La
condition E
_
sup

[g (z
i
, )[
2
_
< , permet de montrer quil y a conver-
gence uniforme de g (z
i
, ) g (z
i
, )

vers E
_
g (z
i
, ) g (z
i
, )

_
10.5 Estimateur optimal
Theor`eme 10.2. Les estimateurs

obtenus ` a partir de matrice de poids S

N

S

avec
S

= V (g (z
i
,
0
))
1
10.6 Mise en oeuvre : deux etapes 91
sont optimaux, au sens o` u il conduisent ` a des estimateurs de variance minimale.
La matrice de variance asymptotique de cet estimateur est
V
as
_

_
= [G

G]
1
=
_
G

V (g (z
i
,
0
))
1
G
_
1
et peut etre estimee par

V
as
_

_
=
_

N

G
_
1
ou

G est comme precedemment un estimateur convergent de G.
Demonstration.
La demonstration se fait comme dans le cas des variables instrumentales. La
variance asymptotique de lestimateur optimal secrit
V
as
_

_
=
_
G

V
1
G

1
= (C

C)
1
avec C = V
1/2
G de dimension dimg dim
La variance asymptotique de lestimateur general secrit
V
as
_

S
_
= [G

S
0
G]
1
G

S
0
V S
0
G[G

S
0
G]
1
= BB

avec B = [G

S
0
G]
1
G

S
0
V
1/2
de dimension dim dimg. On a
BC = [G

S
0
G]
1
G

S
0
V
1/2
V
1/2
G = I
dim
do` u
V
as
_

S
_
V
as
_

_
= BB

(C

C)
1
= BB

BC (C

C)
1
C

puisque BC = I
dim
. On voit donc que
V
as
_

S
_
V
as
_

_
= B
_
I
dimg
C (C

C)
1
C

_
B

est une matrice semi denie positive, do` u loptimalite.


10.6 Mise en oeuvre : deux etapes
Dans le cas general, la mise en oeuvre de la methode des moments generalisee
pour obtenir un estimateur optimal presente un probl`eme : la metrique optimale
faire intervenir le param`etre `a estimer et est donc inconnue.
S

0
= V (g (z
i
,
0
))
1
Pour mettre cet estimateur en oeuvre on a recours `a une methode en deux
etapes :
Premi`ere etape : On utilise une metrique quelconque (en fait pas si quel-
conque, interet `a reechir) ne faisant pas intervenir le param`etre. S
N
= I
est un choix possible mais certainement pas le meilleur. La mise en oeuvre
des GMM avec cette m etrique permet dobtenir un estimateur convergent
mais pas ecace

1
.
92 10 LA M

ETHODE DES MOMENTS G

EN

ERALIS

EE
A partir de cet estimateur on peut determiner un estimateur de la matrice
de variance des condition dorthogonalite :

V (g)
N
= g
_
z
i
,

1
_
g
_
z
i
,

1
_
P
V (g (z
i
,
0
))
ainsi que

G =

g
_
z
i
,

1
_
P
E (

g (z
i
,
0
))
On peut des lors determiner un estimateur de la matrice de variance
asymptotique de ce premier estimateur

V
as
_

1
_
N
=
_

S
N

G
_
1

S
N

V (g)
N
S
N

G
_

S
N

G
_
1
Deuxi`eme etape : On met `a nouveau en oeuvre lestimateur des GMM avec
la metrique S

N
=

V (g)
1
N
. On obtient ainsi un estimateur convergent et
asymptotiquement ecace dont on peut estimer la matrice de variance
asymptotique

V
as
_

_
N
=
_

N

G
_
1
10.7 Application aux variables instrumentales dans un sys-
t`eme d equations
On consid`ere le cas dun syst`eme dequations avec variables instrumentales
g (z
i
, ) = Z

i
(y
i
x
i
) = Z

i
y
i
Z

i
x
i

Verication des hypoth`eses


1. H
2
: E
_
Z

i
y
i
_
E
_
Z

i
x
i
_
= 0 admet une unique solution si rangE
_
Z

i
x
i
_
=
dim, simple generalisation de la condition dej`a vue dans le cadre
univarie.
2. H
3
: est satisfaite du fait de la linearite.
3. H
4
et H
5
sont satisfaites si E
_
_
sup

i
y
i

+ sup

i
x
i

_
2
_
< +,
cest `a dire si les moments dordre quatres de Z
i
, x
i
et y
i
existent.
4. H
6
:

g (z
i
,
0
) = Z

i
x
i
. Si E
_
Z

i
x
i
_
est de rang dim, G =
E (

g (z
i
,
0
)) = E
_
Z

i
x
i
_
est de rang dim.
Expression de la matrice de variance des conditions dorthogonalite
La variance des conditions dorthogonalite secrit
V (g (z
i
,
0
)) = E
_
Z

i
(y
i
x
i

0
) (y
i
x
i

0
)

Z
i
_
= E
_
Z

i
u
i
u

i
Z
i
_
Expression tres proche de celle vue dans le cadre des variables instrumen-
tales. Cette expression fait bien intervenir en general le param`etre et il
est alors necessaire de mettre en oeuvre une methode en deux etapes.
10.7 Application : instruments dans un syst`eme dequations 93
Mise en oeuvre de lestimation
Premi`ere etape : lestimateur a pour expression :

S
=
_
x

i
Z
i
S
N
Z

i
x
i
_
1
x

i
Z
i
S
N
Z

i
y
i
La matrice de variance des conditions dortogonalite peut etre estimee par

V (g) = Z

i
_
y
i
x
i

S
__
y
i
x
i

S
_
Z
i
= Z

i
u
i
u

i
Z
i
A partir de cette estimation, on peut aussi estimer la variance de lesti-
mateur de premi`ere etape :

V
_

(S)
_
=
_
x

i
Z
i
S
N
Z

i
x
i
_
1
Z

i
x
i
S
N

V (g) S
N
x

i
Z
i
_
Z

i
x
i
S
N
Z

i
x
i
_
1
ainsi que lestimateur optimal :

S
=
_
x

i
Z
i

V (g)
1
Z

i
x
i
_
1
x

i
Z
i

V (g)
1
Z

i
y
i
et sa variance asymptotique :

V
as
_

S
_
=
_
x

i
Z
i

V (g)
1
Z

i
x
i
_
1
10.7.1 Regressions `a variables instrumentales dans un syst`eme ho-
moscedastique
Dans le cas o` u on fait lhypoth`ese dhomoscedasticite : E (u
i
u

i
[Z
i
) = =
E
_
(y
i
x
i

0
) (y
i
x
i

0
)

_
, on a V (g (z
i
,
0
)) = E
_
Z

i
Z
i
_
. Si les regresseurs
sont les memes, si il nexiste pas de contraintes entre les param`etres des equations
x
i
= I
M
x
i
, et si les instruments sont les memes dune equation `a lautre
Z
i
= I
M
z
i
, on a x

i
Z
i
= I
M
x

i
z
i
.
Sous lhypoth`ese dhomoscedasticite, la matrice de variance des conditions
dorthogonalite a pour expression E
_
Z

i
Z
i
_
= E
_
z

i
z
i
_
.
Rappel : pour des matrices aux tailles appropriees (AB) (C D) =
AC BD. On a donc Z
i
= ( 1) (I
M
z
i
) = z
i
. Do` u Z

i
Z
i
=
_
I
M
z

i
_
( z
i
) = z

i
z
i
. On a donc
x

i
Z
i
S

i
x
i
=
_
I
M
x

i
z
i
__
E
_
z

i
z
i
__
1
_
I
M
z

i
x
i
_
=
1

_
x

i
z
i
E
_
z
i
z

i
_
1
z

i
x
i
_
et
x

i
Z
i
S

i
y
i
=
_
I
M
x

i
z
i
__
E
_
z

i
z
i
__
1 _
I
M
z

i
_
y
i
=
_

_
x

i
z
i
E
_
z
i
z

i
_
1
__
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
94 10 LA M

ETHODE DES MOMENTS G

EN

ERALIS

EE
puisque
_
I
M
z

i
_
y
i
=
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
Lestimateur optimal a donc pour expression

S
=
_
x

i
z
i
E
_
z
i
z

i
_
1
z

i
x
i
_
1

_
x

i
z
i
E
_
z
i
z

i
_
1
_
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
= I
M
x

i
z
i
_
E
_
z
i
z

i
__
1
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_ =
_

b
2mc1
.
.
.

b
2mcM
_

_
On voit que dans ce cas, lestimateur optimal est identique `a lestimateur
des doubles moindres carres eectue equation par equation. Il ny a donc pas
non plus dans ce cas de methode en deux etapes `a mettre en oeuvre. La matrice
de variance des param`etres a pour expression
V
_

_
=
_
E (x

i
z
i
) E
_
z
i
z

i
_
1
E (z

i
x
i
)
_
1
on voit donc que les estimateurs ne sont pas independants les uns des autres des
que la matrice de variance nest pas diagonale.
10.7.2 Estimateur `a variables instrumentales optimal dans le cas uni-
varie et heteroscedastique
On consid`ere la situation dun mod`ele lineaire univarie
y
i
= x
i
+u
i
avec un ensemble dinstruments z
i
: Le sconditions dorthogonalite sont donc
E
_
z

i
(y
i
x
i
)
_
= 0
Le resultat precedent montre que dans le cas univarie homoscedastique, i.e.
E
_
u
2
i
[z
i
_
= E
_
u
2
i
_
, lestimateur GMM optimal concide avec lestimateur des
2mc. On examine la situation dans laquelle il ny a plus homoscedasticite.
La matrice de variance des conditions dortogonalite est donnee par
V (g) = E
_
(y
i
x
i

0
)
2
z

i
z
i
_
= E
_
u
2
i
z

i
z
i
_
et lestimateur optimal a pour expression

S
=
_
x

i
z
i
V (g)
1
z

i
x
i
_
1
x

i
z
i
V (g)
1
z

i
y
i
on voit quil est dierent de lestimateur des 2mc dont lexpression est

2mc
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
y
i
10.8 Test de specication. 95
Il faut donc mettre en oeuvre la methode en deux etapes. On peut par exemple
partir de lestimateur des 2mc, qui est certainement proche de lestimateur op-
timal, et calculer un estimateur de la matrice de variance des conditions dorto-
gonalite,

V (g) = u
2
i
z

i
z
i
puis determiner lestimateur optimal,

S
=
_
x

i
z
i
u
2
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
u
2
i
z

i
z
i
1
z

i
y
i
ainsi que les matrice de variance de chacun des estimateurs :
V
as
_

2mc
_
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
u
2
i
z

i
z
i
z

i
z
i
1
x
i
z

i
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
V
as
_

_
=
_
x

i
z
i
u
2
i
z

i
z
i
1
z

i
x
i
_
1
10.8 Test de specication.
Comme pour les variables instrumentales, dans le cas o` u il y a plus de condi-
tions dorthogonalite que de param`etres `a estimer, le mod`ele impose des restric-
tions aux donnees. Elles doivent verier la propriete :
[ E (g (z
i
, )) = 0
Intuitivement : on peut eliminer le param`etre en se servant dune partie des
equations. Lhypoth`ese
0
tq E (g (z
i
,
0
)) = 0 peut etre reformulee de
fa con equivalente sous la forme E ((z
i
)) = 0 avec dim() = dim(g) dim()
. Ce sont ces restrictions additionnelles que lon teste.
Le principe reste le meme : regarder si g (z
i
,
0
) est proche de 0, mais on ne
connat pas
0
.
Plus precisement : on regarde si g
i
= g
_
z
i
,

_
est proche de 0, cest `a
dire si la contrepartie empirique des conditions dorthogonalite evaluee avec
lestimateur optimal est proche de zero.
Le resultat general sapplique
N g
i

V
as
_
g
i
_

g
i

2
_
rangV
_
g
i
__
Pour eectuer le test il faut donc determiner le rang de V
as
_
g
i
_
ainsi quun
inverse generalise et un estimateur convergent de cet inverse.
Theor`eme 10.3. Sous H
0
: [ E (g (z
i
, )) = 0, on a
NQ

N
(

) = N g
i

N
g
i
L

2
(dim(g) dim())
o` u g
i
= g
_
z
i
,

_
et S

N
=

V (g (z
i
,
0
))
1
= g
_
z
i
,

_
g
_
z
i
,

_
1
On remarque que la statistique utilisee pour le test est N fois la valeur de
lobjectif ` a loptimum.
96 10 LA M

ETHODE DES MOMENTS G

EN

ERALIS

EE
Demonstration. Comme

N g
i

Ng
i
0
+G
_

0
_
et

N
_

0
_

_
G

S
N
G
_
1
G

Ng
i
0
on a

N g
i

_
I
dimg
G
_
G

G
_
1
G

Ng
i
0
= (I
dimg
P
G
)

Ng
i
0
avec P
G
= G
_
G

G
_
1
G

. P
2
G
= P
G
. P
G
est donc un projecteur dont
le rang est celui de G, i.e dim. Comme en outre P
G
S
1
P

G
= P
G
S
1
, et
V
as
(g
i
0
) = S
1
, on a
V
as
_
g
i
_
= (I
dimg
P
G
) S
1
(I P
G
)

= (I
dimg
P
G
) S
1
On en deduit immediatement le rang de V
as
_
g
i
_
:
rangV
_
g
i
_
= dimg dim
et un inverse generalise :
V
as
_
g
i
_
S

V
as
_
g
i
_
= (I
dimg
P
G
) S
1
S

(I
dimg
P
G
) S
1
= (I
dimg
P
G
)
2
S
1
= (I
dimg
P
G
) S
1
= V
as
_
g
i
_
do` u
S

= V
as
_
g
i
_

Estimation convergente de linverse generalisee : Comme la matrice g (z


i
, ) g (z
i
, )

est une fonction continue de convergent uniformement vers E


_
g (z
i
, ) g (z
i
, )

_
,
S

N
= g
_
z
i
,

_
g
_
z
i
,

_
converge vers S

10.8.1 Application test de suridentication pour un estimateur `a


variables instrumentales dans le cas univarie et heteroscedas-
tique
Le test est eectue sur la contrepartie empirique des conditions dorthogo-
nalite evaluees en =

, lestimateur optimal. On calcule donc :


z

i
_
y
i
x
i

_
= z

i
u
i

et sa norme
z

i
u
i

u
2
i
z

i
z
i
1
z

i
u
i

o` u u
i
= y
i
x
i

1
est le residu de lequation estime `a partir dune premi`ere etape
10.8 Test de specication. 97
Le resultat stipule que sous lhypoth`ese nulle, H
0
: [E
_
z

i
(y
i
x
i
)
_
= 0,
la statistique

= Nz

i
u
i

u
2
i
z

i
z
i
1
z

i
u
i


2
(dimz dimx)
On rejettera lhypoth`ese nulle si

S

est trop grand, i.e. pour un test au niveau

> Q
_
1 ,
2
(dimz dimx)
_
98 11 VARIABLES D

EPENDANTES LIMIT

EES
11 Variables dependantes limitees
On a examine jusqu`a present le cas de mod`eles lineaires pour lesquels la
variable dependante y
i
avait pour support R. On examine dans ce chapitre la
specication et lestimation de mod`eles dans des situations plus generales.
On examine trois cas
Mod`ele dichotomique : y
i
0, 1. Par exemple : participation au marche
du travail, `a un programme de formation, faillite dune entreprise, defaut
de paiement, signature dun accord de passage aux 35 heures etc. Les in-
formations dont on dispose dans les enquetes sont souvent de cette nature :
avez vous au cours de la periode du tant au tant eectue telle ou telle
action .
Mod`ele de choix discret comme par exemple le choix du lieu de vacances
(pas de vacances, montagne, mer, campagne) ou le choix du moyen de
transport domicile-travail (bus, auto, metro, `a pied). Ces situations conduisent
`a des variables prenant un nombre ni de modalites y
i
0, 1, 2, . . . , M.
Donnees tronquees : on observe une variable y
i
uniquement conditionnel-
lement `a la realisation dune autre variable. Par exemple le salaire nest
observe que conditionnellement au fait que lindividu ait un emploi. On a
alors deux variables `a modeliser : la variable de censure I
i
0, 1 indi-
quant si le salaire est observe ou non et la variable de salaire w
i
lorsquil
est observe.
11.1 Mod`ele dichotomique
On souhaite expliquer une variable endog`ene y
i
prenant les valeurs 1 ou 0
en fonction de variables explicatives exog`enes x
i
,
Dune fa con generale on specie la probabilite dobserver y
i
= 1 condition-
nellement aux variables explicatives x
i
.
P (y
i
= 1 [x
i
) =

G(x
i
)
qui denit compl`etement la loi conditionnelle de y
i
sachant x
i
. Cette probabilite
est aussi lesperance conditionnelle de la variable y
i
:
E (y
i
[x
i
) =

y
i
{0,1}
y
i
_
1
(y
i
=1)
P (y
i
= 1 [x
i
) + 1
(y
i
=0)
(1 P (y
i
= 1 [x
i
))

= P (y
i
= 1 [x
i
) =

G(x
i
)
On specie en general cette fonction comme dependant dun indice lineaire en
x
i
:

G(x
i
) = G(x
i
b)
Les dierentes solutions que lon peut apporter `a la modelisation de la variable
dichotomique y
i
correspondent `a dierents choix pour la fonction G.
11.1.1 Mod`ele `a probabilites lineaires
Cest la situation dans laquelle on sepcie simplement
E (y
i
[x
i
) = P (y
i
= 1 [x
i
) = x
i
b
11.1 Mod`ele dichotomique 99
Le mod`ele peut alors etre estime par les MCO.
En depit de sa simplicite attractive, ce choix de modelisation presente nean-
moins des inconvenients :
Deux inconvenients de ce mod`ele
Un premier probl`eme vient de lestimation. Compte tenu du fait que y
2
i
=
y
i
, toute estimation de mod`ele de choix discret par les moindres carres,
lineaire dans le cas present ou non lineaire dans le cas gen eral, cest `a dire
basee sur la specication E (y
i
[x
i
) = G(x
i
b) , doit prendre en compte le
fait que le mod`ele de regression correspondant
y
i
= G(x
i
b) +u
i
est heteroscedatique. En eet on a :
V (y
i
[x
i
) = E
_
y
2
i
[x
i
_
E (y
i
[x
i
)
2
= E (y
i
[x
i
) E (y
i
[x
i
)
2
= E (y
i
[x
i
) [1 E (y
i
[x
i
)] = G(x
i
b) [1 G(x
i
b)]
Lestimateur des mco dans le cas lineaire a donc pour variance
V
as
_

b
mco
_
= E
_
x

i
x
i
_
1
E
_
u
2
i
x

i
x
i
_
E
_
x

i
x
i
_
1
que lon estime par la methode de White

V
as
_

b
mco
_
= x

i
x
i
1
u
2
i
x

i
x
i
.x

i
x
i
1
On pourrait aussi songer `a estimer plus directement cette matrice compte
tenu de la forme de lheteroscedasticite, ou meme `a mettre en oeuvre
lestimateur des mcqg puisque lon connait lexpression de la matrice de
variance des residus conditionnellement `a x
i
:
E
_
u
2
i
[x
i
_
= G(x
i
b) (1 G(x
i
b)) =
2
(x
i
b)
Par exemple pour lestimateur des mcqg

b
mcqg
= x

i
x
i
1
x

i
y
i
avec z
i
= z
i
__

2
_
x
i

b
mco
_
. Ceci est en pratique impossible et soul`eve
un second probl`eme associe `a la specication dun mod`ele de probabilite
lineaire
Le mod`ele ne peut contraindre P (y
i
= 1 [x
i
) = x
i
b `a appartenir `a linter-
valle [0, 1].
11.1.2 Les mod`eles probit et logit.
Il est donc preferable de faire un autre choix que lidentite pour la fonction
G. On souhaite que cette fonction soit croissante, quelle tende vers 1 en +
et vers 0 en . En principe, la fonction de repartition de nimporte quelle loi
de probabilite pourrait convenir. En pratique les mod`eles de choix discret sont
species en utilisant deux fonctions de repartition :
100 11 VARIABLES D

EPENDANTES LIMIT

EES
, la fonction de repartition de la loi normale :
G(z) =
_
z

(t)dt = (z)
o` u (t) =
1

2
exp
_

1
2
t
2
_
. On a donc dans ce cas
P (y
i
[x
i
) = (x
i
b)
Un tel mod`ele est appele Mod`ele Probit.
F, la fonction logistique
F (z) =
1
1 + exp(z)
Dans ce cas
P (y
i
[x
i
) = F (x
i
b) =
1
1 + exp (x
i
b)
Un tel mod`ele est appele Mod`ele Logit
Relation entre les 3 mod`eles :
Dans la plupart des applications les dierences sont neanmoins assez faibles
entre les resultats. On peut pour le voir eectuer un developpement limite `a
lordre 3 de chacune des fonction F et
On a
F (x)
1
2
+
1
4
x
1
8
x
3
6
=
1
2
+
x
4

4
3
_
x
4
_
3
(x)
1
2
+(0) x (0)
x
3
6
=
1
2
+
1

2
x
1

2
x
3
6
=
1
2
+
x

2
6
_
x

2
_
3
Donc
F
_
4

2
x
_
=
1
2
+
1

2
x
1
8
x
3
6
_
4

2
_
3
=
1
2
+
1

2
x
1

2
x
3
6
4

(x) +
1

2
x
3
6
_
4

1
_
(x) + 0.02x
3
On en conclut que :
1.

b
Probit

_
2/4
_

b
Logit
,

2/4 0.625
2.

b
Lin eaire
0.25

b
Logit
(+0.5 pour la constante)
3.

b
Lin eaire
0.4

b
Probit
(+0.5 pour la constante)
4. La dierence entre la fonction logistique et la fonction probit `a lordre 3
est tres faible, ce qui sugg`ere que des lors quil ny a pas de dierences
trop importantes entre les eectifs des deux populations correspondant
aux realisations de y et que les variables explicatives ne sont pas trop
dispersees, lapproximation entre les deux estimations Logit et Probit sera
bonne.
11.1 Mod`ele dichotomique 101
5. Les approximations faisant intervenir lestimations lineaires seront en ge-
neral moins bonnes, surtout si les eectifs des deux populations sont d
esequilibres et si les variables explicatives sont dispersees.
Eet marginal dune variation dun regresseur continu x Comme E (y
i
[x
i
) =
G(x
i
b) , on a
E (y
i
[x
i
)
x
k
i
= G

(x
i
b) b
k
et lelasticite
LogE (y
i
[x
i
)
x
k
i
=
G

(x
i
b)
G(x
i
b)
b
k
Pour le mod`ele Probit on a ainsi :
E (y
i
[x
i
)
x
k
i
= (x
i
b) b
k
,
LogE (y
i
[x
i
)
x
k
i
=
(x
i
b)
(x
i
b)
b
k
et pour le mod`ele Logit
E (y
i
[x
i
)
x
k
i
= F (x
i
b) (1 F (x
i
b)) b
k
LogE (y
i
[x
i
)
x
k
i
= (1 F (x
i
b)) b
k
puisquon verie facilement F

= F (1 F)
11.1.3 Variables latentes
La modelisation precedente est une modelisation statistique. Les mod`eles
`a variables dependantes discr`etes peuvent etre souvent introduit par le biais
dune variable latente, cest `a dire une variable inobservee mais qui determine
compl`etement la realisation de la variable indicatrice etudiee. Une telle approche
permet de rendre plus explicite les hypoth`eses economiques sous-jacentes `a la
modelisation.
Exemple. Considerons la decision de participer `a un stage de formation. Ce
stage represente un gain futur G
i
pour lindividu dont le capital humain aura
augmente. Supposons que lon soit capable de modeliser ce gain `a partir de
variables explicatives
G
i
= x
g
i
b
g
+u
g
i
La participation au stage comporte aussi un co ut `a court-terme C
i
, incluant
le fait quil faut dabord apprendre, et donc fournir un eort, mais aussi sou-
vent payer pour la formation et subir des co uts indirects comme des co uts de
transport. Supposons la encore que lon soit capables de modeliser ce co ut
C
i
= x
c
i
b
c
+u
c
i
Le gain net pour lindividu est donc y

i
= G
i
C
i
.
y

i
= x
g
i
b
g
x
c
i
b
c
+u
g
i
u
c
i
= x
i
b +u
i
102 11 VARIABLES D

EPENDANTES LIMIT

EES
On peut modeliser la participation comme le fait que le gain net soit positif :
y
i
= 1 y

i
> 0 x
i
b +u
i
> 0
y

i
est la variable latente associee au mod`ele. Si on suppose que le residu interve-
nant dans modelisation de la variable latente est normal et quil est independant
des variables explicatives, on obtient le mod`ele Probit. Les param`etres b sont
identiables `a un facteur multiplicatif pres. Supposons u
i
N
_
0,
2
_
y
i
= 1 x
i
b

+
u
i

> 0
et v
i
= u
i
/ N (0, 1) . On pose c = b/, on a donc
P (y
i
= 1 [x
i
) = P
_
x
i
b

+
u
i

> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= (x
i
c)
o` u on utilise le fait que la loi normale est symetrique, et que donc P (v > a) =
P (v < a)
Le mod`ele logit est lui aussi compatible avec cette modelisation. On suppose
alors que u
i
suit une loi logistique de variance . La variable u
i
/ suit alors
une loi logistique de densite f (x) = exp (x) / (1 + exp (x))
2
et de fonction
de repartition F (x) = 1/ (1 + exp (x)) . Cette densite est l`a encore symetrique
en zero, et on aura
P (y
i
= 1 [x
i
) = P
_
x
i
b

+
u
i

> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= F (x
i
c)
On pourrait considerer dautres cas comme par exemple le fait que la loi
de u
i
suive une loi de Student, on obtiendrait alors dautres expressions pour
P (y
i
= 1 [x
i
)
11.1.4 Estimation des mod`eles dichotomiques
Les mod`eles dichotomiques sestiment par le maximum de vraisemblance.
On fait lhypoth`ese que les observations sont independantes. Compte tenu dune
modelisation conduisant `a
P (y
i
= 1 [x
i
) = G(x
i
b)
avec Gune fonction de repartition connue, de densite g. La probabilite dobserver
y
i
pour un individu peut secrire comme
P (y
i
[x
i
) = P (y
i
= 1 [x
i
)
y
i
[1 P (y
i
= 1 [x
i
)]
1y
i
= G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
La vraisemblance de lechantillon secrit donc
L(Y [X) =
N

i=1
P (y
i
[x
i
) =
N

i=1
G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
11.1 Mod`ele dichotomique 103
compte tenu de lhypoth`ese dindependance. La log vraisemblance s

ecrit alors
log L
N
=
N

i=1
[y
i
log G(x
i
b) + (1 y
i
) log (1 G(x
i
b))]
Conditions de 1er ordre pour la maximisation : Lestimateur du maxi-
mum de vraisemblance est deni par :
log L
N

=
N

i=1
_
_
y
i
g
_
x
i

b
_
G
_
x
i

b
_ + (1 y
i
)
g
_
x
i

b
_
1 G
_
x
i

b
_
_
_
x

i
= 0
soit
log L
N
b
=
N

i=1
_
y
i
G
_
x
i

b
__ g
_
x
i

b
_
G
_
x
i

b
__
1 G
_
x
i

b
__x

i
= 0
Ces equations sont en general non lineaires et necessitent la mise en oeuvre dun
algorithme doptimisation.
On voit que ces equations dans le cas general sexpriment sous la forme
N

i=1

_
x
i
,

b
__
y
i
E
_
y
i

x
i
,

b
__
x

i
= 0
Elles sont donc dans le fond assez similaires aux conditions vues pour les moindres
carres, mis `a part la ponderation et la non linearite. On remarque e gale-
ment que la ponderation sinterpr`ete naturellement par le fait que V (y
i
[x
i
) =
G(x
i
, b) (1 G(x
i
, b)) , et que g (x
i
, b) x

i
est la derivee par rapport `a b de
G(x
i
b) . La ponderation est donc analogue `a une sphericisation analogue `a celle
pratiquee dans la methode des mcqg du mod`ele linearise autour de la vraie
valeur du param`etre.
Pour le mod`ele Logit on a G(z) = F (z) = 1/ (1 + exp (z)) , et g (z) =
exp (z) / (1 + exp (z))
2
= G(z) (1 G(z)) . On a donc simplement
log L
N
b

Logit
=
N

i=1
_
y
i
F
_
x
i

b
__
x

i
= 0
Pour le mod`ele Probit on a G(z) = (z) , et g (z) = (z) . On a donc simple-
ment
log L
N
b

Pr obit
=
N

i=1
_
y
i

_
x
i

b
__
_
x
i

b
_

_
x
i

b
__
1
_
x
i

b
__x

i
= 0
Derivees secondes de la log-vraisemblanc
Pour le mod`ele logit : On trouve directement
H =

2
log L
N
bb

Logit
=
N

i=1
_
1 F
_
x
i

b
__
F
_
x
i

b
_
x
i
x

i
104 11 VARIABLES D

EPENDANTES LIMIT

EES
La matrice hessienne est toujours negative : la fonction de log-vraisemblance
est donc globalement concave. La methode de Newton permettra de conver-
ger vers loptimum en quelques iterations.
Dune facon generale, on peut montrer que si log (g) est concave, alors
le hessien est negatif. En eet, on peut reecrire la log vraisemblance en
separant les observations pour lesquelles y
i
= 1 de celles pour lesquelles
y
i
= 0, on note I
1
et I
0
les ensembles dindividus correspondants. En
notant g
i
= g (x
i
b) et G
i
= G(x
i
b) , on a alors
log L
N
b
=
N

i=1
[y
i
G
i
]
g
i
G
i
[1 G
i
]
x

i
=

I
1
[1 G
i
]
g
i
G
i
[1 G
i
]
x

i
+

I
0
[0 G
i
]
g
i
G
i
[1 G
i
]
x

i
=

I
1
g
i
G
i
x

i
+

I
0

g
i
1 G
i
x

i
On a alors :

2
log L
N
bb

I
1
_
g
i
G
i
_

i
x
i
+

I
0
_

g
i
1 G
i
_

i
x
i
et
_
g
i
G
i
_

=
g

i
G
i
g
2
i
G
2
i
et
_

g
i
[1G
i
]
_

=
g

i
(1G
i
)g
2
i
(1G
i
)
2
. Comme g est sy-
metrique G(z) = 1 G(z) , donc
g(z)
G(z)
=
g(z)
1G(z)
, il sensuit que
d
dz
_
g(z)
1G(z)
_
=
d
dz
_
g(z)
G(z)
_
=
d
dz
_
g
G
_

z
, si
g
G
est une fonction decrois-
sante, alors
g(z)
1G(z)
est aussi une fonction decroissante. Pour montrer que
le Hessien est negatif il sut de montrer que
g
G
est decroissante, cest `a
dire si g

G < g
2
soit encore
g

g
G < g. log (g) est concave est equivalent `a
g

g
de croissante. Dans ce cas g

(t) =
g

(t)
g(t)
g (t) >
g

(z)
g(z)
g (t) pour t z donc
_
z

(t) dt >
g

(z)
g(z)
_
z

g (t) soit g (z) >


g

(z)
g(z)
G(z) .
Dans le cas Probit, g (z) =
1

2
exp
_

1
2
z
2
_
, on a donc log g (z) = log

2
1
2
z
2
, qui est bien une fonction concave. Lobjectif est donc globalement
concave.
Remarque. Compte tenu de

(z) = z(z) on en deduit z +


(z) > 0 et aussi


z +

1
(z) > 0.
Matrice de variance-covariance de

b La matrice de variance-covariance
asymptotique est egale `a
V
as
_

b
_
=
_
E
_

2
log L
bb

__
1
=
_
E
_
log L
b
log L
b

__
1
Elle peut etre estimee `a partir des derivee secondes evaluees en

b :

V
as
(

b) =
_
_
_

2
log L
_
y
i
, x
i
,

b
_
bb

_
_
_
1
11.2 Mod`eles de choix discrets : le Mod`ele Logit Multinomial 105
ou des derivees premi`eres evaluee en

:

V
as
(

b) =
_
_
_
_
log L
_
y
i
, x
i
,

b
_
b
_
_
log L
_
y
i
, x
i
,

b
_
b
_
_

_
_
_
_
1
On note que dans ce cas la matrice de variance secrit sous une forme connue,
sapparentant `a celle des mcqg

V
as
(

b) =
_

2
i

2
i
x

i
x
i
_
1
, o` u
i
= y
i
G
_
x
i
,

b
_
et
i
=
g(x
i

b)
G(x
i

b)[1G(x
i

b)]
. La matrice de variance covariance de lestimateur est
dans tous les cas estimee par

V (

b) =

V
as
(

b)/N
11.2 Mod`eles de choix discrets : le Mod`ele Logit Multi-
nomial
Supposons quun individu i ait `a choisir, parmi un ensemble de K modalites,
une et une seule de ces modalites, notee k.
Exemple. choix du lieu de vacances (montagne, mer, campagne) ;
choix du moyen de transport domicile-travail (bus, auto, metro) ;
choix dun article particulier pour les decisions dachat de biens dierencies
(type de voiture, marque de cereale, type de tele viseur...).
Pour modeliser cette situation on associe `a chaque modalite un niveau duti-
lite
U
ik
=
ik
+
ik
= x
i
b
k
+
ik
k = 1, ...K
o` u
ik
est une variable aleatoire non observable. Lindividu choisit la modalite
que lui procure lutilite maximal.
y
i
= Arg max
k
(U
ik
)
Theor`eme 11.1 (Mac Fadden, 1974). Si les
ik

k=1,...K
sont des v.a. in-
dependantes et identiquement distribuees selon une loie des valeurs extremes de
fonction de repartition.
G(x) = exp[exp(x)],
alors la probabilite de choisir la modalite k secrit :
P[Y
i
= k] =
exp(
ik
)

K
l=1
exp (
il
)
=
exp(x
i
b
k
)

K
l=1
exp(x
i
b
l
)
Ce mod`ele est appele mod`ele logit multinomial.
Demonstration. Notons g la fonction de densite des :
g (z) = G

(z) =
d
dz
exp[exp (z)] = exp (z) G(z)
106 11 VARIABLES D

EPENDANTES LIMIT

EES
On peut ecrire par exemple la probabilite de choisir la premi`ere solution
P (y = 1) = P (U
2
< U
1
, . . . , U
K
< U
1
)
= P (
2
+
2
<
1
+
1
, . . . ,
K
+
K
<
1
+
1
)
=
_
+

P (
2
+
2
<
1
+
1
, . . . ,
K
+
K
<
1
+
1
[
1
) g (
1
) d
1
Comme les aleas sont independants, on a
P (
2
+
2
<
1
+
1
, . . . ,
K
+
K
<
1
+
1
[
1
)
=
K

k=2
P (
k
+
k
<
1
+
1
[
1
) =
K

k=2
G(
1

k
+
1
)
=
K

k=2
exp [exp (
1
+
k

1
)] = exp
_

k=2
exp (
1
+
k

1
)
_
= exp
_
exp (
1
)
K

k=2
exp (
k

1
)
_
Donc
P (y = 1) =
_
+

exp
_
exp (
1
)
K

k=2
exp (
k

1
)
_
g (
1
) d
1
=
_
+

exp
_
exp (
1
)
K

k=2
exp (
k

1
)
_
exp (
1
) G(
1
) d
1
=
_
+

exp
_
exp (
1
)
_
K

k=2
exp (
k

1
) + 1
__
exp (
1
) d
1
=
_
+

exp
_
exp (
1
)
K

k=1
exp (
k

1
)
_
exp (
1
) d
1
puisque G(
1
) = exp[exp (
1
)] et exp (
1

1
) = 1. Si on denit P
1
=
_

K
k=1
exp (
k

1
)
_
1
, on a
P (y = 1) =
_
+

exp [exp (
1
) /P
1
] exp(
1
) d
1
On fait le changement de variable v = exp (
1
) /P
1
. On a dv = exp (
1
) d
1
/P
1
,
do` u
P (y = 1) =
_
exp((+))/P
1
exp(())/P
1
exp(v) P
1
dv =
_
0

exp (v) P
1
dv = P
1
Remarque. 1. Les probabilites ne dependent que des dierences

k
= x(b
l
b
k
), l ,= k
Elles ne sont pas modies si tous les b
l
sont translates en

b
l
= b
l
+c.
11.2 Mod`eles de choix discrets : le Mod`ele Logit Multinomial 107
2. En consequence, les b
k
sont non identiables sauf `a poser par exemple
b
1
= 0
3. Les param`etres estimes sinterpretent alors comme des ecarts `a la refe rence
b
1
. Un signe positif signie que la variable explicative accrot la probabilite
de la modalite associee relativement `a la probabilite de la modalite de
reference.
11.2.1 Estimation du mod`ele logit multinomial :
Posons
y
ki
= 1 (y
i
= k)
P
ki
= P (y
i
= k [x
i
) =
exp(x
ki
b
k
)

K
l=1
exp(x
li
b
l
)
b
1
= 0
La log-vraisemblance de lechantillon secrit :
log L =
n

i=1
K

k=1
y
ik
log P
ik
Cette fonction est globalement concave. Les conditions du premier ordre pour
la determination du param`etre b

= (b
2
, ..., b
K
)

, secrivent simplement sous la


forme
log L
b
=
n

i=1
_
_
_
(y
i2
P
i2
) x
2i
.
.
.
(y
iK
P
iK
) x
Ki
_
_
_ = 0
Demonstration. Determinons dabord le gradient. On redenit les proba-
bilite `a partir d

un vecteur de variables observables specique `a chaque moda-


lite auquel sapplique le vecteur de param`etre b complet. C

est `a dire tel que


x
ik
b = x
ik
b
k
, x
ik
= (0, ..., 0, x
ik
, 0, ..., 0) x
ik
est un vecteur ligne dont le nombre
de colonne est n
b
k
, la dimension de b
k
, tandis que x
ik
est un vecteur dont la
dimension est celle de lensemble des param`etres, cest `a dire n
b
2
+ +n
b
K
. Les
probabilite secrivent donc sous la forme P
ki
= P (y
i
= k [x
i
) =
exp( x
ki
b)

K
l=1
exp( x
li
b
l
)
et on a x
1i
= 0. La condition du premier ordre est donnee par
log L
b
=
n

i=1
K

k=1
y
ik

b
log P
ik
= 0
et on a dune part
log P
ik
b
=

b
_
( x
ik
b) log

K
l=1
exp( x
il
b)
_
= x
ik

K
l=1

b
exp( x
il
b)
_

K
l=1
exp(x
i
b
l
)
_
= x
ik

K
l=1
P
il
x
il
= x
ik
x
i
108 11 VARIABLES D

EPENDANTES LIMIT

EES
avec x
i
=

K
l=1
P
il
x
il
, comme

K
l=1
P
il
= 1, x
i
represente une moyenne des
observations pour lindividu i. Le gradient secrit donc
log L
b
=
n

i=1
K

k=1
y
ik
_
x
ik

K
l=1
P
il
x
il
_
=
n

i=1
K

k=1
y
ik
x
ik

K
l=1
K

k=1
y
ik
P
il
x
il
=
n

i=1
K

k=1
y
ik
x
ik

K
l=1
P
il
x
il
=
n

i=1
K

k=1
(y
ik
P
ik
) x
ik
On voit en outre que

2
log L
bb

=
n

i=1
K

k=1

(y
ik
P
ik
) x
ik
=
n

i=1
K

k=1
P
ik
b

x
ik
=
n

i=1
K

k=1
P
ik
( x
ik
x
i
)

x
ik
Comme x
i
=

K
k=1
P
ik
x
ik
,

K
k=1
P
ik
( x
ik
x
i
) = 0 et donc aussi

K
k=1
P
ik
( x
ik
x
i
) x
i
= 0
On a donc

2
log L
bb

=
n

i=1
K

k=1
P
ik
( x
ik
x
i
)

( x
ik
x
i
)
Comme P
ik
( x
ik
x
i
)

( x
ik
x
i
) est une matrice semi denie positive le Hes-
sien est une somme de matrice semie denie positive. Pour que

2
log L
bb
= 0,
il faut que pour tout i et pour tout k on ait P
ik
( x
ik
x
i
) = 0 decompo-
sant le vecteur

= (
2
, ....,
K
)

et compte tenu de x
i
=

K
k=1
P
ik
x
ik
, x
i
=
(P
i2
x
i2
, ..., P
iK
x
iK
) , P
ik
( x
ik
x
i
) = 0 est equivalent `a P
ik
(1 P
ik
) x
ik

k
=
0 pour tout i et pour tout k. Ce mod`ele tres simple et tres facile `a esti-
mer est susceptible de generalisations importantes permettant notamment de
prendre en compte lexistence de caracteristiques inobservees des individus. Le
developpement et lestimation de ce type de mod`ele est aujourdhui un th`eme
de recherche tres actif aux nombreuses applications.
11.3 Selectivite, le mod`ele Tobit
On prend lexemple des equations de salaire.
Chaque individu peut travailler et percevoir alors un salaire w

i
, et en retire
une utilite U (w

i
) , il peut aussi decider de sabstenir de travailler son utilite
est alors c. Sa decision de participer au marche du travail sera donc fonction de
11.3 Selectivite, le mod`ele Tobit 109
lecart p

i
= U (w

i
) U (b
i
) . Les deux variables latentes du mod`ele : w

i
et p

i
sont toutes deux observees partiellement. Plus precisement, on observe
_
_
_
_
w
i
= w

i
p
i
= 1
p
i
= 0
si p

i
> 0
si p

i
0
On peut associer une modelisation `a chacune de ces variables latentes :
w

i
= x
wi
b
w
+u
wi
p

i
= x
pi
b
p
+u
pi
Lestimation de ce type de mod`ele est en general complexe lorsque lon ne specie
pas la loi des residus. On examine ici la situation dans laquelle la loi jointes des
deux residus u
wi
et u
pi
, conditionnellement aux variables explicatives, est une
loi normale bivariee :
_
u
wi
u
zi
_
N
__
0
0
_
,
_

2
w

w

p

2
p
__
Une caracterisitique importante de cette modelisation est de laisser possible une
correlation entre les deux equations de salaire et de participation. Un tel mod`ele
porte le nom de Mod`ele Tobit
Les donnees dans un tel mod`ele sont dites tronquees. Cette troncature est
susceptible de conduire `a des biais importants. A titre d

exemple, on consid`ere
la situation
_
y

1
= x +u
1
y

2
= x +u
2
Les variables x, u
1
et u
2
sont toutes trois normales, centree et reduites. x est
choisie independante de u
1
et u
2
. En revanche on envisage deux situations po-
laires pour la correlation de u
1
et u
2
: correlation nulle et correlation de 0.9.
On sinteresse `a la relation entre y
1
et x, et on consid`ere deux cas. Dans le pre-
mier cas on observe y

1
et x sans restriction, dans le second cas on observe y

1
et x uniquement pour y

2
positif. Les graphiques suivant montrent les nuages de
points observes :
On voit que les nuages de points dans les echantillons non tronques se res-
semblent beaucoup que la correlation soit nulle ou de 0.9. Les droites de regres-
sion lineaire donnent toutes deux des coecients proches des vraies valeurs : 1
pour la variable x et 0 pour la constante. On voit aussi que la troncature par
la variable y

2
ne change pas beaucoup lallure de lechantillon dans le cas de la
correlation nulle. On observe neanmoins que comme on a selectionne les obser-
vations pour lesquelles x + u
2
> 0, on a eu tendance `a retenir plus de valeurs
elevees de x. Neanmoins, cette selections des variables explicatives naecte pas
la proprie te dindependance des variables explicatives et du residu dans lequa-
tion de y
1
. On verie que les coecients de la droite de regression sont la encore
tres proches des vraies valeurs. En revanche les changements pour le cas = 0.9
en presence de troncature sont tres importants. On a ete amene `a ne retenir que
les observations pour lesquelles x +u
2
> 0 l`a encore on a eu tendance `a retenir
plus souvent les observations de x avec des valeurs elevees. Pour une observation
retenue pour une valeur de x donnee, on na retenue que les observations avec
une valeur importante de u
2
et donc de u
1
puisque ces variables sont fortement
110 11 VARIABLES D

EPENDANTES LIMIT

EES
Fig. 1 Complet = 0
Fig. 2 Complet = 0, 9
11.3 Selectivite, le mod`ele Tobit 111
Fig. 3 Tronque = 0
Fig. 4 Tronque = 0, 9
112 11 VARIABLES D

EPENDANTES LIMIT

EES
correlees. On en deduit que `a x donne, on a retenu des observations pour les-
quelles u
1
est susament important. Pour une valeur donnee de x la moyenne
des residus des observations selectionnees sera donc positive contrairement `a ce
quimplique lhypoth`ese dindependance. En outre, si on consid`ere une valeur de
x plus importante, on sera amene `a selectionner des observations de u
2
de fa con
moins stricte, et la moyenne des residus de u
1
selectionnes sera donc toujours
positive, mais plus faible. On en deduit que lesperance des residus condition-
nelle `a une valeur donnee de x est une fonction decroissante de x : le residu de
lequation de y
1
sur les observations selectionnes ne sont plus independants de
la variable explicative. Ce resultat se materialise par une droite de regression de
pente beaucoup plus faible que dans le cas precedent : le biais dit de selectivite
est ici tres important. Une autre consequence que lon peut voir sur le graphique
et qui est intimement liee dans ce cas `a la selection, est que la relation entre y
1
et x est heteroscedastique.
11.3.1 Rappels sur les lois normales conditionnelles.
Densite La densite dune loi normale centree reduite est notee et a pour
expression
(u) =
1

2
exp
_

u
2
2
_
La fonction de repartition est notee (u) =
_
u

(t) dt. Compte tenu de la


symetrie de la fonction on a (u) = 1 (u)
Une variable aleatoire de dimension k suivant une loi normale mutivariee de
moyenne et de variance : y N(, ), a pour densite :
f(y) ==
1
_
(2)
k
det()
exp
_

1
2
(y )

1
(y )
_
On consid`ere une loi normale bivariee
_
y
1
y
2
_
N
__

1

2
_
,
_

2
1

1

2

2
2
__
la densite de la loi jointe de u
1
et u
2
est donc donnee par
f(y
1
, y
2
) =
1
2
1

2
_
1
2
exp
_

(
2
1
+
2
2
2
1

2
)
2(1
2
)
_
avec
1
=
y
1

1
et
2
=
y
2

2
.
La loi marginale de y
1
est donnee par
f(u
1
) =
1

2
exp
_

1
2

2
1
_
un calcul simple permet de montrer que la loi y
2
conditionnelle `a y
1
donnee par
f(y
2
[y
1
) =
f(y
1
,y
2
)
f(y
1
)
est aussi une loi normale, mais de moyenne et de variance
dierente. La moyenne depend de la valeur prise par y
1
, mais pas la variance :
f(y
2
[y
1
) N
_

2
+

2

1
(y
1

1
) ,
2
2
(1
2
)
_
11.3 Selectivite, le mod`ele Tobit 113
Moments dune loi normale tronquee Soit u N (0, 1) , elle a pour den-
site (u) . Compte tenu de

(u) = u(u) , on a :
E(u[u > c) =
_

c
u(u)du
1 (c)
=
[(u)]

c
1 (c)
=
(c)
1 (c)
=
(c)
(c)
= M (c)
de meme
E(u[u < c) = E((u ) [ u > c) = M (c)
Et les moments dordre 2
E
_
u
2
[u > c
_
=
_

c
u
2
(u)du
1 (c)
= 1 +cM (c)
o` u on int`egre par partie
_

c
u
2
(u)du = [u(u)]

c
+
_

c
(u)du. On en deduit
la variance conditionnelle
V (u[u > c) = E(u
2
[u > c) [E(u[u > c)]
2
= 1 +cM (c) M (c)
2
de fa con similaire on a pour la loi normale tronquee superieurement
E(u
2
[u < c) = E((u)
2
[ u > c) = 1 cM (c)
V (u[u < c) = 1 cM (c) M (c)
2
Remarque on a vu precedemment que lon avait pour une loi normale z+

(z) >
0 et aussi z +

1
(z) > 0 soit encore zM (z) + M (z)
2
> 0 et zM (z)
M (z)
2
< 0 on en deduit que lon a toujours comme on sy attend V (u[u
c) < 1.
Dans le cas dune variable non centree reduite v N
_
,
2
_
, on peut deduire
des resultats precedents les moments des lois tronquees en notant que (v ) /
et que v c u = (v ) / c = (c ) /. on a donc
E(v[v > c) = E(u +[u > c) = +M
_

_
E(v[v < c) = E(u +[u < c) = M
_
c

_
En calculant E(v
2
[v > c) = E(
2
u
2
+ 2u +
2
[u > c), on trouve sans peine
lexpression de la variance
V (v[v > c) =
2
_
1 +
c

M
_

_
M
_

_
2
_
Pour les moments de la loi tronquee superieurement on a egalement
V (v[v < c) =
2
_
1
c

M
_
c

_
M
_
c

_
2
_
114 11 VARIABLES D

EPENDANTES LIMIT

EES
On a aussi comme on sy attend pour toute transformation lineaire
V (a +bv[v > c) = b
2
V (v[v > c)
V (a +bv[v < c) = b
2
V (v[v < c)
Moments dune variable normale tronquee par une autre variable nor-
male On sinteresse au cas dune variable aleatoire suivant une loi normale
bivariee
_
y
1
y
2
_
N
__

1

2
_
,
_

2
1

1

2

2
2
__
et on cherche les moments dordre 1 et 2 de la variable y
2
tronquee par y
1
> 0.
On a vu que la loi de y
2
conditionnelle `a y
1
est une loi normale de moyenne

2
+

1
(y
1

1
) et de variance
2
2
_
1
2
_
. On en deduit que
E (y
2
[y
1
> 0) = E
_

2
+

1
(y
1

1
) [y
1
> 0
_
=
2
+
2
E
_
y
1

1
[y
1
> 0
_
=
2
+
2
E
_
y
1

y
1

1
>

1
_
=
2
+
2
M
_

1
_
De meme,
V (y
2
[y
1
> 0) = V (E (y
2
[y
1
) [y
1
> 0) +E (V (y
2
[y
1
) [y
1
> 0)
= V
_

2
+

1
(y
1

1
) [y
1
> 0
_
+
_
1
2
_

2
2
=
2

2
2
V
_
y
1

y
1

1
>

1
_
=
2

2
2
_
1

1

1
M
_

1
_
M
_

1
_
2
_
+
_
1
2
_

2
2
=
2
2

2
2
_

1
M
_

1
_
+M
_

1
_
2
_
Compte tenu du resultat precedent sur la loi normale unidimensionnelle et
puisque V (y
2
[y
1
) =
_
1
2
_

2
2
.
On obtient directement les moments de la loi normale y
2
tronquee par y
1
< 0
en rempla cant
1
par
1
et par
E (y
2
[y
1
< 0) =
2

2
M
_

1
_
De meme,
V (y
2
[y
1
< 0) =
2
2

2
2
_

1
M
_

1
_
+M
_

1
_
2
_
11.3 Selectivite, le mod`ele Tobit 115
11.3.2 Pourquoi ne pas estimer un mod`ele Tobit par les MCO?
Si on se restreint aux observations positives, on a
E (w
i
[x
wi
, x
pi
, p
i
= 1) = E (w

i
[x
wi
, x
pi
, p

i
> 0)
En appliquant les resultats precedents `a y
2
= w

, et y
1
= p

E (w

i
[x
wi
, x
pi
, p

i
> 0) =
w
+
w
M
_

p
_
= x
wi
b
w
+
w
M
_
x
pi
b
p

p
_
On voit donc que des lors que la correlation entre les elements inobserves
de lequation de salaire et de lequation de participation sont correles, ne
pas prendre en compte la selectivite recient `a oublier une variable dans
la r egression : M
_
x
pi
b
p

p
_
aussi appele ratio de Mills. Cet oubli est donc
susceptible de conduire `a une estimation biaisee des param`etres des lors
que les variables M
_
x
pi
b
p

p
_
et x
wi
sont correlees. Si on consid`ere `a titre
illustratif que lequation de selection secrit w

i
> w, on a = 1 et
x
pi
b
p

p
=
x
wi
b
w
w

w
. Lequation precedente secrit alors
E (w

i
[x
wi
, x
pi
, p

i
> 0) = x
wi
b
w
+
w
M
_
x
wi
b
w
w

w
_
Dans ce cas comme M (z) =
(z)
(z)
est une fonction decroissante de z le
biais est negatif. Dans le cas general tout depent de et de la correlation
entre le ratio de Mills et M
_
x
pi
b
p

p
_
les variables explicative entrant dans
la modelisation de w

i
.
Si on introduit egalement les observations pour lesquelles w
i
= 0, on a
E (w
i
[x
wi
, x
pi
) = E (w
i
[x
wi
, x
pi
, p
i
= 1) P (p
i
= 1 [x
wi
, x
pi
) +
E (w
i
[x
wi
, x
pi
, p
i
= 0) P (p
i
= 0 [x
wi
, x
pi
)
= E (w
i
[x
wi
, x
pi
, p
i
= 1) P (p
i
= 1 [x
wi
, x
pi
)
= (x
wi
b
w
)
_
x
pi
b
p

p
_
+
w

_
x
pi
b
p

p
_
et on voit que la forme lineaire nest pas non plus adaptee.
11.3.3 Estimation par le maximum de vraisemblance
On ecrit la probabilite dobserver chaque realisation du couple (w
i
, p
i
) .
Pour p
i
= 0 on nobserve pas w
i
la seule probabilte est P (p

i
< 0) , cest
`a dire P (x
pi
b
p
+u
pi
< 0) =
_

x
pi
b
p

p
_
= 1
_
x
pi
b
p

p
_
Pour p
i
= 1 on observe w
i
= w

i
et p

i
> 0. La densite correspondante est
f (w

i
= w
i
, p
i
= 1) =
_
p

i
>0
f (w
i
, p

i
) dp

i
= f (w
i
)
_
p

i
>0
f (p

i
[w
i
) dp

i
116 11 VARIABLES D

EPENDANTES LIMIT

EES
et la loi de p

i
conditionnelle `a w

i
= w
i
est pas d enition une loi normale de
moyenne
p
(w
i
) =
p
+
p
w
i

w
et de variance
2
p
=
2
p
_
1
2
_
la pro-
babilitye pour quune telle variable aleatoire soit positive est
_

p
(w
i
)

p
_
=

p
+
p
w
i

(1
2
)
_
. Finalement, la densite des observations est
L =

p
i
=0
_
1
_
x
pi
b
p

p
__

p
i
=1
1

_
w
i
x
wi
b
w

w
_

_
x
pi
b
p
+
p
w
i
x
wi
b
w

p
_
(1
2
)
_
=

i
_
1
_
x
pi
b
p

p
__
1p
i

_
1

_
w
i
x
wi
b
w

w
_

_
x
pi
b
p
+
p
w
i
x
wi
b
w

p
_
(1
2
)
_
p
i
_
On voit que comme dans le cas du mod`ele Probit, on ne peut pas identier
la totalite des param`etres de lequation de selection : seul le param`etre

b
p
=
b
p

p
est identiable. Compte tenu de cette redenition des param`etre
du mod`ele, la vraisemblance secrit :
L =

i
_
1
_
x
pi

b
p
__
1p
i

_
1

_
w
i
x
wi
b
w

w
_

_
x
pi

b
p
+
w
i
x
wi
b
w

w
_
(1
2
)
_
p
i
_
Dans le cas o` u = 0 on voit que la vraisemblance est separable entre une
contribution correspondant `a lobservation de p
i
= 0/1 et une contribution
associee aux observations de w
i
:
L =

i
_
1
_
x
pi

b
p
__
1p
i

_
x
pi

b
p
_
p
i
_
1

_
w
i
x
wi
b
w

w
__
p
i
On retrouve donc le fait que dans le cas = 0 on peut ignorer la selec-
tion des observation. On voit aussi que dans les cas general o` u ,= 0 la
selectivite importe.
Remarque. 1. La fonction de vraisemblance nest pas globalement concave
en
_
,
w
, b
w
,

b
p
_
.
2. Elle est concave globalement en =
_

w
, b
w
,

b
p
_
pour xe.
3. Une solution consiste `a xer la valeur de et estimer les param`etres cor-
repondant

() et `a balayer sur les valeur possibles de .
11.3 Selectivite, le mod`ele Tobit 117
Estimation en deux etapes par la methode dHeckman
Methode en deux etapes dans laquelle on estime dabord le Probit associe
`a p
i
= 1/0 et ensuite une regression augmentee prenant en compte la
selectivite ;
Il sagit dune methode destimation convergente, mais non ecace ;
Le calcul des ecart-types associes `a cette methode est un peu complique ;
Elle peut etre utilisee telle quelle ou pour fournir des valeurs initiales pour
la maximisation de la vraisemblance ;
Elle permet une generalisation facile au cas dautres lois que la loi normale.
1ere etape : estimation de

b
p
= b
p
/
p
par MV du mod`ele Probit (sur la
partie discr`ete) soit
P (p
i
= 1) = P (p

i
> 0) =
_
x
pi

b
p
_
Ceci fournit un estimateur convergent de

b
p
2`eme etape : on exploite la relation :
E(y
wi
[y

pi
> 0) = X
wi
b
w
+
w

_
X
pi

b
p
_

_
X
pi

b
p
_
La variable
(X
pi

b
p)
(X
pi

b
p)
est inconnue, on la remplace par

i
=

_
X
pi

b
p
_

_
X
pi

b
p
_
et on estime les param`etres b
w
, et
w
`a partir de la relation :
y
wi
= x
wi
b
w
+ (
w
)

i
+v
1
sur les observations positives
Ces estimateurs sont asymptotiquement sans biais, mais ils ne sont pas
asymptotiquement ecaces.
Pour le calcul des ecart-types, deux probl`emes se presentent
Le mod`ele est hereroscedastique. En eet :
V (u
w
[p
i
= 1) = V (u
w
[p

i
> 0)
=
2
w

2
w
_
x
i

b
p
M
_
x
i

b
p
_
+M
_
x
i

b
p
_
2
_
depend des variables observables
Le param`etres

b
w
nest pas connu et est remplace par une estimation. Il
est lui meme issu dune estimation (par le MV) que lon peut resume par
lannulation de la contrpartie empirique de condition dorthogonalite
E
_
h

b
p
_
p
i
, x
pi
,

b
p
__
= 0
118 11 VARIABLES D

EPENDANTES LIMIT

EES
Lestimation du mod`ele par les mco conduit quant `a elle `a lannulation de
la contrepratie empirique de
E
__
x

wi

i
_

b
p
_
_
_
w
i
x
wi
b
w

i
_

b
p
__
1
p
i
=1
_
= E (h
b
w
,
w
(p
i
, w
i
, x
wi
, b
w
,
w
)) = 0
Le calcul des ecart-types doit se faire en considerant les formules de lesti-
mation par la methode des moments generalisee associee `a la totalite des
conditions dorthogonalite, cest `a dire
E
_
h

b
p
_
p
i
, x
pi
,

b
p
_
h
b
w
,
w
(p
i
, w
i
, x
wi
, b
w
,
w
)
_
= 0
Cette derni`ere fa con destimer le mod`ele est inecace, mais elle est aussi
la voie `a lestimation de mod`ele plus generaux dans lesquels on ne fait
plus dhypoth`eses sur la loi des observations. On peut montrer quon a en
general une relation de la forme
E (w
i
[p
i
= 1, x
wi
, P (x
pi
) ) = x
wi
b
w
+K (P (x
pi
))
o` u P (x
pi
) = P (p
i
= 1 [x
pi
) et K une fonction quelconque. Dans le cas
normal, cette fonction secrit simplement K (P) =
w

1
(P)
P
et on a
en plus P =
_
x
pi

b
p
_
. Lestimation de ce type de mod`ele est neanmoins
delicate.