Vous êtes sur la page 1sur 9

Examen d’économétrie (2h30)

Maîtrise d’économétrie
Jean-Marc Robin

20 janvier 2003 - 15h30-18h


Amphi 2B Panthéon

Ne perdez pas de temps. Si vous buttez sur une question, passez à la suivante. La
longueur du partiel n’est pas un signe de sa difficulté!

Exercice 1 (10 points)


Soit un échantillon d’observations iid {(yi , di ), i = 1, ..., N}, avec yi ∈ R et di ∈ {1, ..., J}.
La variable di est une variable discrète qui indique le groupe social d’appartenance de
l’individu i (les diplômés par opposition aux non diplômés, différentes PCS, etc.). Chaque
groupe social j ∈ {1, ..., J} est caractérisé par un vecteur de caractéristiques constantes
zj ∈ RK (revenu moyen, âge moyen, etc.). Pour tout j ∈ {1, ..., J}, on note Nj le nombre
d’individus i de l’échantillon dans le groupe j et y j la moyenne de yi dans le groupe j. Enfin,
δ ji = 1 {di = j} dénote la variable indiquant si le groupe d’appartenance de l’individu i est
le groupe j (δ ji = 1 si di = j, = 0 sinon).

1. (2 points dont... ) Soit β b = (β bJ )0 l’estimateur des MCO de la régression de


b1 , ..., β
yi sur le vecteur xi = (δ1i , ..., δ Ji )0 .

(a) (0,5 point) Remplacer les ? dans les deux équations suivantes par l’expression
appropriée:

X
N
Nj = ?
i=1
PN
?yi
yj = Pi=1
N
i=1 ?

(b) (0,5 point) Interprétez géométriquent le système des équations normales définis-
sant l’estimateur des MCO:
X
N ³ ´
0b
xi yi − xi β = 0.
i=1

1
bj = y j .
(c) (1 point) Simplifier les équations normales et en déduire que β

2. (2 points dont... ) On considère maintenant le modèle de régression linéaire suivant:

yi = a + zd0 i b + ui (1)
PJ j
où zdi = j=1 zj δ i et avec E (ui |di ) = 0 et V (ui |di ) = σ 2 .

(a) (1,5 points) Montrer que les équations normales définissant l’estimateur des
MCO de a et b s’écrivent:
 P ³ ´
 J Nj y j − b 0b
j=1 a − zj b = 0
P ³ ´ (2)
 J Nj zj y j − b 0b
j=1 a − zj b = 0

où Nj est le nombre d’individus i appartenant au groupe j.


(b) (0,5 point) Combien y-a-t’il d’équations et de variables dans le système (8)?
(c) (1 point) Montrer que

a = y − z 0bb,
b (3)
à J !−1 à J !
X X ¡ ¢
bb = Nj (zj − z) (zj − z)0 Nj (zj − z) y j − y , (4)
j=1 j=1

où y et z sont les moyennes de yi et zdi dans l’échantillon.

3. (6 points dont... ) On considère ensuite le modèle de régression linéaire suivant:

y j = a + zj0 b + vj , j = 1, ..., J. (5)

(a) (0,5 point) Montrer que l’équation (10) se déduit de l’équation (7) pour un choix
de vj que vous expliciterez.
(b) (0,5 point) Montrer que E (vj |X) = 0 où X = (δ 1i , ..., δ Ji )i=1,...,N .
σ2
(c) (1 point) Montrer que V (vj |X) = Nj
.
(d) (1 point) Montrer que Cov(vj , vj 0 |X) = 0, ∀j 6= j 0 ∈ {1, ...J} .
(e) (1 point) Calculer l’estimateur des MCO de la régression de y j sur 1 et zj .
(f) (2 points) Calculer l’estimateur des MCG et montrer que c’est le même estima-
teur que celui obtenu dans la question 2c.

Exercice 2 (7 points)
Soit un échantillon d’observations iid {(yi , xi ), i = 1, ..., N}, avec yi ∈ R, xi ∈ R. On
suppose qu’il existe une variable di ∈ {1, ..., J}, inobservée, qui partitionne les individus
en J groupes. La variable xi est la taille du père de l’individu i et yi est sa propre taille.
En régressant yi − y sur xi − x le statisticien Galton a trouvé un coefficient inférieur à un,

2
phénomène qu’il a qualifié de régression vers la moyenne. En réalité, il s’agit d’un artefact
statistique qu’on va chercher à comprendre.
Soit z1 , ..., zJ ∈ R. On suppose vérifié le modèle suivant:

yi − y = zdi + ui ,
xi − x = zdi + vi ,

où ui et vi sont deux perturbations de moyennes nulle et de variances constantes non nulles


conditionnellement à di :

E (ui |di ) = 0 et V (ui |di ) = σ 2u ,


E (vi |di ) = 0 et V (vi |di ) = σ 2v .

1. (1 point) Calculer E (yi − y|di = j) et E (xi − x|di = j).

2. (1 point) Interprétez zj . Quelle justification donner au fait que l’on suppose que c’est
le même zj qui apparaît dans les deux équations?

3. (1 point) Calculer l’estimateur des MCO bb du coefficient de la régression sans con-


stante de yi − y sur xi − x.

4. (2 points) Montrer que 0 < plimN→∞ bb < 1.

5. (2 points) Les économistes de la croissance ont souvent régressé le taux de croissance


moyen du PIB (sur une période donnée) sur le PIB de début de période:

ln P IBi1 − ln P IBi0 = a + b ln P IBi0 + ui

pour un échantillon de pays i = 1, ..., N. Une estimation négative du coefficient b est


souvent interprétée comme le signe d’une convergence vers un niveau de PIB commun.
Montrer à l’aide du modèle précédent qu’une telle interprétation peut être fallacieuse.

Exercice 3 (3 points)
Soit le modèle : ½
Yi = 1(Yi∗ > cZi )
Yi∗ ∼ N (a + Xi b, 1)
où Xi ∈ R et Zi ∈ R.

1. (1 point) Calculer Pr{Yi = 0|Xi = xi , Zi = zi }.

2. (1 point) Ecrire la log-vraisemblance d’un échantillon iid de taille N.

3. (1 point) Si Xi = Zi (X et Z sont une seule et même variable), le paramètre a est-il


identifié ?

3
CORRIGE
Exercice 1
Soit un échantillon d’observations iid {(yi , di ), i = 1, ..., N}, avec yi ∈ R, di ∈ {1, ..., J}.
La variable di est une variable discrète qui indique un groupe social d’appartenance de
l’individu i (les diplômés par opposition aux non diplômés, différentes PCS, etc.). Chaque
groupe social j ∈ {1, ..., J} est caractérisé par un vecteur de constantes zj ∈ RK (revenu
moyen, âge moyen, etc.). Notons δ ji = 1 {di = j} la variable indiquant si le groupe d’appartenance
est le groupe j (δ ji = 1 si di = j, = 0 sinon).

1. Soit β b = (β bJ )0 l’estimateur des MCO de la régression de yi sur le vecteur xi =


b1 , ..., β
(δ 1i , ..., δ Ji )0 .
P PN j
(a) Nj = N i=1 δ j
i et y j = 1
Nj i=1 δ i yi .

(b) Le système des équations normales définissant l’estimateur des MCO:


X
N ³ ´
0b
xi yi − xi β = 0, (6)
i=1

exprime l’orthogonalité (géométrique) entre les colonnes de X = (x0i ) = (δ 1i , ..., δ Ji )


b Le vecteur b
b = (yi − x0i β).
et le vecteur des résidus u b = X(X 0 X)−1 Xy =
y = (x0i β)
PX y est la projection orthogonale de y dans l’espace vectoriel engendré par les
colonnes de X.
(c) Le système (6) est un système de J équations à J inconnues, les éléments de
b = (β
β bJ )0 . La jième équation s’écrit
b1 , ..., β

X
N ³ ´ X
N ³ ´
b =
δ ji yi − x0i β bj = 0,
δ ji yi − δ ji β
i=1 i=1

puisque
h i
b
δ ji x0i β = δ ji 1b Jb
δ i β 1 + ... + δ i β J
bj .
= δ ji β

On a donc PN j
bj = Pi=1 δ i yi = y j .
β N j
i=1 δ i
PN
où Nj = i=1 δ ji est le nombre d’observations i dans le groupe j.

2. On considère maintenant le modèle de régression linéaire suivant:

yi = a + zd0 i b + ui (7)
PJ j
où zdi = j=1 zj δ i et avec E (ui |di ) = 0 et V (ui |di ) = σ 2 .

4
(a) Le vecteur des variables explicatives de la régression (7) est le vecteur (1, zd0 i ). Les
équations normales définissant l’estimateur des MCO de a et b s’écrivent donc:
 P ³ ´
 N yi − b 0 b
i=1 a − zdi b =0
P ³ ´ .
 N zdi yi − b 0 b
i=1 a − zdi b = 0

Noter que
X
J
δji = 1
j=1

pour tout i. Donc


X
N X
N X
J
yi = δ ji yi
i=1 i=1 j=1

X
J X
N X
J
= δ ji yi = Nj y j .
j=1 i=1 j=1

D’autre part,
ÃN !
X
N X
N X
J X
J X j X
J
zd0 ibb = δ ji zj0 bb = 0b
δ i zj b = Nj zj0 bb.
i=1 i=1 j=1 j=1 i=1 j=1

De plus, on notera que


à J !à J !
X X X
J
zdi zd0 i = δ ji zj δ ji zj0 = δ ji zj zj0
j=1 j=1 j=1

d’où
ÃN !
X
N X
N X
J X
J X j X
J
zdi zd0 ibb = j 0b
δi zj zj b = 0b
δ i zj zj b = Nj zj zj0 bb.
i=1 i=1 j=1 j=1 i=1 j=1

PJ P
Puisque enfin j=1 Nj = Ni=1 1 = N, on a bien le résultat annoncé:
 P ³ ´
 J Nj y j − b 0b
j=1 a − z j b =0
P ³ ´ (8)
 J Nj zj y j − b
j=1 a − zj0 bb = 0

où Nj est le nombre d’individus i appartenant au groupe j.


(b) Il y a K + 1 équations et K + 1variables dans le système (8).
(c) La première équation dy système (8) implique que
PJ ³ ´
0b
j=1 Nj y j − zj b
b
a= = y − z 0bb
N
5
où y et z sont les moyennes de yi et zdi dans l’échantillon. En replaçant b
a par
0b
y − z b dans la deuxième équation on obtient

X
J
¡ ¢ XJ
Nj zj y j − y = Nj zj (zj − z)0 bb.
j=1 j=1

Comme par ailleurs

X
J
¡ ¢ XJ
Nj z y j − y = Nj z (zj − z)0 bb = 0
j=1 j=1

on a aussi
X
J
¡ ¢ XJ
Nj (zj − z) y j − y = Nj (zj − z) (zj − z)0 bb.
j=1 j=1

D’où Ã J !−1 Ã J !
X X ¡ ¢
bb = Nj (zj − z) (zj − z) 0
Nj (zj − z) y j − y . (9)
j=1 j=1

(a) En sommant l’équation (7) pour tous les i dans le groupe j on obtient

X
N X
N X
N X
N
δ ji yi = δ ji a + δ ji zd0 i b + δ ji ui
i=1 i=1 i=1 i=1

soit encore
X
N
Nj y j = Nj a + Nj zj0 + δ ji ui
i=1

d’où
y j = a + zj0 b + vj , j = 1, ..., J, (10)
PN
avec vj = uj = 1
Nj i=1 δ ji ui .
(b) Puisque l’espérance est un opérateur linéaire

1 X ¡ j ¢
N
E (vj ) = E δ i ui = 0
Nj i=1
¡ ¢
puisque E (ui |di ) = E ui |δ 1i , ..., δJi = 0.
¡ ¢
(c) Puisque les observations sont indépendantes et puisque V (ui |di ) = V ui |δ 1i , ..., δ Ji =
σ 2 , on a (pour X = (δ 1i , ..., δ Ji ))
ÃN !
1 X j 1 X j
N
σ2
V (vj |X) = 2 δ i V (ui |X) = 2 δi σ2 = .
Nj i=1 Nj i=1 Nj

6
(d) Puisque vj et vj 0 moyennent des ui correspondant à des ensembles de i disjoints,
puisque les observations sont indépendantes, et puisque ui est indépendant de
(δ 1i , ..., δ Ji ) pour tout i, on a donc que Cov(vj , vj 0 |X) = 0, ∀j 6= j 0 ∈ {1, ...J} .
(e) L’estimateur des MCO de la régression de y j sur 1 et zj est (e a, eb) solution des
équations normales  P ³ ´
 J 0e
j=1 y j − e
a − zj b = 0
P ³ ´
 J zj y j − e 0e
j=1 a − zj b =0
cad à J !−1 à J !
X X ¡ ¢
eb = (zj − ze) (zj − ze)0 (zj − ze) y j − ye , (11)
j=1 j=1
et
a = ye − ze0eb.
b
P P
pour ye = Jj=1 y j et ze = Jj=1 zj .
(f) Les observations du modèle agrégé sont indépendantes et hétéroscédastiques.
L’estimateur des MCG s’obtient comme estimateur des MCO du modèle agrégé
cylindré: √ √ √ √
Ni Ni Ni 0 Ni
yj = a+ zj b + vj , j = 1, ..., J.
σ σ σ σ
Les équations normales de ce modèle sont
 P √ ³ √ √ ´
 J Ni Ni Ni 0 b
j=1 σ y j − σ
b
a − σ
zj b =0
³ ´
 PJ
√ √ √
Ni
j=1 σ zj y j − σ b
Ni
a − σNi zj0 bb = 0

soit très exactement le système (8). L’estimateur des MCG est donc le même
estimateur que celui obtenu dans la question 2.d.

Exercice 2
Soit un échantillon d’observations iid {(yi , xi ), i = 1, ..., N}, avec yi ∈ R, xi ∈ R. On
suppose qu’il existe une variable di ∈ {1, ..., J}, inobservée, qui partitionne les individus
en J groupes. La variable xi est la taille du père de l’individu i et yi est sa propre taille.
En régressant yi − y sur xi − x le statisticien Galton a trouvé un coefficient inférieur à un,
phénomène qu’il a qualifié de régression vers la moyenne. En réalité, il s’agit d’un artefact
statistique qu’on va chercher à comprendre.
Soit z1 , ..., zJ ∈ R. On suppose vérifié le modèle suivant:
yi − y = zdi + ui ,
xi − x = zdi + vi ,
où ui et vi sont deux perturbations de moyennes nulle et de variances constantes non nulles
conditionnellement à di :
E (ui |di ) = 0 et V (ui |di ) = σ 2u ,
E (vi |di ) = 0 et V (vi |di ) = σ 2v .

7
1. Calculons E (yi − y|di = j) et E (xi − x|di = j):

E (yi − y|di = j) = E (zdi |di = j) = zj ,


E (xi − x|di = j) = E (zdi |di = j) = zj .

2. zj est donc la moyenne des écarts à la moyenne de la population des tailles des pères
et de leurs fils des membres du groupe j. Le fait que les pères et leurs fils ont des
tailles qui, en moyenne, s’écartent autant de la moyenne des tailles des gens de leur
génération peut se justifier par la génétrique.

3. L’estimateur des MCO bb du coefficient de la régression sans constante de yi − y sur


xi − x est PN
bb = i=1 (yi − y) (xi − x)
PN 2
.
i=1 (xi − x)

4. On a, par application de la loi des grands nombres,

1 X
N
plim (yi − y) (xi − x) = Cov (zdi + ui , zdi + vi ) = Vzdi
N i=1

et
1 X
N
plim (xi − x)2 = V (zdi + vi ) = Vzdi + σ 2v .
N i=1
Il s’ensuit que
Vzdi
plim bb = ∈]0, 1[.
Vzdi + σ 2v
5. Les économistes de la croissance ont souvent régressé le taux de croissance moyen du
PIB (sur une période donnée) sur le PIB de début de période:

ln P IBi1 − ln P IBi0 = a + b ln P IBi0 + ui

pour un échantillon de pays i = 1, ..., N. Une estimation négative du coefficient b est


souvent interprétée comme le signe d’une convergence vers un niveau de PIB commun.
En appliquant le raisonnement précédent avec yi = ln P IBi1 et xi = ln P IBi0 on voit
que plim(1 + bb) ∈]0, 1[ d’où plim bb ∈] − 1, 0[. Ceci alors même que ln P IBi1 et ln P IBi0
sont indépendant conditionnellement au groupe de pays auquel ils appartiennent.

Exercice 3
Soit le modèle : 
 Yi = 1(Yi∗ > aZi )
Y ∗ = Xi0 b + Ui
 i
Ui ∼ N (0, 1)
où Zi ∈ R.

8
1. On a

Pr {Yi = 0|Xi = xi , Zi = zi } = Pr{Yi∗ ≤ aZi |Xi = xi , Zi = zi }


= Pr{Ui ≤ azi − x0i b}
= Φ (azi − x0i b) .

2. La log-vraisemblance d’un échantillon iid de taille N s’écrit

X
N
ln L = {yi ln [1 − Φ (azi − x0i b)] + (1 − yi ) ln Φ (azi − x0i b)}
i=1

3. Il faut que le vecteur (zi ) et les colonnes de la matrice (x0i ) soit linéairement indépen-
dantes pour que le paramètre a est-il identifié ?

4. Supposons que l’on dispose d’un logiciel permettant d’estimer un modèle probit
(
Yei = 1(Yei∗ > 0)
Yei∗ ∼ N (X ei0 c, 1)

ei = (−Zi , Xi0 ). Alors c = (a, b0 ).


on peut estimer le modèle précédent en choisissant X