Vous êtes sur la page 1sur 19

Chapitre 4

Spécification et problèmes de
données
Licence Econométrie – Econométrie II
2007-2008

Martin Fournier
Fournier@gate.cnrs.fr
L3 Econométrie - Econométrie II 1

1. Formes fonctionnelles

L3 Econométrie - Econométrie II 2

1.1 Formes fonctionnelles


On a déjà vu qu’une régression linéaire peut donner
de « bons » résultats même si la relation sous-jacent
est non linéaire
Une infinités de formes fonctionnelle est
envisageable :
 Logarithmes sur les variables expliquées ou explicatives
 Formes quadratiques sur les variables expliquées
 Interactions entre les variables expliquées
 Etc…

 Comment sait-on si l’on a choisi la « bonne » forme


fonctionnelle (i.e. la bonne spécification) pour le
modèle ? L3 Econométrie - Econométrie II 3

1
1.2 Formes fonctionnelles (2)
Deux approches :
 Que dit la théorie économique ?
 Nature de la relation connue (exponentielle, linéaire…) ?
 Concavité / convexité attendue ?
 Quelle interprétation peut-on dériver des résultats ?
 y = α.x + β
 y = α.x + β .x2 + γ
 y = α.x1 + β .x2 + γ.x1.x2 + δ
 y = α.ln(x) + β
 Ln(y) = α.ln(x) + β
 Etc…
∂y ∂y / ∂x ∂y dx
 Interprétation de , , par rapport à x, , x1 , x2 ,...
∂x y ∂x1 x
L3 Econométrie - Econométrie II 4

1.3 Formes fonctionnelles (3)


Une première forme de réponse :
On a vu qu’on peut facilement tester l’inclusion de
termes quadratiques ou de termes croisés par des
tests sur la significativité des coefficients associés
(T-tests, F-tests)
Mais…
- Il peut rapidement devenir très contraignant de
tester toutes les combinaisons possibles
- Une forme quadratique sera significative dans le
cas d’un « vrai » modèle sous-jacent en
logarithmes…
L3 Econométrie - Econométrie II 5

1.4 Exemple H0 : β22 = β32 = 0

Prix immobiliers :
price = β 0 + β1lotsize + β 2 sqrft + β 3bdrms + u
contre
price = β 0 + β1lotsize + β 2 sqrft + β 22 ( sqrft ) 2
+ β 3bdrms + β 32 (bdrms) 2 + u

avec lotsize : superficie du terrain


sqrft : superficie de la maison
bdrms : nombre de chambres
L3 Econométrie - Econométrie II 6

2
L3 Econométrie - Econométrie II 7

1.6 Le tests de Ramsey : RESET


Le test de spécification RESET repose sur la même idée
simplificatrice que la forme spéciale du test de White
 Au lieu d’inclure toutes les spécifications possibles des
variables explicatives on test la significativité de fonctions de
la variable simulée ŷ
Procédure en 4 étapes :
1) Estimation de la forme linéaire :
y = β0 + β1x1 + … + βkxk + u
2) Simulation de la variable prédite ŷ
3) Estimation de la forme linéaire :
y = β0 + β1x1 + … + βkxk + δ1ŷ2 + δ1ŷ3 +v
4) Test de H0: δ1 = 0, δ2 = 0 par une statistique de Fisher (F~F2,n-k-3)
L3 Econométrie - Econométrie II 8

H0 : δ1 = δ2 = 0
1.7 Exemple
Prix immobiliers :
price = β 0 + β1lotsize + β 2 sqrft + β 3bdrms + u
Estimation et simulation de :
priˆce = βˆ0 + βˆ1lotsize + βˆ2 sqrft + βˆ3bdrms + u

Nouvelle estimation de :
price = β 0 + β1lotsize + β 2 sqrft + β 3bdrms
+ δ1 ( priˆce) 2 + δ 2 ( priˆce)3 + u

L3 Econométrie - Econométrie II 9

3
L3 Econométrie - Econométrie II 10

Spécification en logarithme

L3 Econométrie - Econométrie II 11

1.10 Test d’alternatives non-


imbriquées
Cas où les modèles mis en concurrence ont
les mêmes variables explicatives mais des
formes fonctionnelles différentes.
Par exemple :

y = β0 + β1x1 + … + βkxk + u
contre
y = β0 + β1ln(x1) + … + βkln(xk) + u

L3 Econométrie - Econométrie II 12

4
1.11 Approche de Minzon et
Richard
Minzon et Richard (1986) :
1) Estimation d’un modèle complet incluant toutes les
formes fonctionnelles des explicatives :
y = α0 + β1x1 + … + βkxk + δ1ln(x1) + … + δkln(xk) + u
2) Test de
H0 : β1 = … = βk = 0
et H0 : δ1 = … = δk = 0
NB : Nombre important de paramètres à estimer
Question : Si les deux hypothèses nulles sont rejetées ?
L3 Econométrie - Econométrie II 13

1.12 Test de Davidson-


MacKinnon
Davidson et MacKinnon (1981) :
Idée : Si l’un des modèle est le « vrai » modèle,
alors la variable prédite avec le modèle concurrent
ne doit pas être significative  T-test
Dans notre exemple :
Si y = β0 + β1x1 + … + βkxk + u
est la bonne spécification, alors
yˆ = δˆo + δˆ1 ln( x1 ) + ... + δˆk ln( xk )
ne doit pas être significative dans l’estimation de :
y = β0 + β1x1 + … + βkxk + α.ŷ + u
L3 Econométrie - Econométrie II 14

1.13 Remarques sur les test


d’alternatives non-imbriquée
Il est possible qu’aucune des deux spécifications
n’apparaisse vraiment dominer l’autre :
 Les deux sont rejetées (ex : significativité des
coefficients pour les deux alternatives dans le test de
Davidson et MacKinnon)
 Nécessité de spécifier un modèle plus complet
 Les deux sont acceptées (ex : non significativité des
coefficients pour les deux alternatives dans le test de
Davidson et MacKinnon)
 les deux spécifications sont « également »
acceptables. On peut comparer les valeurs des R2 pour
choisir la spécification.
L3 Econométrie - Econométrie II 15

5
1.14 Remarques sur les test
d’alternatives non-imbriquée (2)
Rejeter une spécification contre une autre ne
signifie pas que la deuxième est la « bonne » (elle
pourrait être elle-même rejetée contre une
troisième)
Le problème devient encore plus complexe
lorsque l’on veut tester des formes fonctionnelles
différentes sur la variable expliquée (y contre
ln(y) par exemple)
 une idée est de suivre la même logique et de
transformer la valeur prédite de ln(y) pour en
déduire le ŷ utilisé en deuxième étape (et
réciproquement)L3 Econométrie - Econométrie II 16

1.15 Exemple
Prix immobiliers :
on teste :
ln( price) = β 0 + β1lotsize + β 2 sqrft + β 3bdrms + u
contre :
ln( price) = δ 0 + δ1 ln(lotsize) + δ 2 ln( sqrft ) + δ 3bdrms + u

On construit :
^
ln( price) = βˆ0 + βˆ1lotsize + βˆ2 sqrft + βˆ3bdrms
et ^ˆ
ln( price) = δˆ0 + δˆ1 ln(lotsize) + δˆ2 ln(sqrft ) + δˆ3bdrms
L3 Econométrie - Econométrie II 17

L3 Econométrie - Econométrie II 18

6
1.17 Exemple (suite)
On estime :
ln( price) = β 0 + β1lotsize + β 2 sqrft + β 3bdrms

+ α1 ln( price)+ u
et :

ln( price) = δ 0 + δ1 ln(lotsize) + δ 2 ln(sqrft ) + δ 3bdrms


^
+ α 2 ln( price) + u

 On teste la significativité de α1 et α2

L3 Econométrie - Econométrie II 19

L3 Econométrie - Econométrie II 20

2. Le biais de variable omise

L3 Econométrie - Econométrie II 21

7
2.1 Présentation du problème

L3 Econométrie - Econométrie II 22

2.2 Exemple
Estimer le rendement de l’éducation
 Fonction mincérienne de salaire :
ln(W) = β 0 + β 1EDUC + β 2EXPER + u
Avec W : salaire, EDUC : nombre d’années d’études et
EXPER : nombre d’années d’expérience.
 Les capacités intellectuelles intrinsèques (CII) de
l’individu (ability) sont :
- Inobservées
- positivement corrélées avec le niveau d’éducation
atteint (EDUC = δ1CII + v)
- positivement corrélées avec le niveau de salaire
(ln(W) = δ2CII + w)
L3 Econométrie - Econométrie II 23

2.3 Exemple (2)


Le rendement de l’éducation estimé par :
ln(W) = β0 + β1EDUC + β2EXPER + u
est-t-il sur-estimé ou sous-estimé ?

L3 Econométrie - Econométrie II 24

8
2.3 Étendue du problème
Ce problème est inhérent à toute analyse
économétrique :
 Certaines variables sont par nature inobservables ou non-
mesurables (dynamisme, charisme, capital social d’un
individu, esprit d’équipe dans une entreprise, etc.)
 Certaines variables sont non disponibles pour
l’économètre (questions non posées, réponses biaisées sur
des sujets sensibles, etc.)
Il faut juste rester conscient que certaines variables
peuvent capter des effets plus larges que ce
pourquoi elles sont inclues dans le modèle
L3 Econométrie - Econométrie II 25

2.4 Les Variables Proxy


Lorsque l’on est face au problème de variable
omise, il est possible d’utiliser des variables
« Proxy » qui permettent de corriger les biais de
spécification
Une variable proxy est une variable corrélée à la
variable observable mais non directement
explicative du modèle étudié
La variable proxy est substituée à la variable
inobservée et le signe du coefficient estimé est
interprété en fonction de la relation théorique
reliant variable proxy et variable inobservée
L3 Econométrie - Econométrie II 26

2.4 Les Variables Proxy (2)


Reprenons le modèle général
y = β 0 + β 1x 1 + β 2x 2* + u (1)
avec x2* inobservable, corrélée avec x1, et
x2* = δ0 + δ1x2 + v (2)
avec x2 observable

Sous quelles conditions, la variable proxy x2


permet une estimation sans biais et convergente de
β1 par :
y = π0 + β1x1 + π2x2 + w ?
L3 Econométrie - Econométrie II 27

9
2.4 Les Variables Proxy (2)
Les équations (1) et (2) impliquent :
y = β0 + β1x1 + β2(δ0 + δ1x2 + v) + u
= [β0 + β2δ0] + β1x1 + β2δ1x2 + [β2v + u]
= π0 + β1x1 + π2x2 + w
w ne doit pas être corrélé avec les variables
explicatives du modèle, donc u et v doivent être
non corrélés avec x1 et x2
NB : Les valeurs des coefficients estimés pour le
terme constant et la proxy ne sont pas directement
interprétables.
L3 Econométrie - Econométrie II 28

2.5 Les Variables Proxy (3)


Si en revanche on a,
x2∗ = δ 0 + δ1 x1 + δ 2 x2 + v
avec w non-corrélé à x1 et x2, alors :
y = β0 + β1x1 + β2(δ0 + δ1x1 + δ2x2 + v) + u
= [β0 + β2δ0] + [β1 + β2δ1]x1 + β2δ2x2 + [β2v + u]

 Le signe et la valeur du biais dépendent des valeurs


des paramètres β 2 et δ1

 Le biais reste en général inférieur au biais initial


(variable omise)
L3 Econométrie - Econométrie II 29

2.6 Exemple
Reprenons l’exemple de la fonction de salaire :

On peut utiliser un résultat de test de QI comme variable


proxy de la variable de capacités intellectuelles
intrinsèques (ability) dans le modèle :
lnwage = β0 + β 1educ + β 2exper + β 3tenure + β 4married
+ β 5south + β 6urban + β7black + β8IQ + u

NB : Le problème vient ici d’une corrélation anticipée entre le


niveau d’éducation atteint et la CII, qui est une variable
inobservable du modèle.

L3 Econométrie - Econométrie II 30

10
L3 Econométrie - Econométrie II 31

3. Les erreurs de mesure

L3 Econométrie - Econométrie II 32

3.1 Les erreurs de mesure


Il arrive qu’on ait la variable que l’on désire mais
que l’on pense (ou sache) qu’elle a été mesurée
avec erreur
Exemples :
 Combien d’heures avez-vous travaillé au cours de
l’année passée ?
 Quel est votre revenu mensuel ? (NB : tendance à
répondre un chiffre rond, à sur/sous-estimer, etc.)

Les problèmes causés par les erreurs de mesures


sont très différents s’il s’agit d’une variable
expliquée ou d’une variable explicative
L3 Econométrie - Econométrie II 33

11
3.2 Erreur de mesure sur une
variable expliquée
y* = β 0 + β1 x1 + L + β k xk + u (1)

Si y* est mesuré avec erreur, on n’observe


que y , qui en est une approximation. On
définit alors l’erreur de mesure par :
e0 = y – y*
Le modèle effectivement estimé n’est donc
pas celui de l’équation (1) mais :
y = β0 + β1x1 + …+ βkxk + u + e0
L3 Econométrie - Econométrie II 34

3.3 Erreur de mesure sur une


variable expliquée (2)
Si e0 est non corrélé aux variables explicatives xj, le
terme d’erreur (u + e0) l’est aussi
 les MCO seront sans biais et convergents
 Tous les tests post-estimation (T, F, etc.) restent
valides
Si E(e0) ≠ 0 alors β0 (terme constant) seul est biaisé et
les autres coefficients sont sans biais et convergents
Si u et e0 sont non-corrélés :
var (u + e0 ) = σ u2 + σ 02 > σ u2
 La variance des estimateurs des MCO ( σ 2 ( X ' X ) −1 )
est plus grande qu’en absence d’erreur de mesure
L3 Econométrie - Econométrie II 35

3.4 Erreur de mesure sur une


variable explicative
Reprenons le modèle de base :
y = β 0 + β1 x1∗ + u
Avec x observé, qui est une mesure imprécise de la
variable explicative x*.
Ici encore, on peut définir l’erreur de mesure par :
e1 = x1 − x1∗
On suppose également que Ε(e1 ) = 0 et que u est
non corrélé à x1 et x1∗

L3 Econométrie - Econométrie II 36

12
3.5 Erreur de mesure sur une
variable explicative
Deux cas extrêmes :
 e1 est non-corrélée avec la mesure observée x1 :
cov(x1 , e1 ) = 0
 e1 est alors corrélée avec la variable explicative
inobservée du fait que : e1 = x1 − x1∗

 e1 est non corrélée avec la variable explicative


inobservée :
( )
cov x1∗ , e1 = 0
 e1 est alors corrélée avec la variable explicative

inobservée du fait que : e1 = x1 − x1
L3 Econométrie - Econométrie II 37

3.6 e1 est non corrélée avec la


mesure observée x1
L’erreur de mesure e1 est alors corrélée avec la variable
inobservée x1∗ :
y = β 0 + β1 x1 + (u − β1e1 )
u-β1e1 est de moyenne nulle et non-corrélé avec x1, les MCO
sont donc sans biais et convergents.
 La seule conséquence de l’erreur de mesure est une plus
grande variance des termes d’erreur (et donc des estimateurs
MCO) :
var(u − β1e1 ) = σ u2 + β 2σ e21 > σ u2
NB : u et e1 sont non-corrélés.
NB : Ces résultats s’étendent évidemment au cas de
plusieurs variables explicatives si e1 est non-corrélés à toutes
les variables explicatives.
L3 Econométrie - Econométrie II 38

3.7 e1 est non corrélée avec la variable


inobservée
Hypothèse appelée dans la littérature « Classical Error-in-
Variables » (CEV)

On a vu que e1 est alors corrélée avec la mesure observée


Ici encore on a :
y = β 0 + β1 x1 + (u − β1e1 )

Mais avec x1 corrélé avec le terme d’erreur u-β1e1.


cov( x1 , u − β1e1 ) = − β1 cov( x1 , e1 ) = − β1σ e21

 Les MCO sont biaisés et non convergents


L3 Econométrie - Econométrie II 39

13
3.8 Erreurs de mesures CEV (2)
n
Rappel
∑ x (u i1 i − β1ei1 )
βˆ1 = β1 + i =1
n

∑ (x − x1 )
2
i1
i =1

cov( x1 , u − β1e1 )
Et donc
( )
plim βˆ1 = β1 +
var( x1 )
 σ e2 
= β1 1 − 2 1 2 
 σ ∗ +σe 
 x1 1 

 σ x2∗ 
= β1  2 1 2 
σ ∗ +σe 
 x1 1 
L3 Econométrie - Econométrie II 40

3.9 Erreurs de mesures CEV (3)

Comme plim(βˆ1 )est toujours plus proche de 0 que


β1, on parle de biais d’atténuation des MCO causés
par une erreur de mesure « classique » (CEV). Si β1
est positif alors βˆ1 tendra à être sous-estimé.

Si la variance de x1∗ est grande par rapport à la


variance de l’erreur, alors le biais sera faible.

Le biais d’atténuation se généralise à la régression


multiple
L3 Econométrie - Econométrie II 41

4. Les valeurs manquantes

L3 Econométrie - Econométrie II 42

14
4.1 Valeurs manquantes : Est-ce
un problème ?
Si les valeurs manquantes sont aléatoires, le sous-
échantillon ayant des observations est un échantillon
représentatif de l’échantillon total
 Aucun problème (statistiques descriptives, régressions,
etc.)
Les problèmes apparaissent lorsque l’attrition (les
valeurs manquantes) est corrélée à une dimension du
problème considéré (ex. : les plus riches refusent de
donner une information sur leurs revenus)
 Le sous échantillon informé n’est plus représentatif
(statistiques descriptives biaisées)
 Les résultats d’estimations peuvent être baisés
L3 Econométrie - Econométrie II 43

4.2 Sélection basée sur une variable


explicative
Exemple : On estime des fonctions de salaires, mais on
observe plus d’attrition pour les niveaux d’éducation
faibles, (NB : sans que cette attrition soit corrélée au
revenu par classe d’éducation !)

Les statistiques descriptives sont biaisées

Les MCO restent sans biais et convergents (NB : les


estimations « contrôlent » les dimensions des variables
explicatives, Ε( y x ) )

 Pas de problème tant qu’il y a assez de variabilité dans les


variables explicatives pour identifier les effets mesurés.
L3 Econométrie - Econométrie II 44

4.3 Sélection basée sur une variable


expliquée
Exemple : On estime des fonctions de salaires, mais on
observe qu’il y a plus d’attrition sur certaines variables
pour des niveaux de revenus élevés

Les statistiques descriptives sont biaisées

Les MCO sont également biaisés du fait que Ε( y x ) n’est


pas égal à l’espérance conditionnelle de y à l’intérieur d’un
segment donné :
Ε( y x ) ≠ Ε ( y x , a ≤ y ≤ b )
L3 Econométrie - Econométrie II 45

15
4.4 Processus de sélection
complexes
Le processus de sélection attrition peut
être plus complexe et entraîner des biais
dans les estimations

Exemple : Estimation d’une équation de


salaire
 Sélection : le salaire n’est observé que pour les
travailleurs salariés
Ε(salaire travailleur salarié ) ≠ Ε(salaire chômeur) ≠ Ε(salaire indépendant )
L3 Econométrie - Econométrie II 46

5. Les points aberrants

L3 Econométrie - Econométrie II 47

5.1 Les points aberrants


Il arrive qu’une observation (ou une série
d’observations) soit très différente des autres et
que son inclusion ou non dans l’échantillon
modifie sensiblement les résultats d’estimations

2 Sources potentielles :
 Erreurs de saisie / de compréhension des question /
Fausses réponses
 Observation effectivement très différente des autres
(milliardaire, SDF…)

L3 Econométrie - Econométrie II 48

16
5.2 Les points aberrants (2)
1ère étape : détecter les points aberrants et
vérifier la cohérence des réponses (statistiques
descriptives)
 La correction peut apparaître évidente (zéro de
trop ou zéro manquant) ou peut se retrouver par
raisonnement logique (combinaison de réponses à
d’autres questions)
 Si la correction n’est pas évidente, il peut être
légitime de tout bonnement supprimer
l’observation (ou de présenter les régression avec
et sans les points considérés aberrants)
L3 Econométrie - Econométrie II 49

5.3 Exemple : Recherche et


Développement et taille des entreprises

rdintens = β 0 + β1sales + β 2 profmarg

Rdintens : Intensité en R&D


Sales : Chiffre d’affaires
Profmarg : Taux de marge

L3 Econométrie - Econométrie II 50

L3 Econométrie - Econométrie II 51

17
L3 Econométrie - Econométrie II 52

5.5 Points aberrants et formes


fonctionelles
Certaines formes fonctionnelles (choix de
spécification) sont moins sensibles aux points
aberrants

 En particulier les formes logarithmiques

L3 Econométrie - Econométrie II 53

L3 Econométrie - Econométrie II 54

18
5.7 Méthode des Moindres
Déviations Absolues (LAD)
La méthode LAD (Least Absolute Deviations) est
parfois utilisée pour diminuer la sensibilité des
résultats aux points aberrants.
Idée : Minimiser la somme des déviations
n
absolues :

i=1
ˆ
u i

 Cela revient à estimer les effets des variables


explicatives sur la médiane conditionnelles (et non
plus la moyenne), qui est beaucoup moins sensible
aux valeurs extrêmes
L3 Econométrie - Econométrie II 55

5.8 Limites de la méthode LAD


Estimation par maximum de vraisemblance
(pas de formule pour les estimateurs)
Les statistiques t et F ont uniquement des
distributions asymptotiques (taille des
échantillons)

 Cours de M1 sur les estimations par


maximum de vraisemblance
 Extension aux quantile regressions
L3 Econométrie - Econométrie II 56

19

Vous aimerez peut-être aussi