Vous êtes sur la page 1sur 14

Chapitre 5

Les informations qualitatives


Licence Econométrie / MASS
Econométrie II, 2007-2008

Martin Fournier
Fournier@gate.cnrs.fr
L3 Econométrie/MASS -
Econométrie II 1

1. Les variables indicatrices


Variables « dummy »

L3 Econométrie/MASS -
Econométrie II 2

1.1 Variables “dummy”


Une variable indicatrice (dummy) est une
variable qui prend seulement deux valeurs
possibles : 1 ou 0
Exemples: sexe (1 pour les hommes, 0
pour les femmes), géographie (1 pour Paris,
0 sinon), race, etc.
On peut également parler de variables
binaires (binary variables)

L3 Econométrie/MASS -
Econométrie II 3

L3 Econométrie/MASS - Econométrie II
1.2 Exemple

L3 Econométrie/MASS -
Econométrie II 4

1.3 Une « dummy » comme


variable explicative
Considérons un modèle simple avec une variable
continue (x) et une variable dummy (d)
y = b 0 + d 0d + b 1x + u
Le coefficient (MCO) de la variable dummy peut
être interprété comme une translation du modèle
(modification du terme constant)
 Si d = 0, alors y = b0 + b1x + u
 Si d = 1, alors y = (b0 + d0) + b1x + u

Le cas d = 0 est le groupe de référence


L3 Econométrie/MASS -
Econométrie II 5

1.3 Exemple (avec δ0 > 0)


y y = (β 0 + δ0) + β 1x Dans les 2 cas,
la pente = β1
d=1

δ0 { y = β 0 + β 1x
d=0

} β0
x
L3 Econométrie/MASS -
Econométrie II 6

L3 Econométrie/MASS - Econométrie II
1.5 Exemple
wage = β 0 + β 1 female + β 2 educ + u
Ce modèle permet de déterminer l’espérance
mathématique du différentiel de salaire entre hommes et
femmes en contrôlant par le niveau d’éducation atteint
β 1 = Ε(wage female = 1, educ ) − Ε(wage female = 0, educ )
= Ε(wage female, educ ) − Ε(wage male, educ )

Ε(wage female, educ ) = β 0 + β 1 + β 2 educ


Puisque
Ε(wage male, educ ) = β 0 + β 2 educ
L3 Econométrie/MASS -
Econométrie II 7

1.6 Exemple (2)


Hommes :
wage = β 0 + β 2 educ

Femmes :
wage = (β 0 + β 1 ) + β 2 educ

L3 Econométrie/MASS -
Econométrie II 8

1.6 Exemple (3)


wage = β 0 + β 1 female + β 2 educ + u
Le même modèle aurait pu être estimé en utilisant une
variable dummy « Homme » (i.e. en prenant les femmes
comme groupe de référence)

wage = γ 0 + γ 1 male + γ 2 educ + u


On obtiendrait alors :
β2 = γ 2 β0 = γ 0 + γ1 γ 0 = β 0 + β1
→ β 1 = −γ 1 L3 Econométrie/MASS -
Econométrie II 9

L3 Econométrie/MASS - Econométrie II
1.6 Exemple (4)
Attention : On ne peut pas en revanche inclure
conjointement les variables dummy female et male dans
la régression.
On se retrouverait alors avec une collinéarité parfaite
entre les variables explicatives du fait que :

female + male = 1

Ce qui viole les hypothèses du théorème de Gauss-


Markov et invalide l’estimateur des MCO
L3 Econométrie/MASS -
Econométrie II 10

1.7 Exemple (5)


Application pratique :
Test et évaluation d’une différence de revenu entre hommes et
femmes :
incearn = β 0 + β1 female + β 2 education + β 3tenure + β 4businesses + u
incearn = β 0 + δ1male + β 2 education + β 3tenure + β 4businesses + u
Incearn : Revenu
Female : Variable dummy (Femme  female=1)
Male : Variable dummy (Femme  female=1)
Education : Nombre d’années d’éducation
Tenure : Nombre d’années d’expérience
L3 Econométrie/MASS -
Econométrie II 11

L3 Econométrie/MASS -
Econométrie II 12

L3 Econométrie/MASS - Econométrie II
1.9 Exemple (7)
Si la variable dépendante est sous forme logarithmique, le
coefficient de la variable dummy s’interprète donc comme la
différence espérée entre les deux groupes en pourcentage :
log(incearn) = β 0 + β1 female + β 2 educ + β 3tenure + β 4tenure2 +
β 5businesses + β 6businesses2 + u

E (incearn female, X ) − E (incearn male, X )


= exp(βˆ1 ) − 1
E (incearn male, X )
≈ βˆ1 (pour βˆ1 proche de 0)
L3 Econométrie/MASS -
Econométrie II 13

1.10 Exemple (8) : Forme


logaritmique

exp(βˆ1 ) − 1 = 123%
L3 Econométrie/MASS -
Econométrie II 14

2. Variables indicatrices et
information complexe

L3 Econométrie/MASS -
Econométrie II 15

L3 Econométrie/MASS - Econométrie II
2.1 Variables dummy et catégories
multiples
On peut utiliser des variables dummy pour
contrôler une information discrète multiple :
 Prenons l’exemple d’une variable d’éducation pouvant
prendre trois niveaux : Primaire, Secondaire et
Supérieure
 On peut créer deux variables dummy permettant de
capter toute l’information :
SUP = 1 si éducation supérieure et 0 sinon
SEC = 1 si éducation secondaire (seulement) et 0 sinon
 Catégorie de référence : éducation primaire seulement

L3 Econométrie/MASS -
Econométrie II 16

2.2 Variables dummy et


catégories multiples (2)
Toute variable catégorielle peut être transformée
en un jeu de variables dummy
Le groupe de référence est représenté par le terme
constant  S’il y a n catégories, il doit y avoir
seulement n – 1 variables dummy
On peut rapidement se retrouver avec un nombre
important de variables  redéfinition des groupes
(ex. : CSP, secteurs industriels)

L3 Econométrie/MASS -
Econométrie II 17

2.3 Exemple

log(wage) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + β 4education +


β 5tenure + β 6tenure2 + β 7businesses + β8businesses2 + u

Marrmale : Homme marié


Marrfem : Femme mariée
Singfem : Femme célibataire

 Référence : Homme célibataire


L3 Econométrie/MASS -
Econométrie II 18

L3 Econométrie/MASS - Econométrie II
L3 Econométrie/MASS -
Econométrie II 19

2.5 Variables dummy information


ordonnées
On dispose parfois d’information qualitatives ordonnées
(niveaux de satisfaction, classements, niveaux de risque,
etc.)
Une augmentation d’une unité n’a pas de raison d’avoir
un effet constant  Variables dummies
Exemple : Classement de clients par niveaux de risque
pour une assurance :
 1 : Risque très faible
 2 : Risque faible
 3 : Risque incertain
 4 : Risque élevé
 5 : Risque très élevé
L3 Econométrie/MASS -
Econométrie II 20

2.6 Variables dummy information


ordonnées (2)
On peut parfois créer des variables dummy à partir de
variables quantitatives pour capter les non-linéarités
Exemples :
 Classes d’âge
 Classes de revenu
 Niveaux d’éducation construits à partir du nombre d’années
 Etc.

Permet une spécification plus flexible au prix du nombre


de coefficients à estimer
L3 Econométrie/MASS -
Econométrie II 21

L3 Econométrie/MASS - Econométrie II
3. Les variables indicatrices
comme variables d’interaction

L3 Econométrie/MASS -
Econométrie II 22

3.1 Interractions entre variables


dummy
Important lorsque la valeur d’une variable qualitative
influence l’effet d’une autre variable qualitative sur la
variable expliquée
Exemple : L’effet du sexe sur le revenu peut dépendre
du statut marital de la personne
 Si l’on n’est intéressé que par les différences de
revenu entre hommes et femmes ou entre mariés et
célibataires, on inclue seulement ces deux variables :
log (incearn ) = β 0 + β1 female + β 2 married + K

L3 Econométrie/MASS -
Econométrie II 23

3.2 Interractions entre variables


dummy (2)
 Si l’on veut également prendre en compte le fait que le
sexe puisse influencer la manière dont le statut marital
modifie le revenu espéré, il faut également inclure la
variable croisée entre les deux variables dummy :
log(incearn ) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married + K

λ0 Hommes célibataires (référence)


λ + λ
 0 2 Hommes mariés

λ0 + λ1 Femmes célibataires
λ0 + λ1 + λ2 + λ3 Femmes mariées
L3 Econométrie/MASS -
Econométrie II 24

L3 Econométrie/MASS - Econométrie II
3.3 Interactions entre variables
dummy (3)
log(incearn ) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + ...
log (incearn) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married K
Les deux spécifications sont équivalentes :
 β 0 = λ0 - Hommes célibataires
 β 0 + β1 = λ0 + λ 2 - Hommes mariés
 β 0 + β 2 = λ 0 + λ1 + λ 2 + λ 3 - Femmes mariées
 β 0 + β 3 = λ 0 + λ1 - Femmes célibataires

La deuxième approche permet de tester directement le


fait que l’impact du sexe dépend du statut marital :
Η 0 : λ3 = 0 L3 Econométrie/MASS -
Econométrie II 25

3.4 Interactions entre variables


Dummy et variable continue
Permet de capter des différences de pentes
entre groupes :
log (wage ) = β 0 + β 1 female + β 2 educ + β 3 female ⋅ educ + K
β2 : Rendement de l' éducation des hommes
β 2 + β 3 : Rendement de l' éducation des femmes

T-test sur β3 : test de l’égalité des


rendements de l’éducation entre hommes et
femmes
L3 Econométrie/MASS -
Econométrie II 26

3.5 Exemple avec β3 > 0


Femmes
y y = β0 + β2.educ

Hommes

y = β0 + β1 + (β2 + β3).educ

L3 Econométrie/MASS - x
Econométrie II 27

L3 Econométrie/MASS - Econométrie II
3.6 Test de structures différentes
par groupes
Pour tester si le modèle est différents entre deux
groupes (e.g. hommes/femmes) peut être fait
simplement en croisant chaque variable avec une
variable dummy de groupe et de tester la
significativité jointe des termes croisés

NB : On peut se retrouver très rapidement avec


un nombre considérables de variables

L3 Econométrie/MASS -
Econométrie II 28

3.7 Exemple
Modèle général
log(incearn) = β 0 + β1education + β 2tenure + β 3businesses + u

Test d’une différence de modèle entre hommes et


femmes :
log(incearn) = β 0 + β1 female + β 2education + β 3 female ⋅ education
+ β 4tenure + β 5 female ⋅ tenure
+ β 6businesses + β 7 female ⋅ businesses + u
Η 0 : β 1 = 0, β 3 = 0, β 5 = 0, β 7 = 0
L3 Econométrie/MASS -
Econométrie II 29

L3 Econométrie/MASS -
Econométrie II 30

L3 Econométrie/MASS - Econométrie II
3.9 Test de Chow
Lorsqu’il y a trop de variables explicatives, une
alternative consiste à effectuer l’estimation séparément sur
les deux groupes et de tester l’égalité des coefficients entre
les deux régressions :
y = β g , 0 + β g ,1 x1 + β g , 2 x 2 + L + β g , k x k + u

L3 Econométrie/MASS -
Econométrie II 31

3.10 Test de Chow (2)


La solution réside dans le fait que la somme des carrés
des résidus du modèle non restreint (avec une variable
dummy et un croisement de cette variable dummy avec
toutes les autres variables du modèle) est égale à la somme
des carrés des résidus des modèles estimés sur chacun des
groupes (1 et 2 ici):
SSRur = SSR1 + SSR 2
Il suffit alors d’estimer le modèle restreint (sur toutes les
données, sans variable dummy) et d’en déduire la somme
des carrés des résidus : SSRr
L3 Econométrie/MASS -
Econométrie II 32

3.11 Test de Chow (3)


Il suffit alors d’effectuer un test de Fisher (k+1
coefficients testés sur 2k+1 variables + 1 constante :

F≡
(SSRr − SSRur ) (k + 1)
SSRur (n − 2k − 2 )

Le test de Chow consistant à dériver la somme des


carrés des résidus du modèle non restreint des
estimations menées distinctement,t sur les deux groupes :

F=
[SSRP − (SSR1 + SSR2 )] ⋅ [n − 2(k + 1)]
SSR1 + SSR2 k +1
L3 Econométrie/MASS -
Econométrie II 33

L3 Econométrie/MASS - Econométrie II
L3 Econométrie/MASS -
Econométrie II 34

4. Les variables indicatrices


comme variable expliquée

L3 Econométrie/MASS -
Econométrie II 35

4.1 Le Problème
On observe un état par une variable indicatrices :
 Actif (Act=1) / Inactif (Act=0)
 Éducation supérieure (Sup=1) / Lycée ou moins (Sup=0)
 Produit de bonne qualité (Qual=1) / Mauvaise (Qual=0)
 Etc.

On veut pouvoir modéliser l’état observé en fonction


de variables explicatives :
 Act = f(éducation, âge, structure familiale…)
 Sup = f(éducation parents, âge, revenu parents…)
 Qual = f(taux de contrôle, pénalité, coût de vérification…)
L3 Econométrie/MASS -
Econométrie II 36

L3 Econométrie/MASS - Econométrie II
4.2 Le modèle de probabilité
linéaire
On peut modéliser la probabilité pour la variable
dummy y de prendre la valeur 1 en notant que :
P(y = 1|x) = E(y|x)

On peut alors écrire le modèle :


P(y = 1|x) = b0 + b1x1 + … + bkxk

On peut estimer le modèle par les MCO


 L’estimateur de bj donne une mesure de la
variation de la probabilité de succès (y=1) lorsque
xj est modifié L3 Econométrie/MASS -
Econométrie II 37

4.3 Le modèle de probabilité


linéaire (2)
Remarques :
 La valeur prédite de y par les résultats du
modèle estimé permet d’obtenir une probabilité
prédite de succès
 La valeur prédite peut être simulée en dehors du
support de la probabilité [0,1]
 Les variations prédites de probabilités pour une
variation d’une explicative xi peut être
supérieure à 1

L3 Econométrie/MASS -
Econométrie II 38

4.3 Le modèle de probabilité


linéaire (2)
Remarques (suite) :
 Le modèle viole l’hypothèse
d’homoscédasticité
 Il existe des méthodes plus adaptées (modèles
Probit et Logit) par maximum de vraisemblance
 Cette approche peut malgré tout être utile en
première phase d’analyse du problème

L3 Econométrie/MASS -
Econométrie II 39

L3 Econométrie/MASS - Econométrie II
5. Variables dummies et
évaluations de programmes

L3 Econométrie/MASS -
Econométrie II 40

5.1 Évaluation d’un programme


Les variables dummy peuvent apparaître comme
un outil particulièrement utile lors de l’évaluation
de programmes
 Exemple : Revenu des individus ayant reçu une
formation pilote / revenu des individus ne l’ayant pas
reçue
Malheureusement, le plus souvent la variable
dummy provient d’un processus de sélection (par
le programme ou par auto-sélection des individus)

L3 Econométrie/MASS -
Econométrie II 41

5.1 Évaluation d’un programme (2)


log(salaire) = β 0 + ∑ β i xi + β 3 formi + ui
i
Si toutes les dimensions de la sélection sont
inclues dans les variables xi alors le coefficient β3
fournit une bonne évaluation de l’effet de la
formation
Malheureusement, le plus souvent certains
déterminants de la sélection sont inobservables et
corrélés à des déterminants inobservés du salaire
 Rejet de l’hypothèse d’exogénéité de la variable
dummy
 Estimation biaisée fournie par les MCO
L3 Econométrie/MASS -
Chapitre suivant
Econométrie II 42

L3 Econométrie/MASS - Econométrie II

Vous aimerez peut-être aussi