Vous êtes sur la page 1sur 110

Master Econométrie Appliquée à la modélisation des

comportements micro et macroéconomiques


S2-M1
2019-2020

Econométrie des variable qualitatives

Cours assuré par : Mr IKIRA Merouane


• Planning du cours :
1. Econométrie des variables qualitatives :
• Généralités sur les variables qualitatives.
• Cas de variable dépendante dichotomique (ou binaire).
• Cas de variable dépendante polytomique
• Cas de variable dépendante limitée.

2. Introduction aux méthodes d’évaluation des politiques publiques.


• Méthode d’appariement par score de propension.
• Méthode de double différence
• Méthode de régression par discontinuité
• Généralités sur les variables qualitatives (1/5)

Contrairement à une variable quantitative, une variable est dite qualitative si ses modalités
ne sont pas mesurables, elles sont représentées par des codes.

Exemples : Le sexe de l’individu : 1-Homme ; 2- Femme.

La catégorie socioprofessionnelle : 1- salarié ; 2-indépendant ; 3- ouvrier….

Le degré de satisfaction : 1-insatisfait ; 2-peu satisfait ; 3-Trè satisfait.

Le type de diplôme : 1-BAC ; 2-Licence ; 3-Master…


• Généralités sur les variables qualitatives (2/5)
Les modalités
suivent un ordre
Variable dichotomique logique (ex : degré
ou binaire de satisfaction)

Variable polytomique
Variables ordonnée Les modalités ne
qualitative suivent pas un ordre
logique
(ex : catégorie
Variable polytomique socioprofessionnelle)
Variable polytomique non ordonnée
(plusieurs modalités) La réalisation d’une
modalité donnée
dépend de la
Variable polytomique réalisation de la
séquentielle modalité précédente
• Généralités sur les variables qualitatives (3/5)

Transformation d’une variable quantitative en variable qualitative?

Exemple : Variable âge de l’individu

Transformer la variable âge en tranches d'âge :


1.Si l'âge est inférieur ou égale à 25.
2.Si l'âge est entre 26 et 40.
3.Si l'âge est supérieur à 40.
Exemple d’application sur stata….
• Généralités sur les variables qualitatives (4/5)

Tableau de contingence (analyse multi-variée) : Nous cherchons à analyser la


relation entre la variable sexe et la variable catégorie socioprofessionnelle pour
un échantillon de 451 individus.
Ouvrier=1 Indépendant=2 Salarié=3 Total

Homme=1 181 131 65 377

Femme =2 38 23 13 74

Total 219 154 78 451

1) Quel est le pourcentage des salariées chez les femmes ?

2) Quel est le pourcentage des hommes parmi les ouvriers ?

3) Que peut-on dire sur la relation entre ces deux variables ? Corrélation ?

Commande sur stata : tabulate var1 var2, col row


• Généralités sur les variables qualitatives (5/5)

Tester la relation (dépendance) entre deux variables qualitatives ?

Cas de variables quantitatives  coefficient de corrélation (r)

Cas de variables qualitatives  Test de dépendance de khi deux.

H0 : Les deux variables étudiées sont indépendantes

H1 : Les deux variables sont dépendantes.

Exemple d’application sur stata….

Commande sur stata : tabulate var1 var2, chi2


Cas de variable dépendante dichotomique
(ou binaire)
On cherche à expliquer la probabilité de la réalisation (ou de l’apparition) d’un
événement quelconque.

Par exemple : On souhaite à identifier les facteurs (socioéconomiques et


démographiques) qui font que certains individus ont plus de difficultés que d’autres
à trouver un emploi.

On a alors une variable dépendante dichotomique :

Y=1 si l’individu est actif occupé (ou inséré)


Y=0 sinon (l’individu non inséré)

Pour ce faire, on a conduit une enquête auprès d’un échantillon de n individus pour
vérifier si l'âge est un véritable déterminant de leur insertion.
Estimation inapproprié par les MCO ?
Poser ainsi la question suggère l’utilisation d’un outil comme la régression
linéaire :

Représentation de la probabilité d’être inséré en fonction de l'âge de l’individu.

0 âge

Les valeurs prédites de Y correspondent à des probabilités et doivent appartenir à l’intervalle (0 1) ce qui n’est pas toujours
satisfait par les MCO
Estimation inapproprié par les MCO ?
La non linéarité de la relation : deux droites nettement différentes.

Cas d’une variable quantitative continue Cas d’une variable qualitative dichotomique
Estimation inapproprié par les MCO ?

les erreurs ne suivent pas une loi normale. Elles ne peuvent prendre que deux
valeurs (loi discrète). La normalité des erreurs n’est pas vérifiée.
La variable endogène peut prendre deux valeurs :
Prob (Y=1) = P ou Prob (Y=0)= 1-P avec P(y)= a + a x
0 1 i

Donc : µ = 1-(a + a x ) Pour Y=1


0 1 i

ou µ = -(a + a x ) Pour Y=0


0 1 i
Concept de la variable latente
Une variable latente est une variable continue qui ne peut pas être observée (fictive et
auxiliaire), mais qui est supposée être à la base des valeurs observées de la variable
endogène.

Nous venons de voir qu’il n’est pas possible de dire que Yi (actif ou pas) est reliée à Xi (l'âge)
par une relation linéaire.

Pour pallier à ce problème, nous allons considérer la variable latente « degré de


compétences » Y* et nous supposons que :

L’individu i est actif occupé si son degré de compétences dépasse un seuil donné (c) :

Y=1 si Y*> C C comme seuil de tolérance.


Y=0 si Y*<C où la variable Y*= xiβ + ui est aléatoire du fait de la présence du terme ui
Notre règle de décision devient alors comme suit :

Il faut noter que la règle de de décision n’est pas toujours déterministe.

Le calcul de la probabilité dépend exclusivement de la distribution statistique de la seule


variable aléatoire du système : le terme de l’erreur ui.

Dès que l’on pose une loi particulière à ce terme aléatoire, les probabilités pourront être
calculées en faisant référence à cette loi Nous pouvons alors distinguer deux cas :

Le modèle Probit : La distribution de Ui suit une loi normale

Le modèle Logit : La distribution de Ui suit une loi logistique.


Concept de la variable latente

Exemple 2 : Nous cherchons à déterminer les facteurs explicatives (l'âge, le sexe,


le salaire actuel, la statut matrimonial…) du changement de région de résidence
en 2020.

Y=1 si l’individu a décidé de migrer.


Y=0 sinon

La variable latente Y* : le supplément de revenu auquel l’individu peut


s’attendre s’il change sa région de résidence.

Y=1 si Y*> C
Y=0 si Y*<C
• Que peut-on dire sur l’utilisation des variables qualitatives comme variables
explicatives ?

• Pour expliquer la probabilité d’être inséré sur le marché de travail nous


utilisons les variables suivantes : l’âge de l’individu, le sexe de l’individu, le
niveau d’éducation (1=primaire ,2=secondaire, 3=supérieur)
Pour pouvoir utiliser les variables « sexe » et « niveau d’éducation » comme des
variables explicatives, il faut créer, pour chaque variable, autant de variables que
de modalités. Par exemple :

var 1 : homme (1 si l’individu est homme, 0 sinon)

Sexe
Var 2 : femme (1 si l’individu est femme, 0 sinon)

Il faut omettre une variable (Var : Femme par exemple) qui va servir comme modalité de référence.
• Exemple d’application (modèle probit) :

Les paramètres sont estimés par la méthode de maximum de vraisemblance


Indicateurs de validation

Dans les modèles de régression linéaire avec variable dépendante continue, il est usuel de
tester l'hypothèse que les variables explicatives n'ont aucune influence sur les variations de la
variable dépendante. (R² ou F).

Afin de tester l’hypothèse : H0 : a = a = a = . . . = a = 0


1 2 3 k

1) Analogue du R² : L'analogue du R² de la régression par MCO est, dans le cas des modèles à
variables qualitatives, le pseudo R² appelé aussi R² de McFadden (significatif à partir de 15%).

valeur de la fonction du Log vraisemblance non contrainte (LU). 𝑳𝒐𝒈 𝒍𝒊𝒌𝒆𝒍𝒊𝒉𝒐𝒐𝒅


Pseudo R²= 1- valeur de la fonction du Log vraisemblance contrainte sous H0 (𝑳𝑹)
= 1-
𝑳𝑹 (𝒄𝒉𝒊𝟐)
Indicateurs de validation
2) Indicateurs de « prédictions » correctes : Il s’agit de mesurer l’aptitude du modèle à
reproduire les valeurs effectivement observées de Y sur l’échantillon qui a servi à
l’estimation des coefficients. Qualité d’ajustement = NPC / N

NPC = nombre de prédictions correctes


N = nombre d’observations.

Pour notre exemple :


observées Y=1 Y=0 Total
prédites
Y=1 481 519 1000
Y=0 760 1446 2206
Total 1241 1965 3206

Le seuil de tolérance souvent utilisé est 50%.


Indicateurs de validation

Test de significativité de chaque variable : La significativité des coefficients


est appréciée à l’aide des ratios appelés « z Statistique » car la distribution
des rapports du coefficient sur son écart type ne suit pas une loi de Student
comme dans le modèle linéaire général, mais une loi normale.

Z statistique est significatif à partir de 1,70. il est possible de se référer à la


probabilité pour vérifier le seuil de significativité.
Interprétation des paramètres estimés et effets marginaux

• La seule information utilisée demeure les signes de ces valeurs qui montrent si
la variable associée influence la probabilité à la hausse ou à la baisse.
Pourquoi ? En raison d’une codification arbitraire des modalités.

• Un signe positif du coefficient de régression signifie une relation positive entre


la variable explicative et l’insertion sur le marché du travail, un signe négatif
signifie le contraire. (ex : par rapport aux femmes, le fait d’être un homme agit
positivement sur la probabilité d’être inséré)

• C’est pour cela qu’il faut calculer les effets marginaux qui mesurent la
sensibilité de la probabilité de l’apparition de l’événement par rapport à des
variations dans les variables explicatives (calcul des élasticités)
Interprétation des paramètres estimés

Le rapport de risque relatif ou de chance (Odds ratio) : permet de se faire une


idée sur la probable contribution de chacune des variables explicatives au
phénomène étudié.
OR= P / (1-P)

Pour notre exemple : on définit la chance de tomber dans l’insertion (être


inséré) pour un individu donné comme étant le rapport entre sa probabilité
d’être inséré et sa probabilité de ne pas l’être.

Pour la modalité (Homme) : un odds ratio d’une valeur de 2 signifie que la


chance (ou la possibilité) de tomber dans l’insertion (être inséré) chez les
hommes est de 2 fois supérieur comparativement aux femmes.
Cas de variable dépendante polytomique
(modèles multinomiaux)
Il existe 3 catégories de modèles multinomiaux :

• 1)Modèles multinomiaux ordonnés

• 2)Modèles multinomiaux séquentiels

• 3)Modèle multinomiaux non ordonnés

Les paramètres de ces modèles sont faites à l’aide de la méthode du


Maximum de Vraisemblance.
Modèles multinomiaux ordonnés
• Dans un modèle ordonné, les modalités de la variable à expliquer sont
hiérarchisées Elles indiquent l’appartenance de l’individu à une classe
ou à une catégorie, comme par exemple l’appartenance à une tranche
de revenu, le degré de satisfaction…

• Ce type de modèle est très proche des spécifications binaires. Les


modèles ordonnés sont utilisés quand les valeurs prises par la variable
polytomique correspondent à des intervalles dans lesquels va se
trouver une seule variable latente inobservable continue.

Y=0 si Y*<C1
Y=1 si C1<Y*<C2
Y=2 si C2<Y*<C3
Y=3 si C3<Y*
Modèles multinomiaux ordonnés

• Le principe est similaire à celui d’un modèle dichotomique.


• Si la fonction de répartition correspond à la loi logistique  le modèle est
un modèle logit multinomial ordonné.

• Si la fonction de répartition correspond à la loi normale  le modèle est un


modèle probit multinomial ordonné.
Modèles multinomiaux ordonnés
Exemple : choix de climatisateur
Supposons que les ménages aient une certaine utilité pour la climatisation en
fonction de leurs caractéristiques (revenu, surface de l’habitation, nb de
personnes dans le ménage, la résidence en logement individuel). La variable
latente Y* dans ce cas pourrait être la désirabilité de la climatisation (croissante
avec le type de climatiseur).
L'hypothèse implicite est que la
Yi = 1 si aucun climatiseur ; Y*<C1 puissance de la climatisation est
Yi = 2 si climatiseur portable ; C1<Y*<C2 supérieure avec un système
Yi = 3 si climatiseur central ; C2<Y* central, par rapport à un système
portable.
Modèles multinomiaux ordonnés
Exemple d’un modèle probit ordonnée : Application sur stata (données fictives)
Modèles multinomiaux séquentiels
• Les modèles séquentiels sont utilisés pour rendre compte de choix effectués
ou d’événements selon une séquence bien précise, le plus souvent dans le
temps, et dont les réalisations successives conditionnent naturellement
l’ensemble des modalités futures.

• L’exemple typique est celui de la réussite aux examens, qui est bien entendu
conditionnée par la réussite aux examens antérieurs dans le cursus.

• Considérons l’exemple de la réussite au master. On cherche à modéliser la


probabilité qu’un étudiant obtienne son Master en fonction des
caractéristiques individuelles, comme le revenu moyen des parents, la
moyenne des notes au baccalauréat, la série du baccalauréat etc
• On note :
Y=1 si l’étudiant a obtenu le bac mais pas la licence
Y=2 si l’étudiant a obtenu la licence mais pas le master
Y=3 si l’étudiant a obtenu le master.

• La probabilité que les élèves obtiennent leur bac, c’est à dire que yi=1 est
calculée en utilisant tout l’échantillon constitué des deux sous groupes les
étudiants ayant obtenu le baccalauréat et ceux qui ont échoué ( 0 non
modélisée).
• On utilise ensuite le sous échantillon des étudiants ayant obtenu le bac pour
déterminer les caractéristiques de la probabilité d’obtenir la licence yi= 2

• Et enfin, on utilise le sous échantillon des étudiants ayant obtenu la licence


pour déterminer les caractéristiques de la probabilité d’obtenir le master yi= 3.
Modèles multinomiaux non ordonnés

Nous allons à présent envisager la classe des modèles multinomiaux les plus
fréquents en économie : les modèles multinomiaux non ordonnés.

Il existe deux grandes classes de modèles multinomiaux non ordonnés suivant


que ces modèles satisfont ou ne satisfont pas une hypothèse particulière qui est
l’hypothèse d’Indépendence des Alternatives Non Pertinentes (ou IIA en anglais
pour Independance of Irrelevant Alternative).

En cas de vérification de l’hypothèse : Le modèle logit multinomial.

En cas de non vérification de l’hypothèse : Le modèle logit emboité.


Modèles multinomiaux non ordonnés

• Hypothèse d’indépendance par rapport aux alternatives non pertinentes :


cette hypothèse, qui porte le nom d’indépendance vis-à-vis des choix non
pertinents, signifie que le rapport des probabilités associées au choix entre
deux modalités est indépendant des autres modalités.

• Ajouter ou éliminer une tierce modalité, ou bien modifier les caractéristiques


d’une modalité déjà incluse, ne change pas le rapport entre ces probabilités.
Modèles multinomiaux non ordonnés
• Exemple 1 : Pour se transporter d’un endroit à l’autre, les individus aient le
choix entre le métro et un bus bleu.
Les individus sont indifférents par rapport à ce choix : Pm=1/2 ; Pbb=1/2.
Donc le rapport des deux probabilités est : Pm/Pbb=1
Supposons que la compagnie de bus introduise des bus rouges, et que les
individus ne soient pas sensibles à la couleur (Indifférents à la couleur).
Dans ce cas, Pm=1/2 ; Pbb=Pbr=1/4 ; le rapport est : Pm/Pbb=2.
L’hypothèse n’est pas vérifiée !
Modèles multinomiaux non ordonnés
• La seule vérification possible : : Pm=Pbb=Pbr=1/3
Or ce n’est pas possible car les individus sont indifférents à la couleur du bus.

En cas de validation de l’hypothèse  Logit multinomial


En cas de non validation de l’hypothèse  Logit multinomial emboité.
Modèles multinomiaux non ordonnés

Dans la pratique les modèles multinomiaux les plus fréquemment utilisés


restent les modèles logit satisfaisant l’hypothèse d’indépendance des
alternatives non pertinentes.

Le modèle logit multinomial est obtenu lorsque :

• La probabilité d’apparition est une fonction linéaire (xi,j ) = xiβj

• Les paramètres du modèle varient en fonction des modalités (prises par Y).

• Les variables explicatives varient uniquement en fonction des individus.


Le modèle logit multinomial
Exemple : On cherche à analyser la situation de la femme sur le marché de
travail.

• La variable dépendante dans ce modèle représentant la situation des


femmes actives sur le marché du travail est une variable qualitative
polytomique prenant 4 modalités ( 1-Auto emploi ; 2-salariat ; 3-travail non
rémunéré ; 4-chômage).

• La nature de la conception des modèles multinomiaux suggère l’exclusion


d’une modalité qui sert de référence. La modalité de référence dans notre
cas est le chômage (Y=4)
Résultats de l’estimation (Logit multinomial)
Interprétation des résultats (logit multinomial)

L’effet de l’âge : plus la femme avance dans l’âge, plus elle risque d’être en
chômage plutôt que d’être salariée, auto-employée ou exercer une activité non
rémunérée.

En gros, L ’âge agit négativement sur l’insertion des femmes sur le marché
d’emploi, mais jusqu’à un certain seuil, cette variable commence à exercer un
effet positif. Les points de retournements sont estimés à 34 ans pour le salariat,
24 pour l’auto emploi et 41 pour le travail non rémunéré.

Point de retournement = -α/2β avec α : coefficient relatif à l'âge.


β : coefficient relatif à l’âge².
• L’effet de l’état matrimonial :
par rapport aux femmes divorcées, les femmes célibataires ont moins de
chance d’avoir un emploi en tant que salariée, auto employée ou encore
occupant un travail non rémunéré. Le fait d’être mariée agit significativement
et d’une manière positive sur la probabilité de l’insertion des femmes sur le
marché du travail. Il en est de même pour les femmes veuves.
Le logit multinomial emboité (ou hiérarchisé)

• Ce modèle permet de s'affranchir de l'hypothèse IIA présente dans le Logit


Multinomial.

• L’originalité de sa structure consiste à assembler les différentes alternatives en


sous-groupes.

• Les sous-groupes sont différents. Mais l’hypothèse d’IIA est maintenue à


l’intérieur de ces groupes.
Le logit multinomial emboité (ou hiérarchisé)
• Reprenons l’exemple précédent (moyen de transport) :
Après l’introduction du bus rouge, on aura la structure arborescente suivante :
IIA non vérifiée :
Mode de transport

métro (1/2) Bus


b.r (1/4) b.b (1/4)

IIA vérifiée : Mode de transport

métro (1/3) b.r (1/3) b.b (1/3)


Le logit multinomial emboîté (ou hiérarchisé)
• Exemple 2 : Reprenons l’exemple de la situation de la femme sur le marché de
travail.
Offre de travail

Niveau 1 : ne participe pas Participe

Niveau 2 : salariée indépendante auto-employée

La structure hiérarchique du modèle vient du fait qu’on peut clairement séparer le choix de
ne pas participer des autres choix qui sont tous des choix de participer mais dans des
segments différents.
Il s’agit de modéliser la probabilité qu’un individu exerce un travail dans l’un ou
l’autre des segments du marché du travail, sachant qu’il a choisi de travailler
(participer).
N.B : Les variables propres à l’explication du choix de participer ou pas au
marché du travail peuvent différer des variables explicatives du choix du
segment sur le marché du travail.

Les paramètres du modèle LME ainsi défini peuvent être estimés par les
techniques usuelles du maximum de vraisemblance.

Le modèle LME peut assez facilement être élargi à trois niveaux ou plus. Sa
complexité augmente géométriquement avec le nombre de niveaux dans l’arbre
de décision.
• Exemple d’estimation (LME) :
____________________________________________________________________________________
Variables non participation indépendant salarié auto-emploi
Interprétation des résultats
• L’idéal est de faire une comparaison entre les résultats des deux modèles (LM vs LME).

• On peut considérer que des variables telles que le statut de chef de ménage, la taille du ménage, le nombre
d’enfants en bas âge ou de femmes de plus de 15 ans et enfin la proportion d’individus employés dans le
ménage influencent la décision de travailler, mais pas forcément celle de travailler dans tel ou tel segment du
marché du travail. A l’inverse, les variables liées au potentialités de l’individu sur le marché du travail vont
plutôt jouer sur le choix de segment qu’il fera, une fois qu’il aura décidé de travailler.

• L’âge de l’individu augmente les chances de participation au marché du travail et ce de façon très significative
(jusqu’à un certain seuil).

• Le coefficient lié au sexe de l’indivdu montre que le fait d’être un homme, toutes choses égales par ailleurs,
augmente très significativement les chances de participer au marché.
Interprétation des résultats

En tentant compte que l’individu a décidé de participer au marché de travail :


• On remarque que le fait d’avoir été à l’école coranique augmente significativement la
probabilité d’être un travailleur indépendant et diminue simultanément celle d’être un
salarié (et un auto-employé).

• De même, le fait d’avoir terminé le primaire augmente significativement les chances d’être
un salarié en diminuant simultanément les chances d’être un auto-employé.

• le fait d’avoir suivi un apprentissage (formation au sein de l’entreprise) augmente la


probabilité de se retrouver sur le marché du travail comme indépendant.
Schéma récapitulatif

Modèles multinomiaux

Modèles multinomiaux Modèles multinomiaux


Modèles multinomiaux
ordonnés non ordonnés.
séquentiels

IIA vérifiée IIA non vérifiée

Modèle logit
Modèle logit
multinomial emboité
multinomial
(hiérarchique)
Cas de variable dépendante limitée
(Tobit, heckman)
•Les modèles à variable dépendante limitée sont des modèles pour lesquels la
variable dépendante est continue mais n’est observable que sur un certain
intervalle.

• Ces modèles sont aussi appelés modèles de régression censurés ou modèle


de régression tronqués.

• Le recours à l’économétrie des variables qualitatives se justifie par l’estimation


de la probabilité que la variable à expliquer se trouve à l’intérieur de l’intervalle
pour lequel elle est observable.
modèle de régression tronqué
• Un modèle de régression est dit tronqué lorsque toutes les observations des
variables explicatives et de la variable dépendante figurant en dehors d’un
certain intervalle ne sont pas observées.

Exemple : Un échantillon de ménages avec des revenus inferieurs à 10 000 DH


exclut nécessairement tous les ménages ayant des revenus supérieurs à ce
niveau. Le revenu suit une loi tronquée à droite.

• Dans un échantillon dont sont exclues toutes les familles dont le revenu est
inférieur à l’équivalent du salaire minimum, le revenu suit une loi tronquée à
gauche.
modèle de régression censuré
• Un modèle de régression dit est censuré si seules les valeurs de la variable à
expliquer ne sont pas connues lorsqu’elles sortent d’un intervalle donnée.

• L’exemple typique de Tobin (1958) : On cherche à modéliser la relation entre


le revenu des ménages et les dépenses en bien durables.
Une des caractéristiques essentielles des
données est que pour plusieurs
observations, le montant des dépenses en
biens durables est nul. En effet, ces
observations sont nulles pour tous les
Y ménages n’ayant pas acheté de biens
durables sur la période. Pour ces individus,
on dispose ainsi d’observations sur le
revenu mais pas d’observations sur les
dépenses de consommation : on a un
échantillon censuré.
X
• Application des MCO sur l’ensemble des observations ?

Le nuage de point sera alors mal


décrit par une relation du type
consommation = a + b ∗ revenu
puisque le nuage de points
comporte deux parties distinctes.
L’estimateur des MCO dans ce
cas n’est pas convergent.
• Application des MCO sur les observations non nulles ?

Ce résultat est moins évident à illustrer graphiquement.

MCO sur les observations pour lesquelles y>0  estimateur non convergent à cause
du biais de sélection.

Biais de sélection : Les individus inclus dans l'étude ne constituent plus un groupe
représentatif de la population cible.
Modèle Tobit simple

Pour ce modèle, on suppose que le consommateur décide simultanément du


fait qu’il va ou non consommer et du montant de revenu qu’il va affecter à
cette consommation.

On pose alors :
Yi : le montant des dépenses encourues à l’achat des bien durables
Xi : Le revenu du ménage.
Modèle Tobit généralisé (Heckman 1979)
• Ce modèle est utilisé pour modéliser le processus séquentiel (estimation en
deux étapes).
• Dans une première étape l’individu décide ou non de consommer. Cette
décision peut être représentée par un modèle qualitatif dichotomique basée
sur la formulation suivante :

• Ensuite, s’il a décidé de consommer, l’individu décide du montant qu’il va


consacrer à l’achat du bien. On a alors un modèle de données censurées
puisque, si l’on note y2 la consommation effective de l’agent i :
TOBIT Simple (estimation)
Exemple d’application : On chercher à modéliser les facteurs explicatifs des
dépenses des ménages en santé pour un échantillon de 3328 individus (CM).
Estimation d’un modèle Tobit généralisé (processus de heckman)
• Etape 1 (équation de sélection) : modéliser la probabilité de dépenser en santé
(Y=1 si l’individu décide de dépenser, 0 sinon). À l’aide d’un Probit (ou Logit)

• Etape 2 : modéliser le montant allouer à cette dépense. À l’aide des MCO.

Y = aX+ b + λ
λ : l’inverse du ratio de Mills (corriger le biais de sélection dans l’étape 2). Il est
introduit en tant que variable explicative additionnelle.

Les résidus de l’équation de sélection (première étape) correspondant aux effets


non-mesurés servent à construire un facteur de contrôle du biais de sélection (λ).
λ est le rapport entre la densité de probabilité et la fonction de répartition.
Tobit généralisé : processus séquentiel (Heckman)
Le processus séquentiel est donné par la régression suivante :
Si Lambda est significatif  il existe un biais de sélection (corrigé par le
processus séquentiel de heckman).

Si lambda est non significatif  Absence de biais de sélection. Il est possible


d’appliquer directement les MCO sur le sous-échantillon non censuré (Y>0).

L’existence d’un biais de sélection est testée par l’hypothèse que le coefficient
estimé de l’inverse du ratio de Mills est nul (non significatif).
Introduction aux méthodes d’évaluation des
politiques publiques
Pourquoi évaluer l’impact des politiques publiques ?
• Un outil qui permet de prendre connaissance de l’efficacité de l’action (la
réforme) publique/ la rentabilité économique de la reforme.

• Mesurer l’effet de la politique publique sur le problème de base.


Ex : problème : abandon scolaire / politique publique : donner de l’argent aux familles
pauvres pour aider à la scolarisation des enfants.

• Proposer des améliorations en vue de renforcer l’efficacité de l’action publique.


Ex : la politique n’a pas eu l’effet espéré sur les filles.
Penser à des actions supplémentaires pour aider les filles à surmonter ce problème.
Exemples des politiques publiques implantées au Maroc.

Education : Programme de transferts monétaires conditionnels (Tayssir)


Programme « un million de cartables »
Programmes de transport gratuit, cantines scolaires….

Santé : Le Régime d’Assistance médicale aux économiquement démunis (RAMed)


L’Assurance Maladie Obligatoire (AMO)

La lutte contre la pauvreté : L’Initiative Nationale pour le Développement Humain


(INDH)
Programmes de micro-crédit…
Comment évaluer : chercher l’effet net du traitement ?
• Nous avons un patient qui souffre d’une maladie (covid19 par exemple).

• Ce patient va recevoir un traitement quelconque (l’hydroxychloroquine par ex).

• Comment peut-on mesurer l’effet de ce traitement (médicament) ?

• Comparer la situation du patient avant et après d’avoir reçu le traitement.

• Une telle procédure d’évaluation n’est pas pertinente ! Pourquoi ?


Ce type d’évaluation ne donne pas l’effet net du traitement sur le patient.
D’autres facteurs ne sont pris en considération pourraient contribuer à la
guérison du patient.
Comment évaluer : chercher l’effet net du traitement ?

• Comment peut-on avoir l’effet net du traitement ?

• Pour obtenir l’effet net du traitement, il faut comparer deux situations :


Y1 : La situation du patient après avoir reçu le traitement.

Y2 : ce qu’aurait été la situation actuelle du patient si il n’avait pas reçu le


traitement.

La situation Y2 représente ce que l’on appelle le scénario contrefactuel.


La situation Y2 n’est pas observée ! Comment peut on trouver un scénario
contrefactuel ?
Construire un scénario contrefactuel
Exemple des essais cliniques.
• On va utiliser un deuxième patient (appelé patient témoin). Ce deuxième patient présente
les mêmes caractéristiques que le premier patient (âge, poids, pas de maladies chroniques..).

• La seule différence entre les deux patients est que le premier patient va recevoir le
traitement, tandis que le deuxième ne va pas le recevoir.

Situation de base : Patient 1 (traité) Patient 2 (témoin)

Traitement

Moment de l’évaluation : situation du patient 1 situation du patient 2 (contrefactuel)

Effet net du traitement = situation du patient 1 - contrefactuel (situation du patient témoin)


Peut-on projeter le même raisonnement sur l’abandon scolaire ?

On cherche à mesurer l’effet du programme Tayssir (le traitement) sur les


enfants bénéficiaires du programme.

Pour obtenir l’effet net de Tayssir, il faut comparer le taux d’abandon scolaire
chez deux groupes :

• Un groupe de traitement : il s’agit des enfants bénéficiaires du programme.


• Un groupe témoin (contrefactuel) : il s’agit des enfants non bénéficiaires, mais
qui présentent des caractéristiques semblables que les bénéficiaires

• Ex : 17% (chez les traités) – 23 % (chez les témoins) = -6% Tayssir a permis de
réduire le taux d’abandon scolaire de 6 points de pourcentage.
Comment construire un très bon groupe témoin (groupe de contrôle) ?
Comment construire un groupe témoin (groupe de contrôle) ?

• Le recours à la méthode d’appariement par score de propension (Rosenbaum


& Rubin, 1983)

• Le score de propension représente la probabilité d’être bénéficiaire du


programme public (la politique publique).

Etape 1 : Calcul du score de propension

• Il faut calculer un score de propension pour tous les individus de l’échantillon


(bénéficiaires et non bénéficiaires) sur la base de certaines caractéristiques (X).

• Comment calculer le score de propension ?


Une régression probit ou logit : Y=1 si l’individu est bénéficiaire, 0 sinon.
N.B : Les variables explicatives utilisées dans cette régression constituent la base de la
construction du groupe témoin.
Comment construire un groupe témoin ?
• Etape 2 : L’appariement (le matching)
Une fois le score de propension est estimé pour tous les individus de l’échantillon,
les individus non bénéficiaires peuvent être appariés aux bénéficiaires ayant le
score le plus proche.
Exemple :
Bénéficiaires Non bénéficiaires
A 0,28 D 0,07
B 0,23 E 0,24
C 0,25 F 0,60 Groupe témoin (contrôle)
G 0,26
H 0,27

Les individus D et F ne sont pas utilisés dans l’étude. Ils ne font pas partie du
support commun. Les individus A, B, C, E, G et H forment un support commun.
Algorithmes d’appariement :
• Le voisin le plus proche (sans remise) : l’individu non traité (témoin) ne peut être utilisé
qu’une seule fois comme un élément apparié ( proposé par Rubin (1973))

• Le voisin le plus proche (avec remise) : l’individu non traité (témoin) est utilisé plusieurs
fois comme un élément apparié.

• Le royen (Radius Matching) : permet d’éviter un mauvais appariement en imposant un


niveau de tolérance en terme de distance entre les scores de propension (proposé par
Dehejia and Wahba (2002))

• Kernel and Local Linear Matching : utilise une moyenne pondérée de tous les individus
non traités pour construire un groupe témoin. Tous les individus non traités sont utilisés
dans le support commun.
Etape 3 : L’effet moyen du traitement (ATE)

• Il s’agit de calculer la différence entre la moyenne de la variable de résultat


chez les traités (Y/T=1) et la moyenne de cette variable chez les non
traités (Y/T=0) :

ATE = (Y | T = 1) - (Y | T= 0)

Avec Y : variable de résultat


T : variable de traitement.
Exemple d’application : Evaluer l’effet de Tayssir sur les enfants bénéficiaires.

Nous exploitons pour cela un échantillon de 3031 enfants ruraux. 741 enfants
sont bénéficiaires de ce programme, soit un taux de participation de 24,45%.
Psmatch2 traitement_var X1 X2 X3…, outcome(var_résultat) logit comsup

-Traitement : 1 si l’enfant est


bénéficiaire de tayssir, 0 Sinon
- Variable de résultat y :
l’abandon scolaire

Le programme Tayssir a permis de réduire l’abandon scolaire de 8,24 points de


pourcentage, une différence significative statistiquement (T=-4,60)
• Psmatch2 traitement_var X1 X2 X3…, kernel outcome(var_résultat) logit
Limites de l’appariement par score de propension :
• Il existe toujours un risque de manque de support commun entre le
groupe de traitement et le groupe de contrôle.

• L’appariement permet de tenir compte des caractéristiques observées ;


mais ne peut cependant en aucun cas exclure l’existence d’un biais dû aux
caractéristiques non observées.

• Les variables utilisées dans le calcul du score de propension peuvent être


affectées par la présence du programme.
La méthode des doubles différences
(diff-in-diff)
• Principe : Comparer les différences des résultats au fil du temps entre un
groupe participant à un programme (le groupe de traitement) et un groupe de
comparaison.

• Comparaison « avant-après » ne tient pas compte des facteurs externes


variables dans le temps !

• Comparaison « sans-avec »  les individus des deux groupes n’ont pas les
mêmes caractéristiques observées (biais de sélection).

• La méthode DD combine deux scénarios contrefactuels : comparaison


« avant-après » + comparaison «sans-avec» pour produire un meilleur
estimateur.
• Pour le cas de Tayssir par exemple :

La DD permet de :
• Comparer les taux d’abandon scolaire (de scolarisation) chez les bénéficiaires
avant et après l’implantation du programme. Différence 1

• Comparer les taux d’abandon scolaire (de scolarisation) chez les non
bénéficiaires avant et après l’implantation du programme. Différence 2
Taux de scolarisation
La tendance du groupe de traitement
« après/avant »: (B-A) = 0.14

La tendance du groupe de
comparaison « après/avant »: (D-C) =
0.03

DD = (B-A) – (D-C) = 0.14 – 0.03 = 0.11

t
2012 2015

Année d’implantation
Année d’évaluation
t=0
• En quoi cette méthode est utile ?
Les deux groupes ont potentiellement des caractéristiques différentes qui
peuvent être à l’origine des différences de résultats entre les deux
groupes.

La méthode d’appariement permet de résoudre ce problème pour les


caractéristiques observées.

Les caractéristiques non observées sont aussi préoccupantes !

Il est impossible de prendre en compte les différences des


caractéristiques non observées dans l’analyse.
• En quoi cette méthode est utile ?
• La méthode DD permet de résoudre ce problème en supposant que les deux
groupes ont la même tendance (une tendance parallèle).

• Les deux groupes ont la même tendance en l’absence du programme, c’est la


distance (D-C) dans la figure précédente. Autrement dit, les résultats
varieraient au même rythme pour les deux groupes sans le traitement, que ce
soit à la hausse ou à la baisse. C’est ce que l’on appelle l’hypothèse des
« tendances parallèles »

• Il est impossible de de prouver que les différences entre le groupe de


traitement et le groupe de comparaison auraient évolué en parallèle en
l’absence du programme.
• Il faut supposer qu’en l’absence du programme, le résultat du groupe de
traitement aurait évolué en parallèle à celui du groupe de comparaison.
Taux de scolarisation
l’utilisation de la tendance du
groupe de comparaison
comme contrefactuel de la
tendance du groupe de
traitement entraîne une
surestimation de l’impact du
programme :

Impact <0,11

2012 2015
Une bonne approche pour tester sa validité consiste à comparer les tendances
du résultat du groupe de traitement et du groupe de comparaison avant la mise
en œuvre du programme.

Postuler des hypothèses économiques pour prouver la similarité des tendances


des deux groupes.
Application sur Stata :
Dummies for treatment and time

p‐value for the treatment effect, or


DID estimator
La Régression par discontinuité
Régression par discontinuité
• Les programmes sociaux utilisent souvent un indice pour déterminer
quels sont les individus ou ménages éligibles.

Tayssir  Ciblage par commune (Taux de pauvreté > 30%).

Progresa (Mexique)  Ciblage par score de bien être multidimensionnel


(actifs du ménage, conditions de vie…) / fixer un seuil pour choisir les
ménages éligibles.
• Progresa  Augmenter les dépenses de consommation des ménages pauvres.
Dépenses alimentaires Avant l’intervention

Score de bien-être

Les ménages les plus pauvres dépensent moins en alimentation que les ménages les plus riches
Le programme sera offert uniquement aux ménages qui affichent un score de 50 ou
moins.
Dépenses alimentaires
Seuil d’éligibilité

Score du bien-être

Les ménages se situant juste au-dessous du seuil sont éligibles au programme tandis que ceux qui se situent
juste au-dessus ne le sont pas, même si ces deux types de ménages sont très similaires.
• Le modèle de discontinuité de la régression utilise la discontinuité
(coupure) observée autour du seuil d’éligibilité pour estimer le
contrefactuel.

• Nous pouvons considérer que les bénéficiaires dont le score est juste au-
dessous du seuil d’éligibilité (50, 49, 48…) sont très similaires aux non
bénéficiaires dont le score est juste au-dessus du seuil d’éligibilité (51, 52,
53 par exemple).

• Les non bénéficiaires se situant juste au-dessus du seuil peuvent être


utilisés comme un groupe de comparaison valide.

• Déterminer une bande autour du seuil d’éligibilité sur laquelle portera


l’évaluation 60 / 40 ou 55/45…
Dépenses alimentaires
Après l’intervention

Score du bien-être

Le niveau de dépenses des ménages (éligibles) dont le niveau du bien être était juste inférieur au seuil d’éligibilité
est désormais plus élevé que le niveau de dépenses des ménages (non éligibles) dont le niveau du bien-être était
légèrement supérieur au seuil d’éligibilité.

Etant donnée la similarité du deux groupes, l’existence du programme est la seule explication possible de la
discontinuité constatée après l’intervention (A-B).
Limites du modèle de discontinuité de la régression :
• L’impact est calculé aux alentours du seuil, L’estimation ne peut pas
systématiquement être généralisée aux ménages dont le score est plus
éloigné du seuil.

• Cette méthode utilise moins d’observations que d’autres méthodes


utilisant toutes observations disponibles. Cela nécessite un échantillon
important pour avoir un résultat satisfaisant statistiquement.

• La relation entre l’indice d’éligibilité et le résultat (Y) au moment de


l’enquête de référence peut être beaucoup plus complexe et comprendre
des relations et des interactions non linéaires (cubique, quadratique…)
Méthode des variables instrumentales
• L’utilisation des variables instrumentales pour traiter des problèmes
d’endogénéité est très ancienne (Wright, 1928), et plus générale que son
utilisation pour des questions d’évaluation des politiques publiques.

• On se place dans le cadre standard de l’équation linéaire :

yi = α + δTi + ui
Le régresseur Ti (le traitement) est soupçonné endogène : cov (Ti, ui) ≠ 0

Les caractéristiques non observées

Résultat Yi Traitement
• On parle du cas lorsqu’il existe des effets de sélection chez les bénéficiaires.

• Comment peut-on vérifier l’existence des effets de sélection ?

• A travers la vérification du comportement de la population vis-à-vis l’éligibilité.

• Certaines observations présentent des effets de sélection (56+424).

• D’autres facteurs peuvent expliquer la participation au programme/ La


participation au programme n’est pas une fonction déterministe de la règle
d’éligibilité.
La variable de traitement est endogène  le recours à la variable instrumentale

Un processus en deux étapes (comme le cas des doubles moindres carrés) :

Ti = c + βZi + λXi + ei (1)

Yi = a+ α 𝑇i+ θXi + ui (2)

L’instrument Z est une variable qui remplit deux conditions :


• Elle doit être corrélée avec la variable endogène T : cov(T, Z) ≠ 0
• Elle ne doit pas être corrélée avec les résidus ui : cov(Z, ui)= 0 , cette condition
est appelée la restriction d’exclusion
• Que mesure l’estimateur des variables instrumentales ?

Il ne permet pas de mesurer l’effet moyen sur l’ensemble des individus “traitées”,
mais uniquement sur sous-population.

T=1 | E=1 T=0| E=1


T=1 | E=0 Always Takers Defiers
T=0 | E=0 Compliers Never Takers

• Always Takers : Les individus qui particpent toujours quel que soit le statut d’éligiblité
(T=1|E=0 ; T=1 |E=1)
• Never Takers : Ils ne participent pas quel que soit le statut d’éligibilité (T=0|E=0 ; T=0 |E=1).
• Defiers : C’est la population des «rebelles», ils se comportent à l’opposé du statut d’éligibilité.
• Compliers : C’est la population dont la participation au programme est affectée par le statut
d’éligibilité.
• L’estimateur de la variable instrumentale nous donne l’effet du traitement
uniquement sur ceux dont la participation au programme est affectée par le
statut d’éligibilité, c’est-à-dire les compliers (T=0 | E=0 ; T=1 | E=1).

• L’effet estimé est appelé : Effet local du traitement. Soit Local Average
Treatment Effect (LATE) selon Angrist et al., (1996)
• L’identification de la population des compliers:

Ex : On cherche à analyser les rendements de l’éducation suite au


prolongement de l'âge de scolarisation obligatoire (17ans au lieu de 15ans).

• Always-takers : Les élèves qui prolongeaient spontanément leur scolarité au-


delà de l'âge obligatoire.
• Never-takers : Les élèves qui décidaient d’arrêter spontanément
(indépendamment de la mesure).
• Compliers : Les élèves qui prolongeaient leur scolarité du fait de la réforme,
mais qui se seraient arrêté avant sinon.
Validité de l’instrument :

• Condition 1 : Cov (T, Z) ≠ 0 / vérifiable à partir de l’étape 1 de l’estimation.


• Condition 2 : Cov (Z, ui)= 0 / Aucun test statistique ne permet de valider
rigoureusement cette propriété.

Il faut supposer que la variable instrumentale n’est pas corrélée avec les
déterminants non observées de la variable endogène Yi.
• Exemple d’un instrument valide : cas de Tayssir

Ti  X i   Z i  wi

Yi  X i    T i  ui

Zi est instrument qui vaut 1 si l’enfant appartient à une commune éligible, 0


sinon / Yi=1 si l’enfant fréquente l’école….

• On suppose que : Cov (Z, ui)= 0 / l’éligibilité de la commune ne va pas affecter


directement la situation de l’enfant./ Z affecte T : cov(T, Z) ≠ 0
• Exemple 2 : Cas du Bono de Desarrollo Humano (CCT, Ecuador).

• BDH : Améliorer la fréquentation/résultats scolaire des enfants bénéficiaires.


• La cible : les ménages qui affichent un score de pauvreté multidimensionnelle
supérieur à 50%.
• Des participants avec un score < 50%  Fuzzy discontinuity / des effets de
sélection.
• La participation au programme n’est pas une fonction déterministe du critère
d’éligibilité.
• Une estimation par variable instrumentale semble nécessaire pour évaluer
l’effet du programme.
• L’utilisation du taux de pauvreté de la communauté comme une variable
instrumentale / un effet directe sur la participation au programme/ un effet
indirecte sur le résultat scolaire de l’enfant.
Commandes sur stata :

• ivregress : 2 step OLS


• ivtreatreg : 2 step-probit / binary outcome.
Initiation au traitement de
données sur Stata
Fonctions et expressions
Description des données
•« Codebook » : Permet de créer un dictionnaire
des variables indiquant le nom de la variable, son
label, son format, l’intervalle de ses valeurs, sa
moyenne…
•« sum » : permet de fournir des statistiques
unidimensionnelles sur la variable en question.
•« sort » : permet de classer les observations par
ordre croissant d’une ou de plusieurs variables.
Commandes de gestion de variables
Commandes de gestion de variables
• Syntaxe pour renommer une variable : rename ancien_nom
nouveau_nom

• « replace » : permet de modifier les valeurs d’une variable déjà


existante.

• « label » : permet d’affecter des labels aux modalités.

• « Drop » : permet de supprimer une variable ou une observation.


Fusion des données