Hurlin 1
Maîtrise d’Econométrie
Université d’Orléans
Christophe HURLIN
Janvier 2003
January 21, 2003
Contents
1 Modèles Dichotomiques Univariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Spécification linéaire des variables endogènes dichotomiques . . . . . . . . . . . . 8
1.2 Modèles Logit et Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Comparaison des modèles probit et logit . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Présentation des modèles dichotomiques en termes de variable latente . . . . . . 21
2 Estimation des Paramètres par la Méthode du Maximum de Vraisemblance . . . . . . 26
2.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Matrices Hessiennes et Matrices d’information de Fischer . . . . . . . . . 28
2.1.2 Unicité du maximum global de la fonction de log-vraisemblance . . . . . . 30
2.2 Algorithmes de maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . 32
3 Propriétés Asymptotiques des Estimateurs du Maximum de Vraisemblance . . . . . . . 35
3.1 Convergence du Critères de MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Convergence d’estimateurs dans les modèles non linéaires . . . . . . . . . 36
3.1.2 Application aux modèles Logit et Probit . . . . . . . . . . . . . . . . . . . 38
3.2 Lois et variance asymptotiques de l’estimateur de MV . . . . . . . . . . . . . . . 39
4 Méthodes d’Estimation non Paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1 La méthode du score maximum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Estimation semi-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Comparaison des estimateurs paramétriques, non paramétriques et semi paramétriques 47
5 Tests de Spécification et Inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1 Tests d’hypothèse sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.2 Tests du rapport des maxima de vraisemblance . . . . . . . . . . . . . . . 49
5.1.3 Test du score ou du multiplicateur de Lagrange . . . . . . . . . . . . . . . 50
5.2 Tests de spécification des modèles dichotomiques . . . . . . . . . . . . . . . . . . 50
6 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1 Rappels sur les notions de convergence . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1.2 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 55
A.1.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Econométrie des Variables Qualitatives. Cours C. Hurlin 2
Maîtrise d’Econométrie
Université d’Orléans
Christophe HURLIN
Août 2002
Econométrie des Variables Qualitatives. Cours C. Hurlin 3
Chapitre I
Introduction
Un des développements majeurs de l’économétrie dans les années 60 et 70, fut sans con-
teste lié à l’utilisation croissante des données microéconomiques relatives à des caractéristiques
économiques d’agents individuels (firmes, consommateurs, centres de profits...). A cette époque,
les bases de données microéconomiques ont en effet pu être constituées, puis exploitées prin-
cipalement du fait de l’extension des capacités informatiques et de la réduction de leur coût.
Bien souvent, les données statistiques disponibles dans ces bases sont relatives à des caractères
qualitatifs comme par exemple la catégorie socio-professionnelle, le type d’études suivies, le
fait de travailler ou au contraire d’être au chômage, d’acheter ou de ne pas acheter un cer-
tain produit etc.. Or, comme nous allons le voir dans ce chapitre, les méthodes d’inférence
traditionnelles ne permettent pas de modéliser et d’étudier des caractères quantitatifs : des
méthodes spécifiques doivent être utilisées tenant compte par exemple de l’absence de continu-
ité des variables traitées ou de l’absence d’ordre naturel entre les modalités que peut prendre
le caractère qualitatif. Ce sont ces méthodes spécifiques les plus usuelles qui seront l’objet de
ce cours d’économétrie des variables qualitatives.
Historiquement l’étude des modèles décrivant les modalités prises par une ou plusieurs vari-
ables qualitatives date des années 1940-1950. Les travaux les plus marquants de cette époque
sont sans conteste ceux de Berkson (1944, 1951) consacrés notamment aux modèles di-
chotomiques simples (modèles logit et probit). Les premières applications ont alors
essentiellement été menées dans le domaine de la biologie, de la sociologie et de la psycholo-
gie. Ainsi, ce n’est finalement que récemment, que ces modèles ont été utilisés pour décrire
des données économiques avec notamment les travaux1 de Daniel L. MacFadden (1974)
et de James J. Heckman (1976). Or, l’application des techniques économétriques propres
aux variables qualitatives à des problématiques économiques a d’une part largement contribué
à améliorer l’interprétation des modèles simples (comme par exemple le modèle logit avec les
travaux de MacFadden), et d’autre part à identifier des problèmes économiques dont la struc-
ture, si elle n’est pas qualitative au sens propre du terme, en mathématiquement très proche
(c’est par exemple le cas de la consommation de bien durable avec le modèle de Tobin de 1958).
Ces développements ont ainsi conduit à introduire un modèle intermédiaire entre les modèles
qualitatifs et le modèle linéaire habituel : le modèle tobit.
Dans la suite du cours, nous supposerons l’existence d’un caractère qualitatif qui peut pren-
dre K modalités disjointes. Si K = 2, on dit que la variable est dichotomique. Exemple :
être au chômage ou ne pas être au chômage. Dans le cas général K ∈ N∗ , on dit que la vari-
able est polytomique. A ce niveau de l’exposé, la question qui se pose est de savoir comment
représenter un caractère qualitatif dans le cadre d’un modèle économétrique ? Si l’on considère
1 Il convient ici de rappeler que ces deux économètres ont obtenu conjointement le prix nobel d’économie en
par exemple le type d’études suivies par un étudiant (université, école d’ingénieur etc..), la
catégorie socio-professionnelle (ouvrier, employé, cadre..), ou le fait d’être au chômage, com-
ment doit on représenter ces différents caractères qualitatifs ? La réponse naturelle à ces
questions consiste à associer une variable quantitative (ou codage) au caractère
qualitatif.
Mais d’autres formes de codage auraient pu être envisagées dans ce cas. On peut par exemple
représenter la variable qualitative par le vecteur z = (z1 , z2 , z3 ) où les variables zi , i = 1, 2, 3
sont de type dichotomique avec :
1 si y = ”licence”
z1 =
0 sinon
1 si y = ”master”
z2 =
0 sinon
1 si y = ”doctorat”
z3 =
0 sinon
Les variables zi sont appelées variables dummy ou variables muettes. Il s’agit ici d’une
autre représentation quantitative de y à valeur cette fois dans (0, 1)3 . Ainsi, de façon générale
toutes les représentations quantitatives de y s’écrivent sous la forme d’une application injective
de {”licence”,”master”,”doctorat”} dans un espace Rp , p ∈ N∗ .
Dans le cadre de ce premier chapitre, nous allons nous intéresser au modèle le plus simple, à
savoir le modèle dichotomique, dans lequel la variable expliquée du modèle ne peut prendre
que deux modalités. Le plan de ce chapitre est le suivant. Nous commencerons par présenter les
principaux modèles dichotomiques, et en particulier les modèles logit et probit. Puis, dans une
seconde section, nous intéresserons au problème de l’estimation des paramètres de ces modèles,
notamment par la méthode du maximum de vraisemblance. Dans une troisième partie, nous
étudierons la convergence des estimateurs du maximum de vraisemblance. Enfin, dans une
dernière section nous aborderons les tests de spécification de ces modèles ainsi que les différents
problèmes d’inférence.
Econométrie des Variables Qualitatives. Cours C. Hurlin 7
On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les modèles
dichotomique. En effet, celui-ci permet définir la probabilité de survenue de l’événement comme
l’espérance de la variable codée yi , puisque :
Quels sont alors les principaux champs d’application des modèle dichotomiques ? Nous
pouvons ici évoquer quelques pistes, sur lesquelles nous reviendrons par la suite. Un des do-
maines d’application traditionnel consiste en l’étude des choix d’éducation. Ainsi, parmi
les premiers travaux utilisant les modèles à réponses qualitatives, plusieurs s’intéressaient aux
comportements des étudiants que ce soit en terme de choix de filières, ou en termes de choix
d’établissements. Il s’agissait alors de modéliser ces comportements en fonction d’un certain
nombres de caractéristiques propres aux universités (présence de campus, débouchés profession-
nels etc..) ou aux étudiants (CSP des parents, études antérieures etc..). Typiquement, il s’agit
par exemple, de modéliser le choix des étudiants entre une université en ville ou un campus, ce
choix étant représenté par une variable dichotomique que l’on va cherche à modéliser en fonction
de plusieurs facteurs comme le revenu, le sexe de l’étudiant, la distance domicile-université etc..
Du fait de l’organisation privée des études aux Etats-Unis, de telles modélisations ont connu un
grand intérêt, que ce soit dans une perspective purement académique ou dans une perspective
appliquée. On peut citer ici par exemple l’étude de Radner et Miller (1970).
bases des méthodes de scoring largement utilisées dans le secteur bancaire et dans le secteur
des télécommunications.
Cette liste d’application n’est bien entendu pas exhaustive. Nous allons à présent montrer
que la modélisation des variables dichotomiques ne peut se faire à l’aide d’une spécification
linéaire standard.
Premièrement, les termes de gauche et de droite de l’équation (1.1) sont de nature différentes.
La variable yi est de type qualitative tandis que la somme xi β +εi est une variable quantitative.
On peut répondre à ceci que le membre de gauche correspond en fait au codage (ici 0 ou 1)
associé à la variable qualitative; dès lors, il n’y aurait plus de problème. Mais il est évident que
ce codage est lui même par nature arbitraire, et que les valeurs de β obtenues pour ce codage
sont nécessairement différentes de celles obtenues pour tout autre codage. Elles seraient par
exemple de αβ si le codage était de type (0, α). Ainsi, le premier problème de l’application
du modèle linéaire simple à une variable dichotomique, est que le paramètre β du
modèle (1.1) n’est pas interprétable.
Deuxièmement, une étude graphique montre que l’approximation linéaire est peu adaptée
au problème posé. Considérons pour cela le modèle linéaire avec une seule variable explicative
(K = 1), notée x1i , et une constante. On pose β = (β 0 β 1 ) et l’on considère le modèle linéaire
suivant :
yi = β 0 + xi β 1 + εi ∀i = 1, .., N (1.3)
Pour constater l’inadéquation de ce modèle à reproduire correctement la variable endogène
dichotomique yi , il suffit de se placer dans un repère x1 , y et de reproduire les N différents
couples x1i , yi , ∀i = 1, .., N. Naturellement, du fait du statut dichotomique de la variable
endogène, le nuage de points ainsi obtenu se situe soit sur la droite y = 0, soit sur la par-
allèle y = 1. Ainsi, comme on l’observe sur la figure (??), il est impossible d’ajuster de
Econométrie des Variables Qualitatives. Cours C. Hurlin 9
y=
y= x
façon satisfaisante, par une seule droite, le nuage de points, associé à une variable
dichotomique qui, par nature, est réparti sur deux droites parallèles.
1. Sachant que dans la cas d’une variable endogène yi dichotomique, celle-ci ne peut prendre
que les valeurs 0 ou 1, la spécification linéaire (1.1) implique que la perturbation εi ne
peut prendre, elle aussi, que 2 valeurs, conditionnellement au vecteur xi :
2. Lorsque l’on suppose que les résidus εi sont de moyenne nulle, la probabilité pi associée
à l’événement yi = 1 est alors déterminée de façon unique. En effet, écrivons l’espérance
des résidus :
E (εi ) = pi (1 − xi β) − (1 − pi ) xi β = pi − xi β = 0
On en déduit immédiatement que :
3. Enfin, même si l’on parvenait à assurer le fait que les contraintes (1.5) soient satisfaites par
l’estimateur des Moindres Carrés des paramètres du modèle linéaire, il n’en demeurerait
pas moins une difficulté liée à la présence d’hétéroscedasticité. En effet, on constate
immédiatement que, dans le modèle (1.1), la matrice de variance covariance des résidus
varie entre les individus en fonction de leur caractéristiques associées aux exogènes xi
puisque :
V (εi ) = xi β (1 − xi β) ∀i = 1, .., N (1.6)
Pour démontrer ce résultat il suffit de considérer la loi discrète des résidus et de calculer
la variance :
2 2
V (εi ) = E ε2i = (1 − xi β) Prob (yi = 1) + (−xi β) Prob (yi = 0)
2 2
= (1 − xi β) pi + (−xi β) (1 − pi )
Or, de plus ce problème d’hétéroscédascticité ne peut pas être résolu par une méthode
d’estimation des Moindres Carrés Généralisés tenant compte de la contrainte d’inégalité
(1.5), puisque la matrice de variance covariance des perturbations (1.6) dépend du vecteur
β des paramètres à estimer dans la spécification linéaire, qui est par nature supposé
inconnu.
Pour toutes ces différentes raisons, la spécification linéaire des variables endogènes quali-
tatives, et plus spécialement dichotomiques, n’est jamais utilisée et l’on recourt à des modèles
logit ou probit, que nous allons à présent étudier, pour représenter ces variables.
Ainsi, pour une valeur donnée du vecteur des exogènes et du vecteur des paramètres β, on
peut définir les deux modèles d’une façon équivalente :
A ce stade de l’exposé, la question que l’on se pose immédiatement est de savoir quelles
sont les différences fondamentales entre les modèles probit et logit ? Quand doit on utiliser
l’un plutôt que l’autre ? Quelles sont les propriétés particulières de ces deux modèles ? Bien
entendu, ces deux modèles ne diffèrent que par la forme de la fonction de répartition F (.) . Ainsi,
il faut donc se rappeler quelles sont les propriétés respectives des lois logistiques et normales,
pour comprendre quelles peuvent être les différences et les similitudes entre les modèle logit et
probit.
Cette loi a une espérance nulle et une variance égale à π 2 /3. C’est pourquoi, il convient de
normaliser la loi logistique de sorte à obtenir une distribution de variance unitaire, comparable
à celle de la loi normale réduite. On définit pour cela une loi logistique transformée.
eλw 1
Λλ (w) = λw
= (1.13)
1+e 1 + e−λw
Cette loi admet par construction une variance unitaire. On observe ainsi à partir du tableau
(1.1), que les réalisations de cette fonction Λπ/√3 (.) sont très proches de celles de la fonction
Φ (.) associée à la loi normale réduite et ce notamment pour des valeurs de w proche de 0, c’est
à dire des valeurs dites centrales, car proches de la moyenne de la distribution.
Certains auteurs proposent d’utiliser d’autres paramètres λ afin de mieux reproduire encore
la fonction de répartition de la loi normale pour des valeurs centrales. En particulier Amemiya
(1981) propose d’utiliser un paramètre5 λ = 1.6 et donc de retenir la loi logistique transformée
Λ1.6 (.) . Comme on peut l’observer sur le tableau (1.1),
√ la fonction de paramètre 1.6 est encore
plus proche de Φ (.) que la fonction de paramètre π/ 3. pour les valeurs centrales proches de
0 (w < 1 en l’occurrence dans le tableau).
Quoiqu’il en soit, il apparaît ainsi que les fonctions de répartition des lois normales cen-
trées réduites et des lois logistiques simples ou transformées sont extrêmement proches. Par
conséquent, les modèles probit et logit donnent généralement des résultats relativement simi-
laires. De nombreuses études ont d’ailleurs été consacrées à ce sujet comme par exemple celle
de Morimune (1979)6 ou de Davidson et MacKinnon (1984). Ainsi a priori, la question du choix
entre les deux modèle ne présente que peu d’importance. Toutefois, il convient d’être prudent
quand à la comparaison directe des deux modèles.
4 Par convention, la fonction de répartition de la loi logistique simple correspondant au cas λ = 1 sera noté
Λ (.) afin d’alléger les notations.
5 Cette valeur 1.6 est dérivée du rapport des fonctions de densité φ (w) /λ (w) évalué au point w = 0.
6 Morimune K. (1979), ”Comparisons of Normal and Logistic Models in the Bivariate Dichitomous Analysis”,
En effet, les valeurs estimées des paramètres dans les modèles probit et logit ne sont pas
directement comparables puisque les variances des lois logistiques et normale réduite ne sont
pas identiques. Cette différence de variance implique que la normalisation des coefficients β
n’est pas identique et que par conséquent les estimateurs de ces paramètres obtenus dans les
deux modèles ne fournissent pas des réalisations identiques.
Toutefois, si ces approximations sont relativement précises sur certains échantillons com-
portant peu de valeurs ”extrêmes” (c’est à dire lorsque la moyenne des valeurs xi β est proche
de zéro), elles seront moins précises en présence de nombreuses valeurs xi β éloignées de zéro.
Une façon équivalente8 de vérifier l’adéquation de cette approximation consiste à observer si la
valeur moyenne des probabilités pi est proche de 0.5 (Davidson et MacKinnon 1984). Si tel est
le cas, les estimateurs des coefficients du modèle logit seront environ 1.6 fois supérieurs à ceux
du modèle probit.
Considérons l’exemple des données de l’article de Spector et Mazzeo (1980), paru dans
Journal of Economic Education, et intitulé ”Probit Analysis and Economic Education”. Il s’agit
ici d’évaluer la probabilité pour un étudiant d’obtenir le passage en post-graduate (variable
dichotomique graduate), l’équivalent du master. Cette probabilité est modélisée comme une
fonction d’une constante (cons), du score obtenu au tuce (test of understanding of college
economics) et de la moyenne obtenue au niveau du graduate (grad). Sur la figure (1.2) sont
reportés les résultats d’estimation du modèle logit tandis que sur la figure (1.3) sont reportés
les résultats d’estimation du même modèle probit. Considérons par exemple le coefficient de la
variable tuce. Le modèle logit nous donne une estimation de 0.0855 pour ce paramètre alors que
le modèle probit donne une estimation de 0.05266. On vérifie alors que, pour cet échantillon,
les approximations (1.15) sont satisfaisantes puisque selon cette formule, on devrait obtenir une
estimation logit de paramètre√de l’ordre de 0.05266 ∗ 1.6 = 0.0843 ou 0.0955 si l’on considère
l’approximation 0.05266 ∗ π/ 3. Ces approximations sont en effet très proches de la vraie
estimation du paramètre dans le modèle logit.
probit et linéaire :
Ainsi si l’on considère l’exemple des données de l’article de Spector et Mazzeo (1980), les
estimations de la constante et des paramètres des variables tuce et grad obtenues dans le
modèle linéaires sont respectivement égales à −1.4493, 0.0160 et 0.4619. Or, si l’on compare
ces résultats à ceux obtenus à partir des modèles logit et probit (figures 1.2 et 1.3), on obtient
les résultats relativement proches. Ainsi, dans le cas du modèle logit pour la variable tuce
l’approximation donnerait 0.25 ∗ 0.08555 = 0.0214 et 0.25 ∗ 2.53828 = 0.6346 pour la variable
grad. Pour la constante l’approximation donne une valeur approchée égale à −0.25 ∗ 10.656 +
0.5 = −2.164. Cers approximations seront d’autant plus proches des valeurs estimées qu’il y a
aura un grand nombre d’observations xi β proches de 0, car en effet les fonctions de répartition
des lois logistiques et normales ne se démarquent pas d’une droite dans cette zone.
Econométrie des Variables Qualitatives. Cours C. Hurlin 15
En conclusion, il apparaît que les résultats des modèles probit et logit sont généralement
similaires que ce soit en termes de probabilité ou en termes d’estimation des coefficients β si
l’on tient compte des problèmes de normalisation. C’est le sens de cette conclusion d’Amemiya.
Toutefois, comme le note Amemiya (1981), il convient d’être prudent dans l’utilisation des
approximations pour comparer les modèles probit et logit. Il est toujours préférable de raisonner
en termes de probabilités pi = F (xi β) et non en termes d’estimation des paramètres β pour
comparer ces résultats.
”The reader should keep in mind that this equality [equation (1.15)] constitutes
only a rough approximation and that a different set of formulae may work better
over a different domain. When one wants to compare models with different prob-
ability functions, it is generally better to compare probabilities directly rather than
comparing the estimates of the coefficients even after an appropriate conversion”,
Amemiya T. (1981), page 1488.
Econométrie des Variables Qualitatives. Cours C. Hurlin 16
Si les deux modèle sont sensiblement identiques, il existe cependant certaines différences
entre les modèles probit et logit, comme le souligne d’ailleurs Amemiya. Nous évoquerons ici
deux principales différences :
Nous allons à présent étudier successivement ces deux propriétés. Premièrement, la fonction
de densité associée à la loi logistique possède en effet des queues de distribution plus épaisses
que celles de la fonction de densité de la loi normale (distribution à queues ”plates”). La loi
logistique présente donc un excès de Kurtosis9 : il s’agit d’une distribution leptokurtique. En
d’autres termes, nous avons vu que les lois logistique et normale appartiennent à la même famille
des lois exponentielles et sont par nature très proches, notamment pour les valeurs proches de la
moyenne de la distribution. Toutefois, le profil de ces deux distributions diffère aux extrémités
du support : pour la loi normale, les valeurs extrêmes sont moins pondérées, la fonction de
répartition tendant plus vite vers 0 à gauche du support et vers 1 à droite.
9 L’excès de Kurtosis est défini en référence au moment d’ordre d’une loi normale centrée réduite. Si X suit
une loi normale N µ, σ2 , la Kurtosis est égale à µ4 = 3σ 4 . Par convention, le degré d’excès de Kurtosis, défini
par µ4 /σ 4 − 3, est nul.
10 Bien entendu, la différence entre les résultats des modèles probit et logit ne pourra être observée que si l’on
dispose de suffisament d’observations des exogènes se situant dans ces zones ”extrêmes”.
Econométrie des Variables Qualitatives. Cours C. Hurlin 17
0.025
0.02
0.015
Λ- Φ
0.01
0.005
-0.005
-0.01
-0.015
-0.02
-0.025
-5 -4 -3 -2 -1 0 1 2 3 4 5
Au delà, de ces différences entre les lois logistiques et normales, il existe en effet certaines
propriétés du modèle logit qui sont particulièrement utiles pour simplifier les calculs ainsi que
l’interprétation économique des résultats d’estimation des paramètres β associées au variables
explicatives. Tout d’abord, si l’on note pi = P rob(yi = 1) = Λ (xi β) , étant donnée la définition
de la loi logistique on remarque que plusieurs égalités, permettant de simplifier les calculs,
peuvent être établies comme suit :
exi β = pi 1 + exi β
pi
log = xi β
1 − pi
1
1 − pi =
1 + exi β
En plus de ces différentes relations, il existe une égalité qui est en outre particulièrement
intéressante en ce qui concerne l’analyse économique des résultats d’estimation. Il s’agit de la
relation suivante :
pi
exi β =
1 − pi
Econométrie des Variables Qualitatives. Cours C. Hurlin 18
Au delà du simple calcul de la cote, on peut en outre chercher à mesure les effets marginaux
sur la cote. Il s’agit alors de mesurer l’impact, pour le ième individu d’une variation de la j ème
[j]
variable explicative, notée xi , sur la cote. Supposons que l’on considère une variation d’une
unité de cette variable, et calculons alors la variation induite de la cote. En effet, étant donné
la propriété (??) du modèle logit, on peut alors facilement mesurer l’impact d’une variation
d’une unité d’une des variables explicatives sur cette cote. En effet, si l’on note c la cote de
[1] [K]
l’événement yi = 1, xi = xi ...xi le vecteur des variables explicatives et β = (β 1 ...β K ) le
vecteur des paramètres associés, on a :
K K
pi [k] [k]
ci = = exp xi β k = exp xi β k
1 − pi
k=1 k=1
[j]
On peut alors isoler la part de la cote imputable à une variable xi quelconque de la façon
[j]
suivante. Supposons que la variable xi augmente de une unité, nouvelle cote notée ci est égale
à:
K K
[j] [k] [k]
ci = exp xi + 1 β j exp xi β k = exp β j exp xi β k
k=1 k=1
k=j
Figure 1.5: Données et Calcul de la Cote à partir du Modèle Logit : Spector et Mazzeo (1980)
Résultats au tuce Moyenne des examens au graduate
30 4
25 3.5
20 3
15 2.5
10 2
0 10 20 30 40 0 10 20 30 40
0.8 5
4
0.6
3
0.4
2
0.2 1
0 0
0 10 20 30 40 0 10 20 30 40
ci = exp β j ci (1.21)
Toutefois, de façon plus générale, on calcule les effets marginaux non pas à partir de la cote
mais directement à partir des probabilité associé à l’événement de référence. On cherche ainsi à
Econométrie des Variables Qualitatives. Cours C. Hurlin 20
K [k]
puisque xi β = k=1 xi β k .
Proposition 1.8. Dès lors, si l’on note f (.) la fonction de densité des résidus du
[j]
modèle dichotomique, l’effet marginal associé à la j ème variable explicative xi est
défini par :
∂pi
[j]
= f (xi β) .β j (1.22)
∂xi
Suivant que l’on considère un modèle probit ou un modèle logit, cette dérivée
s’écrit comme suit :
∂pi exi β
[j]
= 2 β j modèle logit (1.23)
∂xi (1 + exi β )
∂pi 1 1
[j]
= √ exp − (xi β)2 .β j modèle probit (1.24)
∂xi 2π 2
Puisque par définition f (.) > 0, le signe de cette dérivée est donc identique à celui de
β j . Dès lors, l’augmentation d’une variable associée à un coefficient positif induit une hausse
de la probabilité de réalisation de l’événement yi = 1. Inversement, la hausse d’une variable
associé à un coefficient négatif induit une baisse de la probabilité de réalisation de l’événement
yi = 1. Par exemple, si l’on considère les données de Spector et Mazzeo (190) et les résultats
d’estimation des probit et logit (figures 1.2 et 1.3), les deux variables tuce et grad sont affectées
d’un coefficient dont l’estimateur a une réalisation positive. Ainsi, une augmentation de la
note au tuce ou une augmentation de la moyenne aux examens du graduate conduit à une
amélioration de la probabilité de passage en postgraduate.
[j]
Enfin, plutôt que d’exprimer l’effet marginal sous la forme de la dérivée ∂pi /∂xi , on préfère
généralement calculer une élasticité, cette dernière ayant l’avantage d’être indépendante des
unités de mesure.
Definition 1.9. Ainsi, on définit l’élasticité εpi /x[j] comme la variation en pourcent-
i
age de la probabilité de survenue pi de l’événement codé yi = 1, suite à une variation
[j]
de 1% de la j ème variable explicative xi :
[j] [j]
∂pi xi x βj
εpi /x[j] = [j] p
= f (xi β) i (1.25)
i
∂x i F (xi β)
i
Cette expression peut se simplifier dans le cas du modèle logit sachant que F (x) = ex / (1 + ex )
2
et que f (x) = ex / (1 + ex ) . Pour un logit, l’élasticité prend la valeur suivante :
[j]
xi β j
∀i ∈ [1, N ] εpi /x[j] = modèle logit (1.26)
i 1 + exp (xi β)
Econométrie des Variables Qualitatives. Cours C. Hurlin 21
Plusieurs remarques doivent être faites à ce niveau. Tout d’abord, pour les deux modèles,
l’élasticité est une fonction non linéaire des autres composantes du vecteur xi . On peut ainsi
calculer l’influence des variables explicatives annexes sur la sensibilité du modèle à l’évolution
d’une variable j particulière. On peut par exemple calculer :
∂ εpi /x[j]
i
[k]
∀k = j, ∀i ∈ [1, N ] (1.27)
∂xi
Deuxième remarque, les fonctions de densité f (.) des modèles logit et probit étant symétriques
et unimodales,elles atteignent donc leur maximum en zéro. Ainsi, l’impact d’une variable ex-
plicative est d’autant plus important pour les individus donc le scalaire xi β est proche de zéro.
En d’autres termes, pour les individus pour lesquels on est pratiquement sûr de la survenue
d’un évenement ( pi = F (xi β) proche de 1 ou xi β, positif et très élevé), l’élasticité sera faible
: seule une variation très importante des variables explicatives pourra modifier sensiblement la
probabilité. De la même façon, les individus pour lesquels on est pratiquement sûr de la non
survenue d’un évenement (pi = F (xi β) proche de 0 ou xi β, négatif et très élevé en valeur
absolue), l’élasticité sera faible.
Enfin, troisième et dernière remarque les formules ci-dessus fournissent des mesures indi-
viduelles des effets marginaux, et généralement il est utile de calculer l’élasticité au point moyen
de l’échantillon afin de répondre à la question : quel est l’impact moyen (dans l’échantillon) de
la variation de 1% de la jème variable explicatives ? Deux possibilité peuvent être retenues :
soit on calcule l’élasticité en remplaçant les valeurs individuelles xi par les moyennes empiriques
de ces composantes sur l’échantillon, ∀j ∈ [1, K] :
f (xβ) [j]
εp/xj = x βj (1.28)
F (xβ)
où le vecteur x est défini par x = (1/N ) xi et le scalaire x[j] vaut x[j] = (1/N ) x[j] . La deuxième
solution consiste à calculer la moyenne des élasticités individuelles sur l’ensemble de l’échantil-
lon, ∀j ∈ [1, K] :
N
1
εp/xj = ε [j] (1.29)
N i=1 pi /xi
L’exemple le plus célébre (repris dans Amemiya 1981) est tiré de la bio-économétrie (n’ou-
blions que c’est dans ce domaine que furent proposées les premières applications) celui de
l’insecticide : on diffuse dans un espace clos un insecticide et l’on cherche à dé terminer la dose
minimale permettant de tuer les insectes. Pour cela, on observe au terme d’une période fixé
les insectes i morts pour lesquels on adopte le code yi = 0 et ceux encore vivants codés yi = 1.
On suppose alors que chaque insecte dispose d’une capacité de résistance propre qui se traduit
par un seuil inobservable de produit, noté yi∗ , telle que si la dose de produit est supérieure à ce
seuil l’insecte est mort (yi = 0 ), et qu’il reste vivant (mais malade peut être) pour une dose
Econométrie des Variables Qualitatives. Cours C. Hurlin 22
inférieure (yi = 1). Il s’agit alors de modéliser la probabilité de survie de l’insecte i en fonction
de la dose d’insecticide et des observations faites sur yi . On suppose pour cela qu’un certain
dosage γ est diffusé sur l’ensemble des insectes. On voit immédiatement que ce problème peut
s’écrire de la façon suivante :
1 si yi∗ > γ
yi = (1.30)
0 sinon
où la variable latente yi∗ peut s’écrire comme la somme d’une combinaison linéaire de carac-
téristiques propres à chaque insecte et d’une terme aléatoire.
yi∗ = xi β + εi (1.31)
Si le terme aléatoire εi est distribué selon une loi normale, on retrouve un modèle probit, si
ce terme est distribué selon une loi logistique on retrouve le modèle logit.
Un autre exemple, toujours tiré d’une étude biologique de Ashford et Sowden (1970), con-
cerne la probabilité pour un mineur de contracter une maladie des poumons (événement codé
yi = 1) lorsque sa tolérance inobservable, notée yi∗ , aux conditions de travail et en particulier
aux poussières de charbon est inférieure à certain seuil γ inconnue. On suppose que la tolérance
est liée à l’âge du mineur noté xi . De la même façon, ce modèle peut s’écrire sous la forme :
1 si yi∗ = β 1 + β 2 xi + εi < γ
yi = (1.32)
0 sinon
où εi a une distribution normale ou logistique suivant les modèles. Ici l’événement yi = 1 (mal-
adie) apparaît quand la variable latente yi∗ est inférieure à un seuil γ. Mais il aurait parfaitement
été possible de considérer une variable latente égale à −yi∗ et un seuil −θ pour retomber sur une
relation semblable à celle de l’exemple précédent où yi∗ > γ. Une autre manière aurait consister
à coder l’événement ”maladie” en 0. Par la suite, nous considérerons un modèle où l’on a yi = 1
lorsque yi∗ > γ, ce qui permet d’écrire que pi = F (xi β − γ). En effet, on a bien11 :
⇐⇒ pi = F (xi β − γ) (1.33)
Dans le cas où γ = 0, on retrouve l’écriture des modèles dichotomiques proposée jusqu’à
présent : pi = F (xi β) .
Proposition 1.10. Tout modèle dichotomique univarié peut s’écrire sous la forme
d’une équation de mesure de la forme :
1 si yi∗ > γ
yi = (1.34)
0 sinon
yi∗ = xi β + εi (1.35)
11 On suppose que la loi des perturbations est symétrique f (x) = f (−x) , dès lors on a F (x) = 1 − F (−x) .
Econométrie des Variables Qualitatives. Cours C. Hurlin 23
Ainsi, si F (.) = Φ (.) on retrouve le modèle probit et si F (.) = Λ (.) on retrouve le cas
du modèle logit. De façon générale, l’équation (1.33) correspond en effet aux définitions des
modèles logit et probit posées dans la section précédente.
A ce stade deux aspects doivent être discutés (Colletaz 2001). Le premier aspect concerne la
normalisation du seuil γ qui évidement ne peut être identifié que si la combinaison linéaire
xi β ne comporte pas de terme constant. Si la combinaison linéaire inclut un terme constant
et s’écrit sous la forme xi β = β 1 + K j=2 xi,j β j , alors il est seulement possible d’estimer la
constante c telle que :
K K
pi = F (xi β − γ) = F β 1 + xi,j β j − γ = F β 1 + xi,j β j
j=2 j=2
Il y a alors indetermination du couple (β 1 , γ) puisqu’il existe une infinité de couples tels que
β 1 = β 1 − γ. Deux choses l’une : ou l’on possède une information a priori sur le seuil γ qui
permet alors de lever l’indétermination et d’identifier β 1 , soit l’on impose a priori une contrainte
sur l’une ou l’autre des paramètres pour identifier l’autre. Dans ce dernier cas, généralement on
suppose γ = 0 ce qui permet d’obtenir l’égalité β 1 = β 1 . Sans perte de généralité, on considère
donc une écriture de la forme :
pi = F (xi β) (1.37)
εi xi β
pi = P rob < = P rob εi < xi β ∀λ > 0 (1.38)
λ λ
paramètres β que porte l’incertitude puisque les composantes de ce vecteur sont définis à un
facteur λ positif près. Naturellement, cette incertitude est sans conséquence pratique puisque
toute composante non nulle dans le ”vrai” vecteur β a une image dans le β contraint et que par
ailleurs les deux valeurs étant de même signe cela n’affecte pas la mesure des effets marginaux.
Proposition 1.11. Dans les modèles logit et probit, la variance de l’erreur du mod-
èle n’est pas identifiable : elle est normalisée à l’unité dans le cas du probit et
est égale à π 2 /3 dans le cas du logit. Par conséquent, la valeur numérique des
paramètres estimés n’a pas d’intérêt en soi dans la mesure où il ne correspondent
aux paramètres β de l’équation de la variable latente qu’à une constante multi-
plicative près. De plus, le seuil γ n’est pas identifiable car il se confond au terme
constant du vecteur des explicatives xi .
Ainsi, la seule information réellement utilisable est le signe des paramètres, indiquant si
la variable associée influence à la hausse ou la baisse la probabilité de l’événement considéré.
Le signe des coefficients et le calcul des effets marginaux restent les deux seules informations
directement exploitables en ce qui concerne les variables explicatives.
1 si yi∗ = β 1 + xi β 2 + εi > γ
yi =
0 sinon
On suppose que la variance des perturbations i.i.d. εi est égale à σ 2i = σ2 , ∀i ∈ (1, N ) . Dès
lors, pour un individu i la probabilité de décès s’écrit sous la forme :
pi = P rob (yi = 1)
= P rob (εi > γ − β 1 − xi β 2 )
= F (β 1 − γ + xi β 2 ) (1.40)
Si l’on considère un modèle probit, les perturbations du modèle doivent suivre une loi
normale centrée réduite. La contrainte sur la variance égale à l’unité, impose d’écrire le modèle
sous la forme suivante :
εi γ − β 1 − xi β 2
pi = P rob > (1.41)
σ σ
β1 − γ xi β 2
= Φ + (1.42)
σ σ
= Φ β 1 + xi β 2 (1.43)
Ainsi, la contrainte sur la variance résiduelle égale à π 2 /3, impose d’écrire le modèle sous la
forme suivante :
π ε π γ − β 1 − xi β 2
pi = P rob √ i >√
3σ 3 σ
π β1 − γ π xi β 2
= Λ √ +√
3 σ 3 σ
= Λ β 1 + xi β 2 (1.44)
√ √
avec β 1 = π√(β 1 − γ) / 3σ et β 2 = πβ 2 / 3σ. En effet, dans ce cas les perturbations normalisées
εi = πεi /σ 3 vérifient la contrainte sur la variance puisque :
π2 π2
E ε2i = 2
E (εi ) =
3σ 3
Encore une fois, seuls les paramètres β 1 et β 2 seront estimés, alors qu’il y a 4 paramètres
structurels (β 1 , β 2 , γ, σ) dans le modèle initial. L’adoption d’une normalisation du type γ = 0
et σ = 1 permet dans ce cas d’identifier les paramètres β 1 et β 2 .
Econométrie des Variables Qualitatives. Cours C. Hurlin 26
1 pi = F (xi β)
yi = (2.1)
0 1 − pi = 1 − F (xi β)
On cherche naturellement à estimer les composantes du vecteur β. Dans le cas des mod-
èles dichotomiques univariés, plusieurs méthodes d’estimation sont envisageables (GMM par
exemple). Toutefois la méthode la plus usitée lorsque la loi des perturbations est connue con-
siste en la méthode du maximum de vraisemblance. Nous ne considérerons pas ici le cas des
observations répétées12 .
Dès lors, la vraisemblance associée à l’échantillon de taille N, noté y = (y1 , .., yN ) s’écrit de
la façon suivante.
Il ne reste plus alors qu’à spécifier la fonction de distribution F (.) pour obtenir la forme
fonctionnelle de la vraisemblance. Ainsi, ∀xi β ∈ R dans le cas du modèle logit, on a:
12 Cas où à chaque valeur des caractéristiques exogènes correspondent plusieurs observations du caractère
qualitatif. Ceci traduit la possibilité de répéter plusieurs fois l’expérience sous les mêmes conditions. Comme le
note Anemiya (1980) ce cas est plus fréquent en biologie qu’en économie.
Econométrie des Variables Qualitatives. Cours C. Hurlin 27
exi β
F (xi β) = = Λ (xi β)
1 + exi β
alors que pour le probit, on a :
xi β
1 z2
F (xi β) = √ e− 2 dz = Φ (xi β)
−∞ 2π
f (xi β) f (xi β)
G (β) = x − x (2.6)
i : yi =1
F (xi β) i i : y =0
[1 − F (xi β)] i
i
∂ log L y, β N yi − F xi β f xi β
⇐⇒ = xi = G β = 0 (2.8)
∂β i=1 F xi β 1 − F xi β
Econométrie des Variables Qualitatives. Cours C. Hurlin 28
N yi − Φ xi β φ xi β
GP β = xi = 0 (2.10)
i=1 Φ xi β 1 − Φ xi β
En effet, l’écriture du gradient dans le cas du modèle logit se simplifie en tenant compte
de la propriété de la loi logistique selon laquelle, si l’on note λ (x) la densité associée à Λ (x) ,
on a la relation suivante : ∀x, λ (x) = Λ (x) [1 − Λ (x)] . Dès lors, l’expression (2.5) se simplifie
puisque :
N N
[yi − Λ (xi β)] λ (xi β)
GL (β) = xi = [yi − Λ (xi β)] xi
i=1
Λ (xi β) [1 − Λ (xi β)] i=1
Cette propriété est particulièrement facile à visualiser dans le cas du modèle logit. De
façon générale, les estimateurs du maximum de vraisemblance constituent un cas particulier des
estimateurs des moments.
Deuxième remarque : le système défini par l’équation (2.8) est non linéaire. L’estimateur
β ne peut être obtenu directement. Un algorithme d’optimisation numérique de la vraisemblance
est donc nécessaire. Comme nous le verrons dans la section suivante, ces algorithmes se fondent
à la fois sur le gradient mais aussi sur la matrice hessienne des dérivées secondes. C’est pourquoi,
nous allons donné l’expression des gradients et des matrice hessiennes, notées H (β) , dans le
cas particulier des modèles logit et probit.
∂ ∂ log L (y, β) ∂
H (β) = = G (β)
∂β ∂β ∂β
N
∂ (yi − F ) f
= xi
∂β i=1
F (1 − F )
F (1 − F ) ∂ [(y − F ) f ] (y − F ) f ∂ [F (1 − F )]
= x− x
F 2 (1 − F )2 ∂β F 2 (1 − F )2 ∂β
En simplifiant, il vient :
−f 2 + (y − F ) f (y − F ) f
H (β) = x x− 2 [f (1 − F ) − F f ] x x
F (1 − F ) F 2 (1 − F )
f2 (y − F ) f f 2 (y − F ) f 2 (y − F )
= − xx+ xx− xx+ xx
F (1 − F ) F (1 − F ) F 2 (1 − F ) F (1 − F )2
En regroupant les termes en f 2 et en f on obtient alors :
f2 x x (y − F ) f
H (β) = 2 [F (1 − F ) + (y − F ) F − (y − F ) (1 − F )] + xx
F 2 (1 − F ) F (1 − F )
f2 x x (y − F ) f
= 2 2 yF − F 2 − y + xx
F2 (1 − F ) F (1 − F )
f2 (y − F ) f
= − 2 y (1 − F )2 + (1 − y) F 2 x x + xx
F2 (1 − F ) F (1 − F )
y f2 (1 − y) f 2 (y − F ) f
= − xx− 2 x x+ xx
F2 (1 − F ) F (1 − F )
En intégrant les indices et les arguments des fonctions F (.) , f (.) et f (.) on retrouve alors
l’expression de la matrice hessienne H (β) donnée dans l’équation (2.12). Attention, il n’existe
pas d’expression simplifiée dans le cas des modèles logit et probit de la matrice hessienne. En
revanche, l’espérance de la matrice hessienne, qui intervient dans le calcul de la matrice de
variance covariance asymptotique de l’estimateur de maximum de vraisemblance, a une écriture
plus simple.
En effet, le second terme de l’expression (2.12) s’annule lorsque l’on applique l’opérateur
espérance. Cette expression peut alors se simplifier comme suit :
N
f (xi β)2
E [H (β)] = − x xi
i=1
F (xi β) [1 − F (xi β)] i
En effet, dans le cas du modèle logit on a Λ (x) [1 − Λ (x)] = λ (x) , dès lors l’expression de
la matrice d’information de Fischer se simplifie comme suit :
N N
λ2 (xi β)
I (β) = x xi = λ (xi β) xi xi (2.17)
i=1
Λ (xi β) [1 − Λ (xi β)] i i=1
Il nous reste à présent à montrer que si la fonction de log vraisemblance admet un maximum
global, ce dernier est unique.
Dans le cas du modèle logit, les dérivées première et seconde de la fonction log [F (x)] =
log [Λ (x)] sont les suivantes :
Les dérivées première et seconde de la fonction log [1 − Λ (x)] sont les suivantes :
Dans le cas du logit, les fonctions log [F (x)] et log [1 − F (x)] sont donc strictement concaves,
donc la log-vraisemblance log L (y, β) est elle même strictement concave. S’il existe un maximum
à cette fonction en β, ce maximum est global. Le même résultat peut être mis en évidence dans
le cas du modèle probit.
Comme le note Colletaz (2001), il peut toutefois arriver que l’on observe des difficultés
dans la progression de l’algorithme vers la solution. Généralement ces difficultés conduisent
à l’affichage de valeurs anormalement grandes, en valeur absolue, pour un ou plusieurs des
paramètres du modèle. Ceci correspond au cas de la classification parfaite dans lequel une
ou plusieurs combinaisons de variables explicatives permet de prévoir parfaitement la survenue
ou la non survenue de l’événement considéré. Par exemple, considérons le cas où K > 1, et si
pour une variable explicative notée zi = 1 lorsque yi = 1, alors que yi = 1 ou yi = 0 lorsque
zi = 0. Dans ce cas, P rob (yi = 1/zi = 1) = 1 quelles que soit les valeurs prises par les autres
variables explicatives xi . Cela contraint l’algorithme à donner une valeur extrêmement forte à
la combinaison linéaire βzi + βxi , c’est à dire à donner une valeur théoriquement infinie au
vecteur β, de sorte que l’on rencontre alors des problèmes numériques. Le plus souvent, on
observera une valeur estimée de β particulièrement élévée en valeur absolue avec un écart type
associé tendant vers la nullité. Pour résoudre ce problème, il suffit la ou les variables concernées
ainsi que la totalité des observations parfaitement classées, soit celles associées aux observations
telles que zi = 1 et plus généralement aux variables ou aux combinaisons de variables autorisant
cette classification parfaite.
Econométrie des Variables Qualitatives. Cours C. Hurlin 32
∂ log L y, β N yi − F xi β f xi β
G β = = xi = 0 (2.18)
∂β i=1 F xi β 1 − F xi β
avec F (.) = Λ (.) dans le cas du logit et F (.) = Φ (.) dans le cas du probit. Un tel problème
n’admet pas de solution analytique. La résolution d’un tel système ne peut se faire qu’en
utilisant une procédure d’optimisation numérique. Les algorithmes utilisées dans les principaux
logiciels d’économétrie sont généralement13 construit selon l’une ou l’autre de ces deux méthodes
: la méthode de Newton Raphson et la méthode du score. Nous n’évoquerons ici que la méthode
de Newton Raphson.
Les méthodes d’optimisation numérique sont utilisées pour maximiser une fonction f (θ)
lorsque la condition du premier ordre ∂f (θ) /∂θ = 0 n’admet pas de solution analytique ; le θ
optimal doit être déduit par tatônnement ou par un algorithme itératif. Dès lors, un algorithme
itératif utilise trois principaux éléments :
*****************************************************
**** INSERER GRAPHIQUE SUR LA PROCEDURE ****
*****************************************************
En ce qui concerne le choix des conditions initiales, ce choix est d’autant plus important
que le critère à maximiser f (θ) est complexe. Dans le cas des modèles dichotomiques, on sait
que la fonction f (θ) à maximiser (la vraisemblance ou la log vraisemblance suivant les cas) est
globalement concave : dès lors, on est assuré que l’algorithme converge vers la vraie valeur des
paramètre, c’est à dire vers la solution14 unique qui maximise f (θ) , et cela quelles que soient
les conditions initiales. Mais même dans ce cas particulièrement favorable, la convergence peut
être extrêmement longue si les valeurs de départ sont trop éloignées de l’optimum. Pour les
modèles logit et probit, les logiciels usuels considèrent des valeurs initiales pour l’algorithme
de maximisation de la vraisemblance égales aux réalisations des estimateurs obtenus dans le
modèle linéaire :
yi = xi β LP + εi β 0 = β LP (2.19)
La règle d’arrêt est généralement du type : arrêter le processus itératif si la variation de
θ ou du critère f (θ) entre l’itération actuelle et la précédente est inférieure à une valeur seuil
(souvent appelée tolérance).
Reste à définir la règle de passage d’un vecteur θ au suivant. Une règle de passage consiste
à partir des valeurs initiales θ0 , à trouver le prochain vecteur des paramètres θ1 tel que :
f (θ1 ) ≥ f (θ0 )
où λi−1 désigne le pas à l’itération i − 1 et Di−1 est la direction. Di−1 indique la direction que
doivent prendre les composantes du nouveau vecteur θi et ι−1 indique l’amplitude du saut dans
cette orientation. Dans une méthode du gradient, la direction est déterminée par le gradient
de la fonction f (θ) . dans le cas K = 1, si le gradient est positif cela signifie que l’on se situe à
gauche de l’optimum : donc on se déplace en augmentant θi > θi−1 . En ce qui concerne le pas,
on cherche alors λi tel que ∂f (θi + λi Di ) /∂λi ≈ 0.
La méthode d’optimisation de Newton Raphson est une méthode du gradient15 qui est no-
tamment recommandée lorsque le critère à maximiser est globalement concave, ce qui est le cas
de la fonction de log vraisemblance dans un modèle dichotomique univarié. Dans cette méthode,
la direction est déterminée par le gradient de la fonction f (θ) , noté G (θ) , tandis que le pas
est déterminé par le hessien, noté H (θ) . En effet, cette méthode considère un développement
limité de la condition du premier ordre du programme de maximisation de la fonction f (θ).
Soit un point solution θi , satisfaisant la condition du premier ordre.
∂f (θi )
∀i = G (θi ) = 0
∂θ
On peut alors donner l’expression d’un développement limité autour de ce point θi . Ainsi,
pour tout point θi+1 , on obtient la relation suivante au voisinage de θi :
∂G (θi )
G (θi+1 ) = G (θi ) + (θi+1 − θi ) = 0
∂θ
ou encore :
G (θi+1 ) = G (θi ) + H (θi ) (θi+1 − θi ) = 0
On en déduit la relation suivante :
−1
∀i, θi+1 = θi − H (θi ) G (θi ) (2.22)
La méthode de d’optimisation de Newton Raphson ainsi fondé sur cette règle de passage,
nécessite le calcul à chaque étape du hessien H (θi ) .
15 Pour un exposé des méthodes du gradient en général voir Alban 2000, pages 49 et suivantes.
Econométrie des Variables Qualitatives. Cours C. Hurlin 34
ou encore
−1
β i = β i−1 − H β i−1 G β i−1 (2.24)
On vérifie immédiatement que si la suite β i converge vers une limite β, cette limite est
forcement solution des équations de vraisemblance. En effet, si l’on pose β = lim β i , et en
i→∞
considérant la limite des membres de l’égalité (2.24) on a :
−1 −1
β =β−H β G β ⇐⇒ H β G β =0
1 si yi∗ ≥ 0
yi = (3.1)
0 sinon
yi∗ = xi β 0 + εi (3.2)
avec P rob (yi = 1) = F (xi β) où F (.) désigne la fonction de répartition de εi , où xi = x1i ..xK
i ,
∀i = 1, .., n désigne un vecteur de caractéristiques observables et où β 0 ∈ RK est un vecteur
de paramètres inconnus. On suppose que l’on dispose d’un échantillon de n individus indicés
i = 1, .., n.
∂ log L y, β n yi − F xi β f xi β
= xi = G β = 0 (3.5)
∂β i=1 F xi β 1 − F xi β
où G (β) désigne le gradient associé à la log-vraisemblance ∂ log L (y, β), évalué au point β. On
trouve alors un système de K équations non linéaires.
où β 0 désigne la ”varie” valeur des paramètres β. En effet, tout le problème consiste à établir
une propriété de convergence de l’estimateur sans disposer d’une expression analytique de celui-
ci. Tout ce que l’on sait pour l’instant, c’est que si la fonction de log-vraisemblance dans les
modèles logit et probit admet un maximum, ce maximum est unique, puisque nous avons montré
que la fonction log L (y, β) est dans ces deux cas concave.
sous θ ∈ Θ (3.8)
Ce critère Cn (y, θ) peut être soit celui somme des carrés des résidus (critère des MCO), soit
celui de la somme des carrés pondérés (critère des MCG), etc.. De façon générale, ce critère
correspond à la classe des M-estimateurs. Soit θ0 le vrai vecteur de paramètres permettant
de minimiser le critère et soit y un vecteur de variables endogènes observables. On considère
un M-estimateur quelconque noté θn défini par :
On cherche alors à établir que cet estimateur est convergent et cela sans spécifier le critère
Cn (y, θ). La convergence de θn se traduit par la relation :
p.s.
θn −→ θ0 (3.10)
n→∞
Hypothèse 1 θ ∈ Θ, Θ ∈ RK compact.
Econométrie des Variables Qualitatives. Cours C. Hurlin 37
∀θ ∈ Θ, C∞ (θ0 , θ0 ) ≤ C∞ (θ, θ0 )
Soit θL une des valeurs d’adhérence particulière de la suite θn . Il existe alors une sous
L
suite θn qui converge vers θL .
L p.s.
θn −→ θL
n→∞
L
Sachant que θn converge vers θL , et que sous l’hypothèse 2 le critère Cn (y, θ) converge
vers C∞ (θ, θ0 ), on montre que la limite en probabilité du terme de gauche de l’inégalité (3.12)
peut s’écrire sous la forme suivante :
L p.s. L
Cn y, θn −→ C∞ θ , θ0 (3.13)
n→∞
De la même façon, on montre que le terme de droite de l’inégalité (3.12) converge en prob-
abilité vers la quantité suivante :
p.s.
Cn (y, θ0 ) −→ C∞ (θ0 , θ0 ) (3.14)
n→∞
Dès lors on obtient l’inégalité suivante définie sur les limites des critères :
L
C∞ θ , θ0 ≤ C∞ (θ0 , θ0 ) (3.15)
Econométrie des Variables Qualitatives. Cours C. Hurlin 38
Sachant que sous l’hypothèse 3, θ0 est la seule valeur qui assure le minimum global de la
fonction C∞ (θ, θ0 ), c’est à dire que ∀θ ∈ Θ on a C∞ (θ0 , θ0 ) ≤ C∞ (θ, θ0 ), on en conclut que
θL correspond nécessairement à θ0 :
θL = θ0 (3.16)
L
En d’autres termes, la sous suite θn converge vers la vraie valeur θ0 des paramètres.
Donc par conséquent, la suite θn converge elle aussi vers la vraie valeur θ0 des paramètres.
p.s.
θn −→ θ0 (3.17)
n→∞
On ainsi réussi à démontrer la convergence de notre M-estimateur θn vers la vraie valeur des
paramètres θ0 . Appliquons à présent cette méthode dans le cas de l’estimateur du maximum
de vraisemblance dans le cadre des modèles dichotomiques univariés.
où l’on pose17
n
1 1
Cn (y, β) = log L (y, β) = yi log [F (xi β)] + (1 − yi ) log [1 − F (xi β)] (3.19)
n n i=1
où F (.) désigne une fonction de répartition. On note β 0 la vraie valeur des paramètres. On
suppose que l’hypothèse 1 est vérifiée, c’est à dire que β ∈ Θ, Θ ∈ RK compact. Reste à établir
que les hypothèses 2 et 3 sont valides.
Montrons que tout d’abord que le critère CN (y, θ) converge presque sûrement et uniformé-
ment par rapport à θ vers une fonction C∞ (θ, θ0 ) , c’est à dire que :
p.s.
Cn (y, θ) −→ C∞ (θ, θ0 )
n→∞
Etudions la convergence des différents éléments de cette somme. On suppose que les variables
xi sont aléatoires. Sous certaines hypothèse de régularités, on sait que :
n
1 p
yi log F (xi β) −→ E {yi log F (xi β)}
n i=1
n→∞
17 Afin de simplifier les calculs, on pose que Cn (y, β) = (1/N) log L (y, β) . On aurait pu assimiler le critère
directement à la log vraisemblance. Quoiqu’il en soit ces deux définitions du critère laissent inchangée la
définition de l’estimateur du maximum de vraisemblance β.
Econométrie des Variables Qualitatives. Cours C. Hurlin 39
n
1 p
(1 − yi ) log [1 − F (xi β)] −→ E {(1 − yi ) log [1 − F (xi β)]}
n i=1
n→∞
où h (.) désigne la densité jointe de y et de θ, et où f (.) et g (.) désignent suivant les cas les
densités marginales et conditionnelles des v.a.r. y et θ. On en déduit le théorème de Bayes :
f (y/θ) g (θ)
g (θ/y) = (3.22)
f (y)
*******************************
**** Finir Demonstration *********
*******************************
Donc finalement, on a :
n
1 p.s.
log L (y, β) −→ F (−xi β 0 ) log [F (xi β 0 )] + [1 − F (−xi β 0 )] log [1 − F (xi β 0 )] = L∞ (y, β)
n n→∞
i=1
avec
N
∂ 2 log L (y, β) f 2 (xi β 0 )
I (β 0 ) = −E = x xi (3.24)
∂β∂β β=β 0 i=1
F (xi β 0 ) [1 − F (xi β 0 )] i
G β = G (β 0 ) + H (β 0 ) β − β 0 = 0
En supposant que chaque composante (1/N ) N i=1 ∂ log L (yi , β) /∂β 1 est i.i.d, on alors appli-
quer le théorème central limite à g (β 0 ) . Parallèlement, si l’on applique une loi des grands
√
nombres à H (β 0 ) /N, on montre finalement que la quantité N β − β 0 a une distribution
normale de moyenne 0 et de matrice de variance covariance −E [H (β 0 )] .
Une remarque doit être faite ici concernant la matrice de variance covariance asympotique de
β, notée Vas β = I (β 0 )−1 . Naturellement, cette matrice de variance covariance dépend de la
vraie valeur du paramètre β 0 qui est par définition inconnue. Dès lors, on retient généralement
−1
comme estimateur de la matrice de variance covariance asympotique la matrices I β dans
laquelle la vraie valeur des paramètres β 0 a été remplacée par son estimateur β.
−1
−1 ∂ 2 log L (y, β)
Vas β = I β = −E (3.26)
∂β∂β β=β
Econométrie des Variables Qualitatives. Cours C. Hurlin 42
où εi est une perturbation i.i.d. 0, σ 2ε . Lorsque l’on cherche à estimer les paramètres β 0
par maximum de vraisemblance, on postule une certaine distribution pour les termes εi . On
considère par exemple une distribution logistique dans le cas d’un modèle logit et une distrib-
ution normale dans le cas d’un probit. Or, rien ne garantit a priori que cette distribution que
l’on utilise pour construire la vraisemblance de l’échantillon corresponde réellement à la ”vraie”
distribution des perturbations εi. Naturellement, une erreur sur la distribution des termes εi
conduit alors nécessairement à une estimation du maximum de vraisemblance non efficace des
paramètres β 0 .
Une des solutions pour se prémunir contre ce risque de mauvaise spécification de la loi des
perturbations du modèle, consiste tout à s’afranchir de toute de hypothèse sur la distribution
paramétrique des résidus dans la phase d’estimation des paramètres β 0 . On parle alors de
méthodes d’estimation non paramètriques. Nous ne présenterons ici que les méthodes du
score maximum et une méthode semi-paramétrique (Alban 2000).
L’idée générale de cette méthode est la suivante. On sait que la probabilité associée à
l’événment yi = 1 est définie par pi = P rob (εi < xi β) = F (xi β) . En d’autres termes, on a
yi = 1 quand l’inégalité εi < xi β est vérifiée. Si l’on considère à présent des valeurs de εi
suffisament faibles relativement à xi β, cette relation peut être approximée de la façon suivante
xi β − εi xiβ > 0. Ainsi, on doit observer yi = 1 quand xi β est positif, si tant ait que l’on
dispose de la vraie valeur β 0 du vecteur β. Parralèment, on doit observer yi = 0 quand xi β est
négatif. En termes de probabilités on obtient les approximations suivantes :
Une autre interprétation de la méthode du score est qu’elle compare le signe de la prédiction,
c’est à dire le signe de xi β, avec celui de la variable transformée δ i = 2yi − 1 qui prend la valeur
-1 quand yi = 0 et la valeur 1 quand yi = 1. On compare donc une valeur observée δ i qui est
positive quand l’événement yi = 1 se réalise avec la quantité xi β, qui pour la vraie valeur β 0
du vecteur β, doit elle aussi être positive quand l’événement yi = 1 se réalise. Ainsi, le critère
du score maximum peut s’écrire sous la forme :
N
1
β s =arg max δ i sgn (xi β) (4.2)
{β} N i=1
Le principal avantage de cette méthode du score maximum est qu’elle ne nécessite aucune
hypothèse sur la distribution des résidus εi . Mais cet avantage constitue en outre sa principale
limite. En effet, puisque l’on ne construit aucune vraisemblance pour obtenir l’estimateur β s
et puisque le critère à maximiser n’est pas continument différentiable, le calcul des principales
statistiques de tests sur cet estimateur ne peut pas se faire avec les techniques usuelles. Par
exemple, les écarts types associés au vecteur β s ne peuvent pas être calculés à partir des formules
usuelles, fondées par exemple sur la dérivée seconde d’une fonction critère continue (fonction
de log-vraisemblance dans le cas de l’estimateur du MV). Une possibilité consiste à calculer les
estimateurs des variances des estimateurs β s par des méthodes de bootstrap (Greene 1997).
Ainsi, l’information fournie par la méthode du score minimum est limitée, et de plus l’esti-
mateur β s est généralement inefficace par rapport à l’estimateur du maximum de vraisemblance.
De plus, son exploitation est elle aussi très limitée : il n’est par exemple pas possible de calculer
les effets marginaux associées aux variables explicatives sans postuler une hypothèse sur la dis-
tribution F (.) . De plus, le fait de ne pas imposer de dsitribution a priori n’assure aucunement
que l’estimation sera plus précise ou que les prévisions seront plus satisfaisantes. C’est pour
ces raisons que se sont développées des méthodes intermédiaires : les méthodes d’estimation
semi-paramétrique.
Dans un modèle dichotomique simple, nous avons vu que l’on l’égalité pi = E (yi ) dès lors
que le modèle s’écrit sous la forme pi = P rob (yi = 1) . De façon plus précise, on obtient donc
Econométrie des Variables Qualitatives. Cours C. Hurlin 44
l’égalité suivante :
pi = E ( yi | xi ) = F (xi β) (4.3)
Ainsi, décrire l’espérance conditionnelle de yi sachant xi revient en fait à décrire la fonction
de répartition F (.), que l’on cherche à maximiser en β. On définit r (xi ) , appelée fonction de
lien, cette espérance conditionnelle :
∞
f (xi , xi )
r (xi ) = E ( yi | xi ) = yi dyi (4.4)
−∞ f (xi )
La démarche est alors la suivante : on cherche dans un premier temps à estimer la fonction
de lien r (z) , qui n’est autre que la fonction de répartition F (z) . Une fois que l’on dispose
d’un estimateur de F (z), noté F (z), en tout point z, il suffit d’écrire la log-vraisemblance de
l’échantillon en fonction de la loi estimée F (xi β) , et de maximiser cette quantité par rapport
à β pour obtenir un estimateur β sp .
Comment estimer cette fonction de lien, qui correspond en fait la fonction de répartition
F (z) ? On utilise ici une méthode non paramétrique fondateur sur un estimateur à noyau.
Sans le démontrer, on admettra le résultat suivant :
xi − x0i
wi x0i = K (4.6)
h
où K (.) désigne un opérateur noyau et h une fenêtre.
Ainsi, cette proposition nous permet de reconstruire toute la fonction de répartition F (xi )
en appliquant la formule (4.5) pour chaque observations xi , i = 1, .., N. On dispose alors d’une
suite de N réalisations d’un estimateur F (xi β) pour une valeur donnée du vecteur β.
L’opérateur noyau K (.) , ou kernel, fournit une mesure de la distance entre le point considéré
xi0 et n’importe quel autre point xi de l’échantillon. Plus la distance est importante, plus l’on
attribue une faible valeur à la pondération, donc plus la valeur du kernel est faible. C’est une
fonction continue, symétrique autour de zéro, intégrant à 1, et nulle pour de grandes valeurs de
son argument. Les fonctions kernel les plus souvent utilisées sont les suivants :
Sur la figure (4.1) ont été reportées les valeurs de ces différentes fonctions, ce qui permet de
visualer la décroissance du poids accordé aux observations éloignées du point central x0i .
Le paramètre h de la pondération (4.6) est appelé fenêtre (ou bandwidth parameter ) sert
à calibrer la distance entre xi et xi0 , en pénalisant plus ou moins les poids éloignés de xi0 .
Plus h est petit, plus l’opérateur wi (xi0 ) privilégie les points proches de xi0 . Un exemple de
valeur de la fenêtre correspond à h = 0.15 (xv − xu ) où xv − xu désigne l’écart maximal entre
les observations (upper moins lower ). Naturellement, il convient d’évaluer l’impact de ce choix
sur l’estimateur de β en faisant varier h.
Econométrie des Variables Qualitatives. Cours C. Hurlin 45
0.9
0.8
0.7
0.6
0.5
0.4
0.3 Epanechnikov
Triangulaire
Uniforme
0.2 Gaussienne
0.1
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
N
wi zj0 yi
i=1 zi − zj0
∀j = 1, .., N r zj0 = N
avec wi zj0 = K
h
wi zj0
i=1
On peut ainsi finallement obtenir une valeur estimée de la log-vraisemblance log L (y, β)
pour toute valeur du vecteur β ∈ RK .
Il ne reste plus alors qu’à maximiser la fonction log L (y, β) en β. Pour cela on utilisera une
procédure numérique d’optimisation (par exemple une méthode du gradient Newton Raphson)
qui à partir d’une condition initiale sur β permettra d’obtenir l’estimateur semi-paramétrique
βs :
β s =arg max log L (y, β) (4.8)
{β}
**************************************************
**** INSERER Programme Matlab et Résultats *********
**************************************************
Econométrie des Variables Qualitatives. Cours C. Hurlin 48
1. Test de Wald
On rappelle que ces trois tests sont asymptotiquement équivalents, ce qui implique qu’ils
peuvent notamment se contredire sur poetits échantillons. De plus, leur distribution n’étant
valide qu’asympotitquement, il convient d’être prudent dans leur utilisation sur de petits échan-
tillons. On sait en outre que le test LRT est localement le plus puissant et que donc il devrait
être a priori préféré. Nous n’envisagerons ici que le cas d’un test bidirectionnel20 sur un coeffi-
cient ou sur un ensemble de coefficients.
On sait que dans la formulation générale d’un test de contraintes de type H0 : g (β) = r, où
r est un vecteur de dimension (c, 1) , on a le résultat suivant :
L
g β −r GV β G g β −r −→ χ (c)
N→∞
20 Le passage à un test unidirectionnel tel que H : β = a contre H : β > a peut se faire simplment en
0 1
considérant les statistiques des test bidirectionnels et en adaptant la valeur critique.Pour un test de Wald sur
un seul coefficient, l’intervalle d’acceptation à 5% est [−1.96, 1.96] pour un test H1 : β = a alors qu’il devient
]−∞, 1.96] pour le test H1 : β > a .
Econométrie des Variables Qualitatives. Cours C. Hurlin 49
ème
où vjj désigne l’estimateur de la variance de l’estimateur du j j coefficient β j .
Ainsi, si l’on note χ295% (1) le quantile à 95% de la loi χ2 (1) , le test de Wald au seuil de 5%
2
de l’hypothèse H0 consiste à accepter H0 si β j − a /vjj est inférieur à χ295% (1) , et à refuser
H0 si cette quantité est supérieure à χ295% (1) .
La plupart des logiciels (sauf SAS) ne propose pas cette statistique de Wald, mais une
statistique zj définie comme la racine carré de la précédente. Compte tenu du lien entre la loi
normale centrée réduite et la loi du Chi2 à un degré de liberté, on a immédiatement sous H0 :
βj − a L
zj = −→ N (0, 1) (5.2)
vjj N →∞
βj L
zj = −→ N (0, 1) (5.3)
vjj N →∞
Naturellement si l’on note χ295% (1) le quantile à 95% de la loi χ2 (1) , le test du rapport
des maxima de vraisemblance au seuil de 5% de l’hypothèse H0 consiste à accepter H0 si
LRTj < χ295% (1) , et à refuser H0 si LRTj > χ295% (1) . Cette porcédure est asymptotique-
ment équivalente à celle d’un test de Wald.
Econométrie des Variables Qualitatives. Cours C. Hurlin 50
Dans le cas d’un test portant sur plus d’un paramètre, on utilise la statistique suivante
c L
LRT = −2 log L y, β − log L y, β −→ χ2 (r) (5.5)
N→∞
c
où r désigne le nombre de restrictions imposées sur les paramètres, et où β et β désigne les
estimateurs respectivement non contraint et contraint du vecteur complet β.
c
où β j et β j désignent respectivement les estimateurs non contraint et contraint de
βj .
et où
N
∂ log L (y, β) ∂ log L (yi , β)
=
∂β β=β
c
i=1
∂β β=β
c
alors que yi = 0, ou dans le cas où yi = 0 alors que yi = 1. Ce critère est souvent utilisé en
analyse discriminante. Le problème avec ce critère est que l’on considère de la même façon
un individu ayant une probabilité pi = F (xi β) = 0.49 et un individu ayant une probabilité
pi = F (xi β) = 0 : on pénalise ces deux individus de la même façon dans le cas d’un échec
du modèle (c’est à dire lorsque our les deux individus on a yi = 1) et on les valorise de la
même façon en cas de réussite. En, particulier, lorsque l’on considère des événements avec une
forte probabilité (par exemple de sortir du chômage) ou au contraire une très faible probabilité
(par exemple de tomber malade), la plupart des modèles obtiendront de bons résultats selon ce
critère.
Somme des Carrés des Résidus (SCR) : ce critère traditionnel s’écrit sous la forme
N 2
Somme des carrés des résidus yi − F (xi β) (5.8)
i=1
SCR pondérée par les probabilités estimées : ce critère s’écrit sous la forme
2
N yi − F (xi β)
SCR pondérée (5.10)
i=1 F (xi β) 1 − F (xi β)
La principale raison de préférer ce critère à la somme non pondérée est la suivante. Il paraît
raisonnable d’attacher une plus grande perte aux erreurs faites en prévoyant des variables de
faible variance, étant donné qu’il est plus facile de pérvoir des variables de faible variance que
des variables de plus forte variance. Dès lors, il paraît raisonnable de pondérer la somme des
carrés des résidus par un poids qui est inversement proprtionnel à la variance.
Cette mesure est liée à la SCR non pondérée. Dans un modèle de régression standard,
cette mesure serait identique au R2 de Effron. Bien que cette égalité ne soit pas vraie dans
Econométrie des Variables Qualitatives. Cours C. Hurlin 52
les modèles dichotomiques, les mêmes critiques s’appliquent au coefficient de corrélation des
carrésqu’à la SCR.
Ce critère est particulièrement bien adapté pour comparre des modèles qui ne possèdent pas
les mêmes dimensions. En effet, on sait que si l’on désire tester r contraintes linéaires sur les
c
paramètres la −2 log L y, β j − log L y, β j suit asympotiquement un χ2 (r) . Une normli-
sation de la quantité log L y, β a été proposée par McFadden pour se ramener à une quantité
similaire à un R2 :
log L y, β
R2 de McFadden (1974) = 1 − (5.13)
log L (y, 0)
où log L (y, 0) désigne le maximum de la fonction de log vraisemblance obtenu lorsque tous les
coefficients de la regrssion β sont nuls à l’exception du terme constant.
Econométrie des Variables Qualitatives. Cours C. Hurlin 53
6. Application
Proposer une application avec :
5. Calcul des effets marginaux : calcul des elasticités moyennes selon les deux formules et
des elasticités individuelles
****************
*** A FINIR ****
****************
Econométrie des Variables Qualitatives. Cours C. Hurlin 54
A. Annexes
A.1. Rappels sur les notions de convergence
Les rappels proposés dans le cadre de cette section portent sur les différentes notions de con-
vergence. Toutefois, la lecture de ces rappels doit nécessairement s’accompagner d’une étude
plus systématique des fondements probabilistes de ces notions21 .
Considérons une séquence de T v.a.r. {X1 , X2 , ..., Xi , ..., XT }, indicées par i. Supposons que
l’on souhaite étudier le comportement de la moyenne empirique de ces v.a.r. lorsque T aug-
mente. On cherche ainsi à déterminer le comportement asymptotique de la v.a.r. transformée,
X T , telle que :
T
1
XT = Xi (A.1)
T i=1
Pour cela, il convient d’utiliser la notion de convergences.
Definition A.1. (Convergence en Probabilité) Soit {XT }∞T =1 une séquence de variables
aléatoires scalaires. Cette séquence converge en probabilité vers c, ∀c ∈ C, si pour
toute valeurs arbitraires ε > 0 et δ > 0, il existe une valeur N, telle que ∀T ≥ N :
Alors, on note :
p
XT −→ c ⇐⇒ plim XT = c (A.3)
Exprimée autrement, cette définition signifie que pour un échantillon de taille infinie, la
probabilité que la réalisation de la variable XT diffère de la valeur c de plus ou moins δ (δ
étant aussi petit que l’on veut) est inférieure à toute valeur ε aussi petite soit-elle. En d’autres
termes, les réalisations de la variable XT sont concentrées au voisinage de la valeur c.
Propriété Une suite de matrices de v.a.r. {XT }∞T =1 , de dimension (m, n) ,converge en prob-
abilité vers une matrice C, de dimension (m, n), si chaque élément de Xt converge en
probabilité vers l’élément correspondant de C. De façon plus générale, si l’on considère
∞ ∞
deux séquences de v.a.r. {XT }T =1 et {YT }T =1 , de dimension (m, n) , alors :
p
XT −→ YT (A.4)
si et seulement si, la différence entre les deux suites converge en probabilité vers zero :
p
XT − YT −→ 0 (A.5)
Enfin, il convient de rappeler deux propriétés qui nous serons utiles dans la caractérisation
des distributions asymptotiques des estimateurs usuels.
21 Voir par exemple, ”Méthodes Statistiques”, Philippe Tassi, Economica 1989
Econométrie des Variables Qualitatives. Cours C. Hurlin 55
Theorem A.2. (Théorème de Slutsky) Soit {XT }∞T =1 une suite de (n, 1) vecteurs admet-
tant une limite en probabilité définie par c, et soit g (.) une fonction continue en c,
satisfaisant g : Rn −→ Rn , et ne dépendant pas de T, alors :
p
g (XT ) −→ g (c) (A.6)
T →∞
L’idée est la suivante. Si la fonction g (.) est continue, la quantité g (XT ) se situera au
voisinage de g (c) , dès lors que XT se situe au voisinage de c. En choisissant une valeur de
T suffisamment grande, la probabilité que la réalisation de XT se situe au voisinage de c
peut être définie aussi proche de l’unité que l’on le désire. Un exemple simple est le suivant.
Considérons deux séquences de v.a.r. telles que plim X1,T = c1 et plim X2,T = c2 , alors
plim (X1,T + X2,T ) = c1 + c2 . La démonstration de ce résultat est immédiate dès lors que l’on
montre que la fonction g (X1,T , X1,T ) = X1,T + X2,T est une fonction continue en (c1 , c2 ) .
∞
Propriété 1 Une condition suffisante pour qu’une suite de v.a.r. {XT }T =1 converge en prob-
abilité vers une constante réelle c est :
L’intuition de cette propriété est simple. Si pour un ordre T suffisamment grand, la variable
XT admet c pour espérance et a une variance qui tend vers 0, alors la fonction de distribution
de XT sera infiniment concentrée autour de la valeur c.
Definition A.3. Une suite de suite de v.a.r. {XT }∞ T =1 converge en moyenne quadra-
tique vers c, si pour tout ε > 0, il existe une valeur N , telle ∀ T ≥ N :
Alors, on note :
m.s.
XT −→ c (A.10)
Proposition A.4. (Inégalité de Chebyshev) Soit X une v.a.r. telle que la quantité
E (|X|r ) existe et soit finie pour r > 0. Pour tout δ > 0, et toute valeur de c, on
montre que :
r
E (|X − c| )
P {|X − c| > δ} ≤ (A.11)
δr
Econométrie des Variables Qualitatives. Cours C. Hurlin 56
E (X − c)2 E |X − c|2
= < ε ∀T ≥ N
δ2 δ2
L’inégalité de Chebyshev implique alors que :
On note alors :
loi L
XT −→ X ou XT −→ X (A.13)
T →∞ T →∞
Propriété 2 La convergence en loi vers une constante réelle implique la convergence en prob-
abilité :
L p
∀c ∈ R XT −→ c =⇒ XT −→ c (A.15)
T →∞ T →∞
L p
Propriétés 3 Soient deux suites de v.a.r. {XT }∞ ∞
T =1 et {YT }T =1 telle que XT −→ X et YT −→
c, alors :
L
(i) XT + YT −→ X + c
L
(ii) XT YT −→ c X
L X
(iii) X
YT −→ c avec c = 0
T
L
Propriété 4 Soient XT et X des vecteurs aléatoires de Rp , tels que XT −→ X ,et soit g (.)
T →∞
une fonction continue définie de Rp and Rn , alors :
L
g (XT ) −→ g (X) (A.16)
T →∞
Econométrie des Variables Qualitatives. Cours C. Hurlin 57
Bibliographie
Amemiya T. (1976), ”The ML, the Minimum Chi-*Square and the Non Linear Weighted Least
Squares Estimator in the General Qualtitative Response Model”, Journal of the Ameraican
Statistical Association, 71, 347-351
Amemiya T. (1981), ”Qualitative Response Models : A Survey”, Journal of Economic Littera-
ture, 19(4), 481-536
Amemiya T. (1985), ”Advanced Econometrics”, Cambridge, Harvard University Press.
Alban T. (2000), ”Econométrie des Variables Qualitatives”, Dunod.
Berkson J. (1944), ”Application of the Logistique Function to Bio-Assay”, JASA, 39, 357-365.
Berkson J. (1951), ”Why I prefer Logit to Probit”, Biometrics, 7, 327-339.
Colletaz G. (2001), ”Modèles à Variables Expliquées Qualitatives”, Miméo Université Orléans
Davidson R. et MacKinnon J.G. (1984), ”Convenient Tests for Logit and Probit Models”,
Journal of Econometrics, 25, 241-262.
Gourieroux C. (1989), ”Econométrie des Variables Qualitatives”, Economica.
Gourieroux C. et Montfort A. (1981), ”Asymptotic Properties of the Maximuùm Likelihood
Estimator in Dichotomous Logit Models”, Journal of Econometrics, 17, 83-97.
Greene W.H. (1997), ”Econometric Analysis”, Londres, Prentice Hall.
Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), ”Econometric Foundations”, Cambridge
University Press.
Klein R.W. et Spady R.H. (1993), ”An Efficient Semi Parametric Estimator for Binary Response
Models”, Econometrica, 61, 387-421
Maddala. G.S. (1983), ”Limited-dependent and Qualitative Variables in Econometrics”, Econo-
metric Society Monographs, 3, Cambrige University Press.
Morimune K. (1979), ”Comparisons of Normal and Logistic Models in the Bivariate Dichitomous
Analysis”, Econometrica, 47, 957-975.
Radner R. et Miller L. (1970), ”Demand and Supply in U.S. Higher Education : A Progress
Report”, American Economic Review, 60.
Spector L.C. et Mazzeo M. (1980), ”Probit Analysis and Economic Education”, Journal of
Economic Education, 11(2), 37-44
Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica,
26, 24-36.
Econométrie des Variables Qualitatives. Cours C. Hurlin 58
Figure A.1: L’économie a travers les prix nobel, Problèmes Economiques 2001
MASTER ECONOMETRIE ET
STATISTIQUE APPLIQUEE (ESA)
Université d’Orléans
Chapitre 2
Modèles Multinomiaux
Modèles Logit Multinomiaux Ordonnées et non Ordonnés
Christophe Hurlin
Polycopié de Cours
Contents
1 Modèles Multinomiaux Ordonnés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1 Exemples de Modèles Multinomiaux Ordonnés . . . . . . . . . . . . . . . . . . . 5
1.1.1 Dosage d’insecticide : Gurland, Lee et Dahm (1960) . . . . . . . . . . . . 6
1.1.2 Acquisition d’un bien immobilier : David et Legg (1975) . . . . . . . . . . 7
1.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Modèles Multinomiaux Séquentiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Modèles Multinomiaux Non Ordonnés . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Des modèles de choix probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Logit multinomial indépendant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.1 Spécification du Logit Multinomial . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2 Estimation des paramètres du logit multinomial . . . . . . . . . . . . . . 21
3.2.3 Exemples de modèles logit multinomial . . . . . . . . . . . . . . . . . . . 24
3.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Logit Conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.1 Spécification du logit conditionnel . . . . . . . . . . . . . . . . . . . . . . 26
3.4.2 Estimations des paramètres du logit conditionnel . . . . . . . . . . . . . . 27
3.4.3 Exemples de modèles logit conditionnel . . . . . . . . . . . . . . . . . . . 28
3.4.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5 Logit Universel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4 L’hypothèse d’indépendance des alternatives non pertinentes . . . . . . . . . . . . . . . 30
4.1 Test de l’hypothèse IIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Modèle Alternatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.1 Probit multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2 Logit Hierarchisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Econométrie des Variables Qualitatives. Cours C. Hurlin 2
Introduction
Nous allons à présent envisager le cas des modèle multinomiaux, ou plus précisément des
modèles à variable expliquée qualitative multinomiale (ou polytomique). Ce sont des modèles
dans lesquels la variable expliquée peut prendre plus de deux modalités1 . Nous allons voir qu’il
existe trois catégories de modèles multinomiaux :
Dans la pratique, les modèles non ordonnés sont les plus fréquents, c’est pourquoi nous
leur accorderons une attention toute particulière. Dans cette catégorie, on trouve notamment
le modèle logit multinomial et le modèle logit conditionnel de McFadden qui sont
les modèles les plus utilisés et qui constituent une extension du logit binaire étudié dans le
chapitre précédent. Nous verrons toutefois, que si ces modèles sont simples à utiliser, ils posent
toutefois un problème de cohérence en raison d’un propriété peu réaliste d’indépendance des
états non pertinents. C’est pourquoi, des modèles alternatifs ont été développés comme le
modèle logit hierarchisé ou le modèle probit multinomial. Ces derniers requièrent toutefois
des techniques d’estimation relativement complexes.
1. On remarque tout d’abord que le nombre de modalités mi prises par la variable dépendante
yi peut dépendre de l’individu : on peut avoir mz = mk .
N
Si l’on définit i=1 (mi + 1) variables binaires yij telles que :
1 si yi = j
yij = ∀i = 1.., N ∀j = 0, 1, .., mi (0.3)
0 sinon
alors on peut écrire la vraisemblance associé à l’échantillon y = (y10 , ...., y1m1 , ..., yN 0 , ...., yN mN )
comme le produit des probabilités associées aux différentes modalités, et ceci pour tous les
individus :
N mi
yij
L (y, β) = Fij (x, β) (0.4)
i=1 j=0
Il ne reste plus alors qu’à construire la vraisemblance associée à l’échantillon y comme suit :
N mi
yij
L (y, β, c1 , .., cm , σ ε ) = P rob (yi = j)
i=1 j=0
N mi yij
cj+1 xi β cj xi β
= F − −F − (1.3)
i=1 j=0
σε σε σε σε
1 si yi = j
yij = ∀i = 1.., N ∀j = 0, 1, .., m
0 sinon
On vérifie en outre que le vecteur xi ne peut contenir de constante pour les mêmes raison
d’identification qui avaient été évoquées dans le cas du modèle dichotomique en ce qui concerne
la normalisation du seuil γ. On ne peut identifier à la fois le paramètre associé à la constante
et les seuils cj .
avec
N m
log L y, β, c1 , .., cm = yij log F cj+1 − xi β − F cj − xi β (1.7)
i=1 j=0
Nous allons à présent étudier plusieurs exemples de modèles qualitatifs multinomiaux ordon-
nées afin de mieux appréhender le type de problèmes économiques auxquels cette modélisation
s’adapte. Ces exemples sont repris de Amemiya (1981).
xi + γ − µ µ − γ − xi
P rob (yi = 0) = P rob (yi∗ > xi + γ) = 1 − Φ =Φ
σ σ
xi − µ + γ xi − µ
P rob (yi = 1) = P rob (xi < yi∗ ≤ xi + γ) = Φ −Φ
σ σ
xi − µ
P rob (yi = 2) = P rob (yi∗ < xi ) = Φ
σ
où Φ (x) désigne la fonction de répartition de la loi normale centrée réduite. Naturellement,
puisque la somme de ces trois probabilité est égale à l’unité, seules deux probabilités seront
effectivement estimées. Considérons seulement P rob (yi = 0) et P rob (yi = 2) , c’est à dire les
probabilités de rester vivant et de décès. L’estimation de la probabilité P rob (yi = 2) , sous la
forme P rob (yi = 2) = Φ (β 0 + β 1 x) , fournit un estimateur β 0 du coefficient associé à la con-
stante et un estimateur β 1 du coefficient associé à xi . On peut alors identifier les paramètres
structurels σ et µ en résolvant le système trivial β 0 = 1/σ et β 1 = −µ/σ et proposer deux esti-
mateurs σ = 1/β 0 et µ = β 1 β 0 . De la même façon, l’estimation de la probabilité P rob (yi = 0) ,
sous la forme P rob (yi = 0) = Φ (α0 + α1 x) , fournit un estimateur α0 du coefficient associé à la
constante et un estimateur α1 du coefficient associé à xi . On peut alors identifier le paramètre
structurel manquant à savoir le seuil γ. En effet, on sait que α0 = (µ − γ) /σ, connaissant une
valeur de µ et de σ on peut en déduire un estimateur pour γ, tel que γ = µ − σα0 . Naturelle-
ment, l’estimateur du paramètre α1 = −1/σ est obtenu sous la contrainte α1 = −β 0 . Donc
Econométrie des Variables Qualitatives. Cours C. Hurlin 7
dans ce modèle, l’estimation des probabilités P rob (yi = 0) et P rob (yi = 2) permet d’identifier
les trois paramètres structurels µ, σ et γ. Notre bio-économètre connaît alors la distribution de
la tolérance yi∗ des insectes et le seuil γ d’insecticide.
avec x = x/σ. La procédure du maximum de vraisemblance fournit alors une estimation pour
les K + 2 paramètres β, c1 et c2 . Dès lors, on ne peut pas dans ce cas identifier la variance σ
du fait de la normalisation imposée par le choix de la distribution normale. Par conséquent
l’estimation de ce modèle ne permet pas d’identifier les paramètres de seuil c1 et c2 et les
paramètres β, mais seulement les transformées β, c1 et c2 . Ceci n’a pas d’importance dès lors
que l’on s’intéresse uniquement aux effets marginaux des variables xi sur la probabilité d’acheter
des biens immobiliers appartenant aux trois catégories. On peut par exemple calculer l’impact
de la taille du logement sur la probabilité d’acheter un logement dont le prix est inférieur à
$28,999 et comparer celle-ci avec l’impact de la taille du logement sur la probabilité d’acheter
un logement dont le prix est supérieur à $55,000. En effet, on peut calculer 3 ∗ N ∗ K dérivées
suivantes :
∂P rob (yi = j)
[k]
∀i = 1.., N, ∀j = 0, 1, 2 ∀k = 1.., K
∂xi
Dans cette étude, tout comme dans les modèles multinomiaux en général, il y a finalement
plusieurs façons d’interpréter la variable latente yi∗ .
Dans le cas présent de l’étude David et Legg (1975), on peut dire que la variable latente yi∗
correspond au prix du bien immobilier. Dans ce cas, si cette variable est par ailleurs observable,
il aurait été préférable au lieu d’estimer les probabilités, d’estimer directement la relation entre
le prix du bien et les caractéristiques xi observées. Mais rien ne nous contraint dans le fait
d’assimiler yi∗ au prix des biens : cette variable inobservable yi∗ peut représenter n’importe
quelle grandeur économique susceptible d’affecter l’achat de biens des trois catégories de prix et
qui elle même dépend des variables xi (taille du logement, revenu et âge de l’acquéreur etc..).
Ce peut être par exemple, la disponibilité à payer le bien immobilier.
1.2. Application
On considère une application tirée d’une étude de J. Gunther de la Federal Reserve Bank de
Dallas, intitulée ”Between a Rock and a Hard Place : The CRA-Safety and Soundness Pinch”.
Le fichier de données disponible sur le sitye web (??) est intitulé Gunther.xls. Cette étude porte
sur le Community Reinvestment Act (CRA), loi promulgué aux Etats Unis en 1977 et visant
à encourager les institutions de dépôts (banques et autres institutions financières) à répondre
aux besoins en crédit des communautés dans lesquelles elles opèrent2 . Toutes les banques sont
ainsi évaluées par des instances de contrôle qui sont les suivantes : Office of the Comptroller
of the Currency (OCC), Board of Governors of the Federal Reserve System (FRB), Office of
Thrift Supervision (OTS), and Federal Deposit Insurance Corporation (FDIC). En effet, la loi
recquiert que les agences de contrôle mentionnées, évaluent régulièrement les performance des
institutions au regard des objectifs du CRA.
2 Pour un historique et une présentation plus global du CRA, consulter le site
http://www.ffiec.gov/cra/history.htm.
Econométrie des Variables Qualitatives. Cours C. Hurlin 9
La performance des institutions en ce qui concerne le fait de favoriser les besoins en crédit
de la communauté est évalué dans le contexte des informations disponibles sur cette institution
(capacités, contraintes diverses, stratégie..), des informations sur la communauté (démographie,
données économiques, prêts, investissements..) et des informations sur ses concurrents et sur
l’état du marché. Une notation (ou rating) est alors attribué selon quatre modalité : yi = 1 pour
performance remarquable, yi = 2 pour performance satisfaisante,; yi = 3 pour performance à
améliorer, yi = 4 pour performance déplorable.
L’étude de Gunther porte sur 350 observations de ces rating et propose de modéliser ces
ratings en fonction de plusieurs variables explicatives intitulées respectivement loa, prl, equ,
roa, sec, ass, metro et growth. La variable loa désigne le ratio prêts sur actif total de la
banque, la variable prl désigne le ratio actifs douteux sur actif total, la variable equ désigne le
ratio capitaux propres sur actif, la variable roa désigne le ratio dividende sur actifs, la variable
sec désigne le ratio investissements de valeurs sur actifs, la variable ass le logarithme de l’actif
de la banque, la variable metro prend une valeur 1 si la banque à son siège dans une MSA (∩)
et 0 sinon, et enfin la variable growth désigne le taux de croissance du Pib de l’état dans lequel
la banque opère. Dans le tableau ci dessous sont reproduit les valeurs ces différentes variables
pour les 10 premiers individus de l’échantillon.
Figure 1.1:
Nous allons à présent modéliser le rating sous la forme d’un probit ordonné. En effet, dans ce
cas précis, les valeurs prises par la variable multinomiale peuvent correspondre à des intervalles
dans lesquels va se trouver une variable latente inobservable. On a ici un ordre naturel sur
les modalités allant de la satisfaction la plus complète au regard des objectifs du CRA à la
performance déplorable. Pour modéliser ce probit ordonné sous Eviews, on choisit Estimate
Equation dans le menu Quick, et l’on retient la méthode ORDERED - Ordered Choice avec
une Error Distribution de type Normal. On indique ensuite la variable polytomique ainsi que
les variables explicatives, la constante ne pouvant être introduite pour une raison de colinéarité.
Les coefficients des variables roa et sec sont alors non significativement différents de zéro. On
retire donc ces variables et les résultats obtenus pour le probit ordonnés sont alors les suivants
:
On observe cette fois que toutes les variables sont significatives de même que les trois seuils
Econométrie des Variables Qualitatives. Cours C. Hurlin 10
c1 , c2 et c3 tels que :
1 si yi∗ < c1
2 si c1 ≤ yi∗ < c2
yi = ∀i = 1.., N yi∗ = xi β + εi (1.12)
3
si c2 ≤ yi∗ < c3
4 si yi∗ > c3
On obtient ainsi des réalisations c1 = −3.645, c2 = −2.725 et c3 = −1.61. On peut alors
calculer pour chaque banque la probabilité d’obtenir un rating très satisfaisant (yi = 1) de la
façon suivante :
P rob (yi = 1) = P rob (yi∗ < c1 ) = Φ c1 − xi β
^
P rob (yi = 1) = Φ c1 − xi β (1.13)
Dès lors, on a :
^
P rob (y1 = 1) = Φ c1 − x1 β
Φ (−3.645 + 3.359)
Φ (−0. 286)
0.387
P^
rob (y1 = 2) = Φ c2 − x1 β − Φ c1 − x1 β
Φ (−2.725 + 3.359) − Φ (−0. 286)
Φ (0. 634) − 0.387
0.736 − 0.387
0. 349
Ainsi pour tous les individus on peut calculer les probabilités associées aux quatre modalités.
On obtient les résultats suivants pour les dix premiers individus :
L’exemple typique est celui de la réussite aux examens, qui est bien entendu conditionnée
par la réussite aux examens antérieurs dans le cursus. Considérons l’exemple de la réussite au
master. On cherche à modéliser la probabilité qu’un étudiant obtienne son Master en fonction
de caractéristiques individuelles, comme le revenu moyen des parents, la moyenne des notes
au baccalauréat, la série du baccalauréat etc.. On note yi = 1 si le ième étudiant a obtenu le
baccalauréat mais pas la licence, yi = 2 si l’étudiant a obtenu la licence mais pas le master et
yi = 3 si l’étudiant a obtenu le master. Naturellement, la probabilité associée à l’obtention du
master s’écrit :
2
P rob (yi = 3) = [1 − Fs (xi β)] × F3 (xi β)
s=1
= [1 − F1 (xi β)] × [1 − F2 (xi β)] × F3 (xi β)
La probabilité que les individus n’obtiennent pas leur baccalauréat, c’est à dire que yi = 1,
est calculée en utilisant tout l’échantillon constitué des deux sous groupes : les étudiants ayant
obtenu le baccalauréat et ceux qui ont échoué (yi = 0 non modélisée). On utilise ensuite le sous
échantillon des étudiants ayant obtenu le baccalauréat pour déterminer les caractéristiques de
la probabilité d’obtenir la licence yi = 2. Et enfin, on utilise le sous échantillon des étudiants
ayant obtenu la licence pour déterminer les caractéristiques de la probabilité d’obtenir le master
yi = 3.
Econométrie des Variables Qualitatives. Cours C. Hurlin 13
2.1. Application
**************************
***** Application Eviews ****
**************************
cf. Ordered Models
- Chandek, Meghan Stroshine (1999). Race, expectations and evaluations of police perfor-
mance: An empirical assessment. Policing 22(4):675
- http://faculty.smu.edu/tfomby/eco6352/data/
Econométrie des Variables Qualitatives. Cours C. Hurlin 14
Tous ces modèles satisfont l’hypothèse IIA, or nous verrons qu’une telle hypothèse pose des
problèmes de cohérence dans certaines modélisations économiques. C’est pourquoi des modèles
alternatifs ont été développés de sorte à ne pas satisfaire cette hypothèse contestable : cette
seconde classe de modèles comprend notamment le modèle logit hierarchisé, le modèle probit
multinomial.
Toutefois, dans la pratique les modèles multinomiaux les plus fréquemment utilisés restent
les modèles logit satisfaisant l’hypothèse IIA. C’est pourquoi dans cette section, nous nous
limiterons à l’étude de cette classe de modèles multinomiaux non ordonnés. Nous
étudierons les modèles alternatifs dans la prochaine section. Mais avant de présenter la classe
des logit multinomiaux non ordonnés, nous allons introduire ces modèles en décrivant leur
utilisation essentielle, à savoir celle de rendre compte de choix probabilistes. Les
modèles multinomiaux non ordonnés sont en effet avant tout des modèles permettant de décrire
des choix individuels en présence d’utilité stochastique.
où v (.) est une fonction continue déterministe et où εj est une variable aléatoire i.i.d. dont la loi
est décrite par la fonction de densité f (.) et la fonction de répartition F (.) . On suppose que
les perturbations εj , ∀j = 0, 1, .., m sont indépendantes. Ainsi l’utilité aléatoire associée
à la j ème modalité dépend des caractéristiques propres à cette modalité
On définit une variable polytomique y qui prend m + 1 modalités suivant les choix de
l’individu :
y = j si l’individu choisit la j ème modalité ∀j = 0, 1, .., m
Dès lors, la probabilité que notre individu choisisse la modalité j correspond à la probabilité
que cette modalité lui confère un niveau d’utilité supérieure à toutes les autres modalités qui
s’offrent à lui. En effet, la probabilité que l’individu choisisse la modalité j est définie par :
Pour calculer cette probabilité à partir des fonctions de densité f (.) , rappelons la définition
de la densité jointe.
Definition 3.1. La densité jointe de deux v.a.r. continues X et Y , notée fX,Y (x, y) ≥
0, satisfait les propriétés suivantes :
b d
∀ (a, b, c, d) ∈ R4 P (a ≤ X ≤ b, c ≤ Y ≤ d) = fX,Y (x, y) dy dx (3.3)
a c
∞ ∞
fX,Y (x, y) dy dx = 1 (3.4)
−∞ −∞
La fonction de distribution cumulative jointe, notée FX,Y (x, y) est alors définie par,
∀ (a, b) ∈ R2 :
a b
FX,Y (a, b) = P (X ≤ a, Y ≤ b) = fX,Y (x, y) dy dx (3.5)
−∞ −∞
selon une loi de distribution f (.) , et si l’on note vj = v (xj ) , la probabilité P rob (y = 0) peut
s’écrire sous la forme :
∞ m
P rob (y = 0) = P rob [εk < v0 − vk + ε0 ] f (ε0 ) dε0
−∞ k=1
∞ v0 −v1 +ε0 v0 −v2 +ε0
= f (ε1 ) dε1 × f (ε2 ) dε2 × ..
−∞ −∞ −∞
v0 −vm +ε0
.. × f (εm ) dεm f (ε0 ) dε0
−∞
En d’autres termes, si l’on note F (.) la fonction de répartition associée à la loi des pertur-
bations εj , on a:
∞ m
P rob (y = 0) = F [v (x0 ) − v (xk ) + ε0 ] f (ε0 ) dε0
−∞ k=1
Supposons à présent que la loi des perturbations soit une loi de Gompertz3 :
******************************
*** FINIR DEMONSTRATION ***
******************************
Finalement, on montre que :
exp [v (x0 )] 1
P rob (y = 0) = m = m
exp [v (xk )] 1+ exp [v (xk ) − v (x0 )]
k=0 k=1
avec par convention v (x0 ) = 0. De façon générale, la probabilité que l’individu choisisse la
modalité j est définie par :
exp [v (xj )]
P rob (y = j) = m (3.9)
exp [v (xk )]
k=0
3 Dite aussi loi des valeurs extrêmes.
Econométrie des Variables Qualitatives. Cours C. Hurlin 17
Or, si l’on se restreint à une classe des fonctions v (.) affines, avec v (xj ) = β j xj ,
cette formulation de la probabilité associée à la j ème modalité est précisément la
modélisation de la probabilité que l’on retiendra dans les modèles logit multinomi-
aux non ordonnés.
Considérons à présent le cas où l’on dispose d’un ensemble de N individus indicés i = 1, .., N
ayant les mêmes préférences que l’individu de référence de l’exemple précédent. De la même
façon sous les hypothèse d’indépendance des perturbations εj et sous une hypothèse particulière
sur la distribution des ces perturbations, on montre que la probabilité que l’individu i choisisse
la modalité j, ∀j = 0, .., m, est définie par :
exp [v (xi,j )]
P rob (yi = j) = m (3.10)
k=0 exp [v (xi,k )]
où xi,j désigne la valeur du vecteur de variable explicative pour l’individu i conditionnant le
choix de la j ème modalité.
v (xi,j ) = xi β j (3.11)
3. Le modèle logit multinomial universel (ou logit universel) est obtenu pour
toute fonction v (.) continue dépendant de paramètres β j conditionnels aux
modalités et de l’ensemble des variables explicatives du modèle :
ditionnel de modèle indépendant puisque construit sur l’indépendance des perturbations. Donc pour Amemiya,
le modèle indépendant ici étudié n’est qu’un cas particulier sans nom du logit universel..
Econométrie des Variables Qualitatives. Cours C. Hurlin 18
exp xi β j exp xi β j
P rob (yi = j) = m = m (3.14)
exp (xi β k ) 1+ exp (xi β k )
k=0 k=1
[1] [2]
exp β 2 + β 2 ri
P rob (yi = 2) =
[1] [2] [1] [2]
1 + exp β 1 + β 1 ri + exp β 2 + β 2 ri
[2]
où β 1 désigne le coefficient associé au revenu (2ème variable explicative) dans la modélisation
[2]
de la probabilité de la défaillance partielle (1ère modalité), tandis que β 2 désigne le coefficient
associé au revenu (2ème variable explicative) dans la modélisation de la probabilité de l’absence
de défaillance (2ème modalité). On suppose ici que le revenu n’affecte pas de façon identique
la probabilité de défaillance partielle et la probabilité d’absence de défaillance. Par contre le
revenu du couple ne diffère suivant que ce dernier rembourse totalement ou de façon partielle
son prêt. Essayons à présent de recenser les implications de la spécification d’un modèle logit
multinomial indépendant.
exp xi β j
P rob (yi = j) = m
exp (xi β k )
k=0
cette normalisation ne soit pas imposée a priori. On obtient alors une expression équivalente à
la probabilité (3.14) en divisant les deux membres de la probabilité par exp (β 0 xi ) :
exp xi β j / exp (xi β 0 ) exp xi β j − β 0
P rob (yi = j) = m
= m
exp (xi β k ) / exp (xi β 0 ) exp [xi (β k − β 0 )]
k=0 k=0
exp xi β j 1
P rob (yi = j) = m = m (3.17)
exp (xi β k ) 1+ exp xi β k − β j
k=0 k=0
k=j
La seconde propriété centrale dans l’analyse des modèles logit multinomiaux concerne les
ratio de probabilités pj /pk où j et k sont deux modalités distinctes. En effet, on montre la
propriété suivante :
Proposition 3.5. Dans le cas d’un modèle logit multinomial, le rapport des proba-
bilités associés à deux modalités j et k distinctes, ∀j = 0, .., m et ∀k = 0, .., m, s’écrit
sous la forme :
Ainsi, on illustre une hypothèse très particulière de ces modèles logit multinomiaux indépen-
dants : à savoir l’hypothèse d’Indépendence des Alternatives Non Pertinentes (IAN P
ou IIA en anglais pour Independance of Irrelevant Alternative). Cette hypothèse traduit le fait
que le rapport de deux probabilités associés à deux évenements particuliers est indépendant
des autres événements. La question que se pose est alors de savoir si une telle hypothèse est
satisfaite en pratique.
Pour montrer à quel point cette hypothèse peut s’avérer inadéquate, reprenons l’exemple du
choix de transport proposé par Mac Fadden et connu sous le nom de ”bus bleu, bus rouge”. On
considère qu’un individu pour se rendre à son travail à le choix entre deux modes de transports.
La probabilité que l’agent prenne le métro demeure pm = p0 et reste à un niveau inchangé par
rapport au cas précédent étant donné les nouvelles alternatives proposées. Si l’on admet que
la couleur du bus a vraisemblablement peu de chance d’affecter le choix du mode de transport,
on doit avoir que les probabilités de sélection p1 et p2 doivent être égales :
En conclusion, l’hypothèse IIA n’est que rarement satisfaite, ce qui pose le problème de
la cohérence d’une modélisation de type logit multinomial pour rendre compte de choix prob-
abilistes. Nous reviendrons dans la prochaine section sur cette hypothèse IIA et les modèles
alternatifs qui en rendement compte. Toutefois, le modèle logit multinomial indépendant est
très souvent utilisé compte tenu de la simplicité de sa mise en oeuvre pratique. C’est ce que
nous allons voir à présent en ce qui concerne l’estimation des paramètres de ce type de modèles..
avec yi,j = 1 si yi = j et 0 sinon, et où les probabilités P rob (yi = j) sont définies par :
exp xi β j exp xi β j
P rob (yi = j) = m =
k=0 exp (xi β k ) 1+ mk=1 exp (xi β k )
1
P rob (yi = 0) = m
1+ k=1 exp (xi β k )
avec β 0 par convention.
Econométrie des Variables Qualitatives. Cours C. Hurlin 22
m
Si l’on pose Hi = log [1 + k=1 exp (xi β k )] , cette expression devient :
N m N m
log L (y, β 1 , β 2 , ..., β m ) = yi,j xi β j − Hi yi,j
i=1 j=0 i=1 j=0
En effet, on sait que la variable yi ne peut prendre qu’une seule et même valeur parmi les m + 1
modalités, dès lors m j=0 yi,j = 1. Ainsi, on obtient que :
N m N N m
Hi yi,j = Hi = log 1 + exp (xi β k )
i=1 j=0 i=1 i=1 k=1
N
Puisque en effet i=1 yi,0 = 1. On en déduit alors finalement que :
N m N m
log L (y, β 1 , β 2 , ..., β m ) = yi,j xi β j − log 1 + exp (xi β k )
i=1 j=1 i=1 k=1
On retrouve naturellement la même expression que dans le cas du modèle logit bivarié. De
la même façon, la matrice hessienne est définie par :
N
∂ 2 log L (y, β 1 , β 2 , ..., β m )
=− pi,j (Ij,k − pi,k ) xi xi (3.23)
∂β j ∂β k i=1
Enfin, on peut naturellement étudier les effets marginaux dans un modèle logit
multinomial indépendant de la façon suivante.
[k]
Definition 3.8. Les effets marginaux d’une variation de la variable exogène xi ,
∀k = 1, .., K sur la probabilité que l’individu i choisisse la j ème modalité, ∀j = 0, 1, .., m,
sont définis par :
m
∂pi,j [k]
[k]
= pi,j β j − pi,z β [k]
z (3.24)
∂xi z=0
[k] [k]
où β j est la kème composante de β j associé à la variable explicative xi et où pi,j =
P rob (yi = j) désigne la probabilité que l’individu i choisisse la j ème modalité :
exp xi β j
pi,j = m (3.25)
exp (xi β z )
z=0
m
Pour démontrer ce résultat, on pose H (xi ) = z=0 exp (xi β z ) En effet, on sait que
∂pi,j ∂ exp xi β j
[k]
= [k]
∂xi ∂xi H
1 ∂ exp xi β j ∂H (xi )
= 2 [k]
× H (xi ) − exp xi β j [k]
H (xi ) ∂xi ∂xi
m
1 [k]
= 2 β j exp xi β j × H (xi ) − exp xi β j β [k]
z exp (xi β z )
H (xi ) z=0
Econométrie des Variables Qualitatives. Cours C. Hurlin 24
En simplifiant cette expression, on fait apparaître les probabilités pi,j = exp xi β j /H, et
on trouve :
m
∂pi,j [k] exp xi β j exp xi β j exp (xi β z )
[k]
= βj − β [k]
z
∂xi H (xi ) H z=0
H
m
[k]
= β j pi,j − pi,j β [k]
z pi,z
z=0
On retrouve ainsi l’expression (3.24) des effets marginaux. Il convient de remarquer que,
[k]
pour chaque individu, pour une variable explicative quelconque xi , on doit calculer m + 1
effets marginaux associés aux probabilités pi,j pour j = 0, 1, .., m.
Dans le cas d’un modèle dichotomique à deux modalités (m = 1), on retrouve évidemment
la formule proposée dans le premier chapitre. En effet, nous avions vu que pour un modèle logit
univarié :
∂pi exi β
[k]
= 2 βk (3.26)
∂xi (1 + exi β )
Selon la formule (3.24), dans un modèle à 2 modalités on doit avoir
avec pi,1 = P rob (yi = 1) et pi,0 = P rob (yi = 0) = 1 − pi,1 et pi,1 = exi β / 1 + exi β . Par
[k] [k] [k] [k]
normalisation, on pose β 0 = 0, ∀k, dès lors, il vient ∂pi,1 /∂xi = pi,1 β 1 − p2i,1 β 1 ou encore :
2
∂pi,1 [k] exi β exi β [k] exi β
= β1 − = β1 2
∂xi
[k] 1 + exi β 1 + exi β (1 + exi β )
On retrouve naturellement la formule proposée dans le cadre du premier chapitre pour le modèle
logit dichotomique.
en utilisant les mêmes variables explicatives que dans leurs premières estimations. Dans leur
modèle les variables xi,j sont indépendantes des modalités (xi,j = xi ) et les coefficients β j
varient avec les modalités. On a vu que généralement lorsque la variable latente yi∗
est continue, distribuée selon une loi normale et observable, il est préférable de
régresser directement yi∗ sur un ensemble de variables explicatives plutôt que de
vouloir modéliser les probabilités que yi∗ tombe dans certains intervalles. Pourtant,
si yi∗ est distribuée selon une loi inconnue et non normale qui dépend de xi d’une façon plus
compliquée qu’un simple problème de localisation dans un intervalle, la procédure de Perloff et
Watcher peut donner de meilleurs résultats que les M CO de yi∗ sur xi .
****************************************
*** Chercher d’autres applications sur EconLit **
****************************************
3.3. Application
********************************************
*** Application Eviews ou Limdep à programmer ***
********************************************
où la fonction v (.) est linéaire, les paramètres β j diffèrent selon les modalités et que les variables
explicatives varient uniquement en fonction des individus :
v (xi,j ) = xi β j (3.29)
Une alternative à ce modèle logit multinomial consiste à supposer qu’au contraire les
paramètres β sont indépendants des modalités et que ce sont les variables explica-
tives qui diffèrent selon les modalités et les individus :
v (xi,j ) = xi,j β (3.30)
On obtient alors, un modèle logit multinomial conditionnel (ou logit condition-
nel) introduit par McFadden (1973). La définition d’un modèle logit conditionnel est ainsi
la suivante :
Definition 3.9. Dans un modèle logit conditionnel, la probabilité que l’individu i
choisisse la modalité j, ∀j = 0, .., m, est définie par :
exp (xi,j β ) exp x∗i,j β
P rob (yi = j) = m = m (3.31)
exp (xi,k β) 1+ exp x∗i,k β
k=0 k=1
Econométrie des Variables Qualitatives. Cours C. Hurlin 26
Nous allons à présent étudier quels sont les avantages et limites de cette spécification avant
de proposer différentes applications.
Proposition 3.10. Dans le cas d’un modèle logit conditionnel, le rapport des prob-
abilités associés à deux modalités j et k distinctes, ∀j = 0, .., m et ∀k = 0, .., m, s’écrit
sous la forme :
pj P rob (yi = j) exp (xi,j β)
= = = exp [(xi,j − xi,k ) β] (3.32)
pk P rob (yi = k) exp (xi,k β)
Ce rapport de probabilités est indépendant des alternatives autres que j et k.
L’avantage de ce modèle se situe d’avantage dans la possibilité qui est offerte de prédire la
probabilité d’une nouvelle modalité (virtuelle) en fonction de variables explicatives simulées.
exp x∗i,m+1 β
Pm+1 = m (3.33)
1+ exp x∗i,k β + exp x∗i,m+1 β
k=1
C’est l’exemple typique du modèle hypothétique de choix de transport cité dans Amemiya
(1981) et Alban (2000). Prenons l’exemple d’une collectivité territoriale envisageant la mise
en place d’un nouveau mode de transport public, le tramway, en plus des modes de transports
collectifs existant (le bus pour simplifier). Pour évaluer la probabilité que les administrés
choisissent le tramway, on conduit tout d’abord une enquête sur les choix des modes de transport
existant : le but est de calculer la probabilité que l’individu choisisse le bus (modalité 1), la
voiture (modalité 2), ou le vélo (modalité 3). On a ici m + 1 = 4 modalités, la modalité
de référence (codée 0) étant les autres modes de transports (marche à pieds, roller, auto-stop
etc..). Les variables explicatives sont exprimées en différences par rapport à leur valeur prises
dans la modalité 0. Il s’agit par exemple du temps de transport moyen du domicile au lieu de
[1] [2]
travail pour le mode j, noté ti,j = xi,j et le coût au kilomètre de ce mode, noté ci,j = xi,j ,
Econométrie des Variables Qualitatives. Cours C. Hurlin 27
pour l’individu i. Le modèle donne alors la probabilité qu’un individu caractérisé par des temps
relatifs (ti,1 , ti,2 , ti3 ) et des coûts (ci,1 , ci,2 , ci3 ) choisisse le mode de transport j = 1, 2, 3. La
probabilité que l’individu i choisisse le bus est par exemple égale à :
exp (β 0 + β 1 ti,1 + β 2 ci,1 ) exp x∗i,1 β
P rob (yi = 1) = 3
= 3
1+ exp (β 0 + β 1 ti,j + β 2 ci,j ) 1+ exp x∗i,k β
k=1 k=1
Comme le mode de transport métro (modalité 4) n’existe pas encore, les variables de temps
de trajet ti,4 et de coût ci,4 ne sont pas disponibles. Mais elles peuvent être simulées à partir
d’une évaluation du temps de trajet du métro et du coût au kilomètre de ce mode de transport
dans d’autres villes. Soient ti,4 et ci,4 les évaluations correspondantes. Si l’on dispose en outre
d’un estimateur convergent β du vecteur de paramètres β, on peut alors calculer la probabilité
qu’un individu i prenne le métro lorsque celui-ci sera effectivement mis en place :
exp β 0 + β 1 ti,4 + β 2 ci,4
P^
rob (yi = 4) = 3
1+ exp β 0 + β 1 ti,j + β 2 ci,j + exp β 0 + β 1 ti,4 + β 2 ci,4
k=1
Cela donne la probabilité que l’individu i choisisse le métro plutôt que les autres modes de
transport.
avec yi,j = 1 si yi = j et 0 sinon, et où les probabilités P rob (yi = j) sont définies par :
exp (xi,j β ) exp x∗i,j β
P rob (yi = j) = m = m
exp (xi,k β) 1+ exp x∗i,k β
k=0 k=1
avec par convention x∗i,j = xi,j − xi,0 .
Proposition 3.12. La log vraisemblance associée à un modèle logit conditionnel
s’écrit alors :
N m N m
log L (y, β) = yi,j xi,j β − log exp (xi,j β) (3.34)
i=1 j=0 i=1 k=0
N m N m
= yi,j x∗i,j β − log 1 + exp x∗i,j β
i=1 j=1 i=1 k=1
Econométrie des Variables Qualitatives. Cours C. Hurlin 28
exp (xi,j β )
P rob (yi = j) = mi ∀j = 0, 1, .., mi (3.35)
exp (xi,k β)
k=0
que des variables de coûts - bénéfices ou des variables liées aux souhaits de la population, les
probabilités affectés pour un même projet aux différentes routes varient.
3.4.4. Applications
********************************************
*** Application Eviews ou Limdep à programmer ***
********************************************
exp [v (xi,j )]
P rob (yi = j) = m (3.36)
exp [v (xi,k )]
k=0
où la fonction v (.) est linéaire, les paramètres β j diffèrent selon les modalités et que les variables
explicatives varient uniquement en fonction des individus :
Definition 3.13. Le modèle logit multinomial universel (ou logit universel) est obtenu
pour toute fonction v (.) continue dépendant de paramètres β j conditionnels aux
modalités et de l’ensemble des variables explicatives du modèle :
On peut montrer que si les fonctions v β j , xij dépendent de l’ensemble des caractéris-
tiques, le modèle logit universel ne satisfait pas l’hypothèse d’indépendance des alternatives
non pertinentes (IIA). Lorsque v (.) est linéaire dans les paramètres β j , on retrouve alors le
modèle logit indépendant.
Econométrie des Variables Qualitatives. Cours C. Hurlin 30
Bibliographie
Amemiya T. (1981), ”Qualitative Response Models : A Survey”, Journal of Economic Littera-
ture, 19(4), 481-536
Alban T. (2000), ”Econométrie des Variables Qualitatives”, Dunod.
David J.M. et Legg W.E. (1975), ”An application of Multivariate Probit Analysis to the Demand
for Housing”, Journal of Business and Economic Statistics, August 1975, 295-300
Gourieroux C. (1989), ”Econométrie des Variables Qualitatives”, Economica.
Gurland J., Lee I.et Dahm P. (1960), ”Polytchotomous Quantal Response in Biological Assay”,
Biometrics, Sept. 1960, 382-388.
Greene W.H. (1997), ”Econometric Analysis”, Londres, Prentice Hall.
Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), ”Econometric Foundations”, Cambridge
University Press.
Maddala. G.S. (1983), ”Limited-dependent and Qualitative Variables in Econometrics”, Econo-
metric Society Monographs, 3, Cambrige University Press.
McFadden D. (1976), ”The Revealed Prefrences of a Government Bureaucracy: Empirical Ev-
idence”, Bell Journal of Economic Mangament, Spring 1976, 55-72
Spector L.C. et MazzeoMcFadden M. (1980), ”Probit Analysis and Economic Education”, Jour-
nal of Economic Education, 11(2), 37-44
Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica,
26, 24-36.
MASTER ECONOMETRIE ET
STATISTIQUE APPLIQUEE (ESA)
Université d’Orléans
Chapitre 3
Christophe Hurlin
Polycopié de Cours
Introduction
Nous allons à présent envisager le cas des modèles à variable dépendante limitée :ce sont
des modèles pour lesquels la variable dépendante est continue mais n’est observable
que sur un certain intervalle. Ainsi, ce sont des modèles qui se situent à mi chemin
entre les modèles de régression linéaires où la variable endogène est continue et observable
et les modèles qualitatifs. En effet, les modèles à variable dépendante limitée dérivent des
modèles à variables qualitatives, dans le sens où l’on doit modéliser la probabilité que la variable
dépendante appartienne à l’intervalle pour lequel elle est observable. Nous verrons que la
structure de base des modèles à variable dépendante limitée est représentée par le modèle
Tobit. Avant de présenter plus en détail les modèles à variable dépendante limitée, et plus
spécifiquement le modèle Tobit, il convient au préalable de préciser les termes que nous allons
utilisés par la suite dans le cadre de ce chapitre.
Toutefois, ces modèles sont aussi appelés modèles de régression censurées (censored
regression models) ou modèle de régression tronquée (truncated regression models). Cette
terminologie plus précise permet en effet d’introduire la distinction entre des échantillons tron-
qués et des échantillons censurés :
1. Un modèle de régression est dit tronqué lorsque toutes les observations des variables
explicatuves et de la variable dépendante figurant en dehors d’un certain intervalle sont
totalement perdues.
2. Un modèle de régression est dit censuré lorsque l’on dispose au moins des observations
des variables explicatives sur l’ensemble de l’échantillon.
Nous verrons par la suite que le modèle Tobit est ainsi un modèle de régression
censurée. Les modèles censurés et tronqués ont été utilisés dans d’autres disciplines indépen-
damment de leur utilisation et développement en économie, et ce notamment en biologie et dans
1 Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica, 26, 24-36.
Econométrie des Variables Qualitatives. Cours C. Hurlin 4
les sciences de l’ingénieur. En biologie, de tels modèles furent utilisés pour représenter le temps
de survie des patients en fonction de certaines caractéristiques : les échantillons étaient en effet
censurés ou tronquées dès lors que le patient reste en vie à la dernière date d’observation de
l’échantillon ou si il ne peut pas être ausculté à cette date pour une raison quelconque. De la
même façon en ingénierie, les modèles censurés et tronqués sont utilisés pour analyser le temps
de survie d’un matériel ou d’un système en fonction de ses caractéristiques. De tels modèles
sont alors qualifiés de modèles de survie (survival models). Les économistes et les sociologues
ont aussi utilisés des modèles de survie pour évaluer la durée de phénomènes comme le chômage,
le mariage, la durée de résidence dans certains lieux etc... Mathématiquement, les modèles de
durée appartiennent à la même classe que les modèles Tobit, mais font souvent l’objet d’un
traitement à part.
Entre 1958, date de parution de l’article de Tobin et les années 70, les modèles Tobit ont été
utilisés très fréquemment en économie sous l’effet de la conjonction de deux phénomènes : d’une
part la plus grande disponibilité de bases micro-économiques et d’autre part le développement
des capacités informatiques qui a permis de traiter des modèles Tobit de grande taille. Du fait
de ces très nombreuses applications, différentes extensions et généralisations ont été proposées
pour le Tobit : modèle Tobit généralisé, modèles à seuils stochastiques... C’est pourquoi
on a introduit la caractérisation de modèle Tobit simple pour désigner le modèle développé
par Tobin et le distinguer des autres extensions. Amemiya (1983) identifie ainsi 5 types
de modèle de Tobit, le Tobit simple étant qualifié de modèle Tobit Type I.
Plus formellement, considérons N couples de variables (xi , yi∗ ) où la variable yi∗ est engendrée
par un processus aléatoire tel que E (yi∗ /xi ) = xi β, où β ∈ RK est un vecteur de paramètres.
On suppose que la variable yi∗ n’est pas toujours observable : on ne l’observe que si sa valeur
est supérieure à un certain seuil ci . On peut ainsi construire une variable yi , qui est égale à yi∗
lorsque celle-ci est observable et qui vaut ci par convention lorsque yi∗ n’est pas observable.
La constante ci peut être identique pour tous les individus. Deux cas peuvent alors se présenter
suivant la nature des observations :
1. Si le vecteur xi est observable pour tous les individus et cela indépendamment du fait que
la variable yi∗ soit observable ou non, on un échantillon censuré. Seule la variable yi∗
est observable sur un intervalle [ci , +∞[
2. Si le vecteur xi est observable uniquement pour les individus pour lesquels la variable yi∗
est observable, on un échantillon tronqué. On ne dispose d’observations (xi , yi∗ ) que
pour les individus pour lesquels yi∗ > ci .
On a par exemple un échantillon tronqué dans le cadre d’une enquête où les ménages ne
répondent à l’enquête que s’ils répondent à la question permettant de déterminer yi∗ . Ceux
pour lesquels yi∗ ≤ ci ne répondent pas à l’enquête ou sont éliminés de l’échantillon par les
enquêteurs.
Econométrie des Variables Qualitatives. Cours C. Hurlin 5
L’utilisation de modèles Tobit suppose que soient particulièrement connus les résultats relat-
ifs aux moments et aux moments conditionnels d’une variable distribuée selon une loi normale
tronquée. C’est pourquoi, avant de présenter ces modèles, nous proposons les résultats suiv-
ants. Soit Φ (.) la fonction de répartition de la loi normale centrée réduite N (0, 1) et soit φ (.)
la fonction de densité associée.
Proposition 0.1. Considérons une variable y suivant une loi normale tronquée telle
que :
y∗ si y ∗ > 0
y= (0.2)
0 sinon
où y ∗ est distribuée selon une loi normale N m, σ 2 . On admet alors les propriétés
suivantes :
1. Espérance de y :
m m
E (y) = m Φ +σφ (0.3)
σ σ
2. Espérance conditionnelle de y :
m
φ σ m
E (y/y > 0) = m + σ m = m+σλ (0.4)
Φ σ
σ
3. Variance de y :
m m m m
V (y) = σ 2 Φ + W − W2 (0.5)
σ σ σ σ
x
avec W (x) = −∞
Φ (t) dt = xΦ (x) + φ (x) . Par conséquent :
m m m m
V (y) = m2 Φ + mσφ + σ2 Φ − m2 Φ2
σ σ σ σ
m m 2 2 m
−2 m σ φ Φ −σ φ
σ σ σ
4. Variance conditionnelle de y :
m m m
V (y/y > 0) = σ2 1 − λ − λ2 (0.6)
σ σ σ
Notons simplement que puisque le ratio de Mill λ (x) joue un grand rôle dans l’analyse des
moments d’une loi normale tronquée, il est intéressant de vérifier qu’il s’agit d’une fonction
décroissante de x :
∂λ (x) −λ (x) W (x)
= (0.7)
∂x Φ (x)
Econométrie des Variables Qualitatives. Cours C. Hurlin 6
4
Ratio de Mill
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Etudions à présent le modèle Tobit Simple ou modèle Tobit de type 1 suivant la terminologie
d’Amemiya (1983).
Econométrie des Variables Qualitatives. Cours C. Hurlin 7
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
Cette propriété remet en cause l’hypothèse de linéarité et montre que les moindres carrés
ordinaires ne sont pas la méthode pertinente pour estimer une telle relation. De façon plus
générale, on peut pas ici utiliser une densité continue pour expliquer la distribution
conditionnelle des dépenses par rapport au revenu : en effet, une distribution continue
est incompatible avec le fait que plusieurs observations des dépenses soient nulles. C’est donc
dans ce contexte que Tobin propose son modèle à variable dépendante limitée (limited dependent
variable model ).
2 Dans cette section nous parlerons de modèle Tobit en réference au Tobit simple pour alléger les notations.
Econométrie des Variables Qualitatives. Cours C. Hurlin 8
L’histoire que propose Tobin est alors la suivante. Considérons un agent qui a le choix entre
deux biens x et y, qui cherche à maximiser son utilité U (x, y) sous sa contrainte de budget de la
forme x + py ≤ R, où p est le prix relatif et R le revenu. On suppose que le prix du bien x sert
de numéraire. On admet parallèlement que la consommation de bien x satisfait une contrainte
de non négativité x ≥ 0, mais que la consommation de bien y vérifie une contrainte du type
y ≥ y0 ou y = 0. Cette contrainte traduit simplement une indivisibilité des premières unités de
biens y. Supposons que y ∗ soit la solution du programme de maximisation de l’utilité sous la
contrainte de budget et la contrainte x ≥ 0.
Dès lors, deux cas sont à considérer : soit le niveau de consommation potentielle du bien
y ∗ est suffisamment élevé par rapport au seuil y0 et l’agent consomme effectivement du bien
y en quantité y ∗ , soit il n’est pas suffisamment élevé et l’agent ne consomme pas de bien y.
Formellement on a :
y∗
y= si y ∗ > y0
0
Si l’on suppose que la solution non contrainte y ∗ est fonction d’un certains nombres de
caractéristiques x et d’une perturbation ε sous la forme y ∗ = β 0 + β 1 x + ε et si l’on suppose
la normalité des perturbations ε , alors on peut reproduire des valeurs de la consommation y
semblables à celles du graphiques (1.1). Il suffit pour cela de supposer que les seuils y0 sont les
mêmes pour tous les individus et que y0 = 0.
Definition 1.1. Un modèle Tobit Simple ou modèle Tobit de type I est défini par :
On suppose ainsi que les variables yi et xi sont observées pour tous les individus, mais
que les variables yi∗ sont observables uniquement si elles sont positives. On note X la matrice
de dimension (N, K) telles que les lignes de cette matrice correspondent aux vecteurs xi . On
suppose en outre que
lim X X = QX
N →∞
Remarquons que l’écriture d’un seuil nul yi∗ > 0 peut parfaitement être changé en un seuil
yi∗ > y0 sans que le modèle soit changé. Il suffit pour cela d’absorber dans le vecteur des
Econométrie des Variables Qualitatives. Cours C. Hurlin 9
caractéristiques xi une constante et de lui associer un coefficient égal à y0 . Le cas où les seuils
yi,0 diffèrent selon les individus nécessite toutefois de modifier le modèle.
1. Le nuage de point sera alors mal décrit par une relation du type consommation = a + b ∗
revenu puisque le nuage de points comporte deux parties distinctes.
2. L’hypothèse de loi continue généralement faite sur les perturbations n’est pas adaptée
dans ce cas puisque la valeur nulle de la consommation est observée de nombreuses fois
dans l’échantillon et a donc sans doute une probabilité d’apparition nettement différente
de zéro.
Nous allons toutefois montrer l’application des M CO à l’ensemble des observations ou l’ap-
plication des M CO aux seules observations pour lesquelles on observe la variable y ∗ conduit à
une estimation biaisée des paramètres du vecteur β.
2. Soit on applique les M CO aux seules observations (xi , yi ) pour lesquels yi∗ > 0.
Commençons tout d’abord par appliquer les M CO à l’ensemble des observations de l’échan-
tillon.
β LS = xi xi xi yi (1.3)
i=1 i=1
Econométrie des Variables Qualitatives. Cours C. Hurlin 10
Supposons pour commencer que les variables exogènes xi sont déterministes et déterminons
alors l’expression de E β LS , comme suit :
N −1 N
E β LS = xi xi xi E (yi ) (1.4)
i=1 i=1
Cette expression dépend de la quantité E (yi ) qui correspond à l’espérance d’une variable
normale tronquée. En appliquant la formule de l’espérance d’une loi normale tronquée, on
montre que :
xi β xi β
E (yi ) = xi β Φ + σε φ
σε σε
On en déduit immédiatement que l’estimateur des moindres carrés β est biaisé : en effet la
quantité E β LS est une fonction non linéaire de β et ne peut donc pas être égale à β. Le
biais peut être positif ou négatif et pour le caractériser, considérons le cas où K = 1, on a alors
−1
N N
β LS = i=1 x2i i=1 xi yi et l’on en déduit que :
N N
i=1 xi E (yi ) 1 xi β xi β
E β LS = N
= N
x2i βΦ + xi σ ε φ
i=1 xi
2
i=1 x2i i=1
σε σε
alors, on en déduit que l’estimateur β LS converge vers E β LS qui dans le cas général diffère
de la vraie valeur β des paramètres :
p
β LS −→ β = β (1.5)
N →∞
L’estimateur des M CO de β appliqué sur l’ensemble des observations est non con-
vergent. Il est alors relativement difficile dans le cas de variables déterministes de donner un
résultat général sur la forme du biais, c’est à dire sur le fait que l’estimateur β LS sur-estime ou
sous estime la vraie valeur β des paramètres. C’est pourquoi, nous allons à présent envisager
le cas de variables explicatives stochastiques.
Envisageons à présent le cas où les variables xi sont des variables aléatoires. Goldberger
(1981) a étudié les biais asymptotiques de l’estimateur des M CO dans ce cas en supposant que
les toutes les variables explicatives xi , à l’exception du terme constant, étaient distribuées selon
une loi normale. Goldberger réécrit ainsi le modèle sous la forme :
Hypothèse On suppose que les variables explicatives xi sont distribuées selon une loi normale
(k)
N (0, Ω) avec cov εi xi = 0, ∀k = 1, .., K.
Econométrie des Variables Qualitatives. Cours C. Hurlin 11
L’hypothèse de nullité de l’espérance des variables explicatives xi n’est pas gênante ici
puisque si l’on considère des variables non centrées, on peut sans problème intégrer cette quan-
tité dans le terme constant α.
p α
β LS −→ β × Φ (1.6)
N→∞ σy
N p
αcLS = αLS −→ α (1.8)
N1 N →∞
Greene (1983) dérive les matrices de variance covariance asymptotiques de cet estimateur.
Malheureusement, on peut utiliser cet estimateur que dans la mesure où l’on est sur que les hy-
pothèses de Goldberger sont satisfaites et en particulier l’hypothèses selon laquelle les variables
explicatives sont distribuées selon des lois normales. Rien n’est spécifié sur les propriétés de
cet estimateur lorsque les variables explicatives ne sont pas distribuées selon une loi normale.
Il faudra donc utiliser une autre méthode pour estimer β dans le cas général.
********************************************************
c
*** Illustrer par simulation biais sur β LS et convergence de β LS ***
********************************************************
Appliquons à présent la méthode des M CO aux seules observations pour lesquelles yi∗ > 0
afin d’estimer le vecteur de paramètres β.
1.1.2. Application des MCO aux observations pour lesquelles yi∗ > 0
Compte tenu du graphique (1.1), il était clair que l’application des M CO à l’ensemble des
observations (xi , yi ) de l’échantillon devait conduire à une estimation biaisée du coefficient qui
lie le revenu à la consommation. C’est ce que nous avons démontré dans la section précédente.
Mais lorsque l’on restreint l’échantillon aux seules observations pour lesquelles la variable latente
yi∗ est positive, ce résultat est beaucoup moins évident à illustrer graphiquement.
Appliquons ainsi les M CO aux seules observations pour lesquelles yi∗ > 0. L’estimateur des
M CO, noté β y>0 , est défini par la relation :
−1
β y>0 = xi xi xi yi (1.9)
yi >0 yi >0
où yi >0 désigne la sommation sur les indices i = 1, .., N pour lesquels on a yi > 0. Supposons
que les variables exogènes xi sont déterministes et déterminons alors l’expression de E β y>0 ,
comme suit :
−1
Cette expression dépend de la quantité E (yi /yi>0 ) qui correspond à l’espérance condition-
nelle d’une variable normale tronquée. En appliquant la formule correspondante, on montre
Econométrie des Variables Qualitatives. Cours C. Hurlin 13
que :
xi β
φ σε xi β
E (yi /yi>0 ) = xi β + σ ε = xi β + σ ε λ (1.11)
Φ xi β σε
σε
où λ (x) = φ (x) /Φ (x) désigne le ratio de Mill. Dans ce cas encore, l’estimateur des M CO est
donc biaisé et le biais peut être positif et négatif :
Envisageons à présent le cas où les variables xi sont distribuées selon une loi normale. On se
place alors dans le cadre des hypothèses de Goldberger (1981) décrites à la section précédente.
On suppose que les variables explicatives xi sont distribuées selon une loi normale N (0, Ω) avec
(k)
cov εi xi = 0, ∀k = 1, .., K. Sous ces hypothèses, Goldberger obtient le résultat suivant :
Proposition 1.3. Sous les hypothèses de Goldberger (1981), l’estimateur β y>0 des
Moindres Carrés Ordinaires obtenu sur les seules observations (xi , yi ) pour lesquelles
yi∗ > 0 vérifie :
p 1−γ
β y>0 −→ β (1.13)
N→∞ 1 − ρ2 γ
les paramètres γ et ρ étant respectivement définis par :
1 α α
γ= λ α + σy λ (1.14)
σy σy σy
1
ρ2 = β Ωβ (1.15)
σ 2y
où α correspond à la constante de l’équation yi∗ = α + xi β + εi et où σ 2y = σ 2ε + β Ωβ,
avec Ω matrice de variance covariance des variables explicatives xi .
La démonstration de cette proposition figure dans Goldberger (1981). On peut montrer que
les paramètres γ et ρ vérifient :
0≤γ≤1 0 ≤ ρ2 ≤ 1
Dés lors, de façon générale on montre que l’estimateur des M CO appliqué aux seules observa-
tions yi > 0 sous estime l’ensemble des composantes du vecteur β.
Ainsi le biais affecte de façon symétrique l’ensemble des paramètres estimés. Ce résultat
n’est plus valable dès lors que l’on lève l’hypothèse de normalité.
*** Déterminer le cas particulier où l’estimateur β y>0 n’est pas biaisé c’est à dire lorsque
α α α α α
γ = σ −1
y λ α + σy λ = λ + λ2 =1
σy σy σy σy σy
******************************************************
*** Insérer Simulations Biais + Graphique pour le cas particulier **
******************************************************
Heckman (1976), suivant une suggestion de Gronau (1974), propose un estimateur en deux
étapes dans un modèle Tobit généralisé à deux équations (modèle que nous aborderons dans
les sections suivantes). Cet estimateur peut aussi être utilisé pour estimer les paramètres d’un
modèle Tobit simple ou modèle Tobit de type I. Pour comprendre cette méthode, considérons
la formule de l’espérance conditionnelle de yi sachant que yi > 0 :
xi β
E (yi /yi>0 ) = xi β + σ ε λ (1.18)
σε
où λ (x) = φ (x) /Φ (x) désigne le ratio de Mill. Ainsi, l’espérance conditionnelle de yi sachant
yi > 0 peut être décomposée en une composante linéaire en β et une composante non linéaire en
β. Considérons à présent la partie quantitative du modèle Tobit, c’est à dire celle qui correspond
à l’observation de yi > 0. Pour ces observations on a une relation du type :
yi = E (yi /yi>0 ) + vi
où vi est de moyenne nulle. On remplace alors l’espérance conditionnelle par son expression, et
l’on obtient la relation suivante.
Proposition 1.4. Le modèle Tobit simple, pour yi > 0, peut être représenté par la
régression non linéaire hétéroscédastique suivante :
yi = xi β + σε λ (xi δ) + vi (1.19)
Ainsi, pour estimer les paramètres β, il suffit de considérer la régression non linéaire (1.19)
et d’en déduire un estimateur β H à partir des N1 observations pour lesquelles yi > 0. La seule
difficulté provenant de l’hétéroscédasticité des perturbations vi , puisque V ar (vi ) dépend des
caractéristiques xi via le ratio de Mill λ (xi δ) et directement dans l’expression xi δλ (xi δ) . Telle
est l’idée de la procédure d’Heckman.
1 si yi > 0
zi = ∀i = 1, ..N (1.21)
0 sinon
yi = xi β H + σ ε λ xi δ + vi (1.22)
En effet sous la forme (1.19), le modèle quantitatif apparaît comme un modèle linéaire en
β et σ ε .
Réécrivons le modèle sous forme vectorielle pour dériver les lois asymptotiques. On pose Z =
X λ où X désigne la matrice de dimension (N1 , K) dont les lignes correspondent aux vecteur
de variables explicatives xi pour lesquelles yi > 0 et où λ désigne un vecteur de dimension (N1 , 1)
dont le j ème élément est donné par l’estimateur du ratio de Mill λ xj δ . Soit γ = β σ ε le
vecteur des K + 1 paramètres à estimer. Le modèle (1.19) s’écrit alors sous la forme :
y = Zγ + w (1.23)
wi = vi + ηi = vi + σ ε λ (xi δ) − λ xi δ (1.24)
Amemiya (1983) établit alors lé résultat suivant en ce qui concerne la distribution asymp-
totique de γ H (cas particulier de Heckman 1979) :
Econométrie des Variables Qualitatives. Cours C. Hurlin 16
Il faut noter que dans cette expression de Vγ , la seconde matrice dans les crochets provient
du fait que le ratio de Mill λ a du être estimé dans une première étape. Si la valeur de ce ratio
était connu, la matrice de variance covariance asymptotique deviendrait simplement :
−1 −1
Vγ = σ 2ε (Z Z) Z ΣZ (Z Z)
Au delà de ces résultats, on vérifie que l’estimateur de Heckman en deux étapes est
asymptotiquement convergent :
p
γ H −→ γ (1.27)
N1 →∞
On dispose ainsi d’un estimateur convergent et qui ne nécessite dans la première étape que
l’utilisation d’un estimateur du maximum de vraisemblance pour un probit simple. Cet estima-
teur représente donc un gain de capacités de calculs par rapport à l’estimateur du maximum de
vraisemblance appliqué directement au modèle Tobit. Remarquons toutefois, que cet es-
timateur est biaisé à distance finie en raison de la corrélation entre la perturbation
wi = η i + vi et la variable explicative λ xi δ .
En effet, on sait que si l’on définit une variable dichotomique probit zi telle que
1 si yi∗ = xi β + εi > 0
zi = ∀i = 1, ..N (1.29)
0 sinon
Econométrie des Variables Qualitatives. Cours C. Hurlin 17
alors on peut écrire la probabilité que la variable yi prenne des valeurs positives sous la forme
P rob (zi = 1) = P rob (εi /σ ε < xi β/σε ) = Φ (xi β/σ ε ) . Par conséquent, la probabilité que yi
prenne une valeur nulle s’écrit comme la probabilité complémentaire :
xi β
P rob (yi = 0) = P rob (zi = 0) = 1 − Φ
σε
Ce qui explique le terme du premier produit de la fonction de vraisemblance (1.28). Le
second terme de cette expression correspond tout simplement au produit des lois marginales
des variables yi positives. On sait que si yi > 0, on a part définition yi = yi∗ = xi β + εi où
les perturbations εi sont distribués selon une loi N 0, σ2ε . On en déduit que les variables yi
sont distribuées selon une loi normale N xi β, σ 2ε . Ainsi, la loi marginale d’une observation yi
positive est définie par la quantité :
2
1 1 yi− xi β 1 yi − xi β
√ exp − = φ
σ ε 2π 2 σε σε σε
i: yi =0
σε i: yi >0
2π
xi β 1
= log 1 − Φ − N1 log (σ ε ) − (yi − xi β)2
i: yi =0
σε 2σ 2ε i: yi >0
N1
− log (2π)
2
En omettant les termes constants (log-vraisemblance concentrée), il vient :
xi β 1 2
log L y, β, σ 2ε = log 1 − Φ − N1 log (σε ) − (yi − xi β)
i: yi =0
σε 2σ 2ε i: yi >0
Sachant que N1 log (σ ε ) = (N1 /2) log σ 2ε , on retrouve l’expression (1.30) de la fonction de log
vraisemblance.
Definition 1.8. Dans le cas d’un modèle Tobit, le gradient associé à la log-vraisemblance
s’écrit sous la forme suivante :
xi β
∂ log L y, β, σ 2ε 1 φ xi
=− σε
+ 1 (yi − xi β) xi (1.31)
∂β σε i: yi =0 1−Φ xi β σ2ε i: yi >0
σε
xi β
∂ log L y, β, σ 2ε 1 xi β φ
= 3 σε
− N1 + 1 (yi − xi β)2 (1.32)
2
∂σ ε 2σ ε xi β 2σ 2ε 2σ 4ε
i: yi =0 1−Φ σε i: yi >0
est convergent et asymptotiquement distribué selon une loi normale de moyenne nulle et de
variance égale à l’inverse de la matrice d’information de Fischer :
√ L −1
N (γ − γ 0 ) −→ N 0, I (γ 0 ) (1.34)
N →∞
avec
∂ 2 log L (y, γ)
I (γ) = −E (1.35)
∂γ∂γ γ=γ 0
et vérifient donc par conséquent les conditions nécessaires suivant, correspondant à l’annulation
du vecteur gradient de la log-vraisemblance :
∂ log L y, β, σ 2ε 1 φ xσiεβ 1
=− xi + 2 yi − xi β xi = 0
∂β σ ε i: y =0 1 − Φ i x β σε i: yi >0
β=β i σε
xi β
∂ log L y, β, σ 2ε 1 φ σε N1 1 2
= xi β − + 4 yi − xi β =0
∂σ 2ε
σ 2ε =σ 2ε
2σ 3ε i: yi =0 1−Φ xi β 2σ 2ε 2σ ε i: yi >0
σε
donc se faire qu’en utilisant une procédure d’optimisation numérique. Nous avons vu dans le
premier chapitre, que généralement on recours alors à des algorithmes d’optimisation fondés
notamment sur la méthode du gradient (comme l’algorithme de Newton Raphson par exemple).
1. La première solution consiste à modifier les valeurs des conditions initiales de l’algorithmes
d’optimisation4 de sorte à vérifier la robustesse des estimations obtenues à la modification
de ces valeurs. Si le changement des valeurs initiales ne conduit à aucune modification
des estimations des paramètres, cela tend à montrer que l’algorithme a convergé vers
un extremum global. Si en revanche, les estimations sont modifiées, cela prouve que la
solution précédente n’était pas un extremum global de la fonction de vraisemblance. Mais
se pose alors la question de savoir ce qu’il en est pour les nouvelles estimations obtenues
? Correspondent elles à un extremum global de la fonction de la vraisemblance ?
La solution d’Olsen (1978) est ainsi particulièrement habile puisqu’elle supprime le problème
en reformulant la log-vraisemblance du modèle Tobit en des paramètres transformés θ = β/σ ε
et h = σ −1
ε de sorte à obtenir une nouvelle expression de la log-vraisemblance re-paramétrée
globalement concave.
Olsen (1978) démontre alors que la matrice hessienne H (θ, h) est égale à la somme de deux
matrices telles que :
φ (xi θ) φ (xi θ)
Ψ (θ, h) = xi θ − xi xi
i: yi =0
1 − Φ (xi θ) 1 − Φ (xi θ)
−1
avec xi θ − φ (xi θ) [1 − Φ (xi θ)] < 0. En effet, on sait que la quantité φ (z) + zΦ (z) correspond
à la primitive de la fonction Φ (z) :
z
φ (z) + zΦ (z) = Φ (t) dt > z ∀z ∈ R
−∞
On en déduit que ∀z ∈ R :
Dès lors, puisque xi xi est une matrice définie positive, les deux matrices ∆ et Γ sont des ma-
trices définies négatives (cf annexe A.1) : dès lors, la matrice hessienne est égale à la somme de
deux matrices définies négatives, elle est donc définie négative. La fonction de log-vraisemblance
est donc globalement concave.
∂ log L (y, θ, h) N1 1
= − (hyi − xi θ) yi (1.39)
∂h h 2 i: y
i >0
Compte tenu du résultat d’Olsen, il est possible en utilisant des algorithmes d’optimisation
usuels de déterminer les estimateurs du maximum de vraisemblance des paramètres transformés
θ et h. Ces estimateurs sont solutions du programme suivant :
On en déduit alors les estimateurs des paramètres du modèles Tobit originel puisque l’on a
θ = β/σ ε et h = σ −1
ε :
σε = h β = θ σε (1.40)
La matrice de variance covariance asymptotique des estimateurs σε et β se déduit alors de
celle de θ et β, qui s’exprime en fonction de la matrice hessienne H θ, h selon les formules
usuelles.
1.4. Application
Considérons tout d’abord une application sur données simulées qui nous permettra par la suite
d’évaluer la portée des biais. On simule un échantillon de 1000 points satisfaisant les propriétés
suivantes :
yi∗ si yi∗ = α + βxi + εi > 0
yi = ∀i = 1, ..N
0 sinon
avec xi ∈ R, ∀i = 1, .., N, pour une taille d’échantillon N = 1000 et où les perturbations εi sont
distribués selon une loi N 0, σ 2ε . On pose la valeur suivante des paramètres :
α = 1 β = 0.8 σ2ε = 1
les réalisations des estimateurs α = 0.965 et β = 0.793 sont très proches des vraies valeurs α = 1
et β = 0.8. Eviews fournit en outre un estimation de la variance résiduelle, comme tenu de la
distribution choisie (en l’occurrence une loi normale dans le cas d’un modèle Tobit simple) : la
réalisation de l’estimateur σ 2ε est alors égale à 0.97, valeur relativement proche de la vraie valeur
de la variance σ2ε = 1. Les z statistiques correspondant aux tests de nullité des paramètres nous
permettent de rejeter l’hypothèse nulle au seuil de 5% pour les trois paramètres α, β et σ 2ε .
Nous avions vu que sous l’hypothèse de normalité des variables xi (hypothèse de Goldberger
1981), l’estimateur des M CO du paramètre β vérifie :
p α
β LS −→ β × Φ (1.41)
N→∞ σy
σ 2y = σ 2ε + β Ωβ = σ 2ε + β 2 Ω = 1 + 0.82 × 1 = 1. 64
Econométrie des Variables Qualitatives. Cours C. Hurlin 23
on en déduit que
p 1
β LS −→ 0.8 × Φ √ = 0.8 × Φ (0. 78087) = 0.6260
N →∞ 1.64
Ainsi, on sait que théoriquement l’estimateur β LS converge en probabilité vers la valeur
0.6260. On vérifie en effet sur la figure (1.3), pour une taille d’échantillon N = 1000 relativement
importante, que la réalisation de β LS = 0.6253 est très proche de cette valeur asymptotique.
Nous avions vu en outre, toujours sous l’hypothèse de normalité des variables explicatives
c
xi , que l’estimateur des M CO corrigé β LS = (N/N1 ) × β LS est convergent :
c N p
β LS = × β LS −→ β
N1 N →∞
**********************
**** 1◦ ) Faire estimation MCO sur partie positive de la distribution
c
**** 2◦ ) Introduire N simulations sur β LS , β LS , β y>0 , β MV et β Hec en contrôlant le pour-
centage de données censurées : Matlab
**** 3◦ ) Répartir les applications Eviews ou Limdep sur les différentes sections ?
**********************
Definition 1.11. Les effets marginaux dans un modèle de régression censuré corre-
spondent à la déformation des prévisions sur une variable continue engendrée par
une variation d’une unité d’une des variables explicatives.
Il y alors plusieurs prévisions possible dans le cas du modèle Tobit suivant que l’on s’intéresse
à la variable censurée yi ou à la variable latente yi∗ . En effet, trois cas peuvent apparaître :
1. Soit l’on considère la prévision sur la variable latente représentée par l’espérance con-
ditionnelle ∀i = 1, .., N :
E ( yi∗ / xi ) = xi β (1.42)
2. Soit l’on considère la prévision sur la variable dépendante représentée par l’espérance
conditionnelle ∀i = 1, .., N :
xi β xi β
E ( yi / xi ) = Φ xi β + σε φ (1.43)
σε σε
3. Soit l’on considère la prévision sur la variable dépendante censurée représentée par
l’espérance conditionnelle ∀i = 1, .., N :
xi β
E ( yi / xi , yi > 0) = E ( yi∗ / xi , , yi∗ > 0) = xi β + σ ε λ (1.44)
σε
On peut ainsi déterminer différents effets marginaux suivant que l’on considère l’une ou
l’autre de ces prévisions. Tout d’abord si l’on considère la prévision sur la variable latente,
on obtient tout simplement un effet marginal mesuré par la dérivé partielle de l’espérance
conditionnelle E ( yi∗ / xi ) par rapport à une composante quelconque du vecteur des variables
explicatives xi .
Definition 1.12. L’effet marginal d’une variation unitaire de la kème variable ex-
(k)
plicative xi , ∀k = 1, .., K, sur la prévision de la variable latente yi∗ est mesuré par
la quantité :
∂E ( yi∗ / xi )
(k)
= β (k) ∀i = 1, .., N (1.45)
∂xi
ou par l’élasticité εy∗ /x[k] :
i i
(k) (k)
∂E ( yi∗ / xi ) xi xi β (k)
εy∗ /x[k] = = ∀i = 1, .., N (1.46)
i i (k)
∂xi E ( yi∗ / xi ) xi β
(k)
Ainsi, une variation de 1% de la kème variable explicative xi pour le ième individu, modifie
la prévision de la variable latente yi∗ pour ce même individu de εy∗ /x[k] pour cent. On peut
i i
alors calculer une élasticité moyenne εy∗ /x[k] sur l’ensemble des N individus telle que :
i i
N N (k)
1 1 xi β (k)
εy∗ /x[k] = εy∗ /x[k] =
i i N i=1
i i N i=1
xi β
Definition 1.13. L’effet marginal d’une variation unitaire de la kème variable ex-
(k)
plicative xi , ∀k = 1, .., K, sur la prévision de la variable dépendante yi est mesuré
par la quantité :
∂E ( yi / xi ) xi β
(k)
=Φ β (k) ∀i = 1, .., N (1.47)
∂x σε
i
ou par l’élasticité εyi /x[k] :
i
(k) (k)
∂E ( yi / xi ) xi xi β (k)
εyi /x[k] = (k)
= ∀i = 1, .., N (1.48)
i
∂xi E ( yi / xi ) xi β + σ ε λ xσiεβ
∂E ( yi / xi ) ∂Φ (z) ∂φ (z)
(k)
= β (k) (k)
z+ (k)
+ Φ (z)
∂xi ∂xi ∂xi
Or, on sait que la quantité φ (z) + zΦ (z) correspond à la primitive de la fonction Φ (z) :
z
φ (z) + zΦ (z) = Φ (t) dt ∀z ∈ R
−∞
Dès lors, par dérivation par rapport à une composante z (k) on obtient :
∂φ (z) ∂ [zΦ (z)]
+ = Φ (z)
∂z (k) ∂z (k)
∂φ (z) ∂z ∂Φ (z) ∂z
⇐⇒ + (k) Φ (z) + z = (k) Φ (z)
∂z (k) ∂z ∂z (k) ∂z
∂φ (z) ∂Φ (z)
⇐⇒ +z =0
∂z (k) ∂z (k)
Ainsi, on obtient finalement que :
∂E ( yi / xi ) xi β
(k)
= β (k) Φ (z) = β (k) Φ
∂xi σε
En ce qui concerne l’élasticité εyi /x[k] on montre que celle-ci est définie par la quantité
i
suivante :
(k)
xi β xi
εyi /x[k] = Φ β (k)
i σε Φ xi β
xi β + σ ε φ xi β
σε σε
1 (k)
= xi β (k)
xi β
xi β + σ ε λ σε
Econométrie des Variables Qualitatives. Cours C. Hurlin 26
(k)
Ainsi, une variation de 1% de la kème variable explicative xi pour le ième individu, modifie
la prévision de la variable dépendante yi pour ce même individu de εyi /x[k] pour cent. On peut
i
alors calculer une élasticité moyenne εyi /x[k] sur l’ensemble des N individus telle que :
i
N N (k) (k)
1 1 xi β
εyi /x[k] = ε [k] =
i N i=1 yi /xi N i=1 xi β + σ ε λ xi β
σε
*************
Application : construire les différentes EM et commentez (exemple éco)
Utiliser la simulation ou Utiliser exemple Eco :
1. calculer EM1 et élasticité sur y ∗
2. calculer EM2 et élasticité sur y
3. Décomposer EM2 par McDonald et Moffit
*************
Econométrie des Variables Qualitatives. Cours C. Hurlin 27
1. Hypothèse d’hétéroscédasticité
1.6.1. Hétéroscédasticité
De nombreuses études ont été consacrées au problème de l’hétéroscédasticité dans le cadre des
modèles Tobit simple. Hurd (1979) a ainsi évalué les biais asymptotiques de l’estimateur du
M V d’un modèle Tobit simple tronqué en présence de différentes formes d’hétéroscédas-
ticité. Rappelons que dans le cas d’un modèle Tobit simple tronqué , on ne dispose que
d’observations pour les individus pour lesquels yi∗ > 0. La vraisemblance s’écrit alors sous la
forme :
N −1
xi β 1 xi β
L y, β, σ 2ε = Φ φ (1.49)
i=1
σ ε σ ε σε
Hurd considère une certaine forme d’hétéroscédasticité en générant deux sous échantillons
: un échantillon de taille rN, avec r ∈ [0, 1] , d’observations pour lesquelles σ 2ε = σ 21 et un
second échantillon de taille (1 − r) N d’observations pour lesquelles σ2ε = σ 22 = σ 21 . Il étudie
alors la déformation de la limite en probabilité de l’estimateur du MV, noté plim β, en fonction
des valeurs de σ 21 en considérant σ 22 = 1 et r = 0.5. Hurd démontre ainsi l’existence de biais
asymptotiques sur l’estimateur du M V en présence d’hétéroscédasticité et il constate que ces
biais peuvent être très importants pour certaines valeurs de σ 21 . Reprenant la même approche,
Arabmazar et Schmidt (1981) montre que les biais asymptotiques de l’estimateur
du M V sont beaucoup moins important dans le cadre d’un modèle Tobit simple
censuré, tel que celui que l’on a vu jusqu’à présent. Les résultats de ces deux études illustrent
parfaitement le sens général des résultats de cette littérature.
Il est toutefois difficile d’aboutir à une conclusion plus précise que cette proposition dans
la mesure où les différentes études proposées sur ce thème diffèrent très sensiblement sur la
représentation retenue de l’hétéroscédasticité. Les modèles utilisés sont en effet très spécifique.
Il faut ainsi simplement retenir que l’hétéroscédasticité pose un sérieux problème d’estimation
des modèles Tobit simples.
La question qui se pose est alors de savoir comment tester l’hétéroscédasticité ? Considérons
tout d’abord une forme particulière d’hétéroscédasticité.
Cette spécification est suffisamment générale pour englober différentes configurations d’hétéroscé-
dasticité. En particulier, lorsque α = 0, on retrouve le modèle Tobit simple homoscédastique.
Sous cette hypothèse, la log-vraisemblance concentrée du modèle Tobit simple s’écrit alors :
xi β
log L y, β, σ 2ε , α = log 1 − Φ
i: yi =0
σε,i (α)
N1 1 2
− log σ 2ε,i (α) − 2 (yi − xi β)
2 2σ ε,i (α) i: y
i >0
∂ log L y, β, σ 2ε , α
=0 ∀γ = β, σ2ε , α
∂γ
γ=γ
xi β
∂ log L y, β, σ 2ε , α 1 xi β φ N
= 3 σε
− N1 + 1 (yi − xi β)2 = bi
∂σ 2ε 2σε i: yi =0 1−Φ xi β 2σ2ε 2σ 4ε i: yi >0 i=1
α=0 σε
Quelle que soit la nature du modèle, il existe une autre façon de construire la statistique LM.
Celle-ci peut en effet s’écrire en fonction de la matrice G β, σ 2ε , α de dimension (N, K + P + 1)
contenant les dérivés de la log-vraisemblance évaluées pour chaque observation sous l’hypothèse
H0 .Soit G β, σ 2ε , α le vecteur du gradient évalué sous H0 :
g1 β, σ 2ε , α
(1,K+P +1)
G β, σ 2ε , α = ... (1.57)
(N,K+1+P ) α=0 gN β, σ2ε , α
(1,K+P +1)
∂ log L(yi ,β,σ 2ε ,α) ∂ log L(yi ,β,σ 2ε ,α) ∂ log L(yi ,β,σ 2ε ,α)
gi β, σ 2ε , α = ∂β ∂σ 2ε ∂α
(1,K+P +1) α=0 α=0 α=0
Greene (1997) montre que les vecteurs gi (.) s écrivent sous la forme :
gi β, σ 2ε , α = ai xi bi σ 2ε bi wi (1.58)
(1,K) (1,1) (1,P )
(1,K+P +1)
où les scalaires ai et bi sont définies par les composantes du gradient associé à la log-vraisemblance
du modèle Tobit simple (cf. proposition 1.8) d’une observation donnée yi , ∀i = 1, ..N .
1 xi β zi
ai = − (1 − zi ) λ + (yi − xi β) (1.59)
σε σε σε
1 xi β zi zi 2
bi = (1 − zi ) xi β λ − + 4 (yi − xi β) (1.60)
2σ 3ε σε 2σ 2ε 2σε
Econométrie des Variables Qualitatives. Cours C. Hurlin 30
Reste alors à construire la matrice d’information de Fischer. Greene (1997) montre que sous
H0 l’inverse de la matrice d’information de Fischer peut s’écrire sous la forme :
−1
I β, σ 2ε , α = G β, σ 2ε , 0 G β, σ 2ε , 0
(K+P +1,K+P +1) α=0 (K+P +1,N ) (N,K+P +1)
N a2i xi xi ai bi xi σ 2ε ai bi xi wi
= ai bi xi b2i σ 2ε b2i wi (1.62)
i=1 σ 2ε ai bi wi xi σ 2ε b2i wi σ 2ε b2i wi wi
On peut montrer que cette expression de la statistique LM est identique à celle proposée
dans la définition (1.15). La loi asymptotique et la règle de décision sont évidemment les mêmes
que celles évoquées précédemment.
LM = N R2 (1.64)
En effet, une fois que l’on a construit la matrice G β, σ 2ε , 0 , on peut montrer que le
coefficient de détermination de la régression de eN sur les colonnes G1 , G2 , .., GK+P +1 de cette
matrice fournit au coefficient N près la valeur de la statistique LM. Si l’on pose y = eN et
X = G (.) , on sait que le coefficient de la régression linéaire de y sur les colonnes de X est
donné par la formule :
1 −1
R2 = y X (X X) X y
N
où N désigne le nombre d’observation. On reconnaît ici la forme de la statistique LM au
scalaire N près.
***** ****************************************************
1◦ ) Simulation : simuler biais à distance finie avec Hétéro à la Hurd.
2◦ ) Application : Construire un test sous LIMDEP et application
***** ****************************************************
Goldberger (1980) a en effet démontré dans le cas d’un modèle Tobit simple tronqué, l’ex-
istence de biais asymptotique de l’estimateur du M V lorsque la vraie distribution des εi est
une loi de Student, de Laplace ou une loi logistique. Pour démontrer ce résultat, Goldberger
supposait que la variance des perturbations était toutefois connue. Arabmazar et Schmidt
(1982) ont quant à eux montré que les biais étaient particulièrement accrus lorsque l’on levait
cette hypothèse et que l’on supposait la variance des perturbations étaient inconnues. Intu-
itivement on conçoit qu’une erreur sur la distribution des perturbations et donc sur la forme
de vraisemblance, peut conduire à l’apparition d’un biais dans les estimateurs du M V.
********************************************************************
Effectuer Simulation Tobit Simple avec loi Student, de Laplace ou loi logistique
Estimation MV fonction de la censure et de N
********************************************************************
Econométrie des Variables Qualitatives. Cours C. Hurlin 32
1. Une stratégie de test à la Hausman (1978) : Nelson (1981), Melenberg et Van Soest
(1996)
Nous n’évoquerons ici que le premier type de test. Pour les tests de spécification reposant
sur les conditions sur les moments voir Pagan et Vella (1989). Considérons la démarche
retenue par Melenberg et Van Soest (1996) fondée sur un test d’Hausman (1978)
avec esstiamteur LAD de Powell (1984).
Commençons par définir de façon général le principe d’un test de Hausman (1978). Ce
test admet pour hypothèse nulle la normalité des résidus εi . Soit β l’estimateur du M V du
vecteur des paramètres β. On sait que cet estimateur est (i ) convergent, (ii ) asymptotiquement
efficace et (iii ) asymptotiquement biaisé sous l’hypothèse alternative H1 de non normalité des
perturbations.. Considérons un second estimateur, noté β, du vecteur des paramètres β. On
choisit cet estimateur de sorte à ce qu’il soit (i ) moins efficace que l’estimateur du M V sous
H0 mais (ii ) qu’il soit convergent sous H0 et sous l’hypothèse alternative H1 . Il ne reste plus
alors qu’à étudier la ”distance” entre les deux estimateurs β et β. En effet :
• Si les deux estimateurs sont ”proches” : cela signifie que les deux estimateurs sont non
biaisés : l’hypothèse H0 est acceptée
• Si les deux estimateurs sont suffisamment ”éloignés” : cela signifie que l’estimateur γ est
biaisé : l’hypothèse H0 est rejetée.
Reste alors à construire une mesure de la ”distance” entre les deux estimateurs. Hausman
dans son article de 1978 montre que de façon générale, sous ces hypothèses, la quantité définie
converge une loi du Chi deux admettant pour degré de liberté le nombre de paramètre estimés
sous l’hypothèse H0 .
L
HN = β − β V −1 β − β −→ χ2 (K) (1.65)
N →∞
1. Soit on spécifie la distribution non normale des perturbations et l’on construit un es-
timateur du maximum de vraisemblance : Amemiya et Boskin (1974) utilisent ainsi un
estimateur du M V avec une distribution log-normale
2. Soit on construit un estimateur convergent pour des formes très générales de distributions
des perturbations à la fois normale et non normale : Powell (1984), Melenberg et Van
Soest (1996).
L’estimateur de Powell (1984) ou estimateur des Moindres Valeurs Absolues (LAD Least
Absolute Deviations) est un exemple d’estimateur non paramétrique convergent sous l’hypothèse
de non normalité.
Definition 1.20. L’estimateur des Moindres Valeurs Absolues (LAD Least Absolute
Deviations) de Powell (1984) des paramètres β du modèle Tobit simple est défini
par :
N
β P =arg min yi − max (0, xi β) (1.68)
{β} i=1
Powell montre que cet estimateur est asymptotiquement normal :
√ L
N β P − β −→ N 0, V β P (1.69)
N →∞
V β = I (β)−1 (1.73)
avec
∂ 2 log L (β, β)
I (β) = −E (1.74)
∂β∂β
Naturellement si le test conduit à rejeter l’hypothèse nulle de normalité, il convient de
privilégier un estimateur convergent sous l’hypothèse de non normalité : l’estimateur LAD de
Powell en est un, mais il existe de nombreux autres estimateur non paramétriques applicables
dans ce cas.
******* ***************************
Application Eviews ou Limdep ou Matlab
******* ***************************
Econométrie des Variables Qualitatives. Cours C. Hurlin 35
Definition 1.21. Un modèle Tobit simple à censures multiples est défini par :
ci,1 si yi∗ ≤ ci,1
∗
yi = y si ci,1 < yi∗ ≤ ci,2 (1.75)
i
ci,2 si yi∗ ≥ ci,2
Le premier terme désigne le produit des probabilités que les observations yi prennent les
valeurs de censures inférieures ci,1 :
ci,1 − xi β
P rob (yi = ci,1 ) = P rob (yi∗ ≤ ci,1 ) = Φ
σε
Le second terme désigne le produit des probabilités que les observations yi prennent les
valeurs de censures supérieures ci,2 :
ci,2 − xi β
P rob (yi = ci,2 ) = P rob (yi∗ ≥ ci,2 ) = Φ
σε
Econométrie des Variables Qualitatives. Cours C. Hurlin 36
Enfin, le troisième terme représente tout simplement le produit des lois marginales des
variables yi lorsque ces dernières appartiennent à l’intervalle compris entre les deux bornes
de censure. On sait que si ci,1 < yi∗ ≤ ci,2 , on a part définition yi = yi∗ = xi β + εi où les
perturbations εi sont distribués selon une loi N 0, σ2ε . On en déduit que les variables yi sont
alors distribuées selon une loi normale N xi β, σ 2ε . Ainsi, la loi marginale d’une observation yi
sur cet intervalle est définie par la quantité :
2
1 1 yi− xi β 1 yi − xi β
√ exp − = φ
σ ε 2π 2 σε σε σε
où φ (.) désigne la fonction de densité associée à loi normale centrée réduite. On peut en déduire
la log-vraisemblance dans un modèle à censures multiples :
Definition 1.22. La log-vraisemblance concentrée associée à un échantillon y =
(y1 , .., yN ) dans un modèle Tobit simple à censures multiples s’écrit :
log L y, β, σ2ε , c1,1 , c1,2 , ..., cN,1 , cN,2
ci,1 − xi β ci,2 − xi β
= log Φ + log 1 − Φ
i: yi =ci,1
σε i: yi =ci,2
σε
N1 1 2
− log σ 2ε − 2 (yi − xi β) (1.78)
2 2σ ε
i: yi =yi∗
Il est souvent utile dans ces modèles de déterminer les espérances conditionnelles de la
variable dépendante limitée et de la variable non censurée, notamment pour calculer les effets
marginaux. On pose ∀i = 1, ..N :
ci,1 − xi β c2,1 − xi β
Φ1,i = Φ Φ2,i = Φ
σε σε
Dès lors, on montre (Alban 2000) que l’espérance de la variable dépendante limitée est :
φ1,i − φ2,i
E (yi /xi , ci,1 < yi∗ ≤ ci,2 ) = xi β + σε (1.79)
Φ2,i − Φ1,i
En effet dans le cas du modèle Tobit simple on a uniquement une censure à gauche, ce qui
se traduit par des seuils de censure égaux à c1,i = 0 et c2,i = +∞. On obtient alors :
−xi β c2,1 − xi β
φ1,i = φ φ2,i = lim φ =0
σε c2,i →∞ σε
−xi β c2,1 − xi β
Φ1,i = Φ Φ2,i = lim Φ =1
σε c2,i →∞ σε
Ainsi, on montre que l’espérance conditionnelle se ramène à l’expression suivante dans le
cas du modèle Tobit simple :
φ1,i
E (yi /xi , ci,1 < yi∗ ≤ ci,2 ) = xi β + σε
1 − Φ1,i
φ (xi β/σ ε )
= xi β + σε
Φ (xi β/σ ε )
−xi β
= xi β + σε λ
σε
Econométrie des Variables Qualitatives. Cours C. Hurlin 37
On retouve ainsi l’expression standard d’une espérance conditionnelle d’une loi normale
censurée.
Revenons au cas général, c’est à dire au cas du modèle Tobit à censurs multiples. L’espérance
de la variable dépendante non censurée est alors :
E (yi /xi ) = P rob (yi = ci,1 ) × ci,1 + P rob (yi = ci,2 ) × ci,2
+P rob (ci,1 < yi∗ ≤ ci,2 ) × E (yi /xi , ci,1 < yi∗ ≤ ci,2 )
Ce modèle est aussi parfois appelé modèle de Rosett ou modèle de friction du fait de
l’application proposée par cet auteur. C’est en effet Rosett et Nelson (1975) qui ont proposé la
première modélisation Tobit simple à double censure. La log-vraisemblance concentrée associée
à un échantillon y = (y1 , .., yN ) dans un modèle Tobit simple à double censure s’écrit :
log L y, β, σ 2ε , c1 , c2
c1 − xi β c2 − xi β
= log Φ + log 1 − Φ
i: yi =c1
σε i: yi =c2
σε
N1 1 2
− log σ2ε − 2 (yi − xi β) (1.83)
2 2σ ε i: yi =yi∗
Ce modèle est utilisé dans des applications où la variable dépendante ne répond qu’à de
fortes variations (ou de fortes valeurs) des variables explicatives. Nous allons à présent évoquer
deux exemples de modèle Tobit simples à double censure :
Considérons une société par action qui distribue des dividendes à ses actionnaires. Soit yt∗
le montant désiré de dividende qui dépend d’un ensemble de caractéristiques de l’entreprise :
montant des bénéfices, décisions d’autofinancement, montant des investissements etc..On pose
que ces caractéristiques peuvent être représentées par un vecteur xt et qu’elles sont liées au
dividende potentiel par une relation du type yt∗ = xt β + εt où εt est distribué selon une loi
N 0, σ 2ε . Si l’on suppose que le mécanisme de distribution des dividendes est coûteux, on
suppose que l’entreprise limite leur distribution dans le temps (au plus une fois par an) mais
aussi suivant leur montant :
• L’entreprise ne verse des dividendes que si le montant potentiel de ces dividendes est
supérieur à un certain seuil c1
Dans son application Rosett(1959) considère un modèle d’investissement dans des actifs
financiers où les coûts de transaction peuvent limiter le volume des transactions par rapport
au niveau désiré. Le modèle suppose que les modifications dans la position de l’investisseur,
c’est à dire la décision d’achat ou de vente, dépend des variations du rendement. Soit yt∗ la
variation désirée de la position du titre (montant acheté ou vendu), yt la variation de la position
effective et xt la variation du rendement du titre. L’investisseur n’effectuera une transaction
que si les variations du rendement sont suffisamment importantes. La position réelle du titre
ne change donc pas pour de petites variations à la hausse ou à la baisse du rendement et donc
de la position désirée. Supposons que la position désirée soit liée à la variation du rendement
par la relation yt∗ = xt β + εt où εt est distribué selon une loi N 0, σ2ε . Le modèle est alors
défini par : ∗
yt − c1 si yt∗ ≤ c1
yt = 0 si c1 < yt∗ ≤ c2
∗
yt − c2 si yt∗ ≥ c2
où c1 est le niveau de baisse de la position désiré déclenchant la vente et c2 > 0 le niveau
déclenchant l’achat.
Econométrie des Variables Qualitatives. Cours C. Hurlin 39
Ainsi dans le cas du modèle standard, la notation P (y1 < 0)×P (y1 ) d’Amemiya désigne une
∗
fonction de vraisemblance de la forme yi =0 P y1,i ≤ 0 . yi >0 f (y1,i ) où f (y1,i ) désigne la
densité marginale de la variable y1,i distribuée selon une loi N xi β, σ2ε . Les notations pour les
autres modèles sont similaires, sachant que P (y1 , y2 ) désigne la densité jointe des variables y1 et
y2 . L’autre façon de distinguer les différents modèles Tobit consiste à distinguer les propriétés
des variables du système en différentiant les variables dichotomiques D et les variables censurées
C. En effet dans ces modèles on a deux types de modélisation de la variable y1 :
1. Soit le signe de la variable y1 (par exemple dans le Tobit II) conditionne la modélisation (la
censure ou la troncation) d’une autre variable : on a alors une modélisation dichotomique
D sur cette variable.
2. Soit la variable y1 joue un double rôle : son signe détermine le modèle (la censure ou la
troncation) d’une autre variable mais elle est en outre elle même une variable censurée.
Nous allons dans un premier temps nous intéresser au modèle Tobit généralisé de type
II qui est très souvent utilisé et dont la structure est très similaire à celle des modèles de
selection (ou modèles à troncature auxiliaire) popularisés par Heckman et Gronau. Enfin,
nous étudierons plus succintement les autres modèles Tobit généralisés recencés par Amemiya
(1983).
Econométrie des Variables Qualitatives. Cours C. Hurlin 41
Dans une seocnde étape, s’il a décidé de consommer, l’individu décide du montant qu’il va
consacrer à l’achat du bien. On a alors un modèle de données censurées puisque, si l’on note
y2,i la consommation effective de l’agent i, celle-ci est définie par ∀i = 1, ..N :
∗ ∗
y2,i si y1,i >0
y2,i = ∗ (2.1)
0 si y1,i ≤ 0
Cette formulation généralise le modèle Tobit simple dans la mesure om l’on retouve
∗ ∗
le modèle Tobit simple en posant y1,i, = y2,i . L’avantage de cette modélisation est qu’elle
permet notamment de faire apparaître la plus ou moins forte corrélation pouvant exister entre
les deux décisions (i ) décision de consommation (ii ) décision du montant consommé. On a bien
∗
un modèle Tobit généralisé de type II puisque seul le signe de la variable y1,i représenté
∗
par la variable dichotomique y1,i = I y1,i > 0 importe (y1,i est une variable D) tandis que la
variable y2 est censurée (y2,i est une variable C).
Definition 2.1. Un modèle Tobit généralisé de type II est défini par ∀i = 1, ..N :
∗ ∗
y2,i si y1,i >0
y2,i = ∗ (2.2)
0 si y1,i ≤ 0
∗
y1,i = x1,i β 1 + ε1,i (2.3)
∗
y2,i = x2,i β 2 + ε2,i (2.4)
K
où xj,i = x1j,i ..xj,ij avec j = 1, 2 désignent deux vecteurs de caractéristiques ob-
servables, où les vecteurs β j = β j,1 ...β j,Kj ∈ RKj , j = 1, 2 sont des vecteurs
de paramètres inconnus et où les perturbations εj,i sont distribués selon une loi
N 0, σ 2j , j = 1, 2 avec E (ε1,i ε2,i ) = σ 12 , ∀i = 1, ..N .
∗ ∗
Ainsi, seul le signe de la variable y1,i est observable et la variable y2,i est observable unique-
∗
ment lorsque y1,i > 0. On suppose que les variables x1,i sont observables pour tous les individus
de l’échantillon, tandis qu’il n’est pas nécessaire que les variables x2,i soient observables pour
Econométrie des Variables Qualitatives. Cours C. Hurlin 42
∗
les individus pour lesquels y1,i ≤ 0. Par la suite, on supposera tout de même que ces caractéris-
tiques sont observables pour tous les individus, ce qui confère un statut de variable censurée à
la variable y2,i . Enfin, pour simplifier les notations, on introduit la variable dichotomique z1,i
telle que :
∗
1 si y1,i >0
z1,i = ∗ (2.5)
0 si y1,i ≤0
En d’autres termes, les couples de variables (z1,i , y2,i ) constituent les variables dépendantes
observées du système. Il convient en outre de noter la propriété suivante :
Remark 4. Contrairement au cas du modèle Tobit simple, dans un modèle Tobit généralisé
de type II, la variable dépendante y2,i peut prendre des valeurs négatives.
Une telle propriété peut dans certains problèmes économiques être génante, c’est pourquoi
Cragg (1971) a proposé des modèles qui assure la non-négativité de y2,i .
∗ ∗
où f y2,i y1,i > 0 désigne la densité conditionnelle de y2,i sachant y1,i > 0. Réécrivons la
∗
seconde partie de cette fonction. On note fy1 (.) la fonction de densité marginale associée à y1,i ,
il vient : ∞
∗
P rob y1,i >0 = fy1 (z) dz
0
Dès lors, on peut érécrire le second membre de la fonction de vraisemblance sous la forme
∗ ∗
d’une intégrale simple définie sur la fonction de densité jointe des variables y1,i et y2,i , notée
fy1 ,y2 (., .). En effet, en omettant les indices i pour simplifier les notations, il vient :
∞
f ( y2 / y1∗ > 0) P rob (y1∗ > 0) = f ( y2 / z) fy1 (z) dz
0
∞
= fy1 ,y2 (y2 , z) dz (2.7)
0
∞
= fy1 ,y2 (y2 , y1∗ ) dy1∗ (2.8)
0
Car en effet, on a par définition f ( y2 / z) fy1 (z) = fy1 ,y2 (y2 , z) . Toute l’astuce consiste
alors à réécrire la densité jointe fy1 ,y2 (y2 , y1∗ ) en fonction de la densité conditionnelle de y1∗
par rapport à y2 . En effet, on peut écrire cette quantité sous la forme suivante :
où fy2 (.) la densité marginale de la variable y2∗ . On obtient ainsi l’expression suivante :
∞
f ( y2 / y1∗ > 0) P rob (y1∗ > 0) = f ( y1∗ / y2 ) fy2 (y2 ) dy1∗
0
∞
= fy2 (y2 ) f ( y1∗ / y2 ) dy1∗ (2.9)
0
Quel est l’avantage de cette expression ? Cette expression fait apparaître la densité condi-
tionnelle de y1∗ sachant que y2∗ = y2 , notée f ( y1∗ / y2 ) , qu’il est relativement facile de calculer.
On utilise pour cela le résultat suivant :
Proposition 2.2. Soit (y1 , y2 ) un couple de v.a.r. distribuées selon des lois normales
respectives N µ1 , σ 21 et N µ2 , σ 22 , telles que E (y1 y2 ) = σ 12 , la loi conditionnelle de
y1 sachant que y2 = y 2 , est une loi normale d’espérance E ( y1 / y2 = y 2 ) avec
σ 12
E ( y1 / y2 = y 2 ) = µ1 + (y − µ2 ) (2.10)
σ 22 2
et de variance V ( y1 / y2 = y 2 ) avec :
σ 212
V ( y1 / y2 = y 2 ) = σ 21 − (2.11)
σ 22
Ainsi, dans le cadre du modèle Tobit, la loi conditionnelle de y1∗ sachant que y2∗ = y2 , est
une loi normale d’espérance E ( y1∗ / y2 = y2 ) et de variance V ( y1∗ / y2 = y2 ) avec
σ12
E ( y1∗ / y2∗ = y2 ) = x1 β 1 + (y − x2 β 2 ) (2.12)
σ 22 2
σ 212
V ( y1∗ / y2∗ = y2 ) = σ 21 − (2.13)
σ 22
On en déduit la relation suivante :
∞ 0
f ( y1∗ / y2 ) dy1∗ = 1− f ( y1∗ / y2 ) dy1∗
0 −∞
0 − E ( y1∗ / y2∗ = y2 )
= 1−Φ
V ( y1∗ / y2∗ = y2 )
E ( y1∗ / y2∗ = y2 )
= Φ
V ( y1∗ / y2∗ = y2 )
∞
x1 β 1 + σ 12 /σ22 (y2 − x2 β 2 )
f ( y1∗ / y2 ) dy1∗ = Φ (2.14)
0 σ 21 − (σ212 /σ 22 )
où Φ (.) désigne la fonction de répartition de la loi N (0, 1) . Sachant que y2∗ suit une loi
N x2 β 2 , σ 22 , on montre alors que :
∞
1 y2 − x2 β 2 x1 β 1 + σ12 /σ 22 (y2 − x2 β 2 )
fy2 (y2 ) f ( y1∗ / y2 ) dy1∗ = φ Φ
0 σ2 σ2 σ 21 − (σ 212 /σ22 )
Econométrie des Variables Qualitatives. Cours C. Hurlin 44
∞
Sachant que f ( y2 / y1∗ > 0) P rob (y1∗ > 0) = 0
f ( y1∗ / y2∗ ) fy2 (y2∗ ) dy2∗ , on montre donc fi-
nallement que :
1 y2 − x2 β 2 x1 β 1 + σ12 /σ 22 (y2 − x2 β 2 )
f ( y2 / y1∗ > 0) P rob (y1∗ > 0) = φ Φ
σ2 σ2 σ 21 − (σ 212 /σ22 )
Il est alors immédiat d’écrire la vraisemblance du modèle Tobit généralisé à partir de l’équa-
tion (2.6).
x1,i β 1
L (y2 , z, θ) = 1−Φ (2.15)
i:y2,i =0
σ1
1 y2 − x2 β 2 x1 β 1 + σ12 /σ 22 (y2 − x2 β 2 )
× φ Φ
∗
σ2 σ2 σ 21 − (σ 212 /σ22 )
i:y2,i =y2,i
De la même façon que pour le modèle tobit simple, la fonction de vraisemblance associée
à un modèle tobit généralisée n’est pas globalement concave. C’est pourquoi, il est souvent
intéressant d’utiliser la re-parmétrisation d’Olsen :
1 β1 β2
h2 = θ1 = θ2 = (2.16)
σ2 σ1 σ2
Si l’on note ρ la corrélation entre les deux perturbations telle que :
σ 12 = ρ σ 1 σ 2 (2.17)
+ log (h2 y2 − x2 θ2 )
∗
i:y2,i =y2,i
x1 θ1 + ρ (h2 y2 − x2 θ2 )
+ log Φ
∗
i:y2,i =y2,i 1 − ρ2
Econométrie des Variables Qualitatives. Cours C. Hurlin 45
∗
y2,i = x2,i β 2 + ε2,i = x2,i β 2 + σ 12 σ −2
1
∗
y1,i − x1,i β 1 + µ2,i
∗ ∗ ∗ ∗
On en déduit alors l’expression E y2,i y1,i > 0 en fonction de celle de E y1,i y1,i >0
que l’on avait déjà construit dans le chapitre précédent. En effet, sachant :
∗ ∗
E y1,i y1,i > 0 = x1,i β 1 + σ 1 λ (x1,i θ1 )
on montre que :
∗
E y2,i ∗
y1,i >0 = x2,i β 2 + σ 12 σ −2
1
∗
E y2,i ∗
y1,i > 0 − x1,i β 1 + µ2,i
= x2,i β 2 + σ 12 σ −1
1 λ (x1,i θ 1 ) + µ2,i
Ainsi, pour les observations y2,i positives, on montre que l’on a un modèle décrit par la
relation non linéaire suivante.
∗ ∗
y2,i = E y2,i y1,i > 0 + vi
Econométrie des Variables Qualitatives. Cours C. Hurlin 46
∗ ∗
avec vi = y2,i − E y2,i y1,i > 0 ou encore :
Proposition 2.5. Le modèle Tobit généralisé de type II, pour les observations y2,i >
0, peut être représenté par la relation non linéaire hétéroscédastique suivante :
2
V ar µ2,i = σ 22 − σ 12 σ −2
1 x1,i θ1 λ (x1,i θ1 ) + λ (x1,i θ1 ) (2.24)
Dans le cas du modèle Tobit généralisé de type II, la méthode d’estimation d’Heckman, dite
aussi méthode d’estimation en deux étapes, en comporte en fait trois.
• Etape 3 : Reste alors à estimer le paramètre σ2 . Pour cela, considérons le résidu µ2,i de
la régression (2.27). Pour une valeur donnée de σ 1 , on obtient alors par construction un
estimateur convergent de σ 22 :
1 σ 1 2
σ 22 = µ2,i + x1,i θ1 λ x1,i θ1 + λ x1,i θ1 (2.28)
N1 i: y2,i >0
σ 1 N1 i: y2,i >0
2.1.4. Exemples
Un des exemples les plus célébres de modèle Tobit généralisés de type II est l’application de
Gronau (1974) sur le travail des femmes. Son modèle d’offre de travail est fondé sur la théorie
du salaire de réservation et sera repris par la suite de très nombreuses fois, notamment par
Heckman avec des modèles de biais de sélection.
Le travail de Gronau (1974) consiste à déterminer sous quelles conditions les femmes décident
de travailler ou de ne pas travailler. Gronau suppose que le taux de salaire réel effectivement
offert aux femmes, noté W s , est indépendant du nombre d’heures travaillées H. La femme
maximise son utilité U (C, X) où C désigne le temps passé à s’occuper des enfants et X le
vecteur des autres biens de consommation. Etant donné le salaire W s offert, la femme cherche
donc le panier (C, X) qui maximise son utilité sous la contrainte de temps C + H = T où T
désigne temps disponible total et sous la contrainte de revenu X = W s H + V où V désigne le
montant de ses revenus autres que les revenus salariaux. Le programme est donc :
Dès lors la femme n’acceptera de travailler que si le TMS du bien C au bien X évalué au
point H = 0 (c’est à dire sans travailler) est inférieur le taux de salaire W s .
∂U (C, X) /∂C
< Ws
∂U (C, X) /∂X H=0
Econométrie des Variables Qualitatives. Cours C. Hurlin 48
Intuitivement, sans travailler, la réduction d’une unité du temps consacré aux enfants im-
plique pour maintenir le niveau d’utilité une augmentation de la consommation égale au terme
de gauche. Si en travaillant une unité la femme, gagne W s et que ce salaire réel est supérieur
à cette augmentation nécessaire de la consommation, la femme décidera de travailler. Si elle
décide travailler, le nombre d’heures travaillées H sera défini par l’égalité :
∂U (C, X) /∂C
(H) = W s
∂U (C, X) /∂X
Proposition 2.7. On montre que l’estimateur β 2 des M CO ne sera pas biaisé qu’à
partir du moment où le processus de sélection sera totalement indépendant de la
∗
variable auxiliaire y1,i :
E β 2 = β 2 ⇐⇒ ρσ 1 λ (x1,i β 1 ) = 0 ⇐⇒ ρ = 0 (2.36)
∗
Dès que le processus de sélevction dépend, même partiellement de y1,i , le biais s’introduit :
il s’agit d’un biais de sélection. Le biais apparaît parce que certaines variables explicatives,
celles contenues dans x1,i , ont été oubliées : il s’agit encore une fois d’un biais de variable omise.
On parle parfois de modèle Heckit, en hommage à Heckman, la spécification de ce dernier étant
donnée par :
zi∗ = wi γ + µi (2.37)
yi = xi β + εi (2.38)
où yi n’est observée que si zi∗ > 0 ou encore si zi = 1 avec :
1 si zi∗ > 0
zi =
0 si zi∗ ≤ 0
Econométrie des Variables Qualitatives. Cours C. Hurlin 50
A. Annexes
A.1. Concavité de la log-vraisemblance
Soit les matrices ∆ et Γ respectivement définies par :
Ψ (α, h) 0
∆= (A.1)
0 −N 1
h2
− i: yi >0xi xi i: yi >0 xi yi
Γ= 2 (A.2)
y x
i: yi >0 i i i: yi >0 yi
avec
φ (xi α) φ (xi α)
Ψ (α, h) = xi α − xi xi
i: yi =0
1 − Φ (xi α) 1 − Φ (xi α)
−1
et xi α − φ (xi α) [1 − Φ (xi α)] < 0. Sachant que la matrice xi xi est définie positive.
*** A finir ***
a b
, eigenvalues:
b c
1 1 1
2a + 2c + 2 (a2 − 2ac + c2 + 4b2 ), 12 a + 12 c − 12 (a2 − 2ac + c2 + 4b2 )
Bibliographie
Alban T. (2000), ”Econométrie des Variables Qualitatives”, Dunod.
Goldberger (1964)
Gourieroux C. (1989), ”Econométrie des Variables Qualitatives”, Economica.
Greene W.H. (1997), ”Econometric Analysis”, Londres, Prentice Hall.
McDonald, J. and R. Moffitt (1980) The Uses of Tobit Analysis, Review of Economic and
Statistics, 62, 318321
Maddala. G.S. (1983), ”Limited-dependent and Qualitative Variables in Econometrics”, Econo-
metric Society Monographs, 3, Cambrige University Press.
Tobin J. (1958), ”Estimation of Relationships for Limited Dependent Variables”, Econometrica,
26, 24-36.