Académique Documents
Professionnel Documents
Culture Documents
Variables Dépendantes
Limitées et Qualitatives
15.1 Introduction
Les modèles de régression supposent de manière implicite que la variable
dépendante, peut-être après une transformation logarithmique ou autre, peut
prendre n’importe quelle valeur sur la droite des réels. Bien que cette sup-
position ne soit pas strictement correcte pour les données économiques, elle
est assez souvent raisonnable. Cependant, il s’agit d’une hypothèse accept-
able lorsque la variable dépendante peut prendre n’importe quelle valeur
spécifique de probabilité signifacativement supérieure à zéro. Les économistes
ont fréquemment à faire à de tels cas. Les plus communément rencontrés
sont les cas pour lesquels la variable dépendante peut prendre seulement deux
valeurs. Par exemple, une personne peut faire partie de la population active
ou non, un ménage peut être propriétaire ou locataire du logis où il vit, un
débiteur peut faire défaut ou non à un prêt, un conducteur peut se déplacer
pour son travail ou pour son loisir, et ainsi de suite. Ces cas constituent des
exemples de variables binaires dépendantes.
Si nous désirons expliquer des variables économiques comme celles-ci dans
un modèle économétrique, nous devons tenir compte de leur nature discrète.
Les modèles de la sorte sont appelés modèles à réponses qualitatives, et sont
habituellement estimés par la méthode du maximum de vraisemblance. Dans
le cas le plus simple et le plus fréquent, la variable dépendante représente
une ou deux alternatives. Elles sont codées de façon conventinnelle par 0 et
1, une convention qui se révèle être très pratique. Les modèles qui tentent
d’expliquer les variables 0-1 sont souvent appelés modèles à réponse binaire ou,
moins souvent, modèles à choix binaire. Ils sont très fréquemment employés
en économie appliquée et dans de nombreux autres domaines où s’applique
l’économétrie, comme les exemples précédents servent à l’illustrer.
Les modèles de régression sont aussi inappropriés pour traiter les modèles
comprenant des variables dépendantes limitées, pour lesquels il existe une
grande quantité de variétés. Parfois une variable dépendante peut être con-
tinue sur un ou plusieurs intervalles de la droite des réels mais peut pren-
dre une ou plusieurs valeurs avec une probabilité finie. Par exemple, les
511
512 Variables Dépendantes Limitées et Qualitatives
yt = Xt β + ut .
Etant donné que des modèles bien meilleurs sont disponibles et qu’il est facile
de les estimer en utilisant la technologie informatique moderne, ce type de
modèle n’est presque pas recommandable. Même s’il arrive que Xt β soit
compris entre 0 et 1 pour un β quelconque et toutes les observations dans
un échantillon particulier, il est impossible de contraindre Xt β à rester dans
cet intervalle pour toutes les valeurs possibles de Xt , à moins que les valeurs
prises par les variables indépendantes soient limitées d’une certaine manière
(par exemple, elles peuvent toutes être des variables muettes). Ainsi le modèle
de probabilité linéaire ne constitue pas un moyen judicieux pour modéliser les
probabilités conditionnelles.
Plusieurs modèles à réponse binaire pertinents sont disponibles et sont
très faciles à traiter. La subtilité consiste à utiliser une fonction de transfor-
mation F (x) qui comporte les propriétés
Ainsi F (x) est une fonction monotone croissante qui s’applique de la droite
des réels vers l’intervalle 0-1. Certaines fonctions de distribution cumulées
comportent ces propriétés, et nous discuterons brièvement de certains exem-
ples spécifiques. En utilisant des spécifications variées pour la fonction de
transformation, nous pouvons modéliser l’espérance conditionnelle de yt de
plusieurs manières.
Les modèles à réponse binaire dont nous discuterons se composent d’une
fonction de transformation F (x) appliquée à une fonction indice qui dépend
des variables indépendantes et des paramètres du modèle. Une fonction indice
est simplement une fonction qui comporte les propriétés d’une fonction de
régression, soit linéaire soit non linéaire. Ainsi une spécification très générale
d’un modèle à réponse binaire est
¡ ¢
E(yt | Ωt ) = F h(Xt , β) ,
1
Consulter, par exemple, Bowen et Finegan (1969).
514 Variables Dépendantes Limitées et Qualitatives
où h(Xt , β) est la fonction indice. Une spécification plus restrictive, mais plus
fréquente, est
E(yt | Ωt ) = F (Xt β). (15.03)
Dans ce cas, la fonction indice Xt β est linéaire et E(yt | Ωt ) est simplement
une transformation non linéaire. Bien que Xt β puisse en principe prendre
n’importe quelle valeur sur la droite des réels, F (Xt β) doit être comprise
entre 0 et 1 d’après la propriété (15.01).
Parce que F (·) est une fonction non linéaire, les changements dans les
valeurs de Xti , qui sont les éléments de Xt , affectent nécessairement E(yt | Ωt )
d’une manière non linéaire. De façon plus spécifique, quand Pt ≡ E(yt | Ωt )
est fournie par (15.03), sa dérivée par rapport à Xti est
∂Pt ∂F (Xt β)
= = f (Xt β)βi . (15.04)
∂Xti ∂Xti
Bien qu’il n’existe aucune expression bornée pour Φ(x), elle est facilement
évaluée numériquement, et sa dérivée première est naturellement la fonction
de densité de la loi normale standard
1 ¡ ¢
φ(x) = √ exp − 12 x2 .
2π
Le modèle probit peut provenir d’un modèle comprenant une variable yt∗
non observée, ou latente. Supposons que
−x −1 ex
Λ(x) ≡ (1 + e ) = ,
1 + ex
qui a comme dérivée première
ex
λ(x) ≡ = Λ(x)Λ(−x).
(1 + ex )2
La seconde égalité se révèlera très utile plus tard. Le modèle est plus facile-
ment dérivé en supposant que
µ ¶
Pt
log = Xt β,
1 − Pt
qui indique que le logarithme des probabilités est égal à Xt β. En résolvant
par rapport à Pt , nous trouvons que
exp(Xt β) ¡ ¢−1
Pt = = 1 + exp(−Xt β) = Λ(Xt β).
1 + exp(Xt β)
516 Variables Dépendantes Limitées et Qualitatives
Il est aussi possible de dériver le modèle logit à partir d’un modèle à variable
latente comme (15.05) et (15.06) mais avec des erreurs qui suivent une dis-
tribution à valeur extrême au lieu d’une normale; consulter, parmi d’autres,
Domencich et McFadden (1975), McFadden (1984), et Train (1986).
Dans la pratique, les modèles logit et probit tendent à fournir des résultats
assez similaires. Dans la plupart des cas, la seule différence réelle entre eux
réside dans la manière dont les éléments de β sont gradués. Cette différence
dans la graduation survient parce que la variance de la distribution lorsque la
fonction logistique est la fonction de répartition est π 2 /3, tandis que celle de
la loi normale standard est naturellement égale à l’unité. Ainsi les estimations
logit tendent toutes à être supérieures
√ 2 aux estimations probit, habituellement
d’un facteur juste inférieur à π/ 3. La Figure 15.1 illustre les fonctions de
répartition des loi normale standard, logistique, et logistique regraduée pour
obtenir une variance unitaire. La similitude entre la fonction de répartition
de la loi normale et la fonction logistique regraduée est frappante.
Au vu de leurs propriétés similaires, il est peut-être curieux qu’à la fois
les modèles logit et probit continuent à être largement employés, tandis que
des modèles véritablement différents des deux précédents sont très rarement
rencontrés. Il existe autant de manières de spécifier de tels modèles qu’il existe
de choix plausibles pour la fonction de transformation F (x). Par exemple, un
tel choix est
F (x) = π −1 arctan(x) + 12 . (15.08)
Comme il s’agit de la fonction de répartition de Cauchy, sa dérivée est
1
f (x) = ,
π(1 + x2 )
qui est la densité de Cauchy (consulter la Section 4.6). Comme le comporte-
ment de la fonction de distribution de Cauchy dans les queues est très différent
de celui d’autres fonctions de distribution comme Φ(x) ou Λ(x), il existe au
moins la possibilité qu’un modèle à réponse binaire basé sur (15.08) soit plus
ou moins performant qu’un modèle logit ou probit. D’un autre côté, il existe
une infime probabilité pour que ces deux modèles fournissent des résultats qui
diffèrent de manière significative, à moins que la taille de l’échantillon soit en
fait très importante.
√
2
Amemiya (1981) suggère que 1.6, plutôt que π/ 3 ∼ = 1.81 peut être une
meilleure estimation du facteur par lequel les estimations logit tendent à excéder
les estimations probit. Greene (1990a) remarque aussi qu’une justification pour
cette régularité est que φ(0)/λ(0) ∼= 1.6. Souvenons-nous de (15.04) que les
dérivées de Pt par rapport à Xti sont égales à f (Xt β)βi . Si Xt β est appro-
ximativement nul en moyenne et que les modèles logit et probit prédisent le
même effet sur Pt pour une variation donnée des Xti , alors les coefficients pour
le modèle logit doivent être approximativement 1.6 fois ceux du modèle probit.
On peut s’attendre à ce que cette approximation s’adapte moins bien quand la
valeur moyenne de Pt est loin de .5.
15.3 Estimation des Modèles à Réponse Binaire 517
.........................................................................
1.0 ......................... ...................................................... ..
. ............
. ..........
.
..... ...... ..... ........
F (x) .
....... ......
Logistique regraduée .................................................................. .........
.. .... ..
0.8 ....... ........................
........ ....... ......... Normale standard
. ..
..... .....
........ .....
.
0.6 ........
...........
.....
.....
..
......
. . ........
0.4 ... ..
.
. ... ........
.. ..
........ .... ....
.... ...
Logistique ..
..
..
..
..
..
..
..
..
...
..
..
. .
.... .....
0.2 ... ..... ..........
. ......
.....
.......... .. ...........
.
. ..
......... .......
.... ........ ..... ............... ....
...
........
0.0 ................................................................................................................................. x
−5 −4 −3 −2 −1 0 1 2 3 4 5
Les trois choix pour F (·) que nous avons discutés sont symétriques par
rapport à zéro. Cela signifie qu’elles ont la propriété que 1 − F (x) = F (−x),
qui implique que f (x) = f (−x). Il s’agit parfois d’une propriété commode,
mais il n’existe pas de raison a priori pour s’y tenir. Les choix pour F (·)
qui ne possèdent pas cette propriété fourniront potentiellement des résultats
très différents de ceux produits par les modèles logit et probit. Une manière
d’obtenir le même effet consiste à spécifier le modèle comme
¡ ¢
E(yt | Ωt ) = F h(Xt β) ,
où F (·) est Φ(·) ou Λ(·), et h(·) est une transformation non linéaire. Ceci
suggère une façon de tester la validité de l’hypothèse de symétrie oblique,
sujet que nous aborderons dans la Section 15.4.
où F̂t ≡ F (Xt β̂) et fˆt ≡ f (Xt β̂), avec β̂ qui désigne le vecteur des estimations
ML. Toutes les fois que la fonction de logvraisemblance est globalement con-
cave, ces conditions du premier ordre définissent un maximum unique si elles
sont tout à fait satisfaites. Nous pouvons vérifier que les modèles logit, probit,
et de nombreux autres modèles à réponse binaire satisfont les conditions de
régularité nécessaires pour que les estimations β̂ soient convergentes et asymp-
totiquement normales, avec une matrice de covariance asymptotique donnée
par l’inverse de la matrice d’information selon la façon habituelle. Consulter,
par exemple, Gouriéroux et Monfort (1981). Dans le cas du modèle logit, les
conditions du premier ordre (15.10) se simplifient
n
X ¡ ¢
yt − Λ(Xt β̂) Xti = 0, i = 1, . . . , k,
t=1
¡ ¢
parce que λ(x) = Λ(x) 1 − Λ(x) . Notons que les conditions (15.10) ressem-
blent aux conditions du premier ordre de l’estimation par moindres carrés
pondérés du modèle de régression non linéaire
yt = F (Xt β) + et , (15.11)
avec des poids donnés par
³ ¡ ¢´−1/2
F (Xt β) 1 − F (Xt β) .
3
Dans le cas usuel, où F (·) est symétrique-oblique, il est plus judicieux d’évaluer
log(F (−Xt β)) plutôt que log(1 − F (Xt β)) lors de l’écriture de programmes
informatiques. Ceci évite le risque que 1 − F (Xt β) soit évalué de manière très
imprécise lorsque F (Xt β) est très proche de l’unité. Bien que F (·) ne nécessite
pas d’être symétrique-oblique, nous retiendrons la notation la plus générale.
15.3 Estimation des Modèles à Réponse Binaire 519
Cela est logique du fait que la variance de l’aléa dans (15.11) est
¡ ¢2
E(e2t ) = E yt − F (Xt β)
¡ ¢2 ¡ ¢¡ ¢2
= F (Xt β) 1 − F (Xt β) + 1 − F (Xt β) F (Xt β)
¡ ¢
= F (Xt β) 1 − F (Xt β) .
où X est une matrice de dimension n × k avec comme ligne type Xt et comme
élément type Xti , et Ψ (β) est une matrice diagonale avec comme élément
diagonal type
f 2 (Xt β)
Ψ (Xt β) = ¡ ¢. (15.12)
F (Xt β) 1 − F (Xt β)
Le numérateur reflète le fait que la dérivée de F (Xt β) par rapport à βi est
f (Xt β)Xti , et le dénominateur est simplement la variance de et dans (15.11).
Dans le cas du modèle logit, Ψ (Xt β) se simplifie en λ(Xt β).
Cette matrice de covariance asymptotique peut aussi être obtenue en
prenant l’inverse de la matrice d’information. Comme d’habitude, celle-ci est
égale à l’espérance de l’opposé de n−1 fois la matrice Hessienne mais également
à l’espérance du produit extérieur du gradient. La matrice d’information est
simplement
1 >
I(β) ≡ −n
X Ψ (β)X, (15.13)
où Ψ (β) est définie par (15.12). Par exemple, à partir de (15.10) il est aisé de
voir que l’élément type de la matrice n−1 G>(β)G(β), où G(β) est la matrice
CG, est
n
á ¢ !2
1
X yt − F (X t β) f (X t β)
− ¡ ¢ Xti Xtj .
n F (X t β) 1 − F (Xt β)
t=1
1.0
Ψ (Xt β)
.................
0.8 .... ...
Logit regradué −→.. ...
.. ...
.. ...
.
..... .............................. .....
0.6 .......... ..... ...
.......
..... .....
....... ...
.....
. .....
.... ......
.
..... .......
0.4 .
.. . ......
.
.. .. . ... ...
.
.. ... ... ....←− Probit
..
. . ... ...
... ... ... ....
.
.. .. ... ...
.
. ... ....
0.2 .
. .. .... ... ....
.
.. .. .... ....
.
..... ...... ..... ....
..... .....
.... ....
. ...... ......
... .. ...... ................
.. .
.................. .....................
...
...
...
...
..
..
.. ...........................................
..............
...
...
...
...
...
...
...
...
0.0 Xt β
−4 −3 −2 −1 0 1 2 3 4
Figure 15.2 Les poids pour les modèles probit et logit regradué
Dans la Figure 15.2, les pondérations (15.12) sont graphées pour les
cas probit et logit, (la dernière a été regraduée pour avoir une variance
unitaire) comme des fonctions de l’indice Xt β. Notons que les différences
entre ces deux modèles sont plus frappantes qu’elles ne le furent dans la
Figure 15.1. Le modèle logit associe plus de poids aux observations pour
lesquelles Xt β est proche ou loin de zéro, tandis que le modèle probit associe
des poids plus importants aux observations pour lesquelles Xt β prend des
valeurs intermédiaires (approximativement, entre 0.8 et 3.0). Cependant, les
15.3 Estimation des Modèles à Réponse Binaire 521
différences qui sont apparentes dans la figure semblent rarement prendre plus
d’importance dans la pratique.
Comme nous l’avons vu, nous pouvons penser qu’une variable dépendante
binaire provienne d’un modèle à variable latente tel que celui donné par (15.05)
et (15.06). Il est intéressant de se demander quel est le degré d’efficacité
perdu par la variable latente non observable. Manifestement, quelque chose
doit être perdu, parce qu’une variable binaire telle que yt doit fournir moins
d’information qu’une variable continue telle que yt∗ . La matrice de covariance
pour les estimations OLS de β dans (15.05) est (X>X)−1 ; rappelons que
la variance d’erreur est normalisée à l’unité. ¡Par contraste,
¢−1 la matrice de
covariance pour les estimations probit de β est X>Ψ (β)X , où Ψ (β) était
définie par (15.12). La valeur maximale pour Ψ (Xt β) est atteinte quand Pt =
.5. Dans le cas probit, cette valeur est 0.6366. Par conséquent, dans le meilleur
cas possible, lorsque les données sont telles que Pt = .5 pour tout t, la matrice
de covariance pour les estimations probit sera égale à 1.57 (∼
= 1/0.6366) fois la
matrice de covariance des OLS. Dans la pratique, naturellement, cette borne
supérieure n’est probablement pas atteinte, et les estimations probit peuvent
être beaucoup moins efficaces que ne le seraient les estimations OLS, qui
utilisent la variable latente, en particulier lorsque Pt est proche de 0 ou 1
pour une partie importante de l’échantillon.
Un problème pratique avec les modèles à réponse binaire est que les con-
ditions du premier ordre (15.10) n’ont pas nécessairement de solution finie.
Ceci peut survenir quand l’ensemble des données ne fournit pas suffisam-
ment d’information pour identifier tous les paramètres. Supposons qu’il ex-
iste une quelconque combinaison linéaire des variables indépendantes, disons
zt ≡ Xt β ∗, telle que
yt = 0 pour zt ≤ 0, et
yt = 1 pour zt > 0.
Alors il sera possible de faire tendre `(y, β) vers zéro en posant β = αβ ∗ et
en laissant α → ∞. Ceci garantira que F (Xt β) → 0 pour toutes les observa-
tions où yt = 0 et F (Xt β) → 1 pour toutes les observations où yt = 1. La
valeur de la fonction de logvraisemblance (15.09) tendra donc vers zéro quand
α → ∞. Mais zéro est évidemment une borne supérieure pour cette valeur.
Donc, dans de telles circonstances, les paramètres β ne sont pas identifiés sur
l’espace paramétrique non compact Rk au sens de la Définition 8.1, et nous
ne pouvons pas obtenir des estimations pertinentes de β; consulter Albert et
Anderson (1984).
Quand zt est simplement une combinaison linéaire du terme constant et
d’une seule variable indépendante, cette dernière est souvent appelée classifi-
catrice parfaite, parce que les yt peuvent être classées en 0 ou 1, une fois la
valeur de la variable connue. Par exemple, considérons le DGP
yt∗ = xt + ut , ut ∼ NID(0, 1);
(15.14)
yt = 1 si yt∗ > 0 et yt = 0 si yt∗ ≤ 0.
522 Variables Dépendantes Limitées et Qualitatives
(15.17) est très facile à calculer, la statistique de test l’est également. Cepen-
dant, nous discuterons dans la prochaine section d’une statistique de test
encore plus facile à calculer.
De nombreuses mesures de bonne qualité de l’ajustement, comparables
au R2 pour les modèles de régression, ont été proposées pour les modèles à
réponse binaire, et de nombreuses applications statistiques reportent certaines
d’entre elles. Consulter, parmi d’autres, Cragg et Uhler (1970), McFadden
(1974a), Hauser (1977), Efron (1978), Amemiya (1981), et Maddala (1983).
Le plus simple de ces pseudo R2 est celui suggéré par McFadden. Il est
simplement défini comme
`U
1− , (15.18)
`R
où `U est la valeur non contrainte `(y, β̂1 , β̂2 ), et `R est la valeur contrainte
`(y, β̄1 , 0). L’expression (15.18) représente une possible mesure de bonne
qualité de l’ajustement parce qu’elle doit être comprise entre 0 et 1. Nous
avons vu auparavant que la fonction de logvraisemblance (15.09) pour les
modèles à choix binaires est bornée supérieurement par 0, ce qui implique
que `U et `R sont toujours de même signe à moins que `U soit nulle. Mais
`U peut être nulle seulement si le modèle non contraint s’ajuste parfaitement,
ce qui survient s’il existe une classificatrice parfaite. Ainsi nous voyons que
l’expression (15.18) sera égale à 1 dans ce cas, égale à 0 quand les valeurs con-
trainte et non contrainte de la logvraisemblance seront identiques, et comprise
entre 0 et 1 dans tous les autres cas.
Bien que (15.18) et d’autres mesures de bonne qualité d’ajustement puis-
sent être utiles pour obtenir une idée approximative sur les performances
d’un modèle à réponse binaire particulier, il n’est pas nécessaire de les utiliser
si l’objectif est de comparer la performance de deux ou plusieurs modèles
à réponse binaire différents estimés sur le même ensemble de données. Le
meilleur moyen d’y parvenir consiste simplement à comparer les valeurs
des fonctions de logvraisemblance, en utilisant le fait que les valeurs pour
n’importe quel modèle à réponse binaire de la forme (15.03) sont directement
comparables. Parfois, nous pouvons même rejeter un modèle sur la base d’une
telle comparaison. Par exemple, supposons que, sur un ensemble de données
particulier, la valeur de la logvraisemblance pour un modèle logit donné excède
de plus de 1.92 celle d’un modèle probit avec la même fonction indice, ce qui
représente la moitié de 3.84, la valeur critique à 5% pour une statistique de
test qui est distribuée suivant une χ2 (1). Il est clairement possible d’englober
les logit et probit dans un modèle plus général ayant plus d’un paramètre. Le
dernier modèle s’ajusterait au moins aussi bien que le modèle logit; consulter
la discussion dans la Section 14.3. Ainsi, dans cet exemple, nous pourrions
rejeter à un niveau de 5% l’hypothèse selon laquelle le modèle probit a généré
les observations. Naturellement, il est rare que la différence entre l’ajustement
des modèles probit et logit, qui ne diffèrent d’aucune autre manière, soit aussi
importante, à moins que la taille de l’échantillon ne soit extrêmement grande.
524 Variables Dépendantes Limitées et Qualitatives
qui implique que (15.11) doit être estimée par GNLS. La GNR ordinaire cor-
respondant à (15.11) serait
4
Certains auteurs écrivent la BRMR de manières quelque peu différentes. Par
exemple, chez Davidson et MacKinnon (1984b), la régressande a été définie
comme µ ¶1/2 µ ¶1/2
1 − F (Xt β) F (Xt β)
yt + (yt − 1) .
F (Xt β) 1 − F (Xt β)
Vérifier qu’il s’agit juste d’une autre manière d’écrire la régressande de (15.21)
constitue un bon exercice.
15.4 Une Régression Artificielle 525
où b(j) désigne le vecteur des estimations OLS à partir de la BRMR (15.21)
évaluée en β (j) , et α(j) est un scalaire déterminé par l’algorithme. On pour-
rait choisir les estimations initiales β (1) de différentes façons. Une de ces
façons facile à utiliser et qui semble bien fonctionner dans la pratique consiste
simplement à initialiser le terme constant à F −1 (ȳ) et les autres coefficients
à zéro. Les valeurs de départ correspondent alors aux estimations du modèle
contraint avec des pentes nulles.
En évaluant la BRMR avec les estimations ML β̂, celle-ci peut aussi être
utilisée pour obtenir une matrice de covariance estimée pour les paramètres
estimés. La matrice de covariance estimée à partir de l’estimation OLS de la
régression (15.21) évaluée en β̂ sera
¡ ¢−1
s2 X>Ψ̂ X , (15.23)
où s est l’écart type de la régression. Cet écart type tendra asymptotiquement
vers 1, mais il ne sera pas vraiment égal à 1 dans les échantillons finis. La
matrice Ψ̂ est une matrice diagonale avec comme élément type diagonal
f 2 (Xt β̂)
Ψ̂tt = ¡ ¢.
F (Xt β̂) 1 − F (Xt β̂)
526 Variables Dépendantes Limitées et Qualitatives
y = c1 + X2 c2 + résidus.
Ainsi, nous avons rencontré une situation dans laquelle le modèle de proba-
bilité linéaire est utile. Si nous voulons tester l’hypothèse nulle selon laquelle
aucun des régresseurs n’explique la variation de la variable dépendante, alors
il est parfaitement pertinent d’employer la statistique de test ordinaire en F
pour toutes les pentes nulles dans une régression OLS de y sur X.
Naturellement, nous pouvons utiliser la BRMR pour calculer les tests
C(α) et les tests pseudo-Wald aussi bien que des tests LM. L’essentiel de ce
que nous avons dit concernant de tels tests dans les Sections 6.7 et 13.7 reste
valable dans le contexte des modèles à réponse binaire. Nous ne pouvons pas
utiliser la somme des carrés expliqués comme statistique de test, mais plutôt
la réduction dans la somme des carrés expliqués consécutive à l’addition des
régresseurs de test. Les tests pseudo-Wald peuvent être particulièrement utiles
quand la fonction indice est linéaire sous l’hypothèse alternative mais non
linéaire sous l’hypothèse nulle, parce que l’hypothèse alternative peut être
estimée au moyen d’un programme standard logit ou probit. S’il apparaı̂t
que les contraintes s’ajustent bien aux données, nous pouvons employer une
BRMR différente pour obtenir des estimations en une étape.
La BRMR est utile pour tester tous les aspects de la spécification des
modèles à réponse binaire. Avant même d’accepter un quelconque modèle de
la sorte, nous devons savoir si F (Xt β) représente une spécification correcte
pour la probabilité yt = 1 conditionnellement à l’ensemble d’information Ωt .
Les tests de variables appartenant à l’ensemble Ωt potentiellement omises
constitue une part importante de ce processus, et nous avons déjà vu comment
procéder à l’aide de la BRMR (15.24). Mais même si Xt est spécifiée de façon
correcte, le reste du modèle peut ne pas l’être.
Considérons le modèle à variable latente donné par (15.05) et (15.06).
Parce que les modèles à réponse binaire sont typiquement estimés en utili-
sant les données en coupe transversale, et que de telles données présentent
fréquemment de l’hétéroscédasticité, il est fort possible que les aléas dans
l’équation pour yt∗ soient hétéroscédastiques. S’ils étaient effectivement
hétéroscédastiques, le modèle probit ne serait plus approprié, et les estima-
tions de β basées sur ce modèle seraient non convergentes; consulter Yatchew
et Griliches (1984). Puisque nous pouvons considérer que tout modèle modèle
à réponse binaire peut provenir d’un modèle à variable latente, il est claire-
ment important de tester l’hétéroscédasticité de tels modèles. Nous discutons
à présent de la manière de procéder.
528 Variables Dépendantes Limitées et Qualitatives
Une spécification plus générale que l’équation (15.05) qui tient compte
des erreurs hétéroscédastiques est
¡ ¢
yt∗ = Xt β + ut , ut ∼ N 0, exp(2Zt γ) , (15.25)
où Zt est un vecteur ligne de longueur q des observations sur les variables
qui appartiennent à l’ensemble d’information Ωt . Pour s’assurer qu’à la fois
β et γ sont identifiables, Zt ne doit pas comprendre un terme constant ou
l’équivalent. La combinaison de (15.25) avec (15.06) fournit le modèle
µ ¶
Xt β
E(yt | Ωt ) = Φ . (15.26)
exp(Zt γ)
où F̂t , fˆt , et V̂t sont évalués avec les estimations ML β̂ en supposant que γ = 0.
La somme expliquée des carrés de (15.27) sera distribuée asymptotiquement
suivant une χ2 (q) sous l’hypothèse nulle.
Il est également important de tester la spécification de la fonction de
transformation F (·). Comme nous l’avons noté plus tôt, une manière naturelle
de procéder de la sorte consiste à considérer un modèle alternatif de la forme
¡ ¢
E(yt | Ωt ) = F h(Xt β, α) , (15.28)
où h(x, α) est une fonction non linéaire de x, et α est soit un paramètre
soit un vecteur de paramètres tel que h(Xt β, α) = Xt β pour une certaine
valeur de α. Stukel (1988) suggère une famille plus compliquée de fonctions
à deux paramètres h(x, α) qui mène à une famille très générale de modèles.
Cette famille comprend le modèle logit comme un cas particulier quand α =
0, et permet d’imposer ou non l’hypothèse de symétrie-oblique. On peut
aisément utiliser la BRMR pour tester l’hypothèse nulle que α = 0 contre
cette alternative.
Un test plus simple peut être basé sur la famille de modèles
µ ¶
τ (αXt β)
E(yt | Ωt ) = F ,
α
15.4 Une Régression Artificielle 529
qui est un cas particulier de (15.28). Ici τ (·) peut être n’importe quelle fonction
monotone croissante en son argument satisfaisant les conditions
où le terme constant τ 00 (0)/2 qui provient de (15.29) est non pertinent pour
le test et a été omis. Par conséquent, la régression (15.30) traite simplement
les valeurs au carré de la fonction indice évaluée en β̂ comme s’il y avait
des observations sur un régresseur potentiellement omis. Ce test comporte
une forte ressemblance avec le test RESET pour les modèles de régression,
dont nous avons discuté dans la Section 6.5. Nous pouvons utiliser comme
statistique de test la statistique ordinaire t pour a = 0, mais nous préfèrerons
employer la somme expliquée des carrés.
Une très grande variété de tests de spécification peut être basée sur la
BRMR. En réalité, presque tous les tests de spécification pour les modèles de
régression basés sur une régression artificielle comportent un analogue pour
les modèles à réponse binaire. En général, nous pouvons écrire la régression
artificielle pour la réalisation d’un tel test comme
−1/2 −1/2
V̂t (yt − F̂t ) = V̂t fˆt Xt b + Ẑt c + résidu, (15.31)
où Ẑt est un vecteur de dimension 1 × r qui peut dépendre des estima-
tions ML β̂ et d’un élément quelconque dans l’ensemble d’information Ωt .
L’intuition pour (15.31) est très simple. Si F (Xt β) est la spécification cor-
recte de E(yt | Ωt ), alors (15.31) sans les régresseurs Zt est la régression arti-
ficielle qui correspond au DGP. Aucun régresseurs additionnels Zt dépendant
de Ωt ne doit avoir de pouvoir explicatif significatif lorsqu’il est ajouté à cette
régression.
Il est même possible d’utiliser la BRMR pour calculer les tests non
emboı̂tés très similaires au test en P (consulter la Section 11.3). Supposons
que nous avons deux modèles en compétition:
H1 : E(yt | Ωt ) = F1 (X1t β1 ) et
H2 : E(yt | Ωt ) = F2 (X2t β2 ),
qui peuvent différer soit parce que F1 (·) n’est pas la même que F2 (·) soit
parce que X1t n’est pas la même que X2t soit pour les deux raisons à la
530 Variables Dépendantes Limitées et Qualitatives
bien que ce modèle artificiel ne soit pas vraiment un modèle à réponse binaire.
Nous pouvons tester H1 contre HC essentiellement de la manière dont nous
l’avons fait pour les modèles de régression. Tout d’abord, nous remplaçons β2
par son estimation ML β̂2 et construisons ensuite une régression artificielle
pour tester l’hypothèse nulle que α = 0. Cette régression artificielle est
−1/2 −1/2
fˆ1t X1t b + aV̂t
−1/2
V̂t (yt − F̂1t ) = V̂t (F̂2t − F̂1t ) + résidu.
yt
2
0 yt∗
γ1 γ2
−3 −2 −1 0 1 2 3
où, pour une raison qui deviendra bientôt évidente, Xt ne comprend aucun
terme constant. Nous observons réellement une variable discrète yt qui peut
prendre seulement trois valeurs:
yt = 0 si yt∗ < γ1
yt = 1 si γ1 ≤ yt∗ < γ2 (15.33)
yt = 2 si γ2 ≤ yt∗ .
.
Les paramètres de ce modèle sont β et γ ≡ [γ1 ... γ2 ]. Les γi sont des seuils
qui déterminent quelle valeur de yt va correspondre à une valeur donnée de
yt∗ . Ceci est illustré dans la Figure 15.3. Le vecteur γ comporte toujours un
élément de moins qu’il y a de choix. Quand il existe seulement deux choix, ce
modèle se confond avec le modèle à réponse binaire ordinaire, l’unique élément
de γ jouant le rôle du terme constant.
La probabilité que yt = 0 est
Notons que γ2 doit être plus grand que γ1 , parce que sinon Pr(yt = 1) serait
négative et le dernier terme dans (15.34) serait indéfini.
La maximisation de la fonction de logvraisemblance (15.34) est rela-
tivement simple, comme l’est généralement le modèle qui gère plus de trois
réponses. Il est aussi évident que l’on pourrait utiliser une quelque autre
fonction de transformation à la place de la normale standard dans (15.34)
et avoir encore un modèle parfaitement correct. La forme de la fonction
de logvraisemblance serait malgré tout inchangée. Pour une discussion plus
approfondie concernant les modèles à réponse qualitative, consulter Greene
(1990a, Chapitre 20), Terza (1985), et Becker et Kennedy (1992). Cette ap-
proche n’est en aucune manière la seule pour traiter des réponses discrètes
ordonnées. D’autres approches sont exéminées par McCullagh (1980), Agresti
(1984), et Rahiala et Teräsvirta (1988).
La caractérique majeure des modèles à réponse qualitative ordonnée est
que tous les choix dépendent d’une seule fonction indice. Ceci prend tout
son sens quand les réponses ont un ordre naturel mais pas dans le cas con-
traire. Un type de modèle différent est évidemment nécessaire pour traiter
des réponses non ordonnées. L’approche la plus simple consiste à employer
le modèle logit multinomial (ou modèle logit multiple), qui a été largement
utilisé dans des travaux appliqués. Un premier exemple est Schmidt et Strauss
(1975). Un modèle relativement proche appelé modèle logit conditionnel est
aussi largement utilisé, comme nous le verrons plus tard.5
5
La terminologie dans ce domaine est souvent utilisée de différentes manières
suivant les auteurs. Les termes “modèle logit multinomial,” “modèle logit mul-
tiple,” et “modèle logit conditionnel” sont parfois utilisés de façon interchan-
geable.
15.5 Les Modèles à Plus de Deux Réponses Discrètes 533
1
Pr(yt = 0) = PJ (15.35)
j
1+ j=1 exp(Xt β )
exp(Xt β l )
Pr(yt = l) = PJ pour l = 1, . . . , J. (15.36)
1 + j=1 exp(Xt β j )
Ici Xt est un vecteur ligne de dimension k d’observations sur les variables qui
appartiennent à l’ensemble d’information d’intérêt, et β 1 jusqu’à β J sont des
vecteurs de dimension k des paramètres. Quand J = 1, nous voyons aisément
que ce modèle se réduit au modèle logit ordinaire avec une seule fonction
indice Xt β 1. Pour chaque alternative additionnelle, nous ajoutons au modèle
une autre fonction indice et k paramètres.
Certains auteurs préfèrent écrire le modèle logit multinomial comme
exp(Xt β l )
Pr(yt = l) = PJ pour l = 0, . . . , J (15.37)
j
j=0 exp(Xt β )
Pr(yt = l) exp(Xt β l ) ¡ l j
¢
= = exp Xt (β − β ) (15.38)
Pr(yt = j) exp(Xt β j )
pour les deux réponses l et j (en incluant la réponse nulle si nous in-
terprétons β 0 comme un vecteur composé de zéros). Ainsi les disparités
entre deux réponses quelconques ne dépendent que de Xt et des vecteurs
paramètriques associés à ces deux réponses. Elles ne dépendent pas des
534 Variables Dépendantes Limitées et Qualitatives
où Wij est un vecteur ligne des caractéristiques de l’alternative j telles qu’elles
s’appliquent au consommateur i. Soit yi le choix réalisé par le i ième consom-
mateur. Il est vraisemblable que yi = l si Uil est au moins aussi important
que Uij pour tout j 6= l. Alors si les perturbations εij pour j = 1, . . . , J sont
indépendantes et identiquement distribuées selon la distribution de Weibull,
nous pouvons montrer que
exp(Wil β)
Pr(yi = l) = PJ . (15.39)
j=1 exp(W ij β)
Ceci ressemble fort à (15.37), et il est aisé de voir que la somme de probabilités
doit être égale à l’unité.
Il existe deux différences majeures entre le modèle logit multinomial et le
modèle logit conditionnel. Dans le premier, il existe un seul vecteur de vari-
ables indépendantes pour chaque observation, et il y a J vecteurs différents de
paramètres. Dans le second, les valeurs des variables indépendantes varient
en fonction des alternatives, mais il y a juste un seul vecteur paramétrique
β. Le modèle logit multinomial est une généralisation directe du modèle logit
qui peut être utilisé pour traiter une quelconque situation comprenant trois
ou plusieurs réponses qualitatives non ordonnées. Par contraste, le modèle
logit conditionnel est spécifiquement conçu pour traiter des choix du consom-
mateur parmi des alternatives discrètes basés sur les caractéristiques de ces
alternatives.
Il peut exister un certain nombre de subtilités associées à la spécification
et à l’interprétation des modèles logit conditionnels selon la nature des vari-
ables explicatives. Il n’y a pas suffisamment de place dans cet ouvrage pour
traiter celles-ci convenablement, et par conséquent les lecteurs qui désirent es-
timer de tels modèles sont encouragés à consulter les références mentionnées
15.6 Les Modèles pour Données avec Troncature 535
Pr(yt = l) exp(Wil β)
= . (15.40)
Pr(yt = j) exp(Wij β)
Cette propriété est appelée indépendance par rapport aux alternatives non
pertinentes, ou IIA. Elle implique que la prise en compte d’une alternative
supplémentaire par le modèle, ou que le changement des caractéristiques d’une
alternative déjà comprise par le modèle, ne modifiera pas les probabilités des
alternatives l et j.
La propriété IIA peut être extrêmement peu plausible dans certaines cir-
constances. Supposons qu’il y ait initialement deux alternatives pour voyager
entre deux villes: la liaison aérienne par Air Monopole et la route. Supposons
par ailleurs que la moitié des voyageurs choisissent l’avion et l’autre moitié la
voiture. Alors Air Concurrent entre sur le marché et crée une troisième alter-
native. Si Air Concurrent offre un service identique à celui de Air Monopole, il
doit gagner la même part de marché. Ainsi, selon la propriété IIA, un tiers des
voyageurs doit prendre chaque compagnie aérienne et un tiers doit prendre la
route. Par conséquent, l’automobile a perdu une part de marché identique à
celle de Air Monopole depuis l’entrée de Air Concurrent! Ceci semble très peu
plausible.6 La conséquence de tout ceci est qu’un grand nombre d’articles a été
consacré au problème du test de la propriété d’indépendance aux alternatives
non pertinentes et à la découverte de modèles réalisables qui ne possèdent
pas cette propriété. Voir, en particulier, Hausman et Wise (1978), Manski et
McFadden (1981), Hausman et McFadden (1984), et McFadden (1987).
Ceci termine notre discussion des modèles à réponse qualitative. Des
traitements plus détaillés sont présentés dans les articles de synthèse de Mad-
dala (1983), McFadden (1984), Amemiya (1981; 1985, Chapitre 9), et Greene
(1990a, Chapitre 20), entre autres. Dans les trois prochaines sections, nous
nous focaliserons sur les variables dépendantes limitées.
6
En effet, nous pourrions objecter que la guerre des tarifs entre Air Monopole
et Air Concurrent inciterait certains automobilistes à prendre l’avion. Alors
l’automobile perdrait effectivement des parts de marché. Mais si les deux com-
pagnies aériennes offraient des prix plus bas, un ou plusieurs éléments des Wij
associés à ces prix seraient modifiés. L’analyse précédente suppose que tous les
Wij restent inchangés.
536 Variables Dépendantes Limitées et Qualitatives
7
Ce type de censure est commun avec les données d’enquête. Il peut survenir
soit parce que les enquêteurs désirent protéger l’intimité des personnes à haut
revenu interrogées soit parce que l’enquête n’était pas conçue pour les nécessités
de l’analyse économétrique que l’on souhaite mettre en oeuvre.
15.6 Les Modèles pour Données avec Troncature 537
yt observé quand yt ≤ y u et
yt observé quand y l ≤ yt ≤ y u ,
Ici yt∗ est une variable latente observée seulement quand elle est positive.
Quand la variable latente est négative, la variable dépendante prend une valeur
nulle. La motivation initiale de Tobin était d’étudier les dépenses des ménages
sur des biens durables, nulles pour certains ménages et positives pour d’autres.
Il est aisé de modifier le modèle tobit de telle sorte qu’une censure se
produise pour d’autres valeurs que zéro, de telle sorte que la censure s’applique
à des valeurs supérieures plutôt qu’inférieures, ou de telle sorte que la valeur
sur laquelle se produit la censure change (d’une manière non stochastique)
sur l’échantillon. Par exemple, yt∗ pourrait être la demande de places sur un
vol d’une compagnie aérienne, ytc pourrait être la capacité de l’appareil (qui
pourrait varier sur l’échantillon selon les différents appareils utilisés lors des
vols), et yt pourrait être le nombre de sièges véritablement occupés. Ainsi, la
seconde ligne de (15.44) serait remplacée par
Le modèle tobit a été très largement usité dans les travaux appliqués. Des
applications de celui-ci ont concerné des sujets très divers tels que le chômage
(Ashenfelter et Ham, 1979), l’âge espéré de la retraite (Kotlikoff, 1979),
la demande de cuivre (MacKinnon et Olewiler, 1980), et même le nombre
d’aventures extra-conjugales (Fair, 1978).
540 Variables Dépendantes Limitées et Qualitatives
Il est tout aussi incorrect d’utiliser une régression par moindres carrés
avec des données censurées qu’avec des données tronquées. Le Tableau 15.1
contient certains résultats numériques pour l’estimation OLS du modèle
yt∗ = β0 + β1 xt + ut , ut ∼ NID(0, σ 2 ),
où yt provient de yt∗ soit par troncature soit par censure sur des valeurs
inférieures à y 0. Pour cette illustration, les véritables valeurs de β0 , β1 , et
σ étaient toutes unitaires, et xt était uniformément distribuée sur l’intervalle
(0,1). Chaque ligne du tableau correspond à une valeur différente de y 0 et en
conséquence à une proportion différente des observations limitées. Les esti-
mations basées sur l’échantillon tronqué sont désignées par β̂0 et β̂1 , tandis
que celles basées sur l’échantillon censuré sont désignées par β̃0 et β̃1 .8
Il apparaı̂t à partir des résultats du tableau que la non convergence due
à la troncature ou à la censure peut être très importante, la troncature provo-
quant une non convergence encore plus prononcée que la censure, du moins
dans cet exemple. Comme nous pouvions nous y attendre, la non convergence
augmente avec la proportion des observations limitées. Notons que pour le
cas censuré, plim(β̃1 )/β1 est essentiellement égale à la proportion des ob-
servations non limitées dans l’échantillon, 1 − Pr(yt < y 0 ). Greene (1981a)
a dérivé ce résultat de façon analytique pour tous les coefficients de pente
dans un modèle de régression linéaire, sous l’hypothèse particulière que les
régresseurs sont normalement distribués. Ceci semble fournir une très bonne
approximation pour certains autres cas, dont celui analysé dans le tableau.
8
Ces résultats ont été obtenus au moyen d’une expérience Monte Carlo qui com-
prenait 500 simulations, avec chacune 50,000 observations. Bien que l’erreur
expérimentale devrait être très petite, les derniers chiffres reportés dans le
tableau peuvent ne pas être exacts. Par exemple, il est aisé de voir que dans
cet exemple la fraction tronquée ou censurée quand y 0 est 1.5 doit être 0.50, et
c’est le nombre reporté dans le tableau. Cependant, le nombre effectivement
observé dans les expériences a été 0.498.
15.7 Les Modèles pour Données Censurées 541
P ¡ ¢
Additionnons et soustrayons maintenant le terme yt >0 log Φ(Xt β/σ) à
(15.49), qui devient alors
µ ³ ¶ X µ ³ ´¶
X 1 1¡ ¢´ 1
log −
σφ −
σ yt − Xt β − log Φ −σ Xt β
yt >0 yt >0
X µ ³ ´¶ X µ ³ ´¶ (15.50)
1 1
+ log Φ − −
σ Xt β + log Φ −σ Xt β .
yt =0 yt >0
Ici (MW X∗ )t sert d’estimation des parties stochastiques des variables prob-
ablement endogènes dans Xt . Si ces variables ne sont pas corrélées avec ut ,
et que le modèle à variable latente est spécifié correctement, le vecteur γ de-
vrait être nul. Ce test fut utilisé par MacKinnon et Olewiler (1980) et détaillé
ensuite par Smith et Blundell (1986).
Il est entendu qu’à la fois les modèles correspondant aux hypothèses
nulle et alternative pour ce test sont véritablement des modèles de régression
tronquée, probit, ou tobit, qui dépendent de la manière dont yt est obtenue
à partir de yt∗ . Comme d’habitude, les tests LM peuvent être basés sur les
régressions artificielles. Comme seule la régression OPG est disponible pour
les modèles tobit et de régression tronqués, il peut être préférable d’utiliser un
test LR dans ces cas. Quand nous estimons le modèle alternatif, il s’avère que
les estimations de β sont convergentes même si l’hypothèse nulle est fausse,
comme elles l’étaient dans le cas de la régression linéaire examiné dans la
Section 7.9. Cependant, la matrice de covariance ordinaire produite par cette
procédure n’est pas valable asymptotiquement quand γ 6= 0, pour la même
raison qu’elle ne l’était pas dans le cas de de la régression linéaire.
exclura ceux pour qui le salaire de réserve excède leur salaire de marché. Si
la variable dépendante est un élément corrélé avec leurs salaires de réserve
ou de marché, l’utilisation des moindres carrés fournira des estimations non
convergentes. Dans ce cas, l’échantillon est dit sélectionné sur la base de la
différence entre le salaire de réserve et le salaire de marché, et le problème
que ce type de sélection provoque est souvent désigné sous le nom de biais
de sélection d’échantillon. Heckman (1974, 1976, 1979), Hausman et Wise
(1977), et Lee (1978) sont les tous premiers articles sur ce sujet.
La meilleure manière de comprendre les caractéristiques clés des modèles
impliquant la sélection d’échantillon consiste à examiner un modèle simple en
détail. Supposons que yt∗ et zt∗ soient deux variables latentes, générées par le
processus bivarié
· ¸ · ¸ · ¸ · ¸ Ã · ¸!
yt∗ Xt β u ut σ2 ρσ
= + t , ∼ NID 0, , (15.53)
zt∗ Wt γ vt vt ρσ 1
où f (yt∗ ) est la densité conditionnelle de yt∗ , qui est simplement une densité
normale d’espérance conditionnelle Xt β et de variance σ 2 .
La seule difficulté dans l’écriture explicite de la fonction de logvraisem-
blance (15.54) est de calculer Pr(zt = 1 | yt∗ ). Comme ut et vt sont normaux
bivariés, nous pouvons écrire
³ ¡ ¢´ ¡ ¢
1 ∗
zt∗ = Wt γ + ρ − σ ty − X t β + εt , εt ∼ NID 0, (1 − ρ2 ) .
Il s’ensuit que
à ¡ ¢!
Wt γ + ρ (yt − Xt β)/σ
Pr(zt = 1) = Φ ,
(1 − ρ2 )1/2
φ(Wt γ)
yt = Xt β + ρσ + résidu. (15.57)
Φ(Wt γ)
Il est maintenant facile de voir comment opère la méthode en deux étapes de
Heckman. Dans une première étape, un modèle probit ordinaire est utilisé
15.8 Sélection d’Echantillon 547
φ(Wt γ)
ut − ρσ .
Φ(Wt γ)
15.9 Conclusion
Notre traitement des modèles à réponse binaire dans les Sections 15.2 à 15.4 a
été raisonnablement détaillé, mais les discussions plus générales des modèles
à réponse qualitative et des modèles à variable dépendante limitée ont
été nécessairement très superficielles. Le praticien qui a l’intention de
réaliser un travail empirique qui emploie ce type de modèle souhaitera consul-
ter certaines synthèses plus fournies dont nous avons donné les références.
Toutes les méthodes pour traiter des variables dépendantes limitées dont
nous avons discuté reposent lourdement sur les hypothèses de normalité et
d’homoscédasticité. Il faudrait toujours tester ces hypothèses. Un certain
nombre de méthodes pour réaliser ces tests de la sorte a été proposées; con-
sulter, parmi d’autres, Bera, Jarque, et Lee (1984), Lee et Maddala (1985),
Blundell (1987), Chesher et Irish (1987), Pagan et Vella (1989), Smith (1989),
et Peters et Smith (1991).
Termes et Concepts 549
Termes et Concepts
biais de sélection d’échantillon modèle logit
classificatrices parfaites modèle logit conditionnel
données censurées modèle logit multinomial (ou
données tronquées multiple)
double censure modèle logit ordonné
échantillon sélectionné modèle probit
fonction de transformation modèle probit ordonné
fonction indice modèle tobit
fonction logistique modèles à variable dépendante limitée
indépendance par rapport aux modèles à variable latente
alternatives non pertinentes (IIA) ratio inverse de Mills
méthode en deux étapes de Heckman régression de modèle à réponse binaire
modèles à réponse binaire (ou choix (BRMR)
binaire) régresseur de sélection
modèle à réponse qualitative réponses non ordonnées et ordonnées
modèle à réponse qualitative ordonné variable dépendante binaire
modèle de probabilité linéaire variables dépendantes limitées
modèle de régression tronquée variables latentes