Académique Documents
Professionnel Documents
Culture Documents
Christophe Hurlin
Polycopi de Cours
Master Economtrie et Statistique Applique (ESA)
Universit dOrlans
Facult de Droit, dEconomie et de Gestion
Bureau A 224
Rue de Blois BP 6739
45067 Orlans Cedex 2
www.univ-orleans.fr/deg/masters/ESA/
Introduction
Un des dveloppements majeurs de lconomtrie dans les annes 60 et 70, fut sans conteste li lutilisation croissante des donnes microconomiques relatives des caractristiques
conomiques dagents individuels (firmes, consommateurs, centres de profits...). A cette poque,
les bases de donnes microconomiques ont en eet pu tre constitues, puis exploites principalement du fait de lextension des capacits informatiques et de la rduction de leur cot.
Bien souvent, les donnes statistiques disponibles dans ces bases sont relatives des caractres
qualitatifs comme par exemple la catgorie socio-professionnelle, le type dtudes suivies, le
fait de travailler ou au contraire dtre au chmage, dacheter ou de ne pas acheter un certain produit etc.. Or, comme nous allons le voir dans ce chapitre, les mthodes dinfrence
traditionnelles ne permettent pas de modliser et dtudier des caractres quantitatifs : des
mthodes spcifiques doivent tre utilises tenant compte par exemple de labsence de continuit des variables traites ou de labsence dordre naturel entre les modalits que peut prendre
le caractre qualitatif. Ce sont ces mthodes spcifiques les plus usuelles qui seront lobjet de
ce cours dconomtrie des variables qualitatives.
Historiquement ltude des modles dcrivant les modalits prises par une ou plusieurs variables qualitatives date des annes 1940-1950. Les travaux les plus marquants de cette poque
sont sans conteste ceux de Berkson (1944, 1951) consacrs notamment aux modles dichotomiques simples (modles logit et probit). Les premires applications ont alors
essentiellement t menes dans le domaine de la biologie, de la sociologie et de la psychologie. Ainsi, ce nest finalement que rcemment, que ces modles ont t utiliss pour dcrire
des donnes conomiques avec notamment les travaux1 de Daniel L. MacFadden (1974)
et de James J. Heckman (1976). Or, lapplication des techniques conomtriques propres
aux variables qualitatives des problmatiques conomiques a dune part largement contribu
amliorer linterprtation des modles simples (comme par exemple le modle logit avec les
travaux de MacFadden), et dautre part identifier des problmes conomiques dont la structure, si elle nest pas qualitative au sens propre du terme, en mathmatiquement trs proche
(cest par exemple le cas de la consommation de bien durable avec le modle de Tobin de 1958).
Ces dveloppements ont ainsi conduit introduire un modle intermdiaire entre les modles
qualitatifs et le modle linaire habituel : le modle tobit.
Dans la suite du cours, nous supposerons lexistence dun caractre qualitatif qui peut prendre K modalits disjointes. Si K = 2, on dit que la variable est dichotomique. Exemple :
tre au chmage ou ne pas tre au chmage. Dans le cas gnral K N , on dit que la variable est polytomique. A ce niveau de lexpos, la question qui se pose est de savoir comment
reprsenter un caractre qualitatif dans le cadre dun modle conomtrique ? Si lon considre
1 Il convient ici de rappeler que ces deux conomtres ont obtenu conjointement le prix nobel dconomie en
2000, cf. document en annexe.
par exemple le type dtudes suivies par un tudiant (universit, cole dingnieur etc..), la
catgorie socio-professionnelle (ouvrier, employ, cadre..), ou le fait dtre au chmage, comment doit on reprsenter ces dirents caractres qualitatifs ? La rponse naturelle ces
questions consiste associer une variable quantitative (ou codage) au caractre
qualitatif.
Considrons lexemple de la variable qualitative y = niveau dtude pouvant prendre 3
modalits : licence, master, doctorat. Plusieurs choix sont possible pour coder cette
variable qualitative. La premire consiste tout simplement associer y une variable quantitative x pouvant prendre trois valeurs relles distinctes (a, b, c) R3 suivant les modalits de
y. La connaissance de la valeur prise par la variable x permet alors de connatre la modalit
de la variable y et inversement. Le choix du triplet de valeurs (a, b, c) est alors priori non
contraint : on peut par exemple prendre (1, 2, 3) ou (3, 5, 8) en rfrence au nombre dannes
dtude suivies. Ainsi, on dfinit par exemple la variable x de la faon suivante :
3 si y = licence
5 si y = master
x=
8 si y = doctorat
Mais dautres formes de codage auraient pu tre envisages dans ce cas. On peut par exemple
reprsenter la variable qualitative par le vecteur z = (z1 , z2 , z3 ) o les variables zi , i = 1, 2, 3
sont de type dichotomique avec :
z1 =
1
0
si y = licence
sinon
z2 =
1
0
si y = master
sinon
z3 =
1
0
si y = doctorat
sinon
Les variables zi sont appeles variables dummy ou variables muettes. Il sagit ici dune
autre reprsentation quantitative de y valeur cette fois dans (0, 1)3 . Ainsi, de faon gnrale
toutes les reprsentations quantitatives de y scrivent sous la forme dune application injective
de {licence,master,doctorat} dans un espace Rp , p N .
Lintrt principal du codage (ou de la reprsentation quantitative des variables qualitatives)
est de pouvoir se ramener des lois discrtes sur Rp . Ainsi, si lon considre lexemple prcdent
la loi de z est une loi multinomiale M (1; p1 , ., pi , .., pK ) o pi dsigne la probabilit que la ie`me
modalit de la variable y se ralise. De la mme faon, la variable z1 suit une loi de Bernouilli
B (1, p1 ) . Il faut toutefois utiliser avec prudence la loi dune telle reprsentation : elle est en
eet, par nature, conditionnelle au codage choisi. Les seules caractristiques vritablement
lies la variable qualitative sont celles qui ne dpendent pas de la reprsentation choisie, et ne
sont autres que les probabilits p1 ,..., pK . Ainsi, les moments (moyenne, variance etc..) de la
variable code ont en gnral peu de sens. Dans lexemple prcdent, lesprance de la variable
code x na pas de signification particulire. En revanche, lesprance des variables dummies zi
permet de retrouver les probabilits pi . De plus, le calcul dun coecient de corrlation entre
deux variables codes x et z dpend naturellement des codages retenus, et ne peut donc tre
interprt conomiquement. En revanche, la notion dindpendance entre deux variables code
reste indpendante du codage retenu.
Dans le cadre de ce premier chapitre, nous allons nous intresser au modle le plus simple,
savoir le modle dichotomique, dans lequel la variable explique du modle ne peut prendre
que deux modalits. Le plan de ce chapitre est le suivant. Nous commencerons par prsenter les
principaux modles dichotomiques, et en particulier les modles logit et probit. Puis, dans une
seconde section, nous intresserons au problme de lestimation des paramtres de ces modles,
notamment par la mthode du maximum de vraisemblance. Dans une troisime partie, nous
tudierons la convergence des estimateurs du maximum de vraisemblance. Enfin, dans une
dernire section nous aborderons les tests de spcification de ces modles ainsi que les dirents
problmes dinfrence.
1
0
(1.1)
On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les modles
dichotomique. En eet, celui-ci permet dfinir la probabilit de survenue de lvnement comme
lesprance de la variable code yi , puisque :
E (yi ) = P rob (yi = 1) 1 + P rob (yi = 0) 0 = P rob (yi = 1) = pi
Lobjectif des modles dichotomiques consiste alors expliquer la survenue de lvnement
considr en fonction dun certain nombre de caractristiques observes pour les individus de
lchantillon. Comme nous le verrons par la suite, on cherche dans ces modles, spcifier la
probabilit dapparition de cet vnement.
Quels sont alors les principaux champs dapplication des modle dichotomiques ? Nous
pouvons ici voquer quelques pistes, sur lesquelles nous reviendrons par la suite. Un des domaines dapplication traditionnel consiste en ltude des choix dducation. Ainsi, parmi
les premiers travaux utilisant les modles rponses qualitatives, plusieurs sintressaient aux
comportements des tudiants que ce soit en terme de choix de filires, ou en termes de choix
dtablissements. Il sagissait alors de modliser ces comportements en fonction dun certain
nombres de caractristiques propres aux universits (prsence de campus, dbouchs professionnels etc..) ou aux tudiants (CSP des parents, tudes antrieures etc..). Typiquement, il sagit
par exemple, de modliser le choix des tudiants entre une universit en ville ou un campus, ce
choix tant reprsent par une variable dichotomique que lon va cherche modliser en fonction
de plusieurs facteurs comme le revenu, le sexe de ltudiant, la distance domicile-universit etc..
Du fait de lorganisation prive des tudes aux Etats-Unis, de telles modlisations ont connu un
grand intrt, que ce soit dans une perspective purement acadmique ou dans une perspective
applique. On peut citer ici par exemple ltude de Radner et Miller (1970).
Un autre domaine dapplication consiste en la modlisation des risques de dfaillance dans
une relation de prt, ou dans tout autre forme de contrat dengagement (contrat dabonnement
tlphonique, contrat dassistance etc...). On considre par exemple une variable dichotomique
prenant deux modalits : rupture du contrat et poursuite du contrat, et lon cherche
expliquer variables par dirents facteurs socio-conomiques. Il sagit ici des techniques de
bases des mthodes de scoring largement utilises dans le secteur bancaire et dans le secteur
des tlcommunications.
Cette liste dapplication nest bien entendu pas exhaustive. Nous allons prsent montrer
que la modlisation des variables dichotomiques ne peut se faire laide dune spcification
linaire standard.
(1,K)(K,1)
(1,1)
droite dajustement
linaire
y=
y=
faon satisfaisante, par une seule droite, le nuage de points, associ une variable
dichotomique qui, par nature, est rparti sur deux droites parallles.
Troisimement, la spcification linaire standard ne convient pas aux variables dichotomiques,
et plus gnralement aux variables qualitatives, car elle pose un certain nombre de problmes
mathmatiques.
1. Sachant que dans la cas dune variable endogne yi dichotomique, celle-ci ne peut prendre
que les valeurs 0 ou 1, la spcification linaire (1.1) implique que la perturbation i ne
peut prendre, elle aussi, que 2 valeurs, conditionnellement au vecteur xi :
i = 1 xi avec une probabilit de pi = Prob (yi = 1)
i = xi avec une probabilit de 1 pi
Ainsi, la perturbation i du modle (1.1) admet ncessairement une loi discrte,
ce qui exclut en particulier lhypothse de normalit des rsidus.
2. Lorsque lon suppose que les rsidus i sont de moyenne nulle, la probabilit pi associe
lvnement yi = 1 est alors dtermine de faon unique. En eet, crivons lesprance
des rsidus :
E (i ) = pi (1 xi ) (1 pi ) xi = pi xi = 0
On en dduit immdiatement que :
pi = xi = Prob (yi = 1)
(1.4)
Ainsi la quantit xi correspond une probabilit et doit par consquent satisfaire un certain nombre de proprits et en particulier appartenir lintervalle
ferm [0, 1] .
(1.5)
0 xi 1 i = 1, .., N
Or rien nassure que de telles conditions soient satisfaites par lestimateur des Moindres
Carrs utilis dans le modle linaire (1.1). Si de tels contraintes ne sont pas assures, le
modle
yi = 0 + xi 1 + i E (i ) = 0 i = 1, .., N
na pas de sens.
10
3. Enfin, mme si lon parvenait assurer le fait que les contraintes (1.5) soient satisfaites par
lestimateur des Moindres Carrs des paramtres du modle linaire, il nen demeurerait
pas moins une dicult lie la prsence dhtroscedasticit. En eet, on constate
immdiatement que, dans le modle (1.1), la matrice de variance covariance des rsidus
varie entre les individus en fonction de leur caractristiques associes aux exognes xi
puisque :
(1.6)
V (i ) = xi (1 xi ) i = 1, .., N
Pour dmontrer ce rsultat il sut de considrer la loi discrte des rsidus et de calculer
la variance :
2
= (1 xi ) pi + (xi ) (1 pi )
V (i ) = (1 xi ) xi + (xi ) (1 xi )
= (1 xi ) xi [(1 xi ) + xi ]
= (1 xi ) xi
Or, de plus ce problme dhtroscdascticit ne peut pas tre rsolu par une mthode
destimation des Moindres Carrs Gnraliss tenant compte de la contrainte dingalit
(1.5), puisque la matrice de variance covariance des perturbations (1.6) dpend du vecteur
des paramtres estimer dans la spcification linaire, qui est par nature suppos
inconnu.
Pour toutes ces direntes raisons, la spcification linaire des variables endognes qualitatives, et plus spcialement dichotomiques, nest jamais utilise et lon recourt des modles
logit ou probit, que nous allons prsent tudier, pour reprsenter ces variables.
(1.7)
i = 1, .., N
selon toute logique aurait du tre nomm modle nomit et non modle probit.
(1.8)
11
F (w) =
1
z2
e 2 dz = (w)
2
(1.10)
Ainsi, pour une valeur donne du vecteur des exognes et du vecteur des paramtres , on
peut dfinir les deux modles dune faon quivalente :
Definition 1.2. Le modle logit dfinit la probabilit3 associ lvnement yi = 1,
comme la valeur de la fonction de rpartition de la loi logistique considre au
point xi :
1
i = 1, .., N
(1.11)
Modle logit : pi = (xi ) =
1 + exi
Dans le cas du modle probit, cette probabilit est dfinie comme la valeur de la
fonction de rpartition de la loi normale centre rduite N (0, 1) considre au point
xi :
xi
z2
1
e 2 dz i = 1, .., N
Modle probit : pi = (xi ) =
(1.12)
2
A ce stade de lexpos, la question que lon se pose immdiatement est de savoir quelles
sont les dirences fondamentales entre les modles probit et logit ? Quand doit on utiliser
lun plutt que lautre ? Quelles sont les proprits particulires de ces deux modles ? Bien
entendu, ces deux modles ne dirent que par la forme de la fonction de rpartition F (.) . Ainsi,
il faut donc se rappeler quelles sont les proprits respectives des lois logistiques et normales,
pour comprendre quelles peuvent tre les dirences et les similitudes entre les modle logit et
probit.
1
1 + ew
12
Cette loi a une esprance nulle et une variance gale 2 /3. Cest pourquoi, il convient de
normaliser la loi logistique de sorte obtenir une distribution de variance unitaire, comparable
celle de la loi normale rduite. On dfinit pour cela une loi logistique transforme.
Definition 1.3. La loi logistique transforme de paramtre admet pour fonction
de rpartition4 , note (w) , w R
(w) =
ew
1
=
w
1+e
1 + ew
(1.13)
(1.14)
w
3
1+e
Cette loi admet par construction une variance unitaire. On observe ainsi partir du tableau
(1.1), que les ralisations de cette fonction /3 (.) sont trs proches de celles de la fonction
(.) associe la loi normale rduite et ce notamment pour des valeurs de w proche de 0, cest
dire des valeurs dites centrales, car proches de la moyenne de la distribution.
Certains auteurs proposent dutiliser dautres paramtres afin de mieux reproduire encore
la fonction de rpartition de la loi normale pour des valeurs centrales. En particulier Amemiya
(1981) propose dutiliser un paramtre5 = 1.6 et donc de retenir la loi logistique transforme
1.6 (.) . Comme on peut lobserver sur le tableau (1.1),
la fonction de paramtre 1.6 est encore
plus proche de (.) que la fonction de paramtre / 3. pour les valeurs centrales proches de
0 (w < 1 en loccurrence dans le tableau).
Tableau 1.1: Comparaison des Fonctions de Rpartition (w) et (w)
w
(w)
(w)
/3 (w)
1.6 (w)
0
0.5
0.5
0.5
0.5
0.1
0.5398
0.5250
0.5452
0.5399
0.2
0.5793
0.5498
0.5897
0.5793
0.3
0.6179
0.5744
0.6328
0.6177
0.4
0.6554
0.5987
0.6738
0.6548
0.5
0.6915
0.6225
0.7124
0.6900
1
0.8413
0.7311
0.8598
0.8320
2
0.9772
0.8808
0.9741
0.9608
3
0.9987
0.9526
0.9957
0.9918
S o u rc e s : A n e m iy a (1 9 8 1 ), ta b le 1 , p a g e 1 4 8 7 e t c a lc u ls d e la u te u r.
Quoiquil en soit, il apparat ainsi que les fonctions de rpartition des lois normales centres rduites et des lois logistiques simples ou transformes sont extrmement proches. Par
consquent, les modles probit et logit donnent gnralement des rsultats relativement similaires. De nombreuses tudes ont dailleurs t consacres ce sujet comme par exemple celle
de Morimune (1979)6 ou de Davidson et MacKinnon (1984). Ainsi a priori, la question du choix
entre les deux modle ne prsente que peu dimportance. Toutefois, il convient dtre prudent
quand la comparaison directe des deux modles.
4 Par
convention, la fonction de rpartition de la loi logistique simple correspondant au cas = 1 sera not
(.) afin dallger les notations.
5 Cette valeur 1.6 est drive du rapport des fonctions de densit (w) / (w) valu au point w = 0.
6 Morimune K. (1979), Comparisons of Normal and Logistic Models in the Bivariate Dichitomous Analysis,
Econometrica 47, 957-975.
13
En eet, les valeurs estimes des paramtres dans les modles probit et logit ne sont pas
directement comparables puisque les variances des lois logistiques et normale rduite ne sont
pas identiques. Cette dirence de variance implique que la normalisation des coecients
nest pas identique et que par consquent les estimateurs de ces paramtres obtenus dans les
deux modles ne fournissent pas des ralisations identiques.
Proposition 1.4. Supposons que lon note respectivement P et L les estimateurs
des paramtres obtenus dans les modles probit et logit. Amemiya (1981) propose
en premire approximation dutiliser la relation suivante entres les estimations
probit et logit7 :
(1.15)
L 1.6 P
Toutefois, si ces approximations sont relativement prcises sur certains chantillons comportant peu de valeurs extrmes (cest dire lorsque la moyenne des valeurs xi est proche
de zro), elles seront moins prcises en prsence de nombreuses valeurs xi loignes de zro.
Une faon quivalente8 de vrifier ladquation de cette approximation consiste observer si la
valeur moyenne des probabilits pi est proche de 0.5 (Davidson et MacKinnon 1984). Si tel est
le cas, les estimateurs des coecients du modle logit seront environ 1.6 fois suprieurs ceux
du modle probit.
Considrons lexemple des donnes de larticle de Spector et Mazzeo (1980), paru dans
Journal of Economic Education, et intitul Probit Analysis and Economic Education. Il sagit
ici dvaluer la probabilit pour un tudiant dobtenir le passage en post-graduate (variable
dichotomique graduate), lquivalent du master. Cette probabilit est modlise comme une
fonction dune constante (cons), du score obtenu au tuce (test of understanding of college
economics) et de la moyenne obtenue au niveau du graduate (grad). Sur la figure (1.2) sont
reports les rsultats destimation du modle logit tandis que sur la figure (1.3) sont reports
les rsultats destimation du mme modle probit. Considrons par exemple le coecient de la
variable tuce. Le modle logit nous donne une estimation de 0.0855 pour ce paramtre alors que
le modle probit donne une estimation de 0.05266. On vrifie alors que, pour cet chantillon,
les approximations (1.15) sont satisfaisantes puisque selon cette formule, on devrait obtenir une
estimation logit de paramtrede lordre de 0.05266 1.6 = 0.0843 ou 0.0955 si lon considre
lapproximation 0.05266 / 3. Ces approximations sont en eet trs proches de la vraie
estimation du paramtre dans le modle logit.
De la mme faon, Amemiya (1981) propose direntes approximations permettant dapprocher les estimations des modles logit et probit partir des estimations obtenues dans le
modle linaire simple, prsent prcdemment.
Proposition 1.5. On note P lestimateur obtenu dans le modle probit, L lestimateur obtenu dans le modle logit et LP lestimateur obtenu dans le modle
linaire. Amemiya (1981) propose les approximations suivantes pour les modles
1.81, en posant L P / 3.
8 Sachant que (0) = (0) = 0.5, il quivalent de vrifier si la moyenne des valeurs x est proche de 0 ou si
i
la moyenne des probabilits pi = F (xi ) est proche de 0.5, avec F (x) = (x) dans le cas du modle logit et
F (x) = (x) dans le cas du probit.
7 En
14
probit et linaire :
LP
(1.16)
(1.17)
(1.18)
(1.19)
Ainsi si lon considre lexemple des donnes de larticle de Spector et Mazzeo (1980), les
estimations de la constante et des paramtres des variables tuce et grad obtenues dans le
modle linaires sont respectivement gales 1.4493, 0.0160 et 0.4619. Or, si lon compare
ces rsultats ceux obtenus partir des modles logit et probit (figures 1.2 et 1.3), on obtient
les rsultats relativement proches. Ainsi, dans le cas du modle logit pour la variable tuce
lapproximation donnerait 0.25 0.08555 = 0.0214 et 0.25 2.53828 = 0.6346 pour la variable
grad. Pour la constante lapproximation donne une valeur approche gale 0.25 10.656 +
0.5 = 2.164. Cers approximations seront dautant plus proches des valeurs estimes quil y a
aura un grand nombre dobservations xi proches de 0, car en eet les fonctions de rpartition
des lois logistiques et normales ne se dmarquent pas dune droite dans cette zone.
15
En conclusion, il apparat que les rsultats des modles probit et logit sont gnralement
similaires que ce soit en termes de probabilit ou en termes destimation des coecients si
lon tient compte des problmes de normalisation. Cest le sens de cette conclusion dAmemiya.
Because of the close similarity of the two distributions, it is dicult to distinguish between them statistically unless one has an extremely large number of observations. Thus, in the univariate dichotomous model, it does not matter much whether
one uses a probit model or a logit model, except in cases where data are heavily
concentrated in the tails due to the characteristics of the problem being studied.,
Amemiya T. (1981), page 1487.
Toutefois, comme le note Amemiya (1981), il convient dtre prudent dans lutilisation des
approximations pour comparer les modles probit et logit. Il est toujours prfrable de raisonner
en termes de probabilits pi = F (xi ) et non en termes destimation des paramtres pour
comparer ces rsultats.
The reader should keep in mind that this equality [equation (1.15)] constitutes
only a rough approximation and that a dierent set of formulae may work better
over a dierent domain. When one wants to compare models with dierent probability functions, it is generally better to compare probabilities directly rather than
comparing the estimates of the coecients even after an appropriate conversion,
Amemiya T. (1981), page 1488.
16
Si les deux modle sont sensiblement identiques, il existe cependant certaines dirences
entre les modles probit et logit, comme le souligne dailleurs Amemiya. Nous voquerons ici
deux principales dirences :
1. La loi logistique tend attribuer aux vnements extrmes une probabilit
plus forte que la distribution normale.
2. Le modle logit facilite linterprtation des paramtres associes au variables
explicatives xi
Nous allons prsent tudier successivement ces deux proprits. Premirement, la fonction
de densit associe la loi logistique possde en eet des queues de distribution plus paisses
que celles de la fonction de densit de la loi normale (distribution queues plates). La loi
logistique prsente donc un excs de Kurtosis9 : il sagit dune distribution leptokurtique. En
dautres termes, nous avons vu que les lois logistique et normale appartiennent la mme famille
des lois exponentielles et sont par nature trs proches, notamment pour les valeurs proches de la
moyenne de la distribution. Toutefois, le profil de ces deux distributions dire aux extrmits
du support : pour la loi normale, les valeurs extrmes sont moins pondres, la fonction de
rpartition tendant plus vite vers 0 gauche du support et vers 1 droite.
Economiquement, cela implique que le choix dune fonction logistique (modle
logit) suppose une plus grande probabilit10 attribue aux venements extrmes,
comparativement au choix dune loi normale (modle probit), que ce soit droite ou
gauche de la moyenne de la distribution, les lois normales et logistiques tant symtriques.
Pour visualiser ce phnomne, il convient de comparer la fonction de rpartition associe la
loi normale centre rduite avec la fonction de rpartition associe la loi logistique possdant
les deux premiers moments identiques la loi N (0, 1) .
Sur le graphique (1.4) est reporte la dirence (w) (w) en fonction de w :
On constate qu droite du support, pour des valeurs leves de w (w > 1.5 environ), on
a (w) > (w) . La fonction de rpartition de la loi normale est au dessus de celle de la loi
logistique. Etant donne la dfinition de la fonction de rpartition, F (w) =Prob(W w) ,
cela signifie que la probabilit que la ralisation de la variable W soit infrieure au seuil w est
plus grande dans le cas de la loi normale que dans le cas de la loi logistique. Inversement,
pour un seuil w donne, la probabilit dobtenir des valeurs suprieures ce seuil (des valeurs
extrmes) est plus grande dans le cas de la loi logistique que dans le cas de la loi normale. On
vrifie ainsi la proprit de la loi logistique qui sur-pondre les valeurs extrmes en comparaison
de la loi normale. Naturellement, puisque les distributions sont symtriques, on obtient le mme
rsultat gauche du support pour des valeurs trs faibles de w (w < 1.5 environ).
9 Lexcs de Kurtosis est dfini en rfrence au moment dordre dune loi normale centre rduite. Si X suit
une loi normale N , 2 , la Kurtosis est gale 4 = 3 4 . Par convention, le degr dexcs de Kurtosis, dfini
par 4 / 4 3, est nul.
10 Bien entendu, la dirence entre les rsultats des modles probit et logit ne pourra tre observe que si lon
dispose de susament dobservations des exognes se situant dans ces zones extrmes.
17
0.01
0.005
0
-0.005
-0.01
-0.015
-0.02
-0.025
-5
-4
-3
-2
-1
pi
1 pi
= xi
1
1 + exi
En plus de ces direntes relations, il existe une galit qui est en outre particulirement
intressante en ce qui concerne lanalyse conomique des rsultats destimation. Il sagit de la
relation suivante :
pi
exi =
1 pi
1 pi =
18
pi
= exi modle logit
1 pi
(1.20)
Si ce rapport est gal ci pour lindividu i, cela signifie quil y a ci fois plus de chance que
lvnement associ au code yi = 1 se ralise, quil ne se ralise pas ( ci contre 1 dans le
langage usuel ).
Exemple : Considrons les 32 observations tires de lchantillon de Spector et Mazzeo
(1980). Les donnes correspondant aux variables exognes tuce et grad, ainsi que la variable
endogne dichotomique graduate sont reports sur les trois premiers quadrants de la figure
(1.5). A partir des estimations obtenues dans le modle logit (cf. figure 1.2), on a calcul
la cote associe lvnement tre en post graduate. Sans surprise on constante que par
exemple lindividu 10, qui a obtenu la meilleure note de lchantillon au tuce (29) et qui a
obtenu une moyenne de 3.92/4 aux examens de graduate a une cote de 5.9. Cest dire quil
a 6 plus de chances dobtenir le passage en post graduate que de ne pas lobtenir alors que la
moyenne des cotes pour lchantillon est de 0.97. De la mme faon, lindividu 5 qui obtenu la
note maximale (4) aux examens de graduate une cote de 3.64. Ces deux individus figurent
parmi les tudiants qui ont eectivement obtenu le passage en post graduate (graduate = 1).
Au del du simple calcul de la cote, on peut en outre chercher mesure les eets marginaux
sur la cote. Il sagit alors de mesurer limpact, pour le ie`me individu dune variation de la j e`me
[j]
variable explicative, note xi , sur la cote. Supposons que lon considre une variation dune
unit de cette variable, et calculons alors la variation induite de la cote. En eet, tant donn
la proprit (??) du modle logit, on peut alors facilement mesurer limpact dune variation
dune unit dune des variables explicatives sur cette cote. En eet, si lon note c la cote de
[1]
[K]
le vecteur des variables explicatives et = ( 1 ... K ) le
lvnement yi = 1, xi = xi ...xi
vecteur des paramtres associs, on a :
ci =
pi
= exp
1 pi
K
[k]
xi k
k=1
[k]
exp xi k
=
k=1
[j]
On peut alors isoler la part de la cote imputable une variable xi quelconque de la faon
[j]
suivante. Supposons que la variable xi augmente de une unit, nouvelle cote note ci est gale
:
K
ci = exp
[j]
[k]
xi + 1 j
[k]
exp xi k = exp j
k=1
k=j
exp xi k
k=1
19
Figure 1.5: Donnes et Calcul de la Cote partir du Modle Logit : Spector et Mazzeo (1980)
Rsultats au tuce
Moyenne des examens au graduate
30
4
25
3.5
20
15
2.5
10
0
10
20
30
40
2
0
10
20
30
40
0.8
0.6
3
0.4
0.2
0
0
1
10
20
30
40
0
0
10
20
30
(1.21)
Toutefois, de faon plus gnrale, on calcule les eets marginaux non pas partir de la cote
mais directement partir des probabilit associ lvnement de rfrence. On cherche ainsi
40
20
puisque xi =
K
k=1
F (xi )
[j]
xi
F (xi ) (xi )
F (xi )
=
[j]
(xi ) x
(xi ) j
[k]
xi k .
Proposition 1.8. Ds lors, si lon note f (.) la fonction de densit des rsidus du
[j]
modle dichotomique, leet marginal associ la j e`me variable explicative xi est
dfini par :
pi
= f (xi ) . j
(1.22)
[j]
xi
Suivant que lon considre un modle probit ou un modle logit, cette drive
scrit comme suit :
pi
exi
=
(1.23)
2 j modle logit
[j]
(1 + exi )
xi
pi
[j]
xi
1
1
= exp (xi )2 . j modle probit
2
2
(1.24)
Puisque par dfinition f (.) > 0, le signe de cette drive est donc identique celui de
j . Ds lors, laugmentation dune variable associe un coecient positif induit une hausse
de la probabilit de ralisation de lvnement yi = 1. Inversement, la hausse dune variable
associ un coecient ngatif induit une baisse de la probabilit de ralisation de lvnement
yi = 1. Par exemple, si lon considre les donnes de Spector et Mazzeo (190) et les rsultats
destimation des probit et logit (figures 1.2 et 1.3), les deux variables tuce et grad sont aectes
dun coecient dont lestimateur a une ralisation positive. Ainsi, une augmentation de la
note au tuce ou une augmentation de la moyenne aux examens du graduate conduit une
amlioration de la probabilit de passage en postgraduate.
[j]
Enfin, plutt que dexprimer leet marginal sous la forme de la drive pi /xi , on prfre
gnralement calculer une lasticit, cette dernire ayant lavantage dtre indpendante des
units de mesure.
Definition 1.9. Ainsi, on dfinit llasticit pi /x[j] comme la variation en pourcenti
age de la probabilit de survenue pi de lvnement cod yi = 1, suite une variation
[j]
de 1% de la j e`me variable explicative xi :
[j]
pi /x[j]
i
[j]
x j
pi xi
=
= f (xi ) i
[j] p
F
(xi )
i
x
(1.25)
Cette expression peut se simplifier dans le cas du modle logit sachant que F (x) = ex / (1 + ex )
2
et que f (x) = ex / (1 + ex ) . Pour un logit, llasticit prend la valeur suivante :
[j]
i [1, N ]
pi /x[j] =
i
xi j
1 + exp (xi )
modle logit
(1.26)
21
Plusieurs remarques doivent tre faites ce niveau. Tout dabord, pour les deux modles,
llasticit est une fonction non linaire des autres composantes du vecteur xi . On peut ainsi
calculer linfluence des variables explicatives annexes sur la sensibilit du modle lvolution
dune variable j particulire. On peut par exemple calculer :
pi /x[j]
i
[k]
xi
k = j, i [1, N ]
(1.27)
Deuxime remarque, les fonctions de densit f (.) des modles logit et probit tant symtriques
et unimodales,elles atteignent donc leur maximum en zro. Ainsi, limpact dune variable explicative est dautant plus important pour les individus donc le scalaire xi est proche de zro.
En dautres termes, pour les individus pour lesquels on est pratiquement sr de la survenue
dun venement ( pi = F (xi ) proche de 1 ou xi , positif et trs lev), llasticit sera faible
: seule une variation trs importante des variables explicatives pourra modifier sensiblement la
probabilit. De la mme faon, les individus pour lesquels on est pratiquement sr de la non
survenue dun venement (pi = F (xi ) proche de 0 ou xi , ngatif et trs lev en valeur
absolue), llasticit sera faible.
Enfin, troisime et dernire remarque les formules ci-dessus fournissent des mesures individuelles des eets marginaux, et gnralement il est utile de calculer llasticit au point moyen
de lchantillon afin de rpondre la question : quel est limpact moyen (dans lchantillon) de
la variation de 1% de la je`me variable explicatives ? Deux possibilit peuvent tre retenues :
soit on calcule llasticit en remplaant les valeurs individuelles xi par les moyennes empiriques
de ces composantes sur lchantillon, j [1, K] :
p/xj =
f (x) [j]
x j
F (x)
(1.28)
o le vecteur x est dfini par x = (1/N ) xi et le scalaire x[j] vaut x[j] = (1/N ) x[j] . La deuxime
solution consiste calculer la moyenne des lasticits individuelles sur lensemble de lchantillon, j [1, K] :
N
1
p/xj =
(1.29)
[j]
N i=1 pi /xi
1.4. Prsentation des modles dichotomiques en termes de variable latente
Gnralement, bien que cela ne soit pas ncessaire on prsente les modles dichotomiques en
termes de variables latentes ou inobserve yi , la variable observe yi tant alors un indicateur
des valeurs prises par yi . Cette rfrence une variable latente permet de mieux comprendre
lmergence des modles dichotomiques partir de certains problmes ou de biologie.
Lexemple le plus clbre (repris dans Amemiya 1981) est tir de la bio-conomtrie (noublions que cest dans ce domaine que furent proposes les premires applications) celui de
linsecticide : on diuse dans un espace clos un insecticide et lon cherche d terminer la dose
minimale permettant de tuer les insectes. Pour cela, on observe au terme dune priode fix
les insectes i morts pour lesquels on adopte le code yi = 0 et ceux encore vivants cods yi = 1.
On suppose alors que chaque insecte dispose dune capacit de rsistance propre qui se traduit
par un seuil inobservable de produit, not yi , telle que si la dose de produit est suprieure ce
seuil linsecte est mort (yi = 0 ), et quil reste vivant (mais malade peut tre) pour une dose
22
infrieure (yi = 1). Il sagit alors de modliser la probabilit de survie de linsecte i en fonction
de la dose dinsecticide et des observations faites sur yi . On suppose pour cela quun certain
dosage est dius sur lensemble des insectes. On voit immdiatement que ce problme peut
scrire de la faon suivante :
1 si yi >
(1.30)
yi =
0 sinon
o la variable latente yi peut scrire comme la somme dune combinaison linaire de caractristiques propres chaque insecte et dune terme alatoire.
yi = xi + i
(1.31)
Si le terme alatoire i est distribu selon une loi normale, on retrouve un modle probit, si
ce terme est distribu selon une loi logistique on retrouve le modle logit.
Un autre exemple, toujours tir dune tude biologique de Ashford et Sowden (1970), concerne la probabilit pour un mineur de contracter une maladie des poumons (vnement cod
yi = 1) lorsque sa tolrance inobservable, note yi , aux conditions de travail et en particulier
aux poussires de charbon est infrieure certain seuil inconnue. On suppose que la tolrance
est lie lge du mineur not xi . De la mme faon, ce modle peut scrire sous la forme :
yi =
1
0
si yi = 1 + 2 xi + i <
sinon
(1.32)
o i a une distribution normale ou logistique suivant les modles. Ici lvnement yi = 1 (maladie) apparat quand la variable latente yi est infrieure un seuil . Mais il aurait parfaitement
t possible de considrer une variable latente gale yi et un seuil pour retomber sur une
relation semblable celle de lexemple prcdent o yi > . Une autre manire aurait consister
coder lvnement maladie en 0. Par la suite, nous considrerons un modle o lon a yi = 1
lorsque yi > , ce qui permet dcrire que pi = F (xi ). En eet, on a bien11 :
pi = P rob (yi = 1) = P rob (yi > )
pi = P rob (i > xi ) = 1 P rob (i < xi )
pi = F (xi )
(1.33)
Proposition 1.10. Tout modle dichotomique univari peut scrire sous la forme
dune quation de mesure de la forme :
yi =
1
0
si yi >
sinon
(1.34)
o R et o la variable latente yi inobservable est dfinie en fonction de caractristiques observables xi et dune perturbation i i.i.d. 0, 2 :
yi = xi + i
11 On
(1.35)
suppose que la loi des perturbations est symtrique f (x) = f (x) , ds lors on a F (x) = 1 F (x) .
23
(1.36)
A ce stade deux aspects doivent tre discuts (Colletaz 2001). Le premier aspect concerne la
normalisation du seuil qui videment ne peut tre identifi que si la combinaison linaire
xi ne comporte pas de terme constant. Si la combinaison linaire inclut un terme constant
et scrit sous la forme xi = 1 + K
j=2 xi,j j , alors il est seulement possible destimer la
constante c telle que :
pi = F (xi ) = F 1 +
j=2
xi,j j = F 1 +
j=2
xi,j j
Il y a alors indetermination du couple ( 1 , ) puisquil existe une infinit de couples tels que
1 = 1 . Deux choses lune : ou lon possde une information a priori sur le seuil qui
permet alors de lever lindtermination et didentifier 1 , soit lon impose a priori une contrainte
sur lune ou lautre des paramtres pour identifier lautre. Dans ce dernier cas, gnralement on
suppose = 0 ce qui permet dobtenir lgalit 1 = 1 . Sans perte de gnralit, on considre
donc une criture de la forme :
(1.37)
pi = F (xi )
Le second aspect du modle variable latente concerne la normalisation de la variance des perturbations i . Partant de la relation (1.37) pour = 0, on a pi = F (xi ) =
P rob (i < xi ) et donc R+ , on obtient :
pi = P rob
i
xi
<
= P rob i < xi
> 0
(1.38)
Le choix dune solution unique seectue encore une fois en imposant une contrainte soit
sur le vecteur des paramtres , soit sur la loi des perturbations i , et plus prcisment sur leur
variance, la loi tant fixe par le choix du modle logit ou probit. Cest cette dernire solution
qui est gnralement privilgie. On sait en eet que la variance des rsidus i est gale 2 /3
dans le cadre du modle logit et que cette variance est gale lunit dans le modle probit. Les
variances des perturbations tant fixe par le choix de la loi F (.), cest donc sur le vecteur de
24
paramtres que porte lincertitude puisque les composantes de ce vecteur sont dfinis un
facteur positif prs. Naturellement, cette incertitude est sans consquence pratique puisque
toute composante non nulle dans le vrai vecteur a une image dans le contraint et que par
ailleurs les deux valeurs tant de mme signe cela naecte pas la mesure des eets marginaux.
Proposition 1.11. Dans les modles logit et probit, la variance de lerreur du modle nest pas identifiable : elle est normalise lunit dans le cas du probit et
est gale 2 /3 dans le cas du logit. Par consquent, la valeur numrique des
paramtres estims na pas dintrt en soi dans la mesure o il ne correspondent
aux paramtres de lquation de la variable latente qu une constante multiplicative prs. De plus, le seuil nest pas identifiable car il se confond au terme
constant du vecteur des explicatives xi .
Ainsi, la seule information rellement utilisable est le signe des paramtres, indiquant si
la variable associe influence la hausse ou la baisse la probabilit de lvnement considr.
Le signe des coecients et le calcul des eets marginaux restent les deux seules informations
directement exploitables en ce qui concerne les variables explicatives.
Exemple : afin de mieux comprendre reprenons lexemple du modle de Ashford et Sowden
(1970), o lon considre la probabilit pour un mineur de contracter une maladie des poumons
(vnement cod yi = 1) lorsque sa tolrance inobservable, note yi , aux conditions de travail
et en particulier aux poussires de charbon est infrieure certain seuil inconnue. On suppose
que la tolrance est lie lge du mineur not xi par une relation ane.
yi =
1
0
si yi = 1 + xi 2 + i >
sinon
= P rob (yi = 1)
= P rob (i > 1 xi 2 )
= F ( 1 + xi 2 )
(1.40)
Si lon considre un modle probit, les perturbations du modle doivent suivre une loi
normale centre rduite. La contrainte sur la variance gale lunit, impose dcrire le modle
sous la forme suivante :
pi
i
1 xi 2
>
1
xi 2
+
= P rob
(1.41)
(1.42)
= 1 + xi 2
(1.43)
25
Ainsi, la contrainte sur la variance rsiduelle gale 2 /3, impose dcrire le modle sous la
forme suivante :
pi
1 xi 2
i >
3
3
1
xi 2
+
3
3
= P rob
=
= 1 + xi 2
(1.44)
2
2
E (i ) =
2
3
3
Encore une fois, seuls les paramtres 1 et 2 seront estims, alors quil y a 4 paramtres
structurels ( 1 , 2 , , ) dans le modle initial. Ladoption dune normalisation du type = 0
et = 1 permet dans ce cas didentifier les paramtres 1 et 2 .
26
1
0
pi = F (xi )
1 pi = 1 F (xi )
(2.1)
o xi = x1i ..xK
, i = 1, .., N dsigne un vecteur de caractristiques observables et o
i
= ( 1 ... K ) RK est un vecteur de paramtres inconnus.
On cherche naturellement estimer les composantes du vecteur . Dans le cas des modles dichotomiques univaris, plusieurs mthodes destimation sont envisageables (GMM par
exemple). Toutefois la mthode la plus usite lorsque la loi des perturbations est connue consiste en la mthode du maximum de vraisemblance. Nous ne considrerons pas ici le cas des
observations rptes12 .
2.1. Estimation par maximum de vraisemblance
Dans le cas du modle dichotomique univari, la construction de la vraisemblance est extrmement simple. En eet, lvnement yi = 1 est associe la probabilit pi = F (xi ) et
lvnement yi = 0 correspond la probabilit 1 pi = 1 F (xi ) . Ceci permet de considrer
les valeurs observes yi comme les ralisations dun processus binomial avec une probabilit
de F (xi ) . La vraisemblance des chantillons associs aux modles dichotomiques scrit donc
comme la vraisemblance dchantillons associs des modles binomiaux. La seule particularit
tant que les probabilits pi varient avec lindividu puisquelles dpendent des caractristiques
xi . Ainsi la vraisemblance associe lobservation yi scrit sous la forme :
L (yi , ) = pyi i (1 pi )
1yi
L (y, ) =
i=1
pyi i (1 pi )1yi =
i=1
(2.2)
Il ne reste plus alors qu spcifier la fonction de distribution F (.) pour obtenir la forme
fonctionnelle de la vraisemblance. Ainsi, xi R dans le cas du modle logit, on a:
12 Cas o chaque valeur des caractristiques exognes correspondent plusieurs observations du caractre
qualitatif. Ceci traduit la possibilit de rpter plusieurs fois lexprience sous les mmes conditions. Comme le
note Anemiya (1980) ce cas est plus frquent en biologie quen conomie.
F (xi ) =
27
exi
= (xi )
1 + exi
F (xi ) =
z2
1
e 2 dz = (xi )
2
log L (y, ) =
i=1
(2.3)
En distinguant les observations yi = 1 et celles pour lesquelles on a yi = 0, la logvraisemblance peut scrire sous la forme :
log F (xi ) +
log L (y, ) =
i : yi =1
i : yi =0
log [1 F (xi )]
(2.4)
log L (y, )
=
yi
i=1
f (xi )
f (xi )
x + (yi 1)
x
F (xi ) i
1 F (xi ) i
G () =
i=1
(2.5)
f (xi )
x
F (xi ) i i : y
=1
f (xi )
x
[1 F (xi )] i
=0
(2.6)
(2.7)
{}
log L y,
=
i=1
yi F xi
F xi
f xi
1 F xi
xi = G = 0
(2.8)
28
GL =
i=1
yi xi
xi = 0
(2.9)
GP =
i=1
yi xi
xi
xi
1 xi
xi = 0
(2.10)
En eet, lcriture du gradient dans le cas du modle logit se simplifie en tenant compte
de la proprit de la loi logistique selon laquelle, si lon note (x) la densit associe (x) ,
on a la relation suivante : x, (x) = (x) [1 (x)] . Ds lors, lexpression (2.5) se simplifie
puisque :
N
N
[yi (xi )] (xi )
[yi (xi )] xi
xi =
GL () =
(xi ) [1 (xi )]
i=1
i=1
Premire remarque : comme de faon gnrale avec la mthode destimation du maximum de vraisemblance, lquation de dfinition (2.8) peut sinterprter comme une condition
dorthogonalit impose sur les variables explicatives et les rsidus gnraliss. Cette galit est
en eet lquivalent empirique dune condition de la forme E [(xi wi ) i ] o i est le rsidu dans
le modle non linaire yi = F (xi ) + i et o wi est une variable de pondration. En eet, si
lon pose :
f (xi )
i = yi F (xi )
wi =
F (xi ) [1 F (xi )]
alors lquation (2.8) se rcrit sous la forme :
N
G () =
i=1
1
N
(xi wi ) i = 0
(2.11)
i=1
Cette proprit est particulirement facile visualiser dans le cas du modle logit. De
faon gnrale, les estimateurs du maximum de vraisemblance constituent un cas particulier des
estimateurs des moments.
Deuxime remarque : le systme dfini par lquation (2.8) est non linaire. Lestimateur
ne peut tre obtenu directement. Un algorithme doptimisation numrique de la vraisemblance
est donc ncessaire. Comme nous le verrons dans la section suivante, ces algorithmes se fondent
la fois sur le gradient mais aussi sur la matrice hessienne des drives secondes. Cest pourquoi,
nous allons donn lexpression des gradients et des matrice hessiennes, notes H () , dans le
cas particulier des modles logit et probit.
2.1.1. Matrices Hessiennes et Matrices dinformation de Fischer
Commenons par dfinir les matrices hessiennes associe la log vraisemblance des modles
dichotomiques univaris.
29
Definition 2.3. Pour un modle dichotomique univari, la matrice hessienne associe la log vraisemblance dun chantillon de taille N, not y = (y1 , .., yN ) , scrit
sous la forme :
N
2 log L (y, )
1 yi
yi
=
2 +
[1 F (xi )]2
i=1 F (xi )
H () =
(K,K)
yi F (xi )
F (xi ) [1 F (xi )]
+
i=1
f (xi )2 xi xi
f (xi ) xi xi
(2.12)
H () =
log L (y, )
i=1
(yi F ) f
F (1 F )
G ()
=
xi
F (1 F ) [(y F ) f ]
x
F 2 (1 F )2
(y F ) f [F (1 F )]
x
F 2 (1 F )2
En simplifiant, il vient :
H () =
=
f 2 + (y F ) f
x x
F (1 F )
f2
xx+
F (1 F )
(y F ) f
F 2 (1 F )
(y F ) f
xx
F (1 F )
[f (1 F ) F f ] x x
f 2 (y F )
xx+
F 2 (1 F )
f 2 (y F )
F (1 F )2
xx
f2 x x
F 2 (1 F )
f2 x x
F2
(1 F )
f2
F2
y f2
xx
F2
[F (1 F ) + (y F ) F (y F ) (1 F )] +
(1 F )
2 yF F 2 y +
2
(y F ) f
xx
F (1 F )
y (1 F )2 + (1 y) F 2 x x +
(1 y) f 2
(1 F )
x x+
(y F ) f
xx
F (1 F )
(y F ) f
xx
F (1 F )
(y F ) f
xx
F (1 F )
En intgrant les indices et les arguments des fonctions F (.) , f (.) et f (.) on retrouve alors
lexpression de la matrice hessienne H () donne dans lquation (2.12). Attention, il nexiste
pas dexpression simplifie dans le cas des modles logit et probit de la matrice hessienne. En
revanche, lesprance de la matrice hessienne, qui intervient dans le calcul de la matrice de
variance covariance asymptotique de lestimateur de maximum de vraisemblance, a une criture
plus simple.
En eet, en partant de lexpression (2.12) de la matrice hessienne de la fonction de log
vraisemblance et en considrant que dans le modle dichotomique on a :
E (yi ) = F (xi )
(2.13)
30
E [H ()] = E
2 log L (y, )
E (1 yi )
E (yi )
=
2 +
[1 F (xi )]2
i=1 F (xi )
1
1
+
F (xi ) 1 F (xi )
i=1
f (xi ) xi xi
f (xi )2 xi xi
En eet, le second terme de lexpression (2.12) sannule lorsque lon applique loprateur
esprance. Cette expression peut alors se simplifier comme suit :
N
E [H ()] =
i=1
f (xi )2
x xi
F (xi ) [1 F (xi )] i
I () = E
i=1
f 2 (xi )
x xi
F (xi ) [1 F (xi )] i
(2.14)
(xi ) xi xi =
I () =
i=1
i=1
exp (xi )
2 xi xi
[1 + exp (xi )]
(2.15)
I () =
i=1
2 (xi )
x xi
(xi ) [1 (xi )] i
(2.16)
En eet, dans le cas du modle logit on a (x) [1 (x)] = (x) , ds lors lexpression de
la matrice dinformation de Fischer se simplifie comme suit :
N
I () =
i=1
2 (xi )
x xi =
(xi ) [1 (xi )] i
(xi ) xi xi
(2.17)
i=1
Il nous reste prsent montrer que si la fonction de log vraisemblance admet un maximum
global, ce dernier est unique.
31
Dans le cas du modle logit, les drives premire et seconde de la fonction log [F (x)] =
log [ (x)] sont les suivantes :
log [ (x)]
ex
1
1 (x)
(1 + ex )
=
=
2 = 1 + ex
x
x
x
(x) x
e
(1 + e )
2 log [ (x)]
=
2
x
x
1
1 + ex
ex
(1 + ex )
<0
Les drives premire et seconde de la fonction log [1 (x)] sont les suivantes :
log [1 (x)]
ex
1
(x)
(1 + ex )
ex
=
= (x)
=
=
2
x
1 (x) x
1
1 + ex
(1 + ex )
(x)
2 log [1 (x)]
ex
=
<0
=
x2
x
(1 + ex )2
Dans le cas du logit, les fonctions log [F (x)] et log [1 F (x)] sont donc strictement concaves,
donc la log-vraisemblance log L (y, ) est elle mme strictement concave. Sil existe un maximum
cette fonction en , ce maximum est global. Le mme rsultat peut tre mis en vidence dans
le cas du modle probit.
Proposition 2.5. Dans un modle dichotomique univari, la fonction de log-vraisemblance
log L (y, ) est strictement concave, ce qui garantit lunicit du maximum de cette
fonction. Dans la pratique, ce rsultat garantit la convergence des estimateurs du
maximum de vraisemblance vers la vraie valeur 0 des paramtres, quel que soit le
choix des conditions initiales et de lalgorithme doptimisation utilis.
Comme le note Colletaz (2001), il peut toutefois arriver que lon observe des dicults
dans la progression de lalgorithme vers la solution. Gnralement ces dicults conduisent
lachage de valeurs anormalement grandes, en valeur absolue, pour un ou plusieurs des
paramtres du modle. Ceci correspond au cas de la classification parfaite dans lequel une
ou plusieurs combinaisons de variables explicatives permet de prvoir parfaitement la survenue
ou la non survenue de lvnement considr. Par exemple, considrons le cas o K > 1, et si
pour une variable explicative note zi = 1 lorsque yi = 1, alors que yi = 1 ou yi = 0 lorsque
zi = 0. Dans ce cas, P rob (yi = 1/zi = 1) = 1 quelles que soit les valeurs prises par les autres
variables explicatives xi . Cela contraint lalgorithme donner une valeur extrmement forte
la combinaison linaire zi + xi , cest dire donner une valeur thoriquement infinie au
vecteur , de sorte que lon rencontre alors des problmes numriques. Le plus souvent, on
observera une valeur estime de particulirement lve en valeur absolue avec un cart type
associ tendant vers la nullit. Pour rsoudre ce problme, il sut la ou les variables concernes
ainsi que la totalit des observations parfaitement classes, soit celles associes aux observations
telles que zi = 1 et plus gnralement aux variables ou aux combinaisons de variables autorisant
cette classification parfaite.
32
=
i=1
yi F xi
F xi
f xi
1 F xi
xi = 0
(2.18)
avec F (.) = (.) dans le cas du logit et F (.) = (.) dans le cas du probit. Un tel problme
nadmet pas de solution analytique. La rsolution dun tel systme ne peut se faire quen
utilisant une procdure doptimisation numrique. Les algorithmes utilises dans les principaux
logiciels dconomtrie sont gnralement13 construit selon lune ou lautre de ces deux mthodes
: la mthode de Newton Raphson et la mthode du score. Nous nvoquerons ici que la mthode
de Newton Raphson.
Les mthodes doptimisation numrique sont utilises pour maximiser une fonction f ()
lorsque la condition du premier ordre f () / = 0 nadmet pas de solution analytique ; le
optimal doit tre dduit par tatnnement ou par un algorithme itratif. Ds lors, un algorithme
itratif utilise trois principaux lments :
1. Des valeurs initiales 0 pour amorcer le processus itratif
2. Une rgle de passage dun vecteur au suivant
3. Une rgle darrt si il y a convergence
*****************************************************
**** INSERER GRAPHIQUE SUR LA PROCEDURE ****
*****************************************************
En ce qui concerne le choix des conditions initiales, ce choix est dautant plus important
que le critre maximiser f () est complexe. Dans le cas des modles dichotomiques, on sait
que la fonction f () maximiser (la vraisemblance ou la log vraisemblance suivant les cas) est
globalement concave : ds lors, on est assur que lalgorithme converge vers la vraie valeur des
paramtre, cest dire vers la solution14 unique qui maximise f () , et cela quelles que soient
les conditions initiales. Mais mme dans ce cas particulirement favorable, la convergence peut
tre extrmement longue si les valeurs de dpart sont trop loignes de loptimum. Pour les
modles logit et probit, les logiciels usuels considrent des valeurs initiales pour lalgorithme
de maximisation de la vraisemblance gales aux ralisations des estimateurs obtenus dans le
modle linaire :
(2.19)
yi = xi LP + i 0 = LP
La rgle darrt est gnralement du type : arrter le processus itratif si la variation de
ou du critre f () entre litration actuelle et la prcdente est infrieure une valeur seuil
(souvent appele tolrance).
13 Sous
14 Si
33
Reste dfinir la rgle de passage dun vecteur au suivant. Une rgle de passage consiste
partir des valeurs initiales 0 , trouver le prochain vecteur des paramtres 1 tel que :
f (1 ) f (0 )
et ainsi de suite la ie`me tape :
f (i ) f (i1 )
(2.20)
i = i1 + i1 Di1
(2.21)
o i1 dsigne le pas litration i 1 et Di1 est la direction. Di1 indique la direction que
doivent prendre les composantes du nouveau vecteur i et 1 indique lamplitude du saut dans
cette orientation. Dans une mthode du gradient, la direction est dtermine par le gradient
de la fonction f () . dans le cas K = 1, si le gradient est positif cela signifie que lon se situe
gauche de loptimum : donc on se dplace en augmentant i > i1 . En ce qui concerne le pas,
on cherche alors i tel que f (i + i Di ) /i 0.
La mthode doptimisation de Newton Raphson est une mthode du gradient15 qui est notamment recommande lorsque le critre maximiser est globalement concave, ce qui est le cas
de la fonction de log vraisemblance dans un modle dichotomique univari. Dans cette mthode,
la direction est dtermine par le gradient de la fonction f () , not G () , tandis que le pas
est dtermin par le hessien, not H () . En eet, cette mthode considre un dveloppement
limit de la condition du premier ordre du programme de maximisation de la fonction f ().
Soit un point solution i , satisfaisant la condition du premier ordre.
f (i )
= G (i ) = 0
On peut alors donner lexpression dun dveloppement limit autour de ce point i . Ainsi,
pour tout point i+1 , on obtient la relation suivante au voisinage de i :
i
G (i+1 ) = G (i ) +
G (i )
(i+1 i ) = 0
ou encore :
G (i+1 ) = G (i ) + H (i ) (i+1 i ) = 0
On en dduit la relation suivante :
i,
i+1 = i H (i )
G (i )
(2.22)
La mthode de doptimisation de Newton Raphson ainsi fond sur cette rgle de passage,
ncessite le calcul chaque tape du hessien H (i ) .
Proposition 2.6. Appliqu au problme de maximisation de la vraisemblance dun
modle dichotomique, la rgle de passage de lalgorithme doptimisation de Newton Raphson, entre le vecteur destimation i1 de la i 1e`me itration et vecteur
destimation i de la ie`me itration est alors dfinie par la relation :
i = i1
15 Pour
2 log L (y, )
1
= i1
log L (y, )
(2.23)
= i1
un expos des mthodes du gradient en gnral voir Alban 2000, pages 49 et suivantes.
ou encore
i = i1 H i1
34
G i1
(2.24)
G H
G =0
35
1
0
si yi 0
sinon
yi = xi 0 + i
(3.1)
(3.2)
avec P rob (yi = 1) = F (xi ) o F (.) dsigne la fonction de rpartition de i , o xi = x1i ..xK
,
i
i = 1, .., n dsigne un vecteur de caractristiques observables et o 0 RK est un vecteur
de paramtres inconnus. On suppose que lon dispose dun chantillon de n individus indics
i = 1, .., n.
Nous avons vu prcdemment que lestimateur du maximum de vraisemblance du vecteur
de paramtre 0 dans ce modle dichotomique est dfini par la rsolution du systme de K
quations non linaires en . En eet, si lon pose :
=arg max [log L (y, )]
(3.3)
{}
log L (y, ) =
i=1
16 Voir
(3.4)
36
=
i=1
yi F xi
F xi
f xi
1 F xi
xi = G = 0
(3.5)
0
n
(3.6)
o 0 dsigne la varie valeur des paramtres . En eet, tout le problme consiste tablir
une proprit de convergence de lestimateur sans disposer dune expression analytique de celuici. Tout ce que lon sait pour linstant, cest que si la fonction de log-vraisemblance dans les
modles logit et probit admet un maximum, ce maximum est unique, puisque nous avons montr
que la fonction log L (y, ) est dans ces deux cas concave.
(3.7)
sous
(3.8)
{}
Ce critre Cn (y, ) peut tre soit celui somme des carrs des rsidus (critre des MCO), soit
celui de la somme des carrs pondrs (critre des MCG), etc.. De faon gnrale, ce critre
correspond la classe des M-estimateurs. Soit 0 le vrai vecteur de paramtres permettant
de minimiser le critre et soit y un vecteur de variables endognes observables. On considre
un M-estimateur quelconque not n dfini par :
n =arg min [Cn (y, )]
(3.9)
{}
On cherche alors tablir que cet estimateur est convergent et cela sans spcifier le critre
Cn (y, ). La convergence de n se traduit par la relation :
p.s.
n 0
n
(3.10)
37
Cn (y, ) C (, 0 )
(3.11)
L
n
p.s.
n L
n
Cn y, n Cn (y, )
Cn y, n Cn (y, 0 )
(3.12)
fn (.) f (.)
n
p.s.
x x0
p.s.
= fn (xn ) f (x0 )
n
Sachant que n converge vers L , et que sous lhypothse 2 le critre Cn (y, ) converge
vers C (, 0 ), on montre que la limite en probabilit du terme de gauche de lingalit (3.12)
peut scrire sous la forme suivante :
L
Cn y, n
p.s.
C , 0
(3.13)
De la mme faon, on montre que le terme de droite de lingalit (3.12) converge en probabilit vers la quantit suivante :
p.s.
Cn (y, 0 ) C (0 , 0 )
n
(3.14)
Ds lors on obtient lingalit suivante dfinie sur les limites des critres :
L
C , 0 C (0 , 0 )
(3.15)
38
Sachant que sous lhypothse 3, 0 est la seule valeur qui assure le minimum global de la
fonction C (, 0 ), cest dire que on a C (0 , 0 ) C (, 0 ), on en conclut que
L correspond ncessairement 0 :
(3.16)
L = 0
L
n 0
(3.17)
On ainsi russi dmontrer la convergence de notre M-estimateur n vers la vraie valeur des
paramtres 0 . Appliquons prsent cette mthode dans le cas de lestimateur du maximum
de vraisemblance dans le cadre des modles dichotomiques univaris.
3.1.2. Application aux modles Logit et Probit
Dans le cas dun modle dichotomique simple (logit ou probit), lestimateur n (not aussi )
du maximum de vraisemblance du vecteur de paramtre est dfini par la maximisation dun
critre Cn (y, 0 ) qui correspond, bien videmment la log vraisemblance du modle (quation
2.3) :
n =arg max Cn (y, )
(3.18)
{}
o lon pose17
Cn (y, ) =
1
1
log L (y, ) =
n
n
i=1
(3.19)
o F (.) dsigne une fonction de rpartition. On note 0 la vraie valeur des paramtres. On
suppose que lhypothse 1 est vrifie, cest dire que , RK compact. Reste tablir
que les hypothses 2 et 3 sont valides.
Montrons que tout dabord que le critre CN (y, ) converge presque srement et uniformment par rapport vers une fonction C (, 0 ) , cest dire que :
p.s.
Cn (y, ) C (, 0 )
n
1
n
1
n
i=1
n
i=1
1
n
i=1
(1 yi ) log [1 F (xi )]
(3.20)
Etudions la convergence des dirents lments de cette somme. On suppose que les variables
xi sont alatoires. Sous certaines hypothse de rgularits, on sait que :
1
n
17 Afin
i=1
de simplifier les calculs, on pose que Cn (y, ) = (1/N) log L (y, ) . On aurait pu assimiler le critre
directement la log vraisemblance. Quoiquil en soit ces deux dfinitions du critre laissent inchange la
dfinition de lestimateur du maximum de vraisemblance .
1
n
39
i=1
(3.21)
o h (.) dsigne la densit jointe de y et de , et o f (.) et g (.) dsignent suivant les cas les
densits marginales et conditionnelles des v.a.r. y et . On en dduit le thorme de Bayes :
g (/y) =
f (y/) g ()
f (y)
(3.22)
*******************************
**** Finir Demonstration *********
*******************************
Donc finalement, on a :
1
p.s.
log L (y, )
n
n
i=1
40
Proposition 3.1. Sous certaines conditions, lestimateur du maximum de vraisemblance est convergent et suit asymptotiquement une loi normale de moyenne
gale la vraie valeur 0 des paramtres et de matrice de variance covariance gale
linverse de la matrice dinformation de Fischer I ( 0 ) value au point 0 :
N 0
N 0, I ( 0 )1
avec
I ( 0 ) = E
2 log L (y, )
(3.23)
=
= 0
i=1
f 2 (xi 0 )
x xi
F (xi 0 ) [1 F (xi 0 )] i
(3.24)
(xi ) xi xi =
I () =
i=1
i=1
exp (xi )
2 xi xi
[1 + exp (xi )]
I () =
i=1
2 (xi )
x xi
(xi ) [1 (xi )] i
N 0 =
1
H ( 0 )
N
N g ( 0 )
g ( 0 )=
(K,1)
1
..
N
N
i=1
N
i=1
N
i=1
log L (yi , ) / 1
log L (yi , ) / K1
log L (yi , ) / K
(3.25)
41
Une remarque doit tre faite ici concernant la matrice de variance covariance asympotique de
, note Vas = I ( 0 )1 . Naturellement, cette matrice de variance covariance dpend de la
vraie valeur du paramtre 0 qui est par dfinition inconnue. Ds lors, on retient gnralement
comme estimateur de la matrice de variance covariance asympotique la matrices I
dans
= E
2 log L (y, )
(3.26)
=
42
1
0
yi =
o i est une perturbation i.i.d. 0, 2 . Lorsque lon cherche estimer les paramtres 0
par maximum de vraisemblance, on postule une certaine distribution pour les termes i . On
considre par exemple une distribution logistique dans le cas dun modle logit et une distribution normale dans le cas dun probit. Or, rien ne garantit a priori que cette distribution que
lon utilise pour construire la vraisemblance de lchantillon corresponde rellement la vraie
distribution des perturbations i. Naturellement, une erreur sur la distribution des termes i
conduit alors ncessairement une estimation du maximum de vraisemblance non ecace des
paramtres 0 .
Une des solutions pour se prmunir contre ce risque de mauvaise spcification de la loi des
perturbations du modle, consiste tout safranchir de toute de hypothse sur la distribution
paramtrique des rsidus dans la phase destimation des paramtres 0 . On parle alors de
mthodes destimation non paramtriques. Nous ne prsenterons ici que les mthodes du
score maximum et une mthode semi-paramtrique (Alban 2000).
1
N
(4.1)
i=1
P rob (yi = 0)
43
P rob (xi 0)
1
N
i sgn (xi )
(4.2)
i=1
si z > 0
1
0
si z = 0
sgn (z) =
1 si z < 0
Le principal avantage de cette mthode du score maximum est quelle ne ncessite aucune
hypothse sur la distribution des rsidus i . Mais cet avantage constitue en outre sa principale
limite. En eet, puisque lon ne construit aucune vraisemblance pour obtenir lestimateur s
et puisque le critre maximiser nest pas continument direntiable, le calcul des principales
statistiques de tests sur cet estimateur ne peut pas se faire avec les techniques usuelles. Par
exemple, les carts types associs au vecteur s ne peuvent pas tre calculs partir des formules
usuelles, fondes par exemple sur la drive seconde dune fonction critre continue (fonction
de log-vraisemblance dans le cas de lestimateur du MV). Une possibilit consiste calculer les
estimateurs des variances des estimateurs s par des mthodes de bootstrap (Greene 1997).
Ainsi, linformation fournie par la mthode du score minimum est limite, et de plus lestimateur s est gnralement inecace par rapport lestimateur du maximum de vraisemblance.
De plus, son exploitation est elle aussi trs limite : il nest par exemple pas possible de calculer
les eets marginaux associes aux variables explicatives sans postuler une hypothse sur la distribution F (.) . De plus, le fait de ne pas imposer de dsitribution a priori nassure aucunement
que lestimation sera plus prcise ou que les prvisions seront plus satisfaisantes. Cest pour
ces raisons que se sont dveloppes des mthodes intermdiaires : les mthodes destimation
semi-paramtrique.
44
lgalit suivante :
pi = E ( yi | xi ) = F (xi )
(4.3)
r (xi ) = E ( yi | xi ) =
yi
f (xi , xi )
dyi
f (xi )
(4.4)
La dmarche est alors la suivante : on cherche dans un premier temps estimer la fonction
de lien r (z) , qui nest autre que la fonction de rpartition F (z) . Une fois que lon dispose
dun estimateur de F (z), not F (z), en tout point z, il sut dcrire la log-vraisemblance de
lchantillon en fonction de la loi estime F (xi ) , et de maximiser cette quantit par rapport
pour obtenir un estimateur sp .
Comment estimer cette fonction de lien, qui correspond en fait la fonction de rpartition
F (z) ? On utilise ici une mthode non paramtrique fondateur sur un estimateur noyau.
Sans le dmontrer, on admettra le rsultat suivant :
Proposition 4.1. La probabilit associe lobservation yi en tout point x0i peut
tre estime par la moyenne pondre :
N
x0i
wi x0i yi
i=1
N
i=1
(4.5)
wi (x0i )
xi x0i
h
(4.6)
45
Dfinition
K (x) = 12 exp x2 /2
K (x) = 34 1 x2 .I|x|1
K (x) = (1 |x|) .I|x|1
K (x) = 12 .I|x|1
Epanechnikov
Triangulaire
Uniforme
Gaussienne
0.2
0.1
0
-1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
46
r z10 =
wi z10 yi
i=1
N
i=1
avec wi z10 = K
wi (z10 )
zi z10
h
zi z10
h
1
1
exp
2
2
zi z10
h
1
1
exp
2
2
xi x1
h
j = 1, .., N
zj0
i=1
N
wi zj0 yi
i=1
avec wi zj0 = K
wi zj0
zi zj0
h
2. Deuxime tape : A partir des N ralisations de lestimateur noyau F (xj ) on construit un estimateur de la fonction de log vraisemblance du modle associe lchantillon
y = (y1 , y2 , ..., yN ) :
N
yj log F xj 0
log L (y, ) =
i=j
+ (1 yj ) log 1 F xj 0
(4.7)
On peut ainsi finallement obtenir une valeur estime de la log-vraisemblance log L (y, )
pour toute valeur du vecteur RK .
Il ne reste plus alors qu maximiser la fonction log L (y, ) en . Pour cela on utilisera une
procdure numrique doptimisation (par exemple une mthode du gradient Newton Raphson)
qui partir dune condition initiale sur permettra dobtenir lestimateur semi-paramtrique
s :
s =arg max log L (y, )
(4.8)
{}
1
N
47
48
GV G
g r
(c)
20 Le passage un test unidirectionnel tel que H : = a contre H : > a peut se faire simplment en
0
1
considrant les statistiques des test bidirectionnels et en adaptant la valeur critique.Pour un test de Wald sur
un seul coecient, lintervalle dacceptation 5% est [1.96, 1.96] pour un test H1 : = a alors quil devient
], 1.96] pour le test H1 : > a .
49
j a (vjj )
j a =
j a
vjj
2 (1)
e
`me
(5.1)
coecient j .
Ainsi, si lon note 295% (1) le quantile 95% de la loi 2 (1) , le test de Wald au seuil de 5%
2
La plupart des logiciels (sauf SAS) ne propose pas cette statistique de Wald, mais une
statistique zj dfinie comme la racine carr de la prcdente. Compte tenu du lien entre la loi
normale centre rduite et la loi du Chi2 un degr de libert, on a immdiatement sous H0 :
zj =
j a
vjj
N (0, 1)
(5.2)
N (0, 1)
(5.3)
vjj N
o j et
j .
c
j dsignent
Naturellement si lon note 295% (1) le quantile 95% de la loi 2 (1) , le test du rapport
des maxima de vraisemblance au seuil de 5% de lhypothse H0 consiste accepter H0 si
LRTj < 295% (1) , et refuser H0 si LRTj > 295% (1) . Cette porcdure est asymptotiquement quivalente celle dun test de Wald.
50
Dans le cas dun test portant sur plus dun paramtre, on utilise la statistique suivante
LRT = 2 log L y, log L y,
2 (r)
(5.5)
log L (y, )
log L (y, )
I 1
2 (1)
(5.6)
I=
i=1
log L (yi , )
et o
log L (y, )
N
=
=
i=1
log L (yi , )
log L (yi , )
(yi yi )
(5.7)
51
alors que yi = 0, ou dans le cas o yi = 0 alors que yi = 1. Ce critre est souvent utilis en
analyse discriminante. Le problme avec ce critre est que lon considre de la mme faon
un individu ayant une probabilit pi = F (xi ) = 0.49 et un individu ayant une probabilit
pi = F (xi ) = 0 : on pnalise ces deux individus de la mme faon dans le cas dun chec
du modle (cest dire lorsque our les deux individus on a yi = 1) et on les valorise de la
mme faon en cas de russite. En, particulier, lorsque lon considre des vnements avec une
forte probabilit (par exemple de sortir du chmage) ou au contraire une trs faible probabilit
(par exemple de tomber malade), la plupart des modles obtiendront de bons rsultats selon ce
critre.
Somme des Carrs des Rsidus (SCR) : ce critre traditionnel scrit sous la forme
N
yi F (xi )
(5.8)
N
i=1
yi F (xi )
N
i=1
(yi y)
(5.9)
o y = N 1 i=1 yi . Cette mesure alternative peut tre dfendue par une approche axiomatique
(cf. Efron 1978)L.
SCR pondre par les probabilits estimes : ce critre scrit sous la forme
2
yi F (xi )
SCR pondre
i=1
(5.10)
F (xi ) 1 F (xi )
La principale raison de prfrer ce critre la somme non pondre est la suivante. Il parat
raisonnable dattacher une plus grande perte aux erreurs faites en prvoyant des variables de
faible variance, tant donn quil est plus facile de prvoir des variables de faible variance que
des variables de plus forte variance. Ds lors, il parat raisonnable de pondrer la somme des
carrs des rsidus par un poids qui est inversement proprtionnel la variance.
Coecient de Corrlation des Carrs : ce critre scrit sous la forme
N
i=1
(yi y)
(yi y) F (xi )
N
i=1
(5.11)
F (xi ) F
Cette mesure est lie la SCR non pondre. Dans un modle de rgression standard,
cette mesure serait identique au R2 de Eron. Bien que cette galit ne soit pas vraie dans
52
les modles dichotomiques, les mmes critiques sappliquent au coecient de corrlation des
carrsqu la SCR.
Log - Vraisemblance : ce critre scrit sous la forme
N
Log-Vraisemblance log L y, =
yi log F xi
i=1
+ (1 yi ) log 1 F xi
(5.12)
Ce critre est particulirement bien adapt pour comparre des modles qui ne possdent pas
les mmes dimensions. En eet, on sait que si lon dsire tester r contraintes linaires sur les
c
paramtres la 2 log L y, j log L y, j suit asympotiquement un 2 (r) . Une normlisation de la quantit log L y, a t propose par McFadden pour se ramener une quantit
similaire un R2 :
R2 de McFadden (1974) = 1
log L y,
log L (y, 0)
(5.13)
o log L (y, 0) dsigne le maximum de la fonction de log vraisemblance obtenu lorsque tous les
coecients de la regrssion sont nuls lexception du terme constant.
53
6. Application
Proposer une application avec :
1. Problme conomique et spcification en variable latente
2. Estimation Logit Probit
3. Comparaison avec estimation non paramtrique (score maximum et semi paramtrique)
4. Calcul des cotes et des probabilits individuelles
5. Calcul des eets marginaux : calcul des elasticits moyennes selon les deux formules et
des elasticits individuelles
6. Vrification des calculs de lestimateur de la matrice de variance covariance asymptotique
7. Calcul des principaux critres dvaluation (R2 de McFadden etc..)
8. Tests dhypothse sur les paramtres : Wald, LRT et LM
****************
*** A FINIR ****
****************
54
A. Annexes
A.1. Rappels sur les notions de convergence
Les rappels proposs dans le cadre de cette section portent sur les direntes notions de convergence. Toutefois, la lecture de ces rappels doit ncessairement saccompagner dune tude
plus systmatique des fondements probabilistes de ces notions21 .
Considrons une squence de T v.a.r. {X1 , X2 , ..., Xi , ..., XT }, indices par i. Supposons que
lon souhaite tudier le comportement de la moyenne empirique de ces v.a.r. lorsque T augmente. On cherche ainsi dterminer le comportement asymptotique de la v.a.r. transforme,
X T , telle que :
T
1
XT =
Xi
(A.1)
T i=1
Pour cela, il convient dutiliser la notion de convergences.
A.1.1. Convergence en probabilit
La notion de convergence en probabilit est dfinie de la faon suivante :
Definition A.1. (Convergence en Probabilit) Soit {XT }
T =1 une squence de variables
alatoires scalaires. Cette squence converge en probabilit vers c, c C, si pour
toute valeurs arbitraires > 0 et > 0, il existe une valeur N, telle que T N :
P [|XT c| > ] <
Alors, on note :
XT c plim XT = c
(A.2)
(A.3)
Exprime autrement, cette dfinition signifie que pour un chantillon de taille infinie, la
probabilit que la ralisation de la variable XT dire de la valeur c de plus ou moins (
tant aussi petit que lon veut) est infrieure toute valeur aussi petite soit-elle. En dautres
termes, les ralisations de la variable XT sont concentres au voisinage de la valeur c.
Proprit Une suite de matrices de v.a.r. {XT }
T =1 , de dimension (m, n) ,converge en probabilit vers une matrice C, de dimension (m, n), si chaque lment de Xt converge en
probabilit vers llment correspondant de C. De faon plus gnrale, si lon considre
XT YT
(A.4)
si et seulement si, la dirence entre les deux suites converge en probabilit vers zero :
p
XT YT 0
(A.5)
Enfin, il convient de rappeler deux proprits qui nous serons utiles dans la caractrisation
des distributions asymptotiques des estimateurs usuels.
21 Voir
55
g (XT ) g (c)
(A.6)
Lide est la suivante. Si la fonction g (.) est continue, la quantit g (XT ) se situera au
voisinage de g (c) , ds lors que XT se situe au voisinage de c. En choisissant une valeur de
T susamment grande, la probabilit que la ralisation de XT se situe au voisinage de c
peut tre dfinie aussi proche de lunit que lon le dsire. Un exemple simple est le suivant.
Considrons deux squences de v.a.r. telles que plim X1,T = c1 et plim X2,T = c2 , alors
plim (X1,T + X2,T ) = c1 + c2 . La dmonstration de ce rsultat est immdiate ds lors que lon
montre que la fonction g (X1,T , X1,T ) = X1,T + X2,T est une fonction continue en (c1 , c2 ) .
Proprit 1 Une condition susante pour quune suite de v.a.r. {XT }T =1 converge en probabilit vers une constante relle c est :
lim E (XT ) = c
(A.7)
lim V (XT ) = 0
(A.8)
T
T
Lintuition de cette proprit est simple. Si pour un ordre T susamment grand, la variable
XT admet c pour esprance et a une variance qui tend vers 0, alors la fonction de distribution
de XT sera infiniment concentre autour de la valeur c.
A.1.2. Convergence en moyenne quadratique
Une forme de convergence plus restrictive que la convergence en probabilit est la convergence
en moyenne quadratique (m.s. pour mean square convergence).
Definition A.3. Une suite de suite de v.a.r. {XT }
T =1 converge en moyenne quadratique vers c, si pour tout > 0, il existe une valeur N , telle T N :
E (XT c)2 <
(A.9)
Alors, on note :
m.s.
XT c
(A.10)
XT c = XT c
La notion de convergence en m.q. nous permet alors dintroduire lingalit de Chebyshev.
Proposition A.4. (Ingalit de Chebyshev) Soit X une v.a.r. telle que la quantit
E (|X|r ) existe et soit finie pour r > 0. Pour tout > 0, et toute valeur de c, on
montre que :
r
E (|X c| )
(A.11)
P {|X c| > }
r
56
< T N
x R
(A.12)
On note alors :
L
loi
XT X
ou XT X
(A.13)
XT X 0 = XT X
(A.14)
Proprit 2 La convergence en loi vers une constante relle implique la convergence en probabilit :
p
L
(A.15)
c R XT c = XT c
T
Proprit 4 Soient XT et X des vecteurs alatoires de Rp , tels que XT X ,et soit g (.)
une fonction continue dfinie de Rp and Rn , alors :
L
g (XT ) g (X)
T
(A.16)
57
Bibliographie
Amemiya T. (1976), The ML, the Minimum Chi-*Square and the Non Linear Weighted Least
Squares Estimator in the General Qualtitative Response Model, Journal of the Ameraican
Statistical Association, 71, 347-351
Amemiya T. (1981), Qualitative Response Models : A Survey, Journal of Economic Litterature, 19(4), 481-536
Amemiya T. (1985), Advanced Econometrics, Cambridge, Harvard University Press.
Alban T. (2000), Economtrie des Variables Qualitatives, Dunod.
Berkson J. (1944), Application of the Logistique Function to Bio-Assay, JASA, 39, 357-365.
Berkson J. (1951), Why I prefer Logit to Probit, Biometrics, 7, 327-339.
Colletaz G. (2001), Modles Variables Expliques Qualitatives, Mimo Universit Orlans
Davidson R. et MacKinnon J.G. (1984), Convenient Tests for Logit and Probit Models,
Journal of Econometrics, 25, 241-262.
Gourieroux C. (1989), Economtrie des Variables Qualitatives, Economica.
Gourieroux C. et Montfort A. (1981), Asymptotic Properties of the Maximum Likelihood
Estimator in Dichotomous Logit Models, Journal of Econometrics, 17, 83-97.
Greene W.H. (1997), Econometric Analysis, Londres, Prentice Hall.
Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), Econometric Foundations, Cambridge
University Press.
Klein R.W. et Spady R.H. (1993), An Ecient Semi Parametric Estimator for Binary Response
Models, Econometrica, 61, 387-421
Maddala. G.S. (1983), Limited-dependent and Qualitative Variables in Econometrics, Econometric Society Monographs, 3, Cambrige University Press.
Morimune K. (1979), Comparisons of Normal and Logistic Models in the Bivariate Dichitomous
Analysis, Econometrica, 47, 957-975.
Radner R. et Miller L. (1970), Demand and Supply in U.S. Higher Education : A Progress
Report, American Economic Review, 60.
Spector L.C. et Mazzeo M. (1980), Probit Analysis and Economic Education, Journal of
Economic Education, 11(2), 37-44
Tobin J. (1958), Estimation of Relationships for Limited Dependent Variables, Econometrica,
26, 24-36.
Figure A.1: Lconomie a travers les prix nobel, Problmes Economiques 2001
58