Qualitatif Chapitre1

MASTER ECONOMETRIE ET
STATISTIQUE APPLIQUEE (ESA)

Universit dOrlans
Economtrie des Variables Qualitatives

Chapitre 1
Modles Dichotomiques Univaris
Modles Probit, Logit et Semi-Paramtriques
Christophe Hurlin
Polycopi de Cours
Master Economtrie et Statistique Applique (ESA)
Universit dOrlans
Facult de Droit, dEconomie et de Gestion
Bureau A 224
Rue de Blois BP 6739
45067 Orlans Cedex 2
www.univ-orleans.fr/deg/masters/ESA/
January 21, 2003

Contents
1 Modles Dichotomiques Univaris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Spcification linaire des variables endognes dichotomiques . . . . . . . . . . . . 8
1.2 Modles Logit et Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Comparaison des modles probit et logit . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Prsentation des modles dichotomiques en termes de variable latente . . . . . . 21
2 Estimation des Paramtres par la Mthode du Maximum de Vraisemblance . . . . . . 26
2.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Matrices Hessiennes et Matrices dinformation de Fischer . . . . . . . . . 28
2.1.2 Unicit du maximum global de la fonction de log-vraisemblance . . . . . . 30
2.2 Algorithmes de maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . 32
3 Proprits Asymptotiques des Estimateurs du Maximum de Vraisemblance . . . . . . . 35
3.1 Convergence du Critres de MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Convergence destimateurs dans les modles non linaires . . . . . . . . . 36
3.1.2 Application aux modles Logit et Probit . . . . . . . . . . . . . . . . . . . 38
3.2 Lois et variance asymptotiques de lestimateur de MV . . . . . . . . . . . . . . . 39
4 Mthodes dEstimation non Paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1 La mthode du score maximum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Estimation semi-paramtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Comparaison des estimateurs paramtriques, non paramtriques et semi paramtriques 47
5 Tests de Spcification et Infrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1 Tests dhypothse sur les paramtres . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.2 Tests du rapport des maxima de vraisemblance . . . . . . . . . . . . . . . 49
5.1.3 Test du score ou du multiplicateur de Lagrange . . . . . . . . . . . . . . . 50
5.2 Tests de spcification des modles dichotomiques . . . . . . . . . . . . . . . . . . 50
6 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1 Rappels sur les notions de convergence . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1.1 Convergence en probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1.2 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 55
A.1.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Economtrie des Variables Qualitatives. Cours C. Hurlin
Introduction
Un des dveloppements majeurs de lconomtrie dans les annes 60 et 70, fut sans conteste li lutilisation croissante des donnes microconomiques relatives des caractristiques
conomiques dagents individuels (firmes, consommateurs, centres de profits...). A cette poque,
les bases de donnes microconomiques ont en eet pu tre constitues, puis exploites principalement du fait de lextension des capacits informatiques et de la rduction de leur cot.
Bien souvent, les donnes statistiques disponibles dans ces bases sont relatives des caractres
qualitatifs comme par exemple la catgorie socio-professionnelle, le type dtudes suivies, le
fait de travailler ou au contraire dtre au chmage, dacheter ou de ne pas acheter un certain produit etc.. Or, comme nous allons le voir dans ce chapitre, les mthodes dinfrence
traditionnelles ne permettent pas de modliser et dtudier des caractres quantitatifs : des
mthodes spcifiques doivent tre utilises tenant compte par exemple de labsence de continuit des variables traites ou de labsence dordre naturel entre les modalits que peut prendre
le caractre qualitatif. Ce sont ces mthodes spcifiques les plus usuelles qui seront lobjet de
ce cours dconomtrie des variables qualitatives.
Historiquement ltude des modles dcrivant les modalits prises par une ou plusieurs variables qualitatives date des annes 1940-1950. Les travaux les plus marquants de cette poque
sont sans conteste ceux de Berkson (1944, 1951) consacrs notamment aux modles dichotomiques simples (modles logit et probit). Les premires applications ont alors
essentiellement t menes dans le domaine de la biologie, de la sociologie et de la psychologie. Ainsi, ce nest finalement que rcemment, que ces modles ont t utiliss pour dcrire
des donnes conomiques avec notamment les travaux1 de Daniel L. MacFadden (1974)
et de James J. Heckman (1976). Or, lapplication des techniques conomtriques propres
aux variables qualitatives des problmatiques conomiques a dune part largement contribu
amliorer linterprtation des modles simples (comme par exemple le modle logit avec les
travaux de MacFadden), et dautre part identifier des problmes conomiques dont la structure, si elle nest pas qualitative au sens propre du terme, en mathmatiquement trs proche
(cest par exemple le cas de la consommation de bien durable avec le modle de Tobin de 1958).
Ces dveloppements ont ainsi conduit introduire un modle intermdiaire entre les modles
qualitatifs et le modle linaire habituel : le modle tobit.
Dans la suite du cours, nous supposerons lexistence dun caractre qualitatif qui peut prendre K modalits disjointes. Si K = 2, on dit que la variable est dichotomique. Exemple :
tre au chmage ou ne pas tre au chmage. Dans le cas gnral K N , on dit que la variable est polytomique. A ce niveau de lexpos, la question qui se pose est de savoir comment
reprsenter un caractre qualitatif dans le cadre dun modle conomtrique ? Si lon considre
1 Il convient ici de rappeler que ces deux conomtres ont obtenu conjointement le prix nobel dconomie en
2000, cf. document en annexe.
par exemple le type dtudes suivies par un tudiant (universit, cole dingnieur etc..), la
catgorie socio-professionnelle (ouvrier, employ, cadre..), ou le fait dtre au chmage, comment doit on reprsenter ces dirents caractres qualitatifs ? La rponse naturelle ces
questions consiste associer une variable quantitative (ou codage) au caractre
qualitatif.
Considrons lexemple de la variable qualitative y = niveau dtude pouvant prendre 3
modalits : licence, master, doctorat. Plusieurs choix sont possible pour coder cette
variable qualitative. La premire consiste tout simplement associer y une variable quantitative x pouvant prendre trois valeurs relles distinctes (a, b, c) R3 suivant les modalits de
y. La connaissance de la valeur prise par la variable x permet alors de connatre la modalit
de la variable y et inversement. Le choix du triplet de valeurs (a, b, c) est alors priori non
contraint : on peut par exemple prendre (1, 2, 3) ou (3, 5, 8) en rfrence au nombre dannes
dtude suivies. Ainsi, on dfinit par exemple la variable x de la faon suivante :
3 si y = licence
5 si y = master
x=
8 si y = doctorat
Mais dautres formes de codage auraient pu tre envisages dans ce cas. On peut par exemple
reprsenter la variable qualitative par le vecteur z = (z1 , z2 , z3 ) o les variables zi , i = 1, 2, 3
sont de type dichotomique avec :
z1 =
1
0
si y = licence
sinon
z2 =
1
0
si y = master
sinon
z3 =
1
0
si y = doctorat
sinon
Les variables zi sont appeles variables dummy ou variables muettes. Il sagit ici dune
autre reprsentation quantitative de y valeur cette fois dans (0, 1)3 . Ainsi, de faon gnrale
toutes les reprsentations quantitatives de y scrivent sous la forme dune application injective
de {licence,master,doctorat} dans un espace Rp , p N .
Lintrt principal du codage (ou de la reprsentation quantitative des variables qualitatives)
est de pouvoir se ramener des lois discrtes sur Rp . Ainsi, si lon considre lexemple prcdent
la loi de z est une loi multinomiale M (1; p1 , ., pi , .., pK ) o pi dsigne la probabilit que la ie`me
modalit de la variable y se ralise. De la mme faon, la variable z1 suit une loi de Bernouilli
B (1, p1 ) . Il faut toutefois utiliser avec prudence la loi dune telle reprsentation : elle est en
eet, par nature, conditionnelle au codage choisi. Les seules caractristiques vritablement
lies la variable qualitative sont celles qui ne dpendent pas de la reprsentation choisie, et ne
sont autres que les probabilits p1 ,..., pK . Ainsi, les moments (moyenne, variance etc..) de la
variable code ont en gnral peu de sens. Dans lexemple prcdent, lesprance de la variable
code x na pas de signification particulire. En revanche, lesprance des variables dummies zi
permet de retrouver les probabilits pi . De plus, le calcul dun coecient de corrlation entre
deux variables codes x et z dpend naturellement des codages retenus, et ne peut donc tre
interprt conomiquement. En revanche, la notion dindpendance entre deux variables code
reste indpendante du codage retenu.
Dans le cadre de ce premier chapitre, nous allons nous intresser au modle le plus simple,
savoir le modle dichotomique, dans lequel la variable explique du modle ne peut prendre
que deux modalits. Le plan de ce chapitre est le suivant. Nous commencerons par prsenter les
principaux modles dichotomiques, et en particulier les modles logit et probit. Puis, dans une
seconde section, nous intresserons au problme de lestimation des paramtres de ces modles,
notamment par la mthode du maximum de vraisemblance. Dans une troisime partie, nous
tudierons la convergence des estimateurs du maximum de vraisemblance. Enfin, dans une
dernire section nous aborderons les tests de spcification de ces modles ainsi que les dirents
problmes dinfrence.
1. Modles Dichotomiques Univaris

Par modle dichotomique, on entend un modle statistique dans lequel la variable explique ne
peut prendre que deux modalits (variable dichotomique). Il sagit alors gnralement dexpliquer la survenue ou la non survenue dun vnement.
Hypothse On considre un chantillon de N individus indics i = 1, .., N. Pour chaque
individu, on observe si un certain venment sest ralis et lon note yi la variable code
associe venement. On pose, i [1, N ] :
yi =
1
0
si lvnement sest ralis pour lindividu i

si lvnement ne sest pas ralis pour lindividu i
(1.1)
On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les modles
dichotomique. En eet, celui-ci permet dfinir la probabilit de survenue de lvnement comme
lesprance de la variable code yi , puisque :
E (yi ) = P rob (yi = 1) 1 + P rob (yi = 0) 0 = P rob (yi = 1) = pi
Lobjectif des modles dichotomiques consiste alors expliquer la survenue de lvnement
considr en fonction dun certain nombre de caractristiques observes pour les individus de
lchantillon. Comme nous le verrons par la suite, on cherche dans ces modles, spcifier la
probabilit dapparition de cet vnement.
Quels sont alors les principaux champs dapplication des modle dichotomiques ? Nous
pouvons ici voquer quelques pistes, sur lesquelles nous reviendrons par la suite. Un des domaines dapplication traditionnel consiste en ltude des choix dducation. Ainsi, parmi
les premiers travaux utilisant les modles rponses qualitatives, plusieurs sintressaient aux
comportements des tudiants que ce soit en terme de choix de filires, ou en termes de choix
dtablissements. Il sagissait alors de modliser ces comportements en fonction dun certain
nombres de caractristiques propres aux universits (prsence de campus, dbouchs professionnels etc..) ou aux tudiants (CSP des parents, tudes antrieures etc..). Typiquement, il sagit
par exemple, de modliser le choix des tudiants entre une universit en ville ou un campus, ce
choix tant reprsent par une variable dichotomique que lon va cherche modliser en fonction
de plusieurs facteurs comme le revenu, le sexe de ltudiant, la distance domicile-universit etc..
Du fait de lorganisation prive des tudes aux Etats-Unis, de telles modlisations ont connu un
grand intrt, que ce soit dans une perspective purement acadmique ou dans une perspective
applique. On peut citer ici par exemple ltude de Radner et Miller (1970).
Un autre domaine dapplication consiste en la modlisation des risques de dfaillance dans
une relation de prt, ou dans tout autre forme de contrat dengagement (contrat dabonnement
tlphonique, contrat dassistance etc...). On considre par exemple une variable dichotomique
prenant deux modalits : rupture du contrat et poursuite du contrat, et lon cherche
expliquer variables par dirents facteurs socio-conomiques. Il sagit ici des techniques de
bases des mthodes de scoring largement utilises dans le secteur bancaire et dans le secteur
des tlcommunications.
Cette liste dapplication nest bien entendu pas exhaustive. Nous allons prsent montrer
que la modlisation des variables dichotomiques ne peut se faire laide dune spcification
linaire standard.
1.1. Spcification linaire des variables endognes dichotomiques

En eet, la question que lon peut naturellement se poser ce stade de lexpos, est de savoir
en quoi les modles dichotomiques, et plus gnralement les modles variables endognes
qualitatives, se distinguent du modle linaire classique tudi en cours de licence. En eet,
il sagit de comprendre pourquoi lutilisation de mthodes destimation particulires savre
indispensable pour ce type de modles. Pour ce faire, appliquons navement une modlisation
linaire simple au cas dune variable endogne dichotomique.
Supposons que lon dispose de N observations yi , i = 1, .., N dune variable endogne
dichotomique code yi = 1 ou yi = 0 par convention, lorsque paralllement les observations de
, i = 1, .., N . Dans ce cas, le modle linaire simple
K variables exognes sont xi = x1i ..xK
i
scrit :
i = 1, .., N
(1.2)
yi = xi + i
(1,1)
(1,K)(K,1)
(1,1)
o = ( 1 ... K ) RK dsigne un vecteur de K paramtres inconnus et o les perturbations

i sont supposes tre indpendamment distribues. On peut alors mettre en vidence plusieurs
problmes lis lutilisation de cette spcification linaire simple pour modliser notre variable
dichotomique.
Premirement, les termes de gauche et de droite de lquation (1.1) sont de nature direntes.
La variable yi est de type qualitative tandis que la somme xi +i est une variable quantitative.
On peut rpondre ceci que le membre de gauche correspond en fait au codage (ici 0 ou 1)
associ la variable qualitative; ds lors, il ny aurait plus de problme. Mais il est vident que
ce codage est lui mme par nature arbitraire, et que les valeurs de obtenues pour ce codage
sont ncessairement direntes de celles obtenues pour tout autre codage. Elles seraient par
exemple de si le codage tait de type (0, ). Ainsi, le premier problme de lapplication
du modle linaire simple une variable dichotomique, est que le paramtre du
modle (1.1) nest pas interprtable.
Deuximement, une tude graphique montre que lapproximation linaire est peu adapte
au problme pos. Considrons pour cela le modle linaire avec une seule variable explicative
(K = 1), note x1i , et une constante. On pose = ( 0 1 ) et lon considre le modle linaire
suivant :
i = 1, .., N
(1.3)
yi = 0 + xi 1 + i
Pour constater linadquation de ce modle reproduire correctement la variable endogne
dichotomique yi , il sut de se placer dans un repre x1 , y et de reproduire les N dirents
couples x1i , yi , i = 1, .., N. Naturellement, du fait du statut dichotomique de la variable
endogne, le nuage de points ainsi obtenu se situe soit sur la droite y = 0, soit sur la parallle y = 1. Ainsi, comme on lobserve sur la figure (??), il est impossible dajuster de
Figure 1.1: Ajustement Linaire dune Variable Endogne Dichotomique

y
droite dajustement
linaire
y=
y=
faon satisfaisante, par une seule droite, le nuage de points, associ une variable
dichotomique qui, par nature, est rparti sur deux droites parallles.
Troisimement, la spcification linaire standard ne convient pas aux variables dichotomiques,
et plus gnralement aux variables qualitatives, car elle pose un certain nombre de problmes
mathmatiques.
1. Sachant que dans la cas dune variable endogne yi dichotomique, celle-ci ne peut prendre
que les valeurs 0 ou 1, la spcification linaire (1.1) implique que la perturbation i ne
peut prendre, elle aussi, que 2 valeurs, conditionnellement au vecteur xi :
i = 1 xi avec une probabilit de pi = Prob (yi = 1)
i = xi avec une probabilit de 1 pi
Ainsi, la perturbation i du modle (1.1) admet ncessairement une loi discrte,
ce qui exclut en particulier lhypothse de normalit des rsidus.
2. Lorsque lon suppose que les rsidus i sont de moyenne nulle, la probabilit pi associe
lvnement yi = 1 est alors dtermine de faon unique. En eet, crivons lesprance
des rsidus :
E (i ) = pi (1 xi ) (1 pi ) xi = pi xi = 0
On en dduit immdiatement que :
pi = xi = Prob (yi = 1)
(1.4)
Ainsi la quantit xi correspond une probabilit et doit par consquent satisfaire un certain nombre de proprits et en particulier appartenir lintervalle
ferm [0, 1] .
(1.5)
0 xi 1 i = 1, .., N
Or rien nassure que de telles conditions soient satisfaites par lestimateur des Moindres
Carrs utilis dans le modle linaire (1.1). Si de tels contraintes ne sont pas assures, le
modle
yi = 0 + xi 1 + i E (i ) = 0 i = 1, .., N
na pas de sens.
10
3. Enfin, mme si lon parvenait assurer le fait que les contraintes (1.5) soient satisfaites par
lestimateur des Moindres Carrs des paramtres du modle linaire, il nen demeurerait
pas moins une dicult lie la prsence dhtroscedasticit. En eet, on constate
immdiatement que, dans le modle (1.1), la matrice de variance covariance des rsidus
varie entre les individus en fonction de leur caractristiques associes aux exognes xi
puisque :
(1.6)
V (i ) = xi (1 xi ) i = 1, .., N
Pour dmontrer ce rsultat il sut de considrer la loi discrte des rsidus et de calculer
la variance :
2
V (i ) = E 2i = (1 xi ) Prob (yi = 1) + (xi ) Prob (yi = 0)

2
= (1 xi ) pi + (xi ) (1 pi )
Sachant que daprs la relation (1.4) on a pi = xi , on en dduit que :

2
V (i ) = (1 xi ) xi + (xi ) (1 xi )
= (1 xi ) xi [(1 xi ) + xi ]
= (1 xi ) xi
Or, de plus ce problme dhtroscdascticit ne peut pas tre rsolu par une mthode
destimation des Moindres Carrs Gnraliss tenant compte de la contrainte dingalit
(1.5), puisque la matrice de variance covariance des perturbations (1.6) dpend du vecteur
des paramtres estimer dans la spcification linaire, qui est par nature suppos
inconnu.
Pour toutes ces direntes raisons, la spcification linaire des variables endognes qualitatives, et plus spcialement dichotomiques, nest jamais utilise et lon recourt des modles
logit ou probit, que nous allons prsent tudier, pour reprsenter ces variables.
1.2. Modles Logit et Probit

Les modles dichotomiques probit et logit admettent pour variable explique, non pas un codage
quantitatif associ la ralisation dun venement (comme dans le cas de la spcification
linaire), mais la probabilit dapparition de cet venement, conditionnellement aux variables
exognes. Ainsi, on considre le modle suivant :
pi = Prob ( yi = 1| xi ) = F (xi )
(1.7)
o la fonction F (.) dsigne une fonction de rpartition. La choix de la fonction de rpartition

F (.) est a priori non contraint. Toutefois, on utilise gnralement deux types de fonction :
la fonction de rpartition de la loi logistique et la fonction de rpartition de la loi normale
centre rduite. A chacune de ces fonctions correspond un nom attribu au modle ainsi obtenu
: modle logit et modle probit2 .
Definition 1.1. On considre le modle dichotomique suivant :
pi = Prob ( yi = 1| xi ) = F (xi )
2 Qui
i = 1, .., N
selon toute logique aurait du tre nomm modle nomit et non modle probit.
(1.8)
11
Dans le cas du modle logit, la fonction de rpartition F (.) correspond la fonction

logistique w R :
1
ew
=
= (w)
(1.9)
F (w) =
1 + ew
1 + ew
Dans le cas du modle probit, la fonction de rpartition F (.) correspond la
fonction de rpartition de la loi normale centre rduite w R :
w
F (w) =
1
z2
e 2 dz = (w)
2
(1.10)
Ainsi, pour une valeur donne du vecteur des exognes et du vecteur des paramtres , on
peut dfinir les deux modles dune faon quivalente :
Definition 1.2. Le modle logit dfinit la probabilit3 associ lvnement yi = 1,
comme la valeur de la fonction de rpartition de la loi logistique considre au
point xi :
1
i = 1, .., N
(1.11)
Modle logit : pi = (xi ) =
1 + exi
Dans le cas du modle probit, cette probabilit est dfinie comme la valeur de la
fonction de rpartition de la loi normale centre rduite N (0, 1) considre au point
xi :
xi
z2
1
e 2 dz i = 1, .., N
Modle probit : pi = (xi ) =
(1.12)
2
A ce stade de lexpos, la question que lon se pose immdiatement est de savoir quelles
sont les dirences fondamentales entre les modles probit et logit ? Quand doit on utiliser
lun plutt que lautre ? Quelles sont les proprits particulires de ces deux modles ? Bien
entendu, ces deux modles ne dirent que par la forme de la fonction de rpartition F (.) . Ainsi,
il faut donc se rappeler quelles sont les proprits respectives des lois logistiques et normales,
pour comprendre quelles peuvent tre les dirences et les similitudes entre les modle logit et
probit.
1.3. Comparaison des modles probit et logit

Historiquement, les modles logit ont t introduits comme des approximations de modles
probit permettant des calculs plus simples. Ds lors, il nexiste que peu de dirences entre ces
deux modles dichotomiques. Ceci sexplique par la proximit des familles de lois logistiques et
normales. Les deux fonctions de rpartition (w) et (w) sont en eet sensiblement proches,
comme on peut le constater partir du tableau (1.1) o sont reportes les valeurs de ces
fonctions pour direntes valeurs de w. Mais cette similitude est encore grande si lon considre
une loi logistique transforme de sorte ce que la variance soit identique celle de la loi normale
rduite. En eet, nous avons vu que la loi logistique usuelle admet pour fonction de rpartition
(w) =
1
1 + ew
3 La variable y tant dichotomique, la probabilit dapparition de lvnement complmentaire y = 0 est

i
i
dfinie par 1 pi avec :
exi
1 pi =
1 + exi
12
Cette loi a une esprance nulle et une variance gale 2 /3. Cest pourquoi, il convient de
normaliser la loi logistique de sorte obtenir une distribution de variance unitaire, comparable
celle de la loi normale rduite. On dfinit pour cela une loi logistique transforme.
Definition 1.3. La loi logistique transforme de paramtre admet pour fonction
de rpartition4 , note (w) , w R
(w) =
ew
1
=
w
1+e
1 + ew
(1.13)
A cette fonction de rpartition correspond une variance de 2 / 32 . Ainsi, il convientde

comparer la loi normale centre rduite la loi logistique transforme, de paramtre = / 3,
dont la fonction de rpartition est dfinie comme suit :
(w) = /3 (w) =
(1.14)
w
3
1+e
Cette loi admet par construction une variance unitaire. On observe ainsi partir du tableau
(1.1), que les ralisations de cette fonction /3 (.) sont trs proches de celles de la fonction
(.) associe la loi normale rduite et ce notamment pour des valeurs de w proche de 0, cest
dire des valeurs dites centrales, car proches de la moyenne de la distribution.
Certains auteurs proposent dutiliser dautres paramtres afin de mieux reproduire encore
la fonction de rpartition de la loi normale pour des valeurs centrales. En particulier Amemiya
(1981) propose dutiliser un paramtre5 = 1.6 et donc de retenir la loi logistique transforme
1.6 (.) . Comme on peut lobserver sur le tableau (1.1),
la fonction de paramtre 1.6 est encore
plus proche de (.) que la fonction de paramtre / 3. pour les valeurs centrales proches de
0 (w < 1 en loccurrence dans le tableau).
Tableau 1.1: Comparaison des Fonctions de Rpartition (w) et (w)
w
(w)
(w)
/3 (w)
1.6 (w)
0
0.5
0.5
0.5
0.5
0.1
0.5398
0.5250
0.5452
0.5399
0.2
0.5793
0.5498
0.5897
0.5793
0.3
0.6179
0.5744
0.6328
0.6177
0.4
0.6554
0.5987
0.6738
0.6548
0.5
0.6915
0.6225
0.7124
0.6900
1
0.8413
0.7311
0.8598
0.8320
2
0.9772
0.8808
0.9741
0.9608
3
0.9987
0.9526
0.9957
0.9918
S o u rc e s : A n e m iy a (1 9 8 1 ), ta b le 1 , p a g e 1 4 8 7 e t c a lc u ls d e la u te u r.
Quoiquil en soit, il apparat ainsi que les fonctions de rpartition des lois normales centres rduites et des lois logistiques simples ou transformes sont extrmement proches. Par
consquent, les modles probit et logit donnent gnralement des rsultats relativement similaires. De nombreuses tudes ont dailleurs t consacres ce sujet comme par exemple celle
de Morimune (1979)6 ou de Davidson et MacKinnon (1984). Ainsi a priori, la question du choix
entre les deux modle ne prsente que peu dimportance. Toutefois, il convient dtre prudent
quand la comparaison directe des deux modles.
4 Par
convention, la fonction de rpartition de la loi logistique simple correspondant au cas = 1 sera not
(.) afin dallger les notations.
5 Cette valeur 1.6 est drive du rapport des fonctions de densit (w) / (w) valu au point w = 0.
6 Morimune K. (1979), Comparisons of Normal and Logistic Models in the Bivariate Dichitomous Analysis,
Econometrica 47, 957-975.
13
En eet, les valeurs estimes des paramtres dans les modles probit et logit ne sont pas
directement comparables puisque les variances des lois logistiques et normale rduite ne sont
pas identiques. Cette dirence de variance implique que la normalisation des coecients
nest pas identique et que par consquent les estimateurs de ces paramtres obtenus dans les
deux modles ne fournissent pas des ralisations identiques.
Proposition 1.4. Supposons que lon note respectivement P et L les estimateurs
des paramtres obtenus dans les modles probit et logit. Amemiya (1981) propose
en premire approximation dutiliser la relation suivante entres les estimations
probit et logit7 :
(1.15)
L 1.6 P
Toutefois, si ces approximations sont relativement prcises sur certains chantillons comportant peu de valeurs extrmes (cest dire lorsque la moyenne des valeurs xi est proche
de zro), elles seront moins prcises en prsence de nombreuses valeurs xi loignes de zro.
Une faon quivalente8 de vrifier ladquation de cette approximation consiste observer si la
valeur moyenne des probabilits pi est proche de 0.5 (Davidson et MacKinnon 1984). Si tel est
le cas, les estimateurs des coecients du modle logit seront environ 1.6 fois suprieurs ceux
du modle probit.
Considrons lexemple des donnes de larticle de Spector et Mazzeo (1980), paru dans
Journal of Economic Education, et intitul Probit Analysis and Economic Education. Il sagit
ici dvaluer la probabilit pour un tudiant dobtenir le passage en post-graduate (variable
dichotomique graduate), lquivalent du master. Cette probabilit est modlise comme une
fonction dune constante (cons), du score obtenu au tuce (test of understanding of college
economics) et de la moyenne obtenue au niveau du graduate (grad). Sur la figure (1.2) sont
reports les rsultats destimation du modle logit tandis que sur la figure (1.3) sont reports
les rsultats destimation du mme modle probit. Considrons par exemple le coecient de la
variable tuce. Le modle logit nous donne une estimation de 0.0855 pour ce paramtre alors que
le modle probit donne une estimation de 0.05266. On vrifie alors que, pour cet chantillon,
les approximations (1.15) sont satisfaisantes puisque selon cette formule, on devrait obtenir une
estimation logit de paramtrede lordre de 0.05266 1.6 = 0.0843 ou 0.0955 si lon considre
lapproximation 0.05266 / 3. Ces approximations sont en eet trs proches de la vraie
estimation du paramtre dans le modle logit.
De la mme faon, Amemiya (1981) propose direntes approximations permettant dapprocher les estimations des modles logit et probit partir des estimations obtenues dans le
modle linaire simple, prsent prcdemment.
Proposition 1.5. On note P lestimateur obtenu dans le modle probit, L lestimateur obtenu dans le modle logit et LP lestimateur obtenu dans le modle
linaire. Amemiya (1981) propose les approximations suivantes pour les modles
utilisant la normalisation de la variance, on peut aussi retenir comme approximation un facteur / 3
1.81, en posant L P / 3.
8 Sachant que (0) = (0) = 0.5, il quivalent de vrifier si la moyenne des valeurs x est proche de 0 ou si
i
la moyenne des probabilits pi = F (xi ) est proche de 0.5, avec F (x) = (x) dans le cas du modle logit et
F (x) = (x) dans le cas du probit.
7 En
14
Figure 1.2: Estimation dun Modle Logit
probit et linaire :
LP
0.4 P pour tous les paramtres lexception de la constante

LP
0.4 P + 0.5 pour la constante
(1.16)
(1.17)
et les approximations suivantes pour les modles logit et linaire :

LP
0.25 L pour tous les paramtres lexception de la constante

LP
0.25 L + 0.5 pour la constante
(1.18)
(1.19)
Ainsi si lon considre lexemple des donnes de larticle de Spector et Mazzeo (1980), les
estimations de la constante et des paramtres des variables tuce et grad obtenues dans le
modle linaires sont respectivement gales 1.4493, 0.0160 et 0.4619. Or, si lon compare
ces rsultats ceux obtenus partir des modles logit et probit (figures 1.2 et 1.3), on obtient
les rsultats relativement proches. Ainsi, dans le cas du modle logit pour la variable tuce
lapproximation donnerait 0.25 0.08555 = 0.0214 et 0.25 2.53828 = 0.6346 pour la variable
grad. Pour la constante lapproximation donne une valeur approche gale 0.25 10.656 +
0.5 = 2.164. Cers approximations seront dautant plus proches des valeurs estimes quil y a
aura un grand nombre dobservations xi proches de 0, car en eet les fonctions de rpartition
des lois logistiques et normales ne se dmarquent pas dune droite dans cette zone.
15
Figure 1.3: Estimation dun Modle Probit
En conclusion, il apparat que les rsultats des modles probit et logit sont gnralement
similaires que ce soit en termes de probabilit ou en termes destimation des coecients si
lon tient compte des problmes de normalisation. Cest le sens de cette conclusion dAmemiya.
Because of the close similarity of the two distributions, it is dicult to distinguish between them statistically unless one has an extremely large number of observations. Thus, in the univariate dichotomous model, it does not matter much whether
one uses a probit model or a logit model, except in cases where data are heavily
concentrated in the tails due to the characteristics of the problem being studied.,
Amemiya T. (1981), page 1487.
Toutefois, comme le note Amemiya (1981), il convient dtre prudent dans lutilisation des
approximations pour comparer les modles probit et logit. Il est toujours prfrable de raisonner
en termes de probabilits pi = F (xi ) et non en termes destimation des paramtres pour
comparer ces rsultats.
The reader should keep in mind that this equality [equation (1.15)] constitutes
only a rough approximation and that a dierent set of formulae may work better
over a dierent domain. When one wants to compare models with dierent probability functions, it is generally better to compare probabilities directly rather than
comparing the estimates of the coecients even after an appropriate conversion,
Amemiya T. (1981), page 1488.
16
Si les deux modle sont sensiblement identiques, il existe cependant certaines dirences
entre les modles probit et logit, comme le souligne dailleurs Amemiya. Nous voquerons ici
deux principales dirences :
1. La loi logistique tend attribuer aux vnements extrmes une probabilit
plus forte que la distribution normale.
2. Le modle logit facilite linterprtation des paramtres associes au variables
explicatives xi
Nous allons prsent tudier successivement ces deux proprits. Premirement, la fonction
de densit associe la loi logistique possde en eet des queues de distribution plus paisses
que celles de la fonction de densit de la loi normale (distribution queues plates). La loi
logistique prsente donc un excs de Kurtosis9 : il sagit dune distribution leptokurtique. En
dautres termes, nous avons vu que les lois logistique et normale appartiennent la mme famille
des lois exponentielles et sont par nature trs proches, notamment pour les valeurs proches de la
moyenne de la distribution. Toutefois, le profil de ces deux distributions dire aux extrmits
du support : pour la loi normale, les valeurs extrmes sont moins pondres, la fonction de
rpartition tendant plus vite vers 0 gauche du support et vers 1 droite.
Economiquement, cela implique que le choix dune fonction logistique (modle
logit) suppose une plus grande probabilit10 attribue aux venements extrmes,
comparativement au choix dune loi normale (modle probit), que ce soit droite ou
gauche de la moyenne de la distribution, les lois normales et logistiques tant symtriques.
Pour visualiser ce phnomne, il convient de comparer la fonction de rpartition associe la
loi normale centre rduite avec la fonction de rpartition associe la loi logistique possdant
les deux premiers moments identiques la loi N (0, 1) .
Sur le graphique (1.4) est reporte la dirence (w) (w) en fonction de w :
On constate qu droite du support, pour des valeurs leves de w (w > 1.5 environ), on
a (w) > (w) . La fonction de rpartition de la loi normale est au dessus de celle de la loi
logistique. Etant donne la dfinition de la fonction de rpartition, F (w) =Prob(W w) ,
cela signifie que la probabilit que la ralisation de la variable W soit infrieure au seuil w est
plus grande dans le cas de la loi normale que dans le cas de la loi logistique. Inversement,
pour un seuil w donne, la probabilit dobtenir des valeurs suprieures ce seuil (des valeurs
extrmes) est plus grande dans le cas de la loi logistique que dans le cas de la loi normale. On
vrifie ainsi la proprit de la loi logistique qui sur-pondre les valeurs extrmes en comparaison
de la loi normale. Naturellement, puisque les distributions sont symtriques, on obtient le mme
rsultat gauche du support pour des valeurs trs faibles de w (w < 1.5 environ).
9 Lexcs de Kurtosis est dfini en rfrence au moment dordre dune loi normale centre rduite. Si X suit
une loi normale N , 2 , la Kurtosis est gale 4 = 3 4 . Par convention, le degr dexcs de Kurtosis, dfini
par 4 / 4 3, est nul.
10 Bien entendu, la dirence entre les rsultats des modles probit et logit ne pourra tre observe que si lon
dispose de susament dobservations des exognes se situant dans ces zones extrmes.
17
Figure 1.4: Dirence des Fonctions de Rpartition (w) (w)

0.025
0.02
0.015
0.01
0.005
0
-0.005
-0.01
-0.015
-0.02
-0.025
-5
-4
-3
-2
-1
Deuximement, il existe une proprit particulirement intressante propre au modle logit,

qui facilite en particulier linterprtation des paramtres associes au variables explicatives xi .
Attention, comme nous le verrons par la suite, les valeurs numrique des estimations nont pas
dinterprtation conomique directe, en raison du problme de la normalisation de la variance
rsiduelle. Ainsi, il faut retenir que la seule information directe rellement utilisable est le
signe des paramtres, indiquant si la variable associe influence la hausse ou la baisse la
probabilit de lvnement considr. Toutefois, on peut en outre calculer les eets marginaux :
les eets marginaux mesurent la sensibilit de la probabilit de lvnement yi = 1 par rapport
des variations dans les variables explicatives xi . Et cest prcisment dans ce contexte, que
lutilisation dun modle logit peut faciliter lanalyse de ces eets marginaux.
Au del, de ces dirences entre les lois logistiques et normales, il existe en eet certaines
proprits du modle logit qui sont particulirement utiles pour simplifier les calculs ainsi que
linterprtation conomique des rsultats destimation des paramtres associes au variables
explicatives. Tout dabord, si lon note pi = P rob(yi = 1) = (xi ) , tant donne la dfinition
de la loi logistique on remarque que plusieurs galits, permettant de simplifier les calculs,
peuvent tre tablies comme suit :
exi = pi 1 + exi
log
pi
1 pi
= xi
1
1 + exi
En plus de ces direntes relations, il existe une galit qui est en outre particulirement
intressante en ce qui concerne lanalyse conomique des rsultats destimation. Il sagit de la
relation suivante :
pi
exi =
1 pi
1 pi =
18
En eet, on sait que la probabilit pi dsigne la probabilit associe lvnement yi = 1,

et que la quantit 1 pi dsigne par consquent la probabilit associe lvnement comlpmentaire pi = 0.
Proposition 1.6. De faon gnrale, la quantit ci = pi / (1 pi ) reprsente le rapport
de la probabilit associe lvnement yi = 1 la probabilit de non survenue de
cet vnment : il sagit de la cote (odds). Dans un modle logit, cette cote
correspond simplement la quantit exi :
ci =
pi
= exi modle logit
1 pi
(1.20)
Si ce rapport est gal ci pour lindividu i, cela signifie quil y a ci fois plus de chance que
lvnement associ au code yi = 1 se ralise, quil ne se ralise pas ( ci contre 1 dans le
langage usuel ).
Exemple : Considrons les 32 observations tires de lchantillon de Spector et Mazzeo
(1980). Les donnes correspondant aux variables exognes tuce et grad, ainsi que la variable
endogne dichotomique graduate sont reports sur les trois premiers quadrants de la figure
(1.5). A partir des estimations obtenues dans le modle logit (cf. figure 1.2), on a calcul
la cote associe lvnement tre en post graduate. Sans surprise on constante que par
exemple lindividu 10, qui a obtenu la meilleure note de lchantillon au tuce (29) et qui a
obtenu une moyenne de 3.92/4 aux examens de graduate a une cote de 5.9. Cest dire quil
a 6 plus de chances dobtenir le passage en post graduate que de ne pas lobtenir alors que la
moyenne des cotes pour lchantillon est de 0.97. De la mme faon, lindividu 5 qui obtenu la
note maximale (4) aux examens de graduate une cote de 3.64. Ces deux individus figurent
parmi les tudiants qui ont eectivement obtenu le passage en post graduate (graduate = 1).
Au del du simple calcul de la cote, on peut en outre chercher mesure les eets marginaux
sur la cote. Il sagit alors de mesurer limpact, pour le ie`me individu dune variation de la j e`me
[j]
variable explicative, note xi , sur la cote. Supposons que lon considre une variation dune
unit de cette variable, et calculons alors la variation induite de la cote. En eet, tant donn
la proprit (??) du modle logit, on peut alors facilement mesurer limpact dune variation
dune unit dune des variables explicatives sur cette cote. En eet, si lon note c la cote de
[1]
[K]
le vecteur des variables explicatives et = ( 1 ... K ) le
lvnement yi = 1, xi = xi ...xi
vecteur des paramtres associs, on a :
ci =
pi
= exp
1 pi
K
[k]
xi k
k=1
[k]
exp xi k
=
k=1
[j]
On peut alors isoler la part de la cote imputable une variable xi quelconque de la faon
[j]
suivante. Supposons que la variable xi augmente de une unit, nouvelle cote note ci est gale
:
K
ci = exp
[j]
[k]
xi + 1 j
[k]
exp xi k = exp j
k=1
k=j
exp xi k
k=1
Proposition 1.7. Dans un modle logit, un accroissement dune unit de la variable

[j]
exogne xi ,toutes choses gales par ailleurs, multiplie la valeur de la cote par
19
Figure 1.5: Donnes et Calcul de la Cote partir du Modle Logit : Spector et Mazzeo (1980)
Rsultats au tuce
Moyenne des examens au graduate
30
4
25
3.5
20
15
2.5
10
0
10
20
30
40
Reussite passage en post graduate
2
0
10
20
30
40
Cote de la russite en Post-Graduate
0.8
0.6
3
0.4
0.2
0
0
1
10
20
30
40
0
0
10
20
30
exp j . Si lon note ci la cote initiale et ci la cote obtenue aprs variation de la

j e`me variable explicative, on a :
ci = exp j ci
(1.21)
Exemple : Considrons lchantillon de Spector et Mazzeo.. Nous avons vu que le 10e`me

individu de lchantillon avait obtenu une note de 29 au tuce. Calculons la variation de sa
cote sil avait obtenu 30 au lieu de 29. Les estimations obtenues dans le modle logit (cf.
figure 1.2) nous donne une estimation du paramtre associ tuce gale 0.0855. Ds lors, le
coecient multiplicatif appliquer la cote est de exp (0.0855) = 1.0893. La cote initiale du
10e`me individu tait de 5.9. Donc aprs modification de la note au tuce sa cote doit passer
5.9 1.0893 = 6.4269. On vrifie en estimant nouveau (non reproduit) le modle logit avec
la valeur modifie (30) de lexogne tuce pour le 10e`me individu que le cote estime est gale
6.43.
Toutefois, de faon plus gnrale, on calcule les eets marginaux non pas partir de la cote
mais directement partir des probabilit associ lvnement de rfrence. On cherche ainsi
40
20
tablir quelle est la variation de la probabilit de lvnement yi = 1 en cas de variation dune

des variables exogne. On considrera ici uniquement le cas de variables explicatives continues.
Dans ce cas, pour de petites variations de la je`me variable explicative, on peut approximer la
[j]
variation de probabilit pi par la drive de celle-ci par rapport la variable xi :
pi
[j]
xi
puisque xi =
K
k=1
F (xi )
[j]
xi
F (xi ) (xi )
F (xi )
=
[j]
(xi ) x
(xi ) j
[k]
xi k .
Proposition 1.8. Ds lors, si lon note f (.) la fonction de densit des rsidus du
[j]
modle dichotomique, leet marginal associ la j e`me variable explicative xi est
dfini par :
pi
= f (xi ) . j
(1.22)
[j]
xi
Suivant que lon considre un modle probit ou un modle logit, cette drive
scrit comme suit :
pi
exi
=
(1.23)
2 j modle logit
[j]
(1 + exi )
xi
pi
[j]
xi
1
1
= exp (xi )2 . j modle probit
2
2
(1.24)
Puisque par dfinition f (.) > 0, le signe de cette drive est donc identique celui de
j . Ds lors, laugmentation dune variable associe un coecient positif induit une hausse
de la probabilit de ralisation de lvnement yi = 1. Inversement, la hausse dune variable
associ un coecient ngatif induit une baisse de la probabilit de ralisation de lvnement
yi = 1. Par exemple, si lon considre les donnes de Spector et Mazzeo (190) et les rsultats
destimation des probit et logit (figures 1.2 et 1.3), les deux variables tuce et grad sont aectes
dun coecient dont lestimateur a une ralisation positive. Ainsi, une augmentation de la
note au tuce ou une augmentation de la moyenne aux examens du graduate conduit une
amlioration de la probabilit de passage en postgraduate.
[j]
Enfin, plutt que dexprimer leet marginal sous la forme de la drive pi /xi , on prfre
gnralement calculer une lasticit, cette dernire ayant lavantage dtre indpendante des
units de mesure.
Definition 1.9. Ainsi, on dfinit llasticit pi /x[j] comme la variation en pourcenti
age de la probabilit de survenue pi de lvnement cod yi = 1, suite une variation
[j]
de 1% de la j e`me variable explicative xi :
[j]
pi /x[j]
i
[j]
x j
pi xi
=
= f (xi ) i
[j] p
F
(xi )
i
x
(1.25)
Cette expression peut se simplifier dans le cas du modle logit sachant que F (x) = ex / (1 + ex )
2
et que f (x) = ex / (1 + ex ) . Pour un logit, llasticit prend la valeur suivante :
[j]
i [1, N ]
pi /x[j] =
i
xi j
1 + exp (xi )
modle logit
(1.26)
21
Plusieurs remarques doivent tre faites ce niveau. Tout dabord, pour les deux modles,
llasticit est une fonction non linaire des autres composantes du vecteur xi . On peut ainsi
calculer linfluence des variables explicatives annexes sur la sensibilit du modle lvolution
dune variable j particulire. On peut par exemple calculer :
pi /x[j]
i
[k]
xi
k = j, i [1, N ]
(1.27)
Deuxime remarque, les fonctions de densit f (.) des modles logit et probit tant symtriques
et unimodales,elles atteignent donc leur maximum en zro. Ainsi, limpact dune variable explicative est dautant plus important pour les individus donc le scalaire xi est proche de zro.
En dautres termes, pour les individus pour lesquels on est pratiquement sr de la survenue
dun venement ( pi = F (xi ) proche de 1 ou xi , positif et trs lev), llasticit sera faible
: seule une variation trs importante des variables explicatives pourra modifier sensiblement la
probabilit. De la mme faon, les individus pour lesquels on est pratiquement sr de la non
survenue dun venement (pi = F (xi ) proche de 0 ou xi , ngatif et trs lev en valeur
absolue), llasticit sera faible.
Enfin, troisime et dernire remarque les formules ci-dessus fournissent des mesures individuelles des eets marginaux, et gnralement il est utile de calculer llasticit au point moyen
de lchantillon afin de rpondre la question : quel est limpact moyen (dans lchantillon) de
la variation de 1% de la je`me variable explicatives ? Deux possibilit peuvent tre retenues :
soit on calcule llasticit en remplaant les valeurs individuelles xi par les moyennes empiriques
de ces composantes sur lchantillon, j [1, K] :
p/xj =
f (x) [j]
x j
F (x)
(1.28)
o le vecteur x est dfini par x = (1/N ) xi et le scalaire x[j] vaut x[j] = (1/N ) x[j] . La deuxime
solution consiste calculer la moyenne des lasticits individuelles sur lensemble de lchantillon, j [1, K] :
N
1
p/xj =
(1.29)
[j]
N i=1 pi /xi
1.4. Prsentation des modles dichotomiques en termes de variable latente
Gnralement, bien que cela ne soit pas ncessaire on prsente les modles dichotomiques en
termes de variables latentes ou inobserve yi , la variable observe yi tant alors un indicateur
des valeurs prises par yi . Cette rfrence une variable latente permet de mieux comprendre
lmergence des modles dichotomiques partir de certains problmes ou de biologie.
Lexemple le plus clbre (repris dans Amemiya 1981) est tir de la bio-conomtrie (noublions que cest dans ce domaine que furent proposes les premires applications) celui de
linsecticide : on diuse dans un espace clos un insecticide et lon cherche d terminer la dose
minimale permettant de tuer les insectes. Pour cela, on observe au terme dune priode fix
les insectes i morts pour lesquels on adopte le code yi = 0 et ceux encore vivants cods yi = 1.
On suppose alors que chaque insecte dispose dune capacit de rsistance propre qui se traduit
par un seuil inobservable de produit, not yi , telle que si la dose de produit est suprieure ce
seuil linsecte est mort (yi = 0 ), et quil reste vivant (mais malade peut tre) pour une dose
22
infrieure (yi = 1). Il sagit alors de modliser la probabilit de survie de linsecte i en fonction
de la dose dinsecticide et des observations faites sur yi . On suppose pour cela quun certain
dosage est dius sur lensemble des insectes. On voit immdiatement que ce problme peut
scrire de la faon suivante :
1 si yi >
(1.30)
yi =
0 sinon
o la variable latente yi peut scrire comme la somme dune combinaison linaire de caractristiques propres chaque insecte et dune terme alatoire.
yi = xi + i
(1.31)
Si le terme alatoire i est distribu selon une loi normale, on retrouve un modle probit, si
ce terme est distribu selon une loi logistique on retrouve le modle logit.
Un autre exemple, toujours tir dune tude biologique de Ashford et Sowden (1970), concerne la probabilit pour un mineur de contracter une maladie des poumons (vnement cod
yi = 1) lorsque sa tolrance inobservable, note yi , aux conditions de travail et en particulier
aux poussires de charbon est infrieure certain seuil inconnue. On suppose que la tolrance
est lie lge du mineur not xi . De la mme faon, ce modle peut scrire sous la forme :
yi =
1
0
si yi = 1 + 2 xi + i <
sinon
(1.32)
o i a une distribution normale ou logistique suivant les modles. Ici lvnement yi = 1 (maladie) apparat quand la variable latente yi est infrieure un seuil . Mais il aurait parfaitement
t possible de considrer une variable latente gale yi et un seuil pour retomber sur une
relation semblable celle de lexemple prcdent o yi > . Une autre manire aurait consister
coder lvnement maladie en 0. Par la suite, nous considrerons un modle o lon a yi = 1
lorsque yi > , ce qui permet dcrire que pi = F (xi ). En eet, on a bien11 :
pi = P rob (yi = 1) = P rob (yi > )
pi = P rob (i > xi ) = 1 P rob (i < xi )
pi = F (xi )
(1.33)
Dans le cas o = 0, on retrouve lcriture des modles dichotomiques propose jusqu

prsent : pi = F (xi ) .
Proposition 1.10. Tout modle dichotomique univari peut scrire sous la forme
dune quation de mesure de la forme :
yi =
1
0
si yi >
sinon
(1.34)
o R et o la variable latente yi inobservable est dfinie en fonction de caractristiques observables xi et dune perturbation i i.i.d. 0, 2 :
yi = xi + i
11 On
(1.35)
suppose que la loi des perturbations est symtrique f (x) = f (x) , ds lors on a F (x) = 1 F (x) .
23
Ce modle peut galement sexprimer sous la forme :

pi = P rob (yi = 1) = F (xi )
(1.36)
o la fonction F (.) dsigne la fonction de rpartition associe la loi des perturbations i .

Ainsi, si F (.) = (.) on retrouve le modle probit et si F (.) = (.) on retrouve le cas
du modle logit. De faon gnrale, lquation (1.33) correspond en eet aux dfinitions des
modles logit et probit poses dans la section prcdente.
A ce stade deux aspects doivent tre discuts (Colletaz 2001). Le premier aspect concerne la
normalisation du seuil qui videment ne peut tre identifi que si la combinaison linaire
xi ne comporte pas de terme constant. Si la combinaison linaire inclut un terme constant
et scrit sous la forme xi = 1 + K
j=2 xi,j j , alors il est seulement possible destimer la
constante c telle que :
pi = F (xi ) = F 1 +
j=2
xi,j j = F 1 +
j=2
xi,j j
Il y a alors indetermination du couple ( 1 , ) puisquil existe une infinit de couples tels que
1 = 1 . Deux choses lune : ou lon possde une information a priori sur le seuil qui
permet alors de lever lindtermination et didentifier 1 , soit lon impose a priori une contrainte
sur lune ou lautre des paramtres pour identifier lautre. Dans ce dernier cas, gnralement on
suppose = 0 ce qui permet dobtenir lgalit 1 = 1 . Sans perte de gnralit, on considre
donc une criture de la forme :
(1.37)
pi = F (xi )
Le second aspect du modle variable latente concerne la normalisation de la variance des perturbations i . Partant de la relation (1.37) pour = 0, on a pi = F (xi ) =
P rob (i < xi ) et donc R+ , on obtient :
pi = P rob
i
xi
<
= P rob i < xi
> 0
(1.38)
avec = / et i = i /, i (1, N ) . En dautres termes, la dtermination de la probabilit

pi nest pas unique par rapport au terme alatoire i et au vecteur de paramtres : caractristiques (yi , xi ) donnes, une infinit de couples i , conduit une mme probabilit pi de
survenue de lvnement cod yi = 1. Cette infinit de couples est dfinie par la proportionnalit
:
1
(1.39)
i , = {i , } R+
Le choix dune solution unique seectue encore une fois en imposant une contrainte soit
sur le vecteur des paramtres , soit sur la loi des perturbations i , et plus prcisment sur leur
variance, la loi tant fixe par le choix du modle logit ou probit. Cest cette dernire solution
qui est gnralement privilgie. On sait en eet que la variance des rsidus i est gale 2 /3
dans le cadre du modle logit et que cette variance est gale lunit dans le modle probit. Les
variances des perturbations tant fixe par le choix de la loi F (.), cest donc sur le vecteur de
24
paramtres que porte lincertitude puisque les composantes de ce vecteur sont dfinis un
facteur positif prs. Naturellement, cette incertitude est sans consquence pratique puisque
toute composante non nulle dans le vrai vecteur a une image dans le contraint et que par
ailleurs les deux valeurs tant de mme signe cela naecte pas la mesure des eets marginaux.
Proposition 1.11. Dans les modles logit et probit, la variance de lerreur du modle nest pas identifiable : elle est normalise lunit dans le cas du probit et
est gale 2 /3 dans le cas du logit. Par consquent, la valeur numrique des
paramtres estims na pas dintrt en soi dans la mesure o il ne correspondent
aux paramtres de lquation de la variable latente qu une constante multiplicative prs. De plus, le seuil nest pas identifiable car il se confond au terme
constant du vecteur des explicatives xi .
Ainsi, la seule information rellement utilisable est le signe des paramtres, indiquant si
la variable associe influence la hausse ou la baisse la probabilit de lvnement considr.
Le signe des coecients et le calcul des eets marginaux restent les deux seules informations
directement exploitables en ce qui concerne les variables explicatives.
Exemple : afin de mieux comprendre reprenons lexemple du modle de Ashford et Sowden
(1970), o lon considre la probabilit pour un mineur de contracter une maladie des poumons
(vnement cod yi = 1) lorsque sa tolrance inobservable, note yi , aux conditions de travail
et en particulier aux poussires de charbon est infrieure certain seuil inconnue. On suppose
que la tolrance est lie lge du mineur not xi par une relation ane.
yi =
1
0
si yi = 1 + xi 2 + i >
sinon
On suppose que la variance des perturbations i.i.d. i est gale 2i = 2 , i (1, N ) . Ds

lors, pour un individu i la probabilit de dcs scrit sous la forme :
pi
= P rob (yi = 1)
= P rob (i > 1 xi 2 )
= F ( 1 + xi 2 )
(1.40)
Si lon considre un modle probit, les perturbations du modle doivent suivre une loi
normale centre rduite. La contrainte sur la variance gale lunit, impose dcrire le modle
sous la forme suivante :
pi
i
1 xi 2
>
1
xi 2
+
= P rob
(1.41)
(1.42)
= 1 + xi 2
(1.43)
avec 1 = ( 1 ) / et 2 = 2 /. Seuls deux paramtres 1 et 2 seront estims, alors quil

y a 4 paramtres structurels ( 1 , 2 , , ) . Ladoption dune normalisation du type = 0 et
= 1 permet alors didentifier les paramtres 1 et 2 .
Si lon considre un modle logit, on sait que la variance rsiduelle doit tre gale 2 /3
ds lors que lon impose le choix dune loi logistique simple pour les perturbations du modle.
25
Ainsi, la contrainte sur la variance rsiduelle gale 2 /3, impose dcrire le modle sous la
forme suivante :
pi

1 xi 2
i >
3
3
1
xi 2
+
3
3
= P rob
=
= 1 + xi 2
(1.44)
avec 1 = ( 1 ) / 3 et 2 = 2 / 3. En eet, dans ce cas les perturbations normalises

i = i / 3 vrifient la contrainte sur la variance puisque :
E 2i =
2
2
E (i ) =
2
3
3
Encore une fois, seuls les paramtres 1 et 2 seront estims, alors quil y a 4 paramtres
structurels ( 1 , 2 , , ) dans le modle initial. Ladoption dune normalisation du type = 0
et = 1 permet dans ce cas didentifier les paramtres 1 et 2 .
26
2. Estimation des Paramtres par la Mthode du Maximum de Vraisemblance

Considrons le modle suivant :
Hypothse On considre un chantillon de N individus indics i = 1, .., N. Pour chaque
individu, on observe si un certain venment sest ralis et lon note yi la variable code
associe venement. On pose i [1, N ] :
yi =
1
0
pi = F (xi )
1 pi = 1 F (xi )
(2.1)
o xi = x1i ..xK
, i = 1, .., N dsigne un vecteur de caractristiques observables et o
i
= ( 1 ... K ) RK est un vecteur de paramtres inconnus.
On cherche naturellement estimer les composantes du vecteur . Dans le cas des modles dichotomiques univaris, plusieurs mthodes destimation sont envisageables (GMM par
exemple). Toutefois la mthode la plus usite lorsque la loi des perturbations est connue consiste en la mthode du maximum de vraisemblance. Nous ne considrerons pas ici le cas des
observations rptes12 .
2.1. Estimation par maximum de vraisemblance
Dans le cas du modle dichotomique univari, la construction de la vraisemblance est extrmement simple. En eet, lvnement yi = 1 est associe la probabilit pi = F (xi ) et
lvnement yi = 0 correspond la probabilit 1 pi = 1 F (xi ) . Ceci permet de considrer
les valeurs observes yi comme les ralisations dun processus binomial avec une probabilit
de F (xi ) . La vraisemblance des chantillons associs aux modles dichotomiques scrit donc
comme la vraisemblance dchantillons associs des modles binomiaux. La seule particularit
tant que les probabilits pi varient avec lindividu puisquelles dpendent des caractristiques
xi . Ainsi la vraisemblance associe lobservation yi scrit sous la forme :
L (yi , ) = pyi i (1 pi )
1yi
Ds lors, la vraisemblance associe lchantillon de taille N, not y = (y1 , .., yN ) scrit de

la faon suivante.
Definition 2.1. Pour un modle dichotomique univari simple, la vraisemblance
associe lchantillon de taille N, not y = (y1 , .., yN ) , scrit sous la forme :
N
L (y, ) =
i=1
pyi i (1 pi )1yi =
i=1
[F (xi )]yi [1 F (xi )]1yi
(2.2)
Il ne reste plus alors qu spcifier la fonction de distribution F (.) pour obtenir la forme
fonctionnelle de la vraisemblance. Ainsi, xi R dans le cas du modle logit, on a:
12 Cas o chaque valeur des caractristiques exognes correspondent plusieurs observations du caractre
qualitatif. Ceci traduit la possibilit de rpter plusieurs fois lexprience sous les mmes conditions. Comme le
note Anemiya (1980) ce cas est plus frquent en biologie quen conomie.
F (xi ) =
27
exi
= (xi )
1 + exi
alors que pour le probit, on a :

xi
F (xi ) =
z2
1
e 2 dz = (xi )
2
De cette dfinition, on dduit alors la log-vraisemblance comme suit :

N
log L (y, ) =
i=1
yi log [F (xi )] + (1 yi ) log [1 F (xi )]
(2.3)
En distinguant les observations yi = 1 et celles pour lesquelles on a yi = 0, la logvraisemblance peut scrire sous la forme :
log F (xi ) +
log L (y, ) =
i : yi =1
i : yi =0
log [1 F (xi )]
(2.4)
Lestimateur du maximum de vraisemblance des paramtres est obtenu en maximisant

soit la fonction de vraisemblance L (y, ) soit la fonction de log-vraisemblance log L (y, ) .
En drivant la log vraisemblance (quation 2.3) par rapport aux lments du vecteur , de
dimension (K, 1), on obtient un vecteur de drives, not G () , appel vecteur du gradient.
G () =
log L (y, )
=
yi
i=1
f (xi )
f (xi )
x + (yi 1)
x
F (xi ) i
1 F (xi ) i
o f (.) est la fonction de densit associe F (.) et o xi dsigne la transpose du vecteur xi

de dimension (1, K) . En simplifiant, lexpression du gradient, on obtient alors :
N
G () =
i=1
[yi F (xi )] f (xi )

x
F (xi ) [1 F (xi )] i
(2.5)
On peut en outre exprimer le gradient en distinguant les observations yi = 1 et celles pour

lesquelles on a yi = 0 :
G () =
i : yi
f (xi )
x
F (xi ) i i : y
=1
f (xi )
x
[1 F (xi )] i
=0
(2.6)
Definition 2.2. Lestimateur du maximum de vraisemblance du vecteur de paramtre

RK dans un modle dichotomique est dfini par la rsolution du systme de K
quations non linaires en :
=arg max [log L (y, )]
(2.7)
{}
log L y,
=
i=1
yi F xi
F xi
f xi
1 F xi
xi = G = 0
(2.8)
28
o G () dsigne le gradient associ la log-vraisemblance log L (y, ), valu au

point .Dans le cas du modle logit, ce systme se ramne :
N
GL =
i=1
yi xi
xi = 0
(2.9)
Dans le cas du modle probit, on a :

N
GP =
i=1
yi xi
xi
xi
1 xi
xi = 0
(2.10)
En eet, lcriture du gradient dans le cas du modle logit se simplifie en tenant compte
de la proprit de la loi logistique selon laquelle, si lon note (x) la densit associe (x) ,
on a la relation suivante : x, (x) = (x) [1 (x)] . Ds lors, lexpression (2.5) se simplifie
puisque :
N
N
[yi (xi )] (xi )
[yi (xi )] xi
xi =
GL () =
(xi ) [1 (xi )]
i=1
i=1
Premire remarque : comme de faon gnrale avec la mthode destimation du maximum de vraisemblance, lquation de dfinition (2.8) peut sinterprter comme une condition
dorthogonalit impose sur les variables explicatives et les rsidus gnraliss. Cette galit est
en eet lquivalent empirique dune condition de la forme E [(xi wi ) i ] o i est le rsidu dans
le modle non linaire yi = F (xi ) + i et o wi est une variable de pondration. En eet, si
lon pose :
f (xi )
i = yi F (xi )
wi =
F (xi ) [1 F (xi )]
alors lquation (2.8) se rcrit sous la forme :
N
G () =
i=1
(xi wi ) [yi F (xi )] = 0
1
N
(xi wi ) i = 0
(2.11)
i=1
Cette proprit est particulirement facile visualiser dans le cas du modle logit. De
faon gnrale, les estimateurs du maximum de vraisemblance constituent un cas particulier des
estimateurs des moments.
Deuxime remarque : le systme dfini par lquation (2.8) est non linaire. Lestimateur
ne peut tre obtenu directement. Un algorithme doptimisation numrique de la vraisemblance
est donc ncessaire. Comme nous le verrons dans la section suivante, ces algorithmes se fondent
la fois sur le gradient mais aussi sur la matrice hessienne des drives secondes. Cest pourquoi,
nous allons donn lexpression des gradients et des matrice hessiennes, notes H () , dans le
cas particulier des modles logit et probit.
2.1.1. Matrices Hessiennes et Matrices dinformation de Fischer
Commenons par dfinir les matrices hessiennes associe la log vraisemblance des modles
dichotomiques univaris.
29
Definition 2.3. Pour un modle dichotomique univari, la matrice hessienne associe la log vraisemblance dun chantillon de taille N, not y = (y1 , .., yN ) , scrit
sous la forme :
N
2 log L (y, )
1 yi
yi
=
2 +
[1 F (xi )]2
i=1 F (xi )
H () =
(K,K)
yi F (xi )
F (xi ) [1 F (xi )]
+
i=1
f (xi )2 xi xi
f (xi ) xi xi
(2.12)
o f (.) dsigne la drive de la fonction de densit f (.) associe F (.) .

En eet, en omettant les arguments des fonctions et les indices il vient :
H () =
log L (y, )
i=1
(yi F ) f
F (1 F )
G ()
=
xi
F (1 F ) [(y F ) f ]
x
F 2 (1 F )2
(y F ) f [F (1 F )]
x
F 2 (1 F )2
En simplifiant, il vient :
H () =
=
f 2 + (y F ) f
x x
F (1 F )
f2
xx+
F (1 F )
(y F ) f
F 2 (1 F )
(y F ) f
xx
F (1 F )
[f (1 F ) F f ] x x
f 2 (y F )
xx+
F 2 (1 F )
f 2 (y F )
F (1 F )2
xx
En regroupant les termes en f 2 et en f on obtient alors :

H () =
=
f2 x x
F 2 (1 F )
f2 x x
F2
(1 F )
f2
F2
y f2
xx
F2
[F (1 F ) + (y F ) F (y F ) (1 F )] +
(1 F )
2 yF F 2 y +
2
(y F ) f
xx
F (1 F )
y (1 F )2 + (1 y) F 2 x x +
(1 y) f 2
(1 F )
x x+
(y F ) f
xx
F (1 F )
(y F ) f
xx
F (1 F )
(y F ) f
xx
F (1 F )
En intgrant les indices et les arguments des fonctions F (.) , f (.) et f (.) on retrouve alors
lexpression de la matrice hessienne H () donne dans lquation (2.12). Attention, il nexiste
pas dexpression simplifie dans le cas des modles logit et probit de la matrice hessienne. En
revanche, lesprance de la matrice hessienne, qui intervient dans le calcul de la matrice de
variance covariance asymptotique de lestimateur de maximum de vraisemblance, a une criture
plus simple.
En eet, en partant de lexpression (2.12) de la matrice hessienne de la fonction de log
vraisemblance et en considrant que dans le modle dichotomique on a :
E (yi ) = F (xi )
(2.13)
30
on peut alors tablir que :

N
E [H ()] = E
2 log L (y, )
E (1 yi )
E (yi )
=
2 +
[1 F (xi )]2
i=1 F (xi )
1
1
+
F (xi ) 1 F (xi )
i=1
f (xi ) xi xi
f (xi )2 xi xi
En eet, le second terme de lexpression (2.12) sannule lorsque lon applique loprateur
esprance. Cette expression peut alors se simplifier comme suit :
N
E [H ()] =
i=1
f (xi )2
x xi
F (xi ) [1 F (xi )] i
On reconnat ici bien sr, lexpression de loppos de la matrice dinformation de Fischer.

Definition 2.4. Pour un modle dichotomique univari, la matrice dinformation
de Fischer I () scrit sous la forme :
2 log L (y, )
=
I () = E
i=1
f 2 (xi )
x xi
F (xi ) [1 F (xi )] i
(2.14)
Dans le cas du modle logit, cette matrice est dfinie par :

N
(xi ) xi xi =
I () =
i=1
i=1
exp (xi )
2 xi xi
[1 + exp (xi )]
(2.15)
Dans le cas du modle probit, cette matrice est dfinie par :

N
I () =
i=1
2 (xi )
x xi
(xi ) [1 (xi )] i
(2.16)
En eet, dans le cas du modle logit on a (x) [1 (x)] = (x) , ds lors lexpression de
la matrice dinformation de Fischer se simplifie comme suit :
N
I () =
i=1
2 (xi )
x xi =
(xi ) [1 (xi )] i
(xi ) xi xi
(2.17)
i=1
Il nous reste prsent montrer que si la fonction de log vraisemblance admet un maximum
global, ce dernier est unique.
2.1.2. Unicit du maximum global de la fonction de log-vraisemblance

Si lon admet que le maximum global de log L (y, ) existe, la condition susante pour que ce
maximum soit unique consiste montrer que la fonction log L (y, ) est concave. Etant donne
lcriture (2.4) de la log-vraisemblance, il sut alors de montrer que les fonctions log [F (x)] et
log [1 F (x)] sont concaves.
31
Dans le cas du modle logit, les drives premire et seconde de la fonction log [F (x)] =
log [ (x)] sont les suivantes :
log [ (x)]
ex
1
1 (x)
(1 + ex )
=
=
2 = 1 + ex
x
x
x
(x) x
e
(1 + e )
2 log [ (x)]
=
2
x
x
1
1 + ex
ex
(1 + ex )
<0
Les drives premire et seconde de la fonction log [1 (x)] sont les suivantes :
log [1 (x)]
ex
1
(x)
(1 + ex )
ex
=
= (x)
=
=
2
x
1 (x) x
1
1 + ex
(1 + ex )
(x)
2 log [1 (x)]
ex
=
<0
=
x2
x
(1 + ex )2
Dans le cas du logit, les fonctions log [F (x)] et log [1 F (x)] sont donc strictement concaves,
donc la log-vraisemblance log L (y, ) est elle mme strictement concave. Sil existe un maximum
cette fonction en , ce maximum est global. Le mme rsultat peut tre mis en vidence dans
le cas du modle probit.
Proposition 2.5. Dans un modle dichotomique univari, la fonction de log-vraisemblance
log L (y, ) est strictement concave, ce qui garantit lunicit du maximum de cette
fonction. Dans la pratique, ce rsultat garantit la convergence des estimateurs du
maximum de vraisemblance vers la vraie valeur 0 des paramtres, quel que soit le
choix des conditions initiales et de lalgorithme doptimisation utilis.
Comme le note Colletaz (2001), il peut toutefois arriver que lon observe des dicults
dans la progression de lalgorithme vers la solution. Gnralement ces dicults conduisent
lachage de valeurs anormalement grandes, en valeur absolue, pour un ou plusieurs des
paramtres du modle. Ceci correspond au cas de la classification parfaite dans lequel une
ou plusieurs combinaisons de variables explicatives permet de prvoir parfaitement la survenue
ou la non survenue de lvnement considr. Par exemple, considrons le cas o K > 1, et si
pour une variable explicative note zi = 1 lorsque yi = 1, alors que yi = 1 ou yi = 0 lorsque
zi = 0. Dans ce cas, P rob (yi = 1/zi = 1) = 1 quelles que soit les valeurs prises par les autres
variables explicatives xi . Cela contraint lalgorithme donner une valeur extrmement forte
la combinaison linaire zi + xi , cest dire donner une valeur thoriquement infinie au
vecteur , de sorte que lon rencontre alors des problmes numriques. Le plus souvent, on
observera une valeur estime de particulirement lve en valeur absolue avec un cart type
associ tendant vers la nullit. Pour rsoudre ce problme, il sut la ou les variables concernes
ainsi que la totalit des observations parfaitement classes, soit celles associes aux observations
telles que zi = 1 et plus gnralement aux variables ou aux combinaisons de variables autorisant
cette classification parfaite.
32
2.2. Algorithmes de maximisation de la vraisemblance

Comme nous lavons vu lobtention de lestimateur de maximum de vraisemblance du vecteur
de paramtres RK implique de rsoudre un systme de K quations non linaires de la
forme :
log L y,
G =
=
i=1
yi F xi
F xi
f xi
1 F xi
xi = 0
(2.18)
avec F (.) = (.) dans le cas du logit et F (.) = (.) dans le cas du probit. Un tel problme
nadmet pas de solution analytique. La rsolution dun tel systme ne peut se faire quen
utilisant une procdure doptimisation numrique. Les algorithmes utilises dans les principaux
logiciels dconomtrie sont gnralement13 construit selon lune ou lautre de ces deux mthodes
: la mthode de Newton Raphson et la mthode du score. Nous nvoquerons ici que la mthode
de Newton Raphson.
Les mthodes doptimisation numrique sont utilises pour maximiser une fonction f ()
lorsque la condition du premier ordre f () / = 0 nadmet pas de solution analytique ; le
optimal doit tre dduit par tatnnement ou par un algorithme itratif. Ds lors, un algorithme
itratif utilise trois principaux lments :
1. Des valeurs initiales 0 pour amorcer le processus itratif
2. Une rgle de passage dun vecteur au suivant
3. Une rgle darrt si il y a convergence
*****************************************************
**** INSERER GRAPHIQUE SUR LA PROCEDURE ****
*****************************************************
En ce qui concerne le choix des conditions initiales, ce choix est dautant plus important
que le critre maximiser f () est complexe. Dans le cas des modles dichotomiques, on sait
que la fonction f () maximiser (la vraisemblance ou la log vraisemblance suivant les cas) est
globalement concave : ds lors, on est assur que lalgorithme converge vers la vraie valeur des
paramtre, cest dire vers la solution14 unique qui maximise f () , et cela quelles que soient
les conditions initiales. Mais mme dans ce cas particulirement favorable, la convergence peut
tre extrmement longue si les valeurs de dpart sont trop loignes de loptimum. Pour les
modles logit et probit, les logiciels usuels considrent des valeurs initiales pour lalgorithme
de maximisation de la vraisemblance gales aux ralisations des estimateurs obtenus dans le
modle linaire :
(2.19)
yi = xi LP + i 0 = LP
La rgle darrt est gnralement du type : arrter le processus itratif si la variation de
ou du critre f () entre litration actuelle et la prcdente est infrieure une valeur seuil
(souvent appele tolrance).
13 Sous
14 Si
Eviews et LimDep, la mthode utilise est celle de Newton-Raphson.

cette dernire existe. On admettra lexistence dun maximum.
33
Reste dfinir la rgle de passage dun vecteur au suivant. Une rgle de passage consiste
partir des valeurs initiales 0 , trouver le prochain vecteur des paramtres 1 tel que :
f (1 ) f (0 )
et ainsi de suite la ie`me tape :
f (i ) f (i1 )
(2.20)
i = i1 + i1 Di1
(2.21)
Ainsi, on obtient une rgle du type :
o i1 dsigne le pas litration i 1 et Di1 est la direction. Di1 indique la direction que
doivent prendre les composantes du nouveau vecteur i et 1 indique lamplitude du saut dans
cette orientation. Dans une mthode du gradient, la direction est dtermine par le gradient
de la fonction f () . dans le cas K = 1, si le gradient est positif cela signifie que lon se situe
gauche de loptimum : donc on se dplace en augmentant i > i1 . En ce qui concerne le pas,
on cherche alors i tel que f (i + i Di ) /i 0.
La mthode doptimisation de Newton Raphson est une mthode du gradient15 qui est notamment recommande lorsque le critre maximiser est globalement concave, ce qui est le cas
de la fonction de log vraisemblance dans un modle dichotomique univari. Dans cette mthode,
la direction est dtermine par le gradient de la fonction f () , not G () , tandis que le pas
est dtermin par le hessien, not H () . En eet, cette mthode considre un dveloppement
limit de la condition du premier ordre du programme de maximisation de la fonction f ().
Soit un point solution i , satisfaisant la condition du premier ordre.
f (i )
= G (i ) = 0
On peut alors donner lexpression dun dveloppement limit autour de ce point i . Ainsi,
pour tout point i+1 , on obtient la relation suivante au voisinage de i :
i
G (i+1 ) = G (i ) +
G (i )
(i+1 i ) = 0
ou encore :
G (i+1 ) = G (i ) + H (i ) (i+1 i ) = 0
On en dduit la relation suivante :
i,
i+1 = i H (i )
G (i )
(2.22)
La mthode de doptimisation de Newton Raphson ainsi fond sur cette rgle de passage,
ncessite le calcul chaque tape du hessien H (i ) .
Proposition 2.6. Appliqu au problme de maximisation de la vraisemblance dun
modle dichotomique, la rgle de passage de lalgorithme doptimisation de Newton Raphson, entre le vecteur destimation i1 de la i 1e`me itration et vecteur
destimation i de la ie`me itration est alors dfinie par la relation :
i = i1
15 Pour
2 log L (y, )
1
= i1
log L (y, )
(2.23)
= i1
un expos des mthodes du gradient en gnral voir Alban 2000, pages 49 et suivantes.
ou encore
i = i1 H i1
34
G i1
(2.24)
Litration est alors arrt si la variation i i1 ou la variation du critre log L y, i

log L y, i1 est infrieure un certain seuil fix dans le programme. Le dernier estimateur
obtenu i = correspond alors lestimateur optimal du maximum de vraisemblance. Pour tre
plus prcis, il convient de montrer que la suite des i converge vers lestimateur du maximum
de vraisemblance.
On vrifie immdiatement que si la suite i converge vers une limite , cette limite est
forcement solution des quations de vraisemblance. En eet, si lon pose = lim i , et en
i
considrant la limite des membres de lgalit (2.24) on a :

=H
G H
G =0
La matrice hessienne tant dfinie positive strictement, on a bien G = log L y, / =

0. Par consquent, si la suite i des estimateurs obtenus par lalgorithme de Newton Raphson,
convergent vers une quantit , cette quantit est solution des quations du premier ordre du
programme de maximisation de la vraisemblance. Autrement dit, si la suite i converge, elle
converge alors ncessairement vers lestimateur du maximum de vraisemblance dfini par la
condition :
log L y,
=G =0
(2.25)
Reste maintenant dmontrer que lestimateur du maximum de vraisemblance , quel

que soit lalgorithme doptimisation utilis, converge vers la vraie valeur des paramtres
des modles logit et probit. Etudions pour cela les proprits asymptotiques du maximum de
vraisemblance.
35
3. Proprits Asymptotiques des Estimateurs du Maximum de Vraisemblance

Lorsque lon cherche tablir les proprits asymptotiques des estimateurs du maximum de
vraisemblance dans le cadre de modles dichotomiques, et plus gnralement dans le cadre
de modle variables qualitatives, toute la dicult rside dans le fait que lon dispose pas
dexpression analytique pour ces estimateurs. En eet, nous avons vu que les quations de
vraisemblance associes au probit et au logit sont non linaires dans les paramtres. Ds lors,
il nest pas possible alors dexprimer les estimateurs, solutions de ces quations, comme des
fonctions simples des observations. Nous avons vu quil tait alors ncessaire de recourir des
algorithmes doptimisation numriques. Mais devant limpossibilit dcrire les estimateurs du
maximum de vraisemblance comme des fonctions simples des observations, il est alors dicile
dtudier la convergence de ces estimateurs comme nous avions pu le faire dans le cas des
modles linaires standard. Il convient ainsi dadopter une dmarche particulire o lon va
chercher tudier la convergence du critre de maximum de vraisemblance, afin de dmontrer
la convergence des estimateurs du MV, solutions du programme de maximisation de ce critre.
Un certain nombre de rappels sur les direntes notions de convergence sont proposs dans
lannexe (A.1). Toutefois, la lecture de ces rappels doit ncessairement saccompagner dune
tude plus systmatique des fondements probabilistes de ces notions16 .
3.1. Convergence du Critres de MV

On considre un modle dichotomique univari simple :
yi =
1
0
si yi 0
sinon
yi = xi 0 + i
(3.1)
(3.2)
avec P rob (yi = 1) = F (xi ) o F (.) dsigne la fonction de rpartition de i , o xi = x1i ..xK
,
i
i = 1, .., n dsigne un vecteur de caractristiques observables et o 0 RK est un vecteur
de paramtres inconnus. On suppose que lon dispose dun chantillon de n individus indics
i = 1, .., n.
Nous avons vu prcdemment que lestimateur du maximum de vraisemblance du vecteur
de paramtre 0 dans ce modle dichotomique est dfini par la rsolution du systme de K
quations non linaires en . En eet, si lon pose :
=arg max [log L (y, )]
(3.3)
{}
o la fonction log L (y, ) est dfinie par lquation (2.3) :

n
log L (y, ) =
i=1
16 Voir
par exemple, Mthodes Statistiques, Philippe Tassi, Economica 1989
(3.4)
36
on vrifie que la condition ncessaire de ce programme scrit :

log L y,
=
i=1
yi F xi
F xi
f xi
1 F xi
xi = G = 0
(3.5)
o G () dsigne le gradient associ la log-vraisemblance log L (y, ), valu au point . On

trouve alors un systme de K quations non linaires.
Ainsi, nous ne pouvons pas obtenir dexpression analytique de lestimateur du maximum de
vraisemblance. Ds lors, la question qui se pose est de savoir comment montrer que lestimateur
est convergent. Autrement dit, il sagit de savoir comment tablir le rsultat suivant ?
p
0
n
(3.6)
o 0 dsigne la varie valeur des paramtres . En eet, tout le problme consiste tablir
une proprit de convergence de lestimateur sans disposer dune expression analytique de celuici. Tout ce que lon sait pour linstant, cest que si la fonction de log-vraisemblance dans les
modles logit et probit admet un maximum, ce maximum est unique, puisque nous avons montr
que la fonction log L (y, ) est dans ces deux cas concave.
3.1.1. Convergence destimateurs dans les modles non linaires

Pour rsoudre ce problme, nous allons tout dabord exposer une mthode gnrale permettant
dtablir la convergence destimateur dans des modles non linaires. Considrons le problme
suivant. On cherche minimiser en un critre Cn (y, ) :
min Cn (y, )
(3.7)
sous
(3.8)
{}
Ce critre Cn (y, ) peut tre soit celui somme des carrs des rsidus (critre des MCO), soit
celui de la somme des carrs pondrs (critre des MCG), etc.. De faon gnrale, ce critre
correspond la classe des M-estimateurs. Soit 0 le vrai vecteur de paramtres permettant
de minimiser le critre et soit y un vecteur de variables endognes observables. On considre
un M-estimateur quelconque not n dfini par :
n =arg min [Cn (y, )]
(3.9)
{}
On cherche alors tablir que cet estimateur est convergent et cela sans spcifier le critre
Cn (y, ). La convergence de n se traduit par la relation :
p.s.
n 0
n
Pour tablir ce rsultat on a besoin de faire trois hypothses :

Hypothse 1 , RK compact.
(3.10)
37
Hypothse 2 Le critre Cn (y, ) converge presque srement et uniformment par rapport

vers une fonction C (, 0 )
p.s.
Cn (y, ) C (, 0 )
(3.11)
Hypothse 3 La fonction C (, 0 ) admet un minimum unique en = 0 :

, C (0 , 0 ) C (, 0 )
Lide de la dmonstration du rsultat (3.10) est alors la suivante. On considre la suite
des estimateurs n dfinie sur un ensemble compact. On sait que toute suite dfinie sur un
ensemble compact admet au moins une valeur limite. Soit L une des valeurs dadhrence de
la suite n . Il sut alors de montrer que cette valeur dadhrence est unique et correspond
la vraie valeur 0 des paramtres du modle.
Soit L une des valeurs dadhrence particulire de la suite
suite
L
n
n . Il existe alors une sous
qui converge vers L .

L
p.s.
n L
n
Sachant que le M-estimateur n minimise le critre Cn (y, ) , on a par construction Cn y, n

L
Cn (y, ) , . Ce rsultat vaut aussi pour la sous suite n . Par consquent :

Cn y, n Cn (y, )
Cette ingalit est en particulier valable pour la valeur 0 :

L
Cn y, n Cn (y, 0 )
(3.12)
Considrons prsent la limite en probabilit des termes de droite et de gauche de cette

ingalit. Pour cela, on utilise le rsultat de convergence suivant :
p.s.
fn (.) f (.)
n
p.s.
x x0
p.s.
= fn (xn ) f (x0 )
n
Sachant que n converge vers L , et que sous lhypothse 2 le critre Cn (y, ) converge
vers C (, 0 ), on montre que la limite en probabilit du terme de gauche de lingalit (3.12)
peut scrire sous la forme suivante :
L
Cn y, n
p.s.
C , 0
(3.13)
De la mme faon, on montre que le terme de droite de lingalit (3.12) converge en probabilit vers la quantit suivante :
p.s.
Cn (y, 0 ) C (0 , 0 )
n
(3.14)
Ds lors on obtient lingalit suivante dfinie sur les limites des critres :
L
C , 0 C (0 , 0 )
(3.15)
38
Sachant que sous lhypothse 3, 0 est la seule valeur qui assure le minimum global de la
fonction C (, 0 ), cest dire que on a C (0 , 0 ) C (, 0 ), on en conclut que
L correspond ncessairement 0 :
(3.16)
L = 0
L
En dautres termes, la sous suite

Donc par consquent, la suite n
converge vers la vraie valeur 0 des paramtres.
converge elle aussi vers la vraie valeur 0 des paramtres.

p.s.
n 0
(3.17)
On ainsi russi dmontrer la convergence de notre M-estimateur n vers la vraie valeur des
paramtres 0 . Appliquons prsent cette mthode dans le cas de lestimateur du maximum
de vraisemblance dans le cadre des modles dichotomiques univaris.
3.1.2. Application aux modles Logit et Probit
Dans le cas dun modle dichotomique simple (logit ou probit), lestimateur n (not aussi )
du maximum de vraisemblance du vecteur de paramtre est dfini par la maximisation dun
critre Cn (y, 0 ) qui correspond, bien videmment la log vraisemblance du modle (quation
2.3) :
n =arg max Cn (y, )
(3.18)
{}
o lon pose17
Cn (y, ) =
1
1
log L (y, ) =
n
n
i=1
(3.19)
o F (.) dsigne une fonction de rpartition. On note 0 la vraie valeur des paramtres. On
suppose que lhypothse 1 est vrifie, cest dire que , RK compact. Reste tablir
que les hypothses 2 et 3 sont valides.
Montrons que tout dabord que le critre CN (y, ) converge presque srement et uniformment par rapport vers une fonction C (, 0 ) , cest dire que :
p.s.
Cn (y, ) C (, 0 )
n
Dans notre cas, on sait que

Cn (y, ) =
=
1
n
1
n
i=1
n
yi log F (xi ) + (1 yi ) log [1 F (xi )]

yi log F (xi ) +
i=1
1
n
i=1
(1 yi ) log [1 F (xi )]
(3.20)
Etudions la convergence des dirents lments de cette somme. On suppose que les variables
xi sont alatoires. Sous certaines hypothse de rgularits, on sait que :
1
n
17 Afin
i=1
yi log F (xi ) E {yi log F (xi )}

n
de simplifier les calculs, on pose que Cn (y, ) = (1/N) log L (y, ) . On aurait pu assimiler le critre
directement la log vraisemblance. Quoiquil en soit ces deux dfinitions du critre laissent inchange la
dfinition de lestimateur du maximum de vraisemblance .
1
n
39
i=1
(1 yi ) log [1 F (xi )] E {(1 yi ) log [1 F (xi )]}

n
Or si lon note Ex lesprance conditionnelle xi , on a :

E [yi log F (xi )] = Ex {E [yi log F (xi )] / xi }
= Ex [E (yi /xi ) . log F (xi )]
en appliquant la loi de Bayes, on sait que :

h (y, ) = f (y/) g () = g (/y) f (y)
(3.21)
o h (.) dsigne la densit jointe de y et de , et o f (.) et g (.) dsignent suivant les cas les
densits marginales et conditionnelles des v.a.r. y et . On en dduit le thorme de Bayes :
g (/y) =
f (y/) g ()
f (y)
(3.22)
*******************************
**** Finir Demonstration *********
*******************************
Donc finalement, on a :
1
p.s.
log L (y, )
n
n
i=1
F (xi 0 ) log [F (xi 0 )] + [1 F (xi 0 )] log [1 F (xi 0 )] = L (y, )
3.2. Lois et variance asymptotiques de lestimateur de MV

Nous avons vu prcdemment que la fonction de vraisemblance des chantillons associs aux
modles logit et probit tait concave. Par consquent, si la solution des quations de vraisembalance existe, cette solution est unique et correspond bien au maximum de la focntion de log
vraisemblance. Nous avons vu en outre, dans la section prcdente, que sous certaines conditions, lestimateur du maximum de vraisemblance ainsi obtenu est convergent. Ds lors, nous
allons prsent nous intresser la loi asymptotique de ce estimateur ainsi qu sa variance
asymptotique.
Pour garantir la fois la convergence et la normalit asymptotique des estimateurs du
maximum de vraisemblance dans les modles logit et probit, un certain nombre de conditions
doivent tre valides (cf. Amemiya 1985, Greene 1997). Deux approches sont retenues suivant
que lon suppose que les variables explicatives sont des variables alatoires continues ou des
variables dterministes. Dans le cas de variables explicatives alatoires continues, les conditions
se ramnent imposer lindpendance des xi , la mme distribution pour tous les xi i = 1, ..N ,
en admettant lexistence de moments dordre susant (Amameyia 1976). Dans le cas de variables explicatives dterministes, les conditions imposent alors aux valeurs xi dtre bornes :
m > 0 et M < , tels que m < xki < M, k R, i = 1, .., N, et cela de sorte assurer que la matrice de variance covariance asymptotique existe (Gourieroux et Monfort 1981).
Nous supposerons ici que nous avons des variables explicatives alatoires et que les conditions
correspondantes sont satisfaites.
40
Proposition 3.1. Sous certaines conditions, lestimateur du maximum de vraisemblance est convergent et suit asymptotiquement une loi normale de moyenne
gale la vraie valeur 0 des paramtres et de matrice de variance covariance gale
linverse de la matrice dinformation de Fischer I ( 0 ) value au point 0 :
N 0
N 0, I ( 0 )1
avec
I ( 0 ) = E
2 log L (y, )
(3.23)
=
= 0
i=1
f 2 (xi 0 )
x xi
F (xi 0 ) [1 F (xi 0 )] i
(3.24)
Nous avons vu prcdemment que la matrice dinformation de Fischer peut se simplifier

notamment dans le cas du modle logit. En eet, dans le cas o F (.) = (.) , on a :
N
(xi ) xi xi =
I () =
i=1
i=1
exp (xi )
2 xi xi
[1 + exp (xi )]
Dans le cas du modle probit, il ny a pas de simplification particulire.

N
I () =
i=1
2 (xi )
x xi
(xi ) [1 (xi )] i
Lide de la dmonstration18 de cette propososition est la suivante. Si lon note G () =

log L (.) / le vecteur de gradient et H () = 2 log L (.) / la matrice hessienne, on
sait que lestimateur du maximum de vraisemblance satisfait la condition du premier ordre
G = 0. Considrons un developpement limit lordre 1 autour de cette condition autour
de la vraie valeur des paramtres 0 . En ometant les termes de degr suprieurs 2, il vient :
G = G ( 0 ) + H ( 0 ) 0 = 0
En prmultipliant cette galit par H ( 0 )1 , on obtient 0 = H ( 0 )1 G ( 0 ) , ce
qui peut se recrire sous la forme :
N 0 =
1
H ( 0 )
N
N g ( 0 )
o le vecteur g ( 0 ) de dimension (K, 1) est dfini par :
g ( 0 )=
(K,1)
1
..
N
N
i=1
N
i=1
N
i=1
log L (yi , ) / 1
log L (yi , ) / K1
log L (yi , ) / K
(3.25)
En supposant que chaque composante (1/N ) N

i=1 log L (yi , ) / 1 est i.i.d, on alors appliquer le thorme central limite g ( 0 ) . Paralllement, si lon applique une loi des grands
nombres H ( 0 ) /N, on montre finalement que la quantit N 0 a une distribution

normale de moyenne 0 et de matrice de variance covariance E [H ( 0 )] .
18 Pour
une dsitribution rigorueuse voir le cours de A. Holly (1999).
41
Une remarque doit tre faite ici concernant la matrice de variance covariance asympotique de
, note Vas = I ( 0 )1 . Naturellement, cette matrice de variance covariance dpend de la
vraie valeur du paramtre 0 qui est par dfinition inconnue. Ds lors, on retient gnralement
comme estimateur de la matrice de variance covariance asympotique la matrices I
dans
laquelle la vraie valeur des paramtres 0 a t remplace par son estimateur .

Vas = I
= E
2 log L (y, )
(3.26)
=
42
4. Mthodes dEstimation non Paramtriques

Un des problmes qui peut se poser lors de la phase destimation des paramtres des modles
dichotomiques19 par maximum de vraisemblance provient de lhypothse que lon fait sur la
distribution des rsidus du modle. Considrons le modle dichotomique suivant :
si yi = xi 0 + i 0
sinon
1
0
yi =
o i est une perturbation i.i.d. 0, 2 . Lorsque lon cherche estimer les paramtres 0
par maximum de vraisemblance, on postule une certaine distribution pour les termes i . On
considre par exemple une distribution logistique dans le cas dun modle logit et une distribution normale dans le cas dun probit. Or, rien ne garantit a priori que cette distribution que
lon utilise pour construire la vraisemblance de lchantillon corresponde rellement la vraie
distribution des perturbations i. Naturellement, une erreur sur la distribution des termes i
conduit alors ncessairement une estimation du maximum de vraisemblance non ecace des
paramtres 0 .
Une des solutions pour se prmunir contre ce risque de mauvaise spcification de la loi des
perturbations du modle, consiste tout safranchir de toute de hypothse sur la distribution
paramtrique des rsidus dans la phase destimation des paramtres 0 . On parle alors de
mthodes destimation non paramtriques. Nous ne prsenterons ici que les mthodes du
score maximum et une mthode semi-paramtrique (Alban 2000).
4.1. La mthode du score maximum

Commenons par dfinir lestimateur du score maximum.
Dfinition Lestimateur du score maximum est obtenu par la maximisation, par
rapport au vecteur RK , dun critre constitu du nombre de fois o xi > 0
lorsque yi = 1 et du nombre de fois o xi < 0 lorsque yi = 0 :
s =arg max
{}
1
N
Iyi =1 Ixi >0 + Iyi =0 Ixi <0
(4.1)
i=1
o Ix dsigne la fonction indicatrice.

Lide gnrale de cette mthode est la suivante. On sait que la probabilit associe
lvnment yi = 1 est dfinie par pi = P rob (i < xi ) = F (xi ) . En dautres termes, on a
yi = 1 quand lingalit i < xi est vrifie. Si lon considre prsent des valeurs de i
susament faibles relativement xi , cette relation peut tre approxime de la faon suivante
xi > 0. Ainsi, on doit observer yi = 1 quand xi est positif, si tant ait que lon
xi i
dispose de la vraie valeur 0 du vecteur . Parralment, on doit observer yi = 0 quand xi est
ngatif. En termes de probabilits on obtient les approximations suivantes :
P rob (yi = 1)
19 Problme
P rob (xi > 0)
qui nest pas spcifique aux modles variable explicative dichotomique.
P rob (yi = 0)
43
P rob (xi 0)
Le critre du score maximum consiste alors maximiser en la frquence empirique (le

score) des vements (yi = 1) et (xi > 0) .
Une autre interprtation de la mthode du score est quelle compare le signe de la prdiction,
cest dire le signe de xi , avec celui de la variable transforme i = 2yi 1 qui prend la valeur
-1 quand yi = 0 et la valeur 1 quand yi = 1. On compare donc une valeur observe i qui est
positive quand lvnement yi = 1 se ralise avec la quantit xi , qui pour la vraie valeur 0
du vecteur , doit elle aussi tre positive quand lvnement yi = 1 se ralise. Ainsi, le critre
du score maximum peut scrire sous la forme :
s =arg max
{}
1
N
i sgn (xi )
(4.2)
i=1
o la fonction sgn(z) est dfinie de la faon suivante :
si z > 0
1
0
si z = 0
sgn (z) =
1 si z < 0
Le principal avantage de cette mthode du score maximum est quelle ne ncessite aucune
hypothse sur la distribution des rsidus i . Mais cet avantage constitue en outre sa principale
limite. En eet, puisque lon ne construit aucune vraisemblance pour obtenir lestimateur s
et puisque le critre maximiser nest pas continument direntiable, le calcul des principales
statistiques de tests sur cet estimateur ne peut pas se faire avec les techniques usuelles. Par
exemple, les carts types associs au vecteur s ne peuvent pas tre calculs partir des formules
usuelles, fondes par exemple sur la drive seconde dune fonction critre continue (fonction
de log-vraisemblance dans le cas de lestimateur du MV). Une possibilit consiste calculer les
estimateurs des variances des estimateurs s par des mthodes de bootstrap (Greene 1997).
Ainsi, linformation fournie par la mthode du score minimum est limite, et de plus lestimateur s est gnralement inecace par rapport lestimateur du maximum de vraisemblance.
De plus, son exploitation est elle aussi trs limite : il nest par exemple pas possible de calculer
les eets marginaux associes aux variables explicatives sans postuler une hypothse sur la distribution F (.) . De plus, le fait de ne pas imposer de dsitribution a priori nassure aucunement
que lestimation sera plus prcise ou que les prvisions seront plus satisfaisantes. Cest pour
ces raisons que se sont dveloppes des mthodes intermdiaires : les mthodes destimation
semi-paramtrique.
4.2. Estimation semi-paramtrique

Lide des mthodes semi-paramtrique dans ce contexte (Klein et Spady 1993) consiste tout
simplement sparer le modle en deux : une partie paramtrique correspondant au scalaire
xi et une partie non paramtrique correspondant la fonction de rpartition F (.) .
Dans un modle dichotomique simple, nous avons vu que lon lgalit pi = E (yi ) ds lors
que le modle scrit sous la forme pi = P rob (yi = 1) . De faon plus prcise, on obtient donc
44
lgalit suivante :
pi = E ( yi | xi ) = F (xi )
(4.3)
Ainsi, dcrire lesprance conditionnelle de yi sachant xi revient en fait dcrire la fonction

de rpartition F (.), que lon cherche maximiser en . On dfinit r (xi ) , appele fonction de
lien, cette esprance conditionnelle :
r (xi ) = E ( yi | xi ) =
yi
f (xi , xi )
dyi
f (xi )
(4.4)
La dmarche est alors la suivante : on cherche dans un premier temps estimer la fonction
de lien r (z) , qui nest autre que la fonction de rpartition F (z) . Une fois que lon dispose
dun estimateur de F (z), not F (z), en tout point z, il sut dcrire la log-vraisemblance de
lchantillon en fonction de la loi estime F (xi ) , et de maximiser cette quantit par rapport
pour obtenir un estimateur sp .
Comment estimer cette fonction de lien, qui correspond en fait la fonction de rpartition
F (z) ? On utilise ici une mthode non paramtrique fondateur sur un estimateur noyau.
Sans le dmontrer, on admettra le rsultat suivant :
Proposition 4.1. La probabilit associe lobservation yi en tout point x0i peut
tre estime par la moyenne pondre :
N
x0i
wi x0i yi
i=1
N
i=1
(4.5)
wi (x0i )
o la pondration wi x0i est dfinie par la relation :

wi x0i = K
xi x0i
h
(4.6)
o K (.) dsigne un oprateur noyau et h une fentre.

Ainsi, cette proposition nous permet de reconstruire toute la fonction de rpartition F (xi )
en appliquant la formule (4.5) pour chaque observations xi , i = 1, .., N. On dispose alors dune
suite de N ralisations dun estimateur F (xi ) pour une valeur donne du vecteur .
Loprateur noyau K (.) , ou kernel, fournit une mesure de la distance entre le point considr
xi0 et nimporte quel autre point xi de lchantillon. Plus la distance est importante, plus lon
attribue une faible valeur la pondration, donc plus la valeur du kernel est faible. Cest une
fonction continue, symtrique autour de zro, intgrant 1, et nulle pour de grandes valeurs de
son argument. Les fonctions kernel les plus souvent utilises sont les suivants :
Sur la figure (4.1) ont t reportes les valeurs de ces direntes fonctions, ce qui permet de
visualer la dcroissance du poids accord aux observations loignes du point central x0i .
Le paramtre h de la pondration (4.6) est appel fentre (ou bandwidth parameter ) sert
calibrer la distance entre xi et xi0 , en pnalisant plus ou moins les poids loigns de xi0 .
Plus h est petit, plus loprateur wi (xi0 ) privilgie les points proches de xi0 . Un exemple de
valeur de la fentre correspond h = 0.15 (xv xu ) o xv xu dsigne lcart maximal entre
les observations (upper moins lower ). Naturellement, il convient dvaluer limpact de ce choix
sur lestimateur de en faisant varier h.
45
Tableau 4.1: Dfinition des Principales Fonctions Kernel

Noyau
Gaussien
Epanechnikov
Triangulaire
Uniforme
Dfinition
K (x) = 12 exp x2 /2
K (x) = 34 1 x2 .I|x|1
K (x) = (1 |x|) .I|x|1
K (x) = 12 .I|x|1
Figure 4.1: Fonctions Kernel K (x) Usuelles

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
Epanechnikov
Triangulaire
Uniforme
Gaussienne
0.2
0.1
0
-1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
Remarque Dans le cas des estimateurs semi-paramtriques, le choix de la fentre

h permet darbitrer entre le biais de lestimateur non paramtrique et sa variance. Une fentre petite fournira un biais plus faible mais un estimateur moins
ecace (de plus grande variance), alors quune fentre plus large sapprochera
de lestimation par les moindres carrs linaires dans lesquels tous les points
sont pris en compte avec la mme pondration.
En rsum, lapproche semi-paramtrique consiste construire un estimateur noyau de

la vraisemblance valu pour une valeur quelconque de , et maximiser cette fonction pour
obtenir lestimateur semi-paramtrique not s . La construction de lestimateur noyau de
fonction de log-vraisemblance se ralise de la faon suivante. Pour une valeur quelconque
RK , les tapes de la construction sont les suivantes :
1. Premire tape : On estime pour le premier individu (i = 1), la fonction de lien au
46
voisinage du point z10 = x1 pour la valeur retenue de .

N
r z10 =
wi z10 yi
i=1
N
i=1
avec wi z10 = K
wi (z10 )
zi z10
h
Dans le cas dune fonction kernel gaussienne, on a par exemple i = 1, .., N :

K
zi z10
h
1
1
exp
2
2
zi z10
h
1
1
exp
2
2
xi x1
h
On obtient ainsi une estimation de la fonction de rpartition F z10 = r z10 au point

z10 = x1 . On rpte alors lopration pour les N individus, j = 1, .., N, et ce faisant on
obtient N ralisations dun estimateur noyau F (xj ) de la fonction de rpartition F (.)
value aux N points zj0 = xj conditionnellement la valeur .
N
j = 1, .., N
zj0
i=1
N
wi zj0 yi
i=1
avec wi zj0 = K
wi zj0
zi zj0
h
2. Deuxime tape : A partir des N ralisations de lestimateur noyau F (xj ) on construit un estimateur de la fonction de log vraisemblance du modle associe lchantillon
y = (y1 , y2 , ..., yN ) :
N
yj log F xj 0
log L (y, ) =
i=j
+ (1 yj ) log 1 F xj 0
(4.7)
On peut ainsi finallement obtenir une valeur estime de la log-vraisemblance log L (y, )
pour toute valeur du vecteur RK .
Il ne reste plus alors qu maximiser la fonction log L (y, ) en . Pour cela on utilisera une
procdure numrique doptimisation (par exemple une mthode du gradient Newton Raphson)
qui partir dune condition initiale sur permettra dobtenir lestimateur semi-paramtrique
s :
s =arg max log L (y, )
(4.8)
{}
Gnralement, la condition initiale choisie dans les algorithmes doptimisation, note 0 ,

correspond un estimateur simple comme par exemple lestimateur du score maximum ou un
estimateur des M CO :
0 = s =arg max
{}
1
N
Iyi =1 Ixi >0 + Iyi =0 Ixi <0

i=1
47
4.3. Comparaison des estimateurs paramtriques, non paramtriques et semi paramtriques

**************************************************
**** INSERER Programme Matlab et Rsultats *********
**************************************************
48
5. Tests de Spcification et Infrence

Comment tester le modle dichotomique ? Comment tester les paramtres de ce modle ?
Autant de questions auxquelles nous allons prsent tacher de rpondre. Nous commencerons
par voquer les tests dhypothse sur les coecients, puis dans une seconde sous section nous
envisagerons les principaux tests de spcification sur les modles dichotomiques.
5.1. Tests dhypothse sur les paramtres

Les direntes mthodes destimation prsentes prcdemment conduisent des estimateurs
asymptotiquement normaux lorsque le nombre dobservations tend vers linfini. Il est donc
facile dutiliser ces divers estimateurs pour construire des procdures de tests dont certaines
seront asymptotiquement quivalentes. Nous prsentarons ici les principales procdures de test
partir de la mthode destimation du maximum de vraismeblance qui est la plus souvent
utilise. On retouve alors la trilogie :
1. Test de Wald
2. Test du score ou multiplicateur de Lagrange : LM (Lagrange Mulitplier)
3. Test du rapport des maxima de vraisemblance : LRT (Likelihood Ratio Test)
On rappelle que ces trois tests sont asymptotiquement quivalents, ce qui implique quils
peuvent notamment se contredire sur poetits chantillons. De plus, leur distribution ntant
valide quasympotitquement, il convient dtre prudent dans leur utilisation sur de petits chantillons. On sait en outre que le test LRT est localement le plus puissant et que donc il devrait
tre a priori prfr. Nous nenvisagerons ici que le cas dun test bidirectionnel20 sur un coecient ou sur un ensemble de coecients.
5.1.1. Test de Wald

On considre le test H0 : j = a contre H1 : j = a o j dsigne la j e`me composante du
vecteur de paramtres = ( 1 , .., K ) RK dun modle dichotomique. Lide du test de
Wald est daccepter lhypothse nulle si lestimateur non contraint j de j est proche de a.
La stratistique de test est une mesure bien choisie de la proximit de j a zro.
On sait que dans la formulation gnrale dun test de contraintes de type H0 : g () = r, o
r est un vecteur de dimension (c, 1) , on a le rsultat suivant :
g r
GV G
g r
(c)
20 Le passage un test unidirectionnel tel que H : = a contre H : > a peut se faire simplment en
0
1
considrant les statistiques des test bidirectionnels et en adaptant la valeur critique.Pour un test de Wald sur
un seul coecient, lintervalle dacceptation 5% est [1.96, 1.96] pour un test H1 : = a alors quil devient
], 1.96] pour le test H1 : > a .
49
o dsigne lestimateur du maximum de vraisemblance non contraint, avec G = g (.) / ,

et V lestimateur de la matriuce de variance covariance des coecients. Dans le cas qui
nous intresse, on a g () = j et r = a. Le vecteur G, de dimension (K, 1) , comporte K 1
zros et 1 la j e`me position. Ainbis, on obtient le rsultat suivant :
Definition 5.1. La statistique du test de Wald associe au test unidirectionnel H0 :
j = a contre H1 : j = a admet la loi suivante sous H0 :
2
j a (vjj )
j a =
j a
vjj
2 (1)
o vjj dsigne lestimateur de la variance de lestimateur du j j
e
`me
(5.1)
coecient j .
Ainsi, si lon note 295% (1) le quantile 95% de la loi 2 (1) , le test de Wald au seuil de 5%
2
de lhypothse H0 consiste accepter H0 si j a
/vjj est infrieur 295% (1) , et refuser
H0 si cette quantit est suprieure 295% (1) .
La plupart des logiciels (sauf SAS) ne propose pas cette statistique de Wald, mais une
statistique zj dfinie comme la racine carr de la prcdente. Compte tenu du lien entre la loi
normale centre rduite et la loi du Chi2 un degr de libert, on a immdiatement sous H0 :
zj =
j a
vjj
N (0, 1)
(5.2)
et en particulier pour un test de nullit H0 : j = 0, on retrouve :

zj =
N (0, 1)
(5.3)
vjj N
5.1.2. Tests du rapport des maxima de vraisemblance

Dans le cas des modles dichotomiques, on peut appliquer sans dicult particulire la logique
du test du rapport des maxima de vraisemblance. Ainsi, on estime le modle non contraint
c
et dautre part le modle contraint : soient j et j les deux estimations ainsi obtenues. La
statistique LRT correspond alors tout simplemnt lcart des log-vraisemblance:
Definition 5.2. La statistique LRTj du test du rapport des maxima de vraisemblance
associe au test unidirectionnel H0 : j = a contre H1 : j = a admet la loi suivante
sous H0 :
c
L
2 (1)
(5.4)
LRTj = 2 log L y, j log L y, j
N
o j et
j .
c
j dsignent
respectivement les estimateurs non contraint et contraint de
Naturellement si lon note 295% (1) le quantile 95% de la loi 2 (1) , le test du rapport
des maxima de vraisemblance au seuil de 5% de lhypothse H0 consiste accepter H0 si
LRTj < 295% (1) , et refuser H0 si LRTj > 295% (1) . Cette porcdure est asymptotiquement quivalente celle dun test de Wald.
50
Dans le cas dun test portant sur plus dun paramtre, on utilise la statistique suivante
LRT = 2 log L y, log L y,
2 (r)
(5.5)
o r dsigne le nombre de restrictions imposes sur les paramtres, et o et dsigne les

estimateurs respectivement non contraint et contraint du vecteur complet .
5.1.3. Test du score ou du multiplicateur de Lagrange
Le principe de ce test est le suivant. On sait que si lhypothse nulle est satisfaite, les deux
c
estimateurs non contraint j et contraint j doivent relativement proches lun de lautre, et que
donc la mme proprit doit tre vrifie pour le vecteur des des conditions du premier ordre
de la maximisation de la log varisemblance.
Definition 5.3. La statistique LMj du test du multiplicateur de Lagrange associe
au test unidirectionnel H0 : j = a contre H1 : j = a admet la loi suivante sous H0 :
LMj =
log L (y, )
log L (y, )
I 1
2 (1)
(5.6)
o j et j dsignent respectivement les estimateurs non contraint et contraint de

j .
Lestimateur I de la matrice diinformation de Fischer peut tre obtenu par :
N
I=
i=1
log L (yi , )
et o
log L (y, )
N
=
=
i=1
log L (yi , )
log L (yi , )
5.2. Tests de spcification des modles dichotomiques

Reste prsent tudier les tests de spcifications qui permettent dvaluer la qualit de
lajustement par les modles dichotomiques. Plusieurs solutions peuvent tre adoptes ce
niveau pour comparer les dirents modles : comparaison tant au niveau du choix de la
fonction F (.) quau niveau du choix des variables explicatuves xki . Par la suite, on notera
F (xi ) la quantit F xi . Les dirents critres prsents ici sont comme des fonctions de
perte et il ne faut pas croire trouver un critre optimal pour chaque situation.
Nombre de prdictions fausses : le critre scrit sous la forme
N
2
Nombre de fausses prdictions

i=1
(yi yi )
(5.7)
o yi = 1 si F (xi ) 1/2 et yi = 0 si F (xi ) < 1/2. Cette quantit donne le nombre de

fausses prdictions puisque (yi yi )2 si seullement yi = yi : cest dire dans le cas o yi = 1
51
alors que yi = 0, ou dans le cas o yi = 0 alors que yi = 1. Ce critre est souvent utilis en
analyse discriminante. Le problme avec ce critre est que lon considre de la mme faon
un individu ayant une probabilit pi = F (xi ) = 0.49 et un individu ayant une probabilit
pi = F (xi ) = 0 : on pnalise ces deux individus de la mme faon dans le cas dun chec
du modle (cest dire lorsque our les deux individus on a yi = 1) et on les valorise de la
mme faon en cas de russite. En, particulier, lorsque lon considre des vnements avec une
forte probabilit (par exemple de sortir du chmage) ou au contraire une trs faible probabilit
(par exemple de tomber malade), la plupart des modles obtiendront de bons rsultats selon ce
critre.
Somme des Carrs des Rsidus (SCR) : ce critre traditionnel scrit sous la forme
N
yi F (xi )
Somme des carrs des rsidus

i=1
(5.8)
Rappelons que dans les modles dichotomiques, on modlise la probabilit pi = E (yi ) =

F (xi ) . Ce critre ne soure pas de la critique prcdente concernant le critre du nombre
de fausses prdictions. Cest un crtre naturel puisquuil correspond la somme des carrs des
rsidus dans un modle de rgression linaire standard partir de laquell le R2 est construit.
Toutefois, lutilisation de ce critre ne peut pas tre dfendue de la mme faon dans le modle
linaire simple et dans les modles dichotomiques. En eet, nous avons vu que les modles
dichotomiques taient des modles htroscdastiques. Cest pourquoi Efron (1978) propose
une mesure analogue au R2 :
R2 de Efron (1978) = 1
N
i=1
yi F (xi )
N
i=1
(yi y)
(5.9)
o y = N 1 i=1 yi . Cette mesure alternative peut tre dfendue par une approche axiomatique
(cf. Efron 1978)L.
SCR pondre par les probabilits estimes : ce critre scrit sous la forme
2
yi F (xi )
SCR pondre
i=1
(5.10)
F (xi ) 1 F (xi )
La principale raison de prfrer ce critre la somme non pondre est la suivante. Il parat
raisonnable dattacher une plus grande perte aux erreurs faites en prvoyant des variables de
faible variance, tant donn quil est plus facile de prvoir des variables de faible variance que
des variables de plus forte variance. Ds lors, il parat raisonnable de pondrer la somme des
carrs des rsidus par un poids qui est inversement proprtionnel la variance.
Coecient de Corrlation des Carrs : ce critre scrit sous la forme
N
i=1
Coecient de corrlation des carrs

N
i=1
(yi y)
(yi y) F (xi )
N
i=1
(5.11)
F (xi ) F
Cette mesure est lie la SCR non pondre. Dans un modle de rgression standard,
cette mesure serait identique au R2 de Eron. Bien que cette galit ne soit pas vraie dans
52
les modles dichotomiques, les mmes critiques sappliquent au coecient de corrlation des
carrsqu la SCR.
Log - Vraisemblance : ce critre scrit sous la forme
N
Log-Vraisemblance log L y, =
yi log F xi
i=1
+ (1 yi ) log 1 F xi
(5.12)
Ce critre est particulirement bien adapt pour comparre des modles qui ne possdent pas
les mmes dimensions. En eet, on sait que si lon dsire tester r contraintes linaires sur les
c
paramtres la 2 log L y, j log L y, j suit asympotiquement un 2 (r) . Une normlisation de la quantit log L y, a t propose par McFadden pour se ramener une quantit
similaire un R2 :
R2 de McFadden (1974) = 1
log L y,
log L (y, 0)
(5.13)
o log L (y, 0) dsigne le maximum de la fonction de log vraisemblance obtenu lorsque tous les
coecients de la regrssion sont nuls lexception du terme constant.
53
6. Application
Proposer une application avec :
1. Problme conomique et spcification en variable latente
2. Estimation Logit Probit
3. Comparaison avec estimation non paramtrique (score maximum et semi paramtrique)
4. Calcul des cotes et des probabilits individuelles
5. Calcul des eets marginaux : calcul des elasticits moyennes selon les deux formules et
des elasticits individuelles
6. Vrification des calculs de lestimateur de la matrice de variance covariance asymptotique
7. Calcul des principaux critres dvaluation (R2 de McFadden etc..)
8. Tests dhypothse sur les paramtres : Wald, LRT et LM
****************
*** A FINIR ****
****************
54
A. Annexes
A.1. Rappels sur les notions de convergence
Les rappels proposs dans le cadre de cette section portent sur les direntes notions de convergence. Toutefois, la lecture de ces rappels doit ncessairement saccompagner dune tude
plus systmatique des fondements probabilistes de ces notions21 .
Considrons une squence de T v.a.r. {X1 , X2 , ..., Xi , ..., XT }, indices par i. Supposons que
lon souhaite tudier le comportement de la moyenne empirique de ces v.a.r. lorsque T augmente. On cherche ainsi dterminer le comportement asymptotique de la v.a.r. transforme,
X T , telle que :
T
1
XT =
Xi
(A.1)
T i=1
Pour cela, il convient dutiliser la notion de convergences.
A.1.1. Convergence en probabilit
La notion de convergence en probabilit est dfinie de la faon suivante :
Definition A.1. (Convergence en Probabilit) Soit {XT }
T =1 une squence de variables
alatoires scalaires. Cette squence converge en probabilit vers c, c C, si pour
toute valeurs arbitraires > 0 et > 0, il existe une valeur N, telle que T N :
P [|XT c| > ] <
Alors, on note :
XT c plim XT = c
(A.2)
(A.3)
Exprime autrement, cette dfinition signifie que pour un chantillon de taille infinie, la
probabilit que la ralisation de la variable XT dire de la valeur c de plus ou moins (
tant aussi petit que lon veut) est infrieure toute valeur aussi petite soit-elle. En dautres
termes, les ralisations de la variable XT sont concentres au voisinage de la valeur c.
Proprit Une suite de matrices de v.a.r. {XT }
T =1 , de dimension (m, n) ,converge en probabilit vers une matrice C, de dimension (m, n), si chaque lment de Xt converge en
probabilit vers llment correspondant de C. De faon plus gnrale, si lon considre
deux squences de v.a.r. {XT }T =1 et {YT }T =1 , de dimension (m, n) , alors :

p
XT YT
(A.4)
si et seulement si, la dirence entre les deux suites converge en probabilit vers zero :
p
XT YT 0
(A.5)
Enfin, il convient de rappeler deux proprits qui nous serons utiles dans la caractrisation
des distributions asymptotiques des estimateurs usuels.
21 Voir
par exemple, Mthodes Statistiques, Philippe Tassi, Economica 1989
55
Theorem A.2. (Thorme de Slutsky) Soit {XT }

T =1 une suite de (n, 1) vecteurs admettant une limite en probabilit dfinie par c, et soit g (.) une fonction continue en c,
satisfaisant g : Rn Rn , et ne dpendant pas de T, alors :
p
g (XT ) g (c)
(A.6)
Lide est la suivante. Si la fonction g (.) est continue, la quantit g (XT ) se situera au
voisinage de g (c) , ds lors que XT se situe au voisinage de c. En choisissant une valeur de
T susamment grande, la probabilit que la ralisation de XT se situe au voisinage de c
peut tre dfinie aussi proche de lunit que lon le dsire. Un exemple simple est le suivant.
Considrons deux squences de v.a.r. telles que plim X1,T = c1 et plim X2,T = c2 , alors
plim (X1,T + X2,T ) = c1 + c2 . La dmonstration de ce rsultat est immdiate ds lors que lon
montre que la fonction g (X1,T , X1,T ) = X1,T + X2,T est une fonction continue en (c1 , c2 ) .
Proprit 1 Une condition susante pour quune suite de v.a.r. {XT }T =1 converge en probabilit vers une constante relle c est :
lim E (XT ) = c
(A.7)
lim V (XT ) = 0
(A.8)
T
T
Lintuition de cette proprit est simple. Si pour un ordre T susamment grand, la variable
XT admet c pour esprance et a une variance qui tend vers 0, alors la fonction de distribution
de XT sera infiniment concentre autour de la valeur c.
A.1.2. Convergence en moyenne quadratique
Une forme de convergence plus restrictive que la convergence en probabilit est la convergence
en moyenne quadratique (m.s. pour mean square convergence).
Definition A.3. Une suite de suite de v.a.r. {XT }
T =1 converge en moyenne quadratique vers c, si pour tout > 0, il existe une valeur N , telle T N :
E (XT c)2 <
(A.9)
Alors, on note :
m.s.
XT c
(A.10)
Naturellement, tant donn cette dfinition, la convergence en moyenne quadratique implique

la convergence en probabilit, mais la rciproque nest pas vraie :
m.s.
XT c = XT c
La notion de convergence en m.q. nous permet alors dintroduire lingalit de Chebyshev.
Proposition A.4. (Ingalit de Chebyshev) Soit X une v.a.r. telle que la quantit
E (|X|r ) existe et soit finie pour r > 0. Pour tout > 0, et toute valeur de c, on
montre que :
r
E (|X c| )
(A.11)
P {|X c| > }
r
56
Le rsultat selon lequel la convergence en moyenne quadratique implique la convergence

en probabilit peut tre dmontr partir de lingalit de Chebyshev. Pour cela, il sut de
m.s.
remarquer que si XT c, alors il existe un couple de valeurs positives (, ) et une valeur N,
2
tel que E (XT c) < 2 , pour tout T N . Il sensuit que :
E |X c|2
E (X c)2
=
2
2
< T N
Lingalit de Chebyshev implique alors que :

P {|X c| > } < T N
p.
Donc, on montre ainsi que XT c.

A.1.3. Convergence en loi
Le troisime type de convergence que nous utiliserons cette anne est la convergence en loi ou
convergence en distribution.
Theorem A.5. (Thorme de Paul Levy) Soit {XT }
T =1 une suite de v.a.r. et soit FXT (x)
la fonction de distribution cumulative de XT . Si XT converge en loi vers une v.a.r.
X admettant FX (x) pour fonction caractristique, alors :
lim FXT (x) = FX (x)
x R
(A.12)
On note alors :
L
loi
XT X
ou XT X
(A.13)
Un certain nombre de proprits nous serons particulirement utiles par la suite :

Proprit 1 La convergence en probabilit implique la convergence en loi :
p
XT X 0 = XT X
(A.14)
Proprit 2 La convergence en loi vers une constante relle implique la convergence en probabilit :
p
L
(A.15)
c R XT c = XT c
T
Proprits 3 Soient deux suites de v.a.r. {XT }

T =1 et {YT }T =1 telle que XT X et YT
c, alors :
L
(i) XT + YT X + c
L
(ii) XT YT c X
L X
T
(iii) X
YT c avec c = 0
L
Proprit 4 Soient XT et X des vecteurs alatoires de Rp , tels que XT X ,et soit g (.)
une fonction continue dfinie de Rp and Rn , alors :
L
g (XT ) g (X)
T
(A.16)
57
Bibliographie
Amemiya T. (1976), The ML, the Minimum Chi-*Square and the Non Linear Weighted Least
Squares Estimator in the General Qualtitative Response Model, Journal of the Ameraican
Statistical Association, 71, 347-351
Amemiya T. (1981), Qualitative Response Models : A Survey, Journal of Economic Litterature, 19(4), 481-536
Amemiya T. (1985), Advanced Econometrics, Cambridge, Harvard University Press.
Alban T. (2000), Economtrie des Variables Qualitatives, Dunod.
Berkson J. (1944), Application of the Logistique Function to Bio-Assay, JASA, 39, 357-365.
Berkson J. (1951), Why I prefer Logit to Probit, Biometrics, 7, 327-339.
Colletaz G. (2001), Modles Variables Expliques Qualitatives, Mimo Universit Orlans
Davidson R. et MacKinnon J.G. (1984), Convenient Tests for Logit and Probit Models,
Journal of Econometrics, 25, 241-262.
Gourieroux C. (1989), Economtrie des Variables Qualitatives, Economica.
Gourieroux C. et Montfort A. (1981), Asymptotic Properties of the Maximum Likelihood
Estimator in Dichotomous Logit Models, Journal of Econometrics, 17, 83-97.
Greene W.H. (1997), Econometric Analysis, Londres, Prentice Hall.
Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), Econometric Foundations, Cambridge
University Press.
Klein R.W. et Spady R.H. (1993), An Ecient Semi Parametric Estimator for Binary Response
Models, Econometrica, 61, 387-421
Maddala. G.S. (1983), Limited-dependent and Qualitative Variables in Econometrics, Econometric Society Monographs, 3, Cambrige University Press.
Morimune K. (1979), Comparisons of Normal and Logistic Models in the Bivariate Dichitomous
Analysis, Econometrica, 47, 957-975.
Radner R. et Miller L. (1970), Demand and Supply in U.S. Higher Education : A Progress
Report, American Economic Review, 60.
Spector L.C. et Mazzeo M. (1980), Probit Analysis and Economic Education, Journal of
Economic Education, 11(2), 37-44
Tobin J. (1958), Estimation of Relationships for Limited Dependent Variables, Econometrica,
26, 24-36.
Figure A.1: Lconomie a travers les prix nobel, Problmes Economiques 2001
58

Qualitatif Chapitre1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Qualitatif Chapitre1

Transféré par

Droits d'auteur :

Formats disponibles

MASTER ECONOMETRIE ET

STATISTIQUE APPLIQUEE (ESA)

Economtrie des Variables Qualitatives

January 21, 2003

Economtrie des Variables Qualitatives. Cours C. Hurlin

Economtrie des Variables Qualitatives. Cours C. Hurlin

Economtrie des Variables Qualitatives. Cours C. Hurlin

Economtrie des Variables Qualitatives. Cours C. Hurlin

1. Modles Dichotomiques Univaris

si lvnement sest ralis pour lindividu i

Economtrie des Variables Qualitatives. Cours C. Hurlin

1.1. Spcification linaire des variables endognes dichotomiques

o = ( 1 ... K ) RK dsigne un vecteur de K paramtres inconnus et o les perturbations

Economtrie des Variables Qualitatives. Cours C. Hurlin

Figure 1.1: Ajustement Linaire dune Variable Endogne Dichotomique

Economtrie des Variables Qualitatives. Cours C. Hurlin

V (i ) = E 2i = (1 xi ) Prob (yi = 1) + (xi ) Prob (yi = 0)

Sachant que daprs la relation (1.4) on a pi = xi , on en dduit que :

1.2. Modles Logit et Probit

o la fonction F (.) dsigne une fonction de rpartition. La choix de la fonction de rpartition

Economtrie des Variables Qualitatives. Cours C. Hurlin

Dans le cas du modle logit, la fonction de rpartition F (.) correspond la fonction

1.3. Comparaison des modles probit et logit

3 La variable y tant dichotomique, la probabilit dapparition de lvnement complmentaire y = 0 est

Economtrie des Variables Qualitatives. Cours C. Hurlin

A cette fonction de rpartition correspond une variance de 2 / 32 . Ainsi, il convientde

Economtrie des Variables Qualitatives. Cours C. Hurlin

utilisant la normalisation de la variance, on peut aussi retenir comme approximation un facteur / 3

Economtrie des Variables Qualitatives. Cours C. Hurlin

Figure 1.2: Estimation dun Modle Logit

0.4 P pour tous les paramtres lexception de la constante

0.4 P + 0.5 pour la constante

et les approximations suivantes pour les modles logit et linaire :

0.25 L pour tous les paramtres lexception de la constante

0.25 L + 0.5 pour la constante

Economtrie des Variables Qualitatives. Cours C. Hurlin

Figure 1.3: Estimation dun Modle Probit

Economtrie des Variables Qualitatives. Cours C. Hurlin

Economtrie des Variables Qualitatives. Cours C. Hurlin

Figure 1.4: Dirence des Fonctions de Rpartition (w) (w)

Deuximement, il existe une proprit particulirement intressante propre au modle logit,

Economtrie des Variables Qualitatives. Cours C. Hurlin

En eet, on sait que la probabilit pi dsigne la probabilit associe lvnement yi = 1,

Proposition 1.7. Dans un modle logit, un accroissement dune unit de la variable

Economtrie des Variables Qualitatives. Cours C. Hurlin

Reussite passage en post graduate

Cote de la russite en Post-Graduate

exp j . Si lon note ci la cote initiale et ci la cote obtenue aprs variation de la

Exemple : Considrons lchantillon de Spector et Mazzeo.. Nous avons vu que le 10e`me

Economtrie des Variables Qualitatives. Cours C. Hurlin

tablir quelle est la variation de la probabilit de lvnement yi = 1 en cas de variation dune

Economtrie des Variables Qualitatives. Cours C. Hurlin

Economtrie des Variables Qualitatives. Cours C. Hurlin

Dans le cas o = 0, on retrouve lcriture des modles dichotomiques propose jusqu

Economtrie des Variables Qualitatives. Cours C. Hurlin

Ce modle peut galement sexprimer sous la forme :

o la fonction F (.) dsigne la fonction de rpartition associe la loi des perturbations i .

avec = / et i = i /, i (1, N ) . En dautres termes, la dtermination de la probabilit

Economtrie des Variables Qualitatives. Cours C. Hurlin

On suppose que la variance des perturbations i.i.d. i est gale 2i = 2 , i (1, N ) . Ds

avec 1 = ( 1 ) / et 2 = 2 /. Seuls deux paramtres 1 et 2 seront estims, alors quil

Economtrie des Variables Qualitatives. Cours C. Hurlin

avec 1 = ( 1 ) / 3 et 2 = 2 / 3. En eet, dans ce cas les perturbations normalises