Probit Et Logit

MASTER SIADM
2021-2022
PROBIT et LOGIT
Réalisé par :
ABDENASSAR Zineb
AIT BENAAMARA Hiba
AIT OULAHIANE Najat
FADIL Anas
MOUISSET Rida
ZEMMAMA Youness
PLAN
Introduction
I. Un modèle des données dichotomiques
II. Le modèle des probabilités linéaires
III. Les modèles PROBIT et LOGIT
a. L’estimation du maximum de vraisemblance
b. Les effets marginaux
c. Le pseudo R2
IV. Comparaison entre PROBIT et LOGIT
V. Application du PROBIT et LOGIT sur STATA et SPSS
Conclusion
Introduction
Depuis plusieurs années, on peut constater un développement accru des capacités

informatiques qui permet de plus en plus de constituer et d’exploiter des bases de données
afin de comprendre, décrire et d’analyser plusieurs phénomènes économiques.
Les données statistiques disponibles sur ces bases de données sont de nature différentes :
des variables quantitatives (PIB, revenus, chiffre d’affaire …) et des variables qualitatives (la
catégorie socio-professionnelle, d’acheter ou de ne pas acheter un certain produit, le niveau
des études …).
L’étude quantitative fournit une vision globale du phénomène, tandis que l’étude qualitative
est basée sur des données subjectives, interprétatives et contextuelles qui fournissent une
description complète et détaillée.
Les méthodes d’inférence doivent être choisies en tenant compte de la nature de la donnée
expliquée. Les méthodes spécifiques à la variable binaire à expliquer tels que : décision
d’acheter ou de ne pas acheter un produit, obtenir un diplôme, travailler ou non .... seront
l’objet de ce travail, il s’agit des modèles à choix binaires (Probit et Logit)
I. Un modèle des données dichotomiques
Les données qualitatives ne s'expriment pas par une valeur numérique. On distingue :
- Les variables qualitatives nominales : Elles ne peuvent pas être hiérarchisées, par
exemple situation matrimoniale : célibataire, marié, divorcé, veuf
- Les variables qualitatives ordinales : Elles peuvent être classées les unes par rapport
aux autres, par exemple : faible, moyen, fort
- Les variables qualitatives binaires : Elles peuvent prendre K modalités disjointes. Si

K=2, on dit que la variable est dichotomique, par exemple le sexe : homme et femme
Au niveau de ce travail, la question qui se pose est de savoir comment représenter une
variable dichotomique dans le cadre d’un modèle économétrique ?
Le recours à des modèles spécifiques lorsque la variable endogène est dichotomique relève
de l’incapacité du modèle linéaire général à être mis en œuvre.
Ces modèles sont utilisés dans plusieurs secteurs lorsque la variable à expliquer ne peut
prendre que deux modalités, par exemple :
- Marketing : achat ou non achat

- Médecine : infecté ou non infecté
- Finance : remboursement du prêt ou non remboursement
Supposons que l’on s’intéresse au type d’institution où un étudiant i poursuit ces études. La
variable dépendante y i représente le type d’institution choisi par l’étudiant i qui prend ici
deux valeurs possibles « institution privée » ou « institution publique » :
0 Si l’étudiant i poursuit ces études dans une institution privée

yi =
1 Si l’étudiant i poursuit ces études dans une institution publique
Le choix du type d’institution peut être expliqué en fonction de variables exogènes (par
exemple le revenu, la région d’habitation, la composition familiale, etc.). Une telle variable y i
prenant deux valeurs possibles est une variable dichotomique.
De nombreux phénomènes économiques peuvent être modélisés comme un choix entre
deux alternatives possibles où on associe une variable quantitative (ou codage) au caractère
qualitatif. Nous cherchons à modéliser une alternative ( y i=0 ou1 ) et donc à estimer la
probabilité Pi associée à l’événement ( y i=1).
II. Le modèle des probabilités linéaires (LPM)
Quand la variable qualitative dépendante est binaire ou dichotomique (0/1), le modèle OLS
est appelé modèle de probabilité linéaire (Linear Probability Model)
Considérons l’exemple d’un modèle de régression simple où d’un individu i, propriétaire

d’une voiture selon son revenu :
y i=β 0 + β 1 x i +ε i
y i : La variable endogène qui prend les valeurs 1 si l’individu i est propriétaire d’une voiture
et 0 dans le cas contraire.
x i : La variable exogène qui représente le revenu en dirhams de l’individu i,
ε i : L’erreur de spécification du modèle
β 0 et β 1 : Les paramètres à estimer
En faisant l’hypothèse classique de l’espérance de l’erreur nulle :
E( ε ¿¿ i)=0 ¿ et E( yi )=β 0 + β 1 x i
Forme matricielle Y = Xβ+ ε
La valeur prévue de la variable à expliquer y i peut s’interpréter de la manière suivante :
Soit Pi=Prob ( y i=1 ) d’où Prob ( y i =0 ) =1−Pi
E ( y i ) =1× Prob ( y i=1 ) +0 × Prob ( y i=0 )=Pi
Soit : Pi=β 0 + β 1 x i= X β ; ∀ i
Puisque la variable y i ne pouvant prendre que deux valeurs (0 et 1), l’erreur ne peut donc
prendre que deux valeur :
Pour la probabilité Pi : 1=β 0 + β 1 x i +ε i
ε i=1−(β ¿ ¿ 0+ β 1 x i)¿
Pour la probabilité 1−Pi : 0=β 0+ β1 x i+ ε i
ε i=−( β ¿ ¿ 0+ β1 xi ) ¿
Puisque l’erreur ne peut prendre que deux valeurs, elle suit donc une loi discrète,
l’hypothèse de normalité des erreurs n’est donc pas vérifiée.
La variance de l’erreur est donnée par :
V ( ε i ) =E ( ε 2i )=Pi ×¿ ¿
On sait que : Pi=β 0 + β 1 x i= Xβ ;∀ i
Alors :
V ( ε i ) =E ( ε i )=Pi ×(1−Pi ) +(1−Pi )×(−Pi )

2 2 2
V ( ε i ) =E ( ε 2i )=(1−Pi )×[ Pi ×(1−P i)+ (−Pi ) ]

2
V ( ε i ) =E ( ε i )=(1−Pi )×[ Pi−Pi + Pi ]

2 2 2
V ( ε i ) =E ( ε 2i )=Pi ×(1−Pi )
Cette dernière expression montre que la variable d’erreur du modèle est hétéroscédastique
parce que la probabilité Pi n’est pas constante vu qu’elle varie d’un individu à l’autre.
Supposant qu’on utilise l’estimateur OLS robuste pour remédier au problème

d’hétéroscédasticité, on obtient l’estimateur ^β d’où Y^ = X ^β . Nous n’avons aucune
restriction sur la valeur que X ^β peut prendre, alors la probabilité obtenue (
Pi=β 0 + β 1 x i= Xβ ¿n’appartient pas forcement à l’intervalle [0 ; 1] ce qui ne respecte pas la
contrainte que 0 ≤ Pi ≤ 1. Pour ces raisons, le modèle linéaire LPM n’est pas souvent utilisé
dans les modèles de choix discrets.
III. Les modèles PROBIT et LOGIT
Les modèles dichotomiques Probit et Logit admettent pour une variable expliquée, non pas
un codage quantitatif associé à la réalisation d’un évènement (comme dans le cas de la
spécification linéaire), mais la probabilité d’apparition de cet évènement,
conditionnellement aux variables exogènes. Ainsi, on considère le modèle suivant où la
fonction F(.) désigne une fonction de répartition:
Pi=Prob ( y i=1 )=F ( Xβ ) ; ∀ i=1 ,… , N
- Pour le modèle Probit, la fonction de répartition F ( Xβ ) correspond à la fonction de
répartition de la loi normale centrée réduite ∀ Xβ ∈ R :
2
Xβ −t
1
Pi=F ( Xβ ) =∫ e 2
dt=¿ ɸ( Xβ) ¿
−∞ √2 π
- Pour le modèle Logit, la fonction de répartition F ( Xβ ) correspond à la fonction
logistique ∀ Xβ ∈ R :
Xβ
( ) e 1
Pi=F Xβ = Xβ
= = Λ (Xβ)
1+e 1+ e−Xβ
a. L’estimation du maximum de vraisemblance
Le principe du maximum de vraisemblance consiste à choisir la valeur de Prob ( yi=1 ) qui

rende l’observation de cet échantillon la plus probable
La variable aléatoire Y est une variable dichotomique telle que :
Prob ( yi=1 )=G ( Xβ )
Et
Prob ( yi=0 )=1−Prob ( yi=0 )=1−G( Xβ)
La fonction G est la fonction Φ dans le cas du modèle Probit, ou Λ dans le cas du modèle
Logit.
La variable aléatoire y peut donc être modélisée comme une variable Bernoulli de paramètre
π =G(Xβ ). En particulier, la distribution de probabilité de Y :
• y i=1 est Prob ( y ¿¿ i=1)1 × Prob ( y ¿¿ i=0)1−1 =Prob( y ¿¿ i=1) ¿ ¿¿
• y i=0 est Prob ( y ¿¿ i=1)0 × Prob ( y ¿¿ i=0)1−0=Prob ( y ¿¿ i=0)¿ ¿ ¿
Prob (Y = y ¿¿ i) ¿ = Prob ( y ¿¿ i=1) y × Prob ( y ¿¿i=0)1− y =G( Xβ) y (1−G( Xβ))1− y ¿¿

i i i i
Supposons à présent que l’on observe un échantillon indépendantes et identiquement

distribuées des variables (Y,X) de taille n. Notons cet échantillon :
χ n = {(Y1, X1),(Y2, X2),...,(Yn, Xn)} .
En utilisant que chaque variable Yi|Xi possède la distribution Bernoulli rappelée ci-dessus, et
en notant que ces variables sont indépendantes, la fonction de vraisemblance de
l’échantillon χ n est alors donnée par :
y1
L(Y , β)=G( X 1 β ) ¿ ¿
Par le principe du maximum de vraisemblance, nous cherchons à calculer la valeur du

paramètre β qui maximise la fonction L(Y , β). Il est équivalent de chercher le paramètre qui
maximise la log-vraisemblance :
n
l (Y , β )=lnL ( Y , β )=∑ [ y i ln ⁡{G ¿ ( Xβ ) }+ ( 1− y i ) ln ⁡{1−G ( Xβ ) }] ¿
i=1
Les coefficients des modèles Probit et Logit sont obtenus en maximisant la fonction log de
vraisemblance.
n
MAX ∑ [ y i ln ⁡{G ¿ ( Xβ ) }+ ( 1− y i ) ln ⁡{1−G ( Xβ ) }]¿
i=1
Les estimateurs du maximum de vraisemblance sont cohérents, asymptotiquement normaux

et asymptotiquement efficaces si les hypothèses sont vérifiées.
b. Les effets marginaux
Contrairement aux modèles linéaires, les paramètres β associés aux variables explicatives x i
sont des valeurs numériques sans interprétation économique directe en raison du problème
de la normalisation de la variance résiduelle. Seul le signe de ces paramètres qui est
l’information directe réellement utilisable indiquant l’impact (la hausse ou la baisse) de la
variable exogène associée à la probabilité de l’événement considéré.
On peut en outre calculer les effets marginaux qui mesurent la sensibilité de la
Pi=Prob ( y i=1 ) par rapport à des variations dans les variables explicatives xi. Ils dépendent
de la dérivée de F ( Xβ):
∂ P i ∂ F( Xβ)
=
∂ xi ∂ xi
- Pour le modèle Probit :
2
−(Xβ)
∂ P i ∂ ɸ( Xβ) 1
= = e 2
β
∂ xi ∂ xi √2 π
- Pour le modèle Logit :
∂ P i ∂ Λ( Xβ) e
Xβ
= = β
∂ xi ∂ xi Xβ 2
(1+e )
Par définition la fonction de répartition est positive, alors le signe de la dérivée correspond à
celui de β . L’augmentation d’une variable associée à un coefficient positif induit une hausse
de la probabilité de réalisation de l’événement y i=1. Inversement, la hausse d’une variable

associé à un coefficient négatif induit une baisse de la probabilité de réalisation de
l’événement y i=1.
c. Le pseudo R2
Le coefficient de détermination R² n’est pas interprétable en termes d’ajustement du

modèle, c’est pourquoi on fait recours à une statistique appelée le pseudo R².
Le pseudo R² est un indice d’ajustement qui compare la valeur de la vraisemblance (Lu) avec
la valeur de la vraisemblance si le modèle est seulement estimé avec un coefficient constant
β 1sans aucune variable explicative LR .
Le pseudo R² donnée par McFadden est :
2 log ( Lu)
R =1−
log ( LR )
Par construction de la vraisemblance dans le modèle binaire, la vraisemblance est toujours

plus petite ou égale à 1. Pour un modèle bien ajusté, la vraisemblance non restreinte Ludoit
être proche de 1, donc log ( Lu )est proche de 0, et le pseudo R² est proche de 1. Au contraire,
pour un modèle mal ajusté, Lu sera proche de LR et le pseudo R² est proche de zéro.
Les interprétations du pseudo R² de McFadden (également connu sous le nom d'indice de

rapport de vraisemblance) ne sont pas claires; cependant, il peut aller de 0 à 1, mais
n'atteindra ou ne dépassera jamais 1 en raison de son calcul.
Afin d’estimer la qualité de la régression logistique, la valeur du pseudo R², l’estimation du R²

de McFadden est prise en compte.
IV. Comparaison entre PROBIT et LOGIT
Historiquement, les modèles Logit ont été introduits comme des approximations de modèles
Probit permettant des calculs plus simples. Dès lors, il n’existe que peu de différences entre
ces deux modèles dichotomiques. Ceci s’explique par la proximité des familles de lois
logistiques et normales. Les deux fonctions de répartition Λ(w) et Φ (w) sont en effet
sensiblement proches, comme on peut le constater à partir du tableau si dessous
 Tableau : Comparaison des Fonctions de Répartition de la loi normale Φ (w) et du loi

de type logistique Λ λ (w)
Mais, cette similitude est encore grande si l’on considère une loi logistique transformée de
sorte à ce que la variance soit identique à celle de la loi normale réduite. En effet, nous
avons vu que la loi logistique usuelle admet pour fonction de répartition,
1
Λ(w) = −w
1+ e
Cette loi a une espérance nulle et une variance égale à π2/3. C’est pourquoi, il convient de
normaliser la loi logistique de sorte à obtenir une distribution de variance unitaire,
comparable à celle de la loi normale réduite. On définit pour cela une loi logistique
transformée, dont la fonction de répartition Λλ (w), ∀w ∈ R est :
e λw 1
Λλ (w) = λw =
1+ e 1+ e−λw
À cette fonction de répartition correspond une variance de π 2/ 3λ2 . Ainsi, il convient de

comparer la loi normale centrée réduite à la loi logistique transformée, de paramètre λ = π/
√ 3, dont la fonction de répartition est définie comme suit :
1
Λ (w) = Λπ/ √3 (w) = −πw
√3
1+ e
Cette loi admet par construction une variance unitaire. On observe ainsi à partir du tableau
précédant, que les réalisations de cette fonction Λπ/ √3 (.) sont très proches de celles de la
fonction Φ (.) associée à la loi normale réduite et ce notamment pour des valeurs de w
proche de 0, c’est à dire des valeurs dites centrales, car proches de la moyenne de la
distribution. Certains auteurs proposent d’utiliser d’autres paramètres λ afin de mieux
reproduire encore la fonction de répartition de la loi normale pour des valeurs centrales. En
particulier AMIMEYA (1981) propose d’utiliser un paramètre λ = 1.6 et donc de retenir la loi
logistique transformée Λ1.6 (.). Comme on peut l’observer sur le tableau, la fonction de
paramètre 1.6 est encore plus proche de Φ (.) que la fonction de paramètre π/ √3. Pour les
valeurs centrales proches de 0.
Alors quoiqu’il en soit, il apparaît ainsi que les fonctions de répartition des lois normales
centrées réduites et des lois logistiques simples ou transformées sont extrêmement proches.
Par conséquent, les modèles Probit et Logit donnent généralement des résultats
relativement similaires.
Par contre La question du choix entre les deux modèles ne présente que peu d’importance.
Toutefois, il convient d’être prudent quant à la comparaison directe des deux modèles.
En effet, les valeurs estimées des paramètres dans les modèles Probit et Logit ne sont pas
directement comparables puisque les variances des lois logistiques et normales réduite ne
sont pas identiques. Cette différence de variance implique que la normalisation des
coefficients β n’est pas identique et que par conséquent les estimateurs de ces paramètres
obtenus dans les deux modèles ne fournissent pas des réalisations identiques.
V. Application du PROBIT et LOGIT sur STATA et SPSS

Conclusion

Probit Et Logit

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Probit Et Logit

Transféré par

Droits d'auteur :

Formats disponibles

MASTER SIADM

I. Un modèle des données dichotomiques

II. Le modèle des probabilités linéaires

III. Les modèles PROBIT et LOGIT

a. L’estimation du maximum de vraisemblance

b. Les effets marginaux

IV. Comparaison entre PROBIT et LOGIT

V. Application du PROBIT et LOGIT sur STATA et SPSS

Depuis plusieurs années, on peut constater un développement accru des capacités

- Les variables qualitatives binaires : Elles peuvent prendre K modalités disjointes. Si

- Marketing : achat ou non achat

0 Si l’étudiant i poursuit ces études dans une institution privée

II. Le modèle des probabilités linéaires (LPM)

Considérons l’exemple d’un modèle de régression simple où d’un individu i, propriétaire

x i : La variable exogène qui représente le revenu en dirhams de l’individu i,

ε i : L’erreur de spécification du modèle

β 0 et β 1 : Les paramètres à estimer

En faisant l’hypothèse classique de l’espérance de l’erreur nulle :

Forme matricielle Y = Xβ+ ε

La valeur prévue de la variable à expliquer y i peut s’interpréter de la manière suivante :

Soit Pi=Prob ( y i=1 ) d’où Prob ( y i =0 ) =1−Pi

E ( y i ) =1× Prob ( y i=1 ) +0 × Prob ( y i=0 )=Pi

Pour la probabilité Pi : 1=β 0 + β 1 x i +ε i

Pour la probabilité 1−Pi : 0=β 0+ β1 x i+ ε i

La variance de l’erreur est donnée par :

On sait que : Pi=β 0 + β 1 x i= Xβ ;∀ i

V ( ε i ) =E ( ε i )=Pi ×(1−Pi ) +(1−Pi )×(−Pi )

V ( ε i ) =E ( ε 2i )=(1−Pi )×[ Pi ×(1−P i)+ (−Pi ) ]

V ( ε i ) =E ( ε i )=(1−Pi )×[ Pi−Pi + Pi ]

Supposant qu’on utilise l’estimateur OLS robuste pour remédier au problème

un codage quantitatif associé à la réalisation d’un évènement (comme dans le cas de la

spécification linéaire), mais la probabilité d’apparition de cet évènement,

conditionnellement aux variables exogènes. Ainsi, on considère le modèle suivant où la

fonction F(.) désigne une fonction de répartition:

Pi=Prob ( y i=1 )=F ( Xβ ) ; ∀ i=1 ,… , N

- Pour le modèle Probit, la fonction de répartition F ( Xβ ) correspond à la fonction de

répartition de la loi normale centrée réduite ∀ Xβ ∈ R :

- Pour le modèle Logit, la fonction de répartition F ( Xβ ) correspond à la fonction

a. L’estimation du maximum de vraisemblance

Le principe du maximum de vraisemblance consiste à choisir la valeur de Prob ( yi=1 ) qui

La variable aléatoire Y est une variable dichotomique telle que :

Prob ( yi=1 )=G ( Xβ )

• y i=1 est Prob ( y ¿¿ i=1)1 × Prob ( y ¿¿ i=0)1−1 =Prob( y ¿¿ i=1) ¿ ¿¿

• y i=0 est Prob ( y ¿¿ i=1)0 × Prob ( y ¿¿ i=0)1−0=Prob ( y ¿¿ i=0)¿ ¿ ¿

Prob (Y = y ¿¿ i) ¿ = Prob ( y ¿¿ i=1) y × Prob ( y ¿¿i=0)1− y =G( Xβ) y (1−G( Xβ))1− y ¿¿

Supposons à présent que l’on observe un échantillon indépendantes et identiquement

χ n = {(Y1, X1),(Y2, X2),...,(Yn, Xn)} .

Par le principe du maximum de vraisemblance, nous cherchons à calculer la valeur du

Les estimateurs du maximum de vraisemblance sont cohérents, asymptotiquement normaux

de la normalisation de la variance résiduelle. Seul le signe de ces paramètres qui est

l’information directe réellement utilisable indiquant l’impact (la hausse ou la baisse) de la

variable exogène associée à la probabilité de l’événement considéré.

On peut en outre calculer les effets marginaux qui mesurent la sensibilité de la

- Pour le modèle Probit :

- Pour le modèle Logit :

de la probabilité de réalisation de l’événement y i=1. Inversement, la hausse d’une variable

Le coefficient de détermination R² n’est pas interprétable en termes d’ajustement du

Le pseudo R² donnée par McFadden est :

Par construction de la vraisemblance dans le modèle binaire, la vraisemblance est toujours

Les interprétations du pseudo R² de McFadden (également connu sous le nom d'indice de

Afin d’estimer la qualité de la régression logistique, la valeur du pseudo R², l’estimation du R²

IV. Comparaison entre PROBIT et LOGIT

 Tableau : Comparaison des Fonctions de Répartition de la loi normale Φ (w) et du loi

À cette fonction de répartition correspond une variance de π 2/ 3λ2 . Ainsi, il convient de