Académique Documents
Professionnel Documents
Culture Documents
2021-2022
PROBIT et LOGIT
Réalisé par :
ABDENASSAR Zineb
AIT BENAAMARA Hiba
AIT OULAHIANE Najat
FADIL Anas
MOUISSET Rida
ZEMMAMA Youness
PLAN
Introduction
c. Le pseudo R2
Conclusion
Introduction
Les données statistiques disponibles sur ces bases de données sont de nature différentes :
des variables quantitatives (PIB, revenus, chiffre d’affaire …) et des variables qualitatives (la
catégorie socio-professionnelle, d’acheter ou de ne pas acheter un certain produit, le niveau
des études …).
L’étude quantitative fournit une vision globale du phénomène, tandis que l’étude qualitative
est basée sur des données subjectives, interprétatives et contextuelles qui fournissent une
description complète et détaillée.
Les méthodes d’inférence doivent être choisies en tenant compte de la nature de la donnée
expliquée. Les méthodes spécifiques à la variable binaire à expliquer tels que : décision
d’acheter ou de ne pas acheter un produit, obtenir un diplôme, travailler ou non .... seront
l’objet de ce travail, il s’agit des modèles à choix binaires (Probit et Logit)
I. Un modèle des données dichotomiques
Les données qualitatives ne s'expriment pas par une valeur numérique. On distingue :
- Les variables qualitatives nominales : Elles ne peuvent pas être hiérarchisées, par
exemple situation matrimoniale : célibataire, marié, divorcé, veuf
- Les variables qualitatives ordinales : Elles peuvent être classées les unes par rapport
aux autres, par exemple : faible, moyen, fort
Au niveau de ce travail, la question qui se pose est de savoir comment représenter une
variable dichotomique dans le cadre d’un modèle économétrique ?
Le recours à des modèles spécifiques lorsque la variable endogène est dichotomique relève
de l’incapacité du modèle linéaire général à être mis en œuvre.
Ces modèles sont utilisés dans plusieurs secteurs lorsque la variable à expliquer ne peut
prendre que deux modalités, par exemple :
Supposons que l’on s’intéresse au type d’institution où un étudiant i poursuit ces études. La
variable dépendante y i représente le type d’institution choisi par l’étudiant i qui prend ici
deux valeurs possibles « institution privée » ou « institution publique » :
Le choix du type d’institution peut être expliqué en fonction de variables exogènes (par
exemple le revenu, la région d’habitation, la composition familiale, etc.). Une telle variable y i
prenant deux valeurs possibles est une variable dichotomique.
De nombreux phénomènes économiques peuvent être modélisés comme un choix entre
deux alternatives possibles où on associe une variable quantitative (ou codage) au caractère
qualitatif. Nous cherchons à modéliser une alternative ( y i=0 ou1 ) et donc à estimer la
probabilité Pi associée à l’événement ( y i=1).
Quand la variable qualitative dépendante est binaire ou dichotomique (0/1), le modèle OLS
est appelé modèle de probabilité linéaire (Linear Probability Model)
y i=β 0 + β 1 x i +ε i
y i : La variable endogène qui prend les valeurs 1 si l’individu i est propriétaire d’une voiture
et 0 dans le cas contraire.
E( ε ¿¿ i)=0 ¿ et E( yi )=β 0 + β 1 x i
Soit : Pi=β 0 + β 1 x i= X β ; ∀ i
Puisque la variable y i ne pouvant prendre que deux valeurs (0 et 1), l’erreur ne peut donc
prendre que deux valeur :
ε i=1−(β ¿ ¿ 0+ β 1 x i)¿
ε i=−( β ¿ ¿ 0+ β1 xi ) ¿
Puisque l’erreur ne peut prendre que deux valeurs, elle suit donc une loi discrète,
l’hypothèse de normalité des erreurs n’est donc pas vérifiée.
V ( ε i ) =E ( ε 2i )=Pi ׿ ¿
Alors :
V ( ε i ) =E ( ε 2i )=Pi ×(1−Pi )
Cette dernière expression montre que la variable d’erreur du modèle est hétéroscédastique
parce que la probabilité Pi n’est pas constante vu qu’elle varie d’un individu à l’autre.
Les modèles dichotomiques Probit et Logit admettent pour une variable expliquée, non pas
2
Xβ −t
1
Pi=F ( Xβ ) =∫ e 2
dt=¿ ɸ( Xβ) ¿
−∞ √2 π
logistique ∀ Xβ ∈ R :
Xβ
( ) e 1
Pi=F Xβ = Xβ
= = Λ (Xβ)
1+e 1+ e−Xβ
Et
Prob ( yi=0 )=1−Prob ( yi=0 )=1−G( Xβ)
La fonction G est la fonction Φ dans le cas du modèle Probit, ou Λ dans le cas du modèle
Logit.
La variable aléatoire y peut donc être modélisée comme une variable Bernoulli de paramètre
π =G(Xβ ). En particulier, la distribution de probabilité de Y :
En utilisant que chaque variable Yi|Xi possède la distribution Bernoulli rappelée ci-dessus, et
en notant que ces variables sont indépendantes, la fonction de vraisemblance de
l’échantillon χ n est alors donnée par :
y1
L(Y , β)=G( X 1 β ) ¿ ¿
n
l (Y , β )=lnL ( Y , β )=∑ [ y i ln {G ¿ ( Xβ ) }+ ( 1− y i ) ln {1−G ( Xβ ) }] ¿
i=1
Les coefficients des modèles Probit et Logit sont obtenus en maximisant la fonction log de
vraisemblance.
n
MAX ∑ [ y i ln {G ¿ ( Xβ ) }+ ( 1− y i ) ln {1−G ( Xβ ) }]¿
i=1
Contrairement aux modèles linéaires, les paramètres β associés aux variables explicatives x i
sont des valeurs numériques sans interprétation économique directe en raison du problème
Pi=Prob ( y i=1 ) par rapport à des variations dans les variables explicatives xi. Ils dépendent
de la dérivée de F ( Xβ):
∂ P i ∂ F( Xβ)
=
∂ xi ∂ xi
2
−(Xβ)
∂ P i ∂ ɸ( Xβ) 1
= = e 2
β
∂ xi ∂ xi √2 π
∂ P i ∂ Λ( Xβ) e
Xβ
= = β
∂ xi ∂ xi Xβ 2
(1+e )
Par définition la fonction de répartition est positive, alors le signe de la dérivée correspond à
celui de β . L’augmentation d’une variable associée à un coefficient positif induit une hausse
l’événement y i=1.
c. Le pseudo R2
Le pseudo R² est un indice d’ajustement qui compare la valeur de la vraisemblance (Lu) avec
la valeur de la vraisemblance si le modèle est seulement estimé avec un coefficient constant
β 1sans aucune variable explicative LR .
2 log ( Lu)
R =1−
log ( LR )
Historiquement, les modèles Logit ont été introduits comme des approximations de modèles
Probit permettant des calculs plus simples. Dès lors, il n’existe que peu de différences entre
ces deux modèles dichotomiques. Ceci s’explique par la proximité des familles de lois
logistiques et normales. Les deux fonctions de répartition Λ(w) et Φ (w) sont en effet
sensiblement proches, comme on peut le constater à partir du tableau si dessous
Mais, cette similitude est encore grande si l’on considère une loi logistique transformée de
sorte à ce que la variance soit identique à celle de la loi normale réduite. En effet, nous
avons vu que la loi logistique usuelle admet pour fonction de répartition,
1
Λ(w) = −w
1+ e
Cette loi a une espérance nulle et une variance égale à π2/3. C’est pourquoi, il convient de
normaliser la loi logistique de sorte à obtenir une distribution de variance unitaire,
comparable à celle de la loi normale réduite. On définit pour cela une loi logistique
transformée, dont la fonction de répartition Λλ (w), ∀w ∈ R est :
e λw 1
Λλ (w) = λw =
1+ e 1+ e−λw
Cette loi admet par construction une variance unitaire. On observe ainsi à partir du tableau
précédant, que les réalisations de cette fonction Λπ/ √3 (.) sont très proches de celles de la
fonction Φ (.) associée à la loi normale réduite et ce notamment pour des valeurs de w
proche de 0, c’est à dire des valeurs dites centrales, car proches de la moyenne de la
distribution. Certains auteurs proposent d’utiliser d’autres paramètres λ afin de mieux
reproduire encore la fonction de répartition de la loi normale pour des valeurs centrales. En
particulier AMIMEYA (1981) propose d’utiliser un paramètre λ = 1.6 et donc de retenir la loi
logistique transformée Λ1.6 (.). Comme on peut l’observer sur le tableau, la fonction de
paramètre 1.6 est encore plus proche de Φ (.) que la fonction de paramètre π/ √3. Pour les
valeurs centrales proches de 0.
Alors quoiqu’il en soit, il apparaît ainsi que les fonctions de répartition des lois normales
centrées réduites et des lois logistiques simples ou transformées sont extrêmement proches.
Par conséquent, les modèles Probit et Logit donnent généralement des résultats
relativement similaires.
Par contre La question du choix entre les deux modèles ne présente que peu d’importance.
Toutefois, il convient d’être prudent quant à la comparaison directe des deux modèles.
En effet, les valeurs estimées des paramètres dans les modèles Probit et Logit ne sont pas
directement comparables puisque les variances des lois logistiques et normales réduite ne
sont pas identiques. Cette différence de variance implique que la normalisation des
coefficients β n’est pas identique et que par conséquent les estimateurs de ces paramètres
obtenus dans les deux modèles ne fournissent pas des réalisations identiques.