Vous êtes sur la page 1sur 15

TD4

Modèles Logit et Probit

Nous disposons de la base Faillite où les ratios suivants sont observés sur 46 entreprises :

Y =1 si l’entreprise a fait faillite, 0 sinon


X1 : Flux de trésorerie / Dette totale (Taux de couverture)
X2 : Résultat net / Actif (Rentabilité)
X3 : Actif à court terme / Dette à court terme (Capacité de remboursement)
X4 : Actif à court terme / Ventes

Nous cherchons à déterminer les facteurs pouvant expliquer la faillite de certaines


entreprises.

QUESTIONS

1) Quel est le type de chacune des 5 variables ?

Les variables X1, X2, X3 et X4 sont des variables quantitatives continues puisque ce sont des
ratios financiers. Ils prennent donc des valeurs appartenant à l’ensemble des nombres réels.
La variable Y est une variable qualitative dichotomique.

2) D’après vous, est-ce qu’il semble y avoir des différences de distribution des
variables explicatives selon les modalités de la variable expliquée ? Justifiez.

En se référant à la figure 5 on observe de fortes différences dans les distributions des


variables « Taux de couverture », « Rentabilité » et « Capacité de remboursement » selon les
modalités prises par la variable Y. En effet la médiane du taux de couverture des entreprises
n’ayant pas fait faillite est supérieure à la quasi-totalité des valeurs de taux de couverture des
entreprises ayant fait faillite.
En ce qui concerne la rentabilité, on observe que le 1er quartile de rentabilité pour les
entreprises n’ayant pas fait faillite est supérieur au 3e quartile de rentabilité des entreprises
ayant fait faillite. On note également que la distribution de la rentabilité est bien plus groupée
pour les entreprises n’ayant pas fait faillite.
Enfin pour la capacité de remboursement on observe une situation similaire à celle du taux de
couverture. Le 1er quartile de la capacité de remboursent des entreprises n’ayant pas fait
faillite pourrait être considéré comme une valeur atypique de capacité de remboursement
des entreprises ayant fait faillite.
En ce qui concerne la dernière variable explicative X4 on note également une différence de
distributions mais qui est beaucoup moins marqué que dans le cas des autres variables.

3) Vérifier la corrélation entre les différents ratios. Qu’en concluez-vous ?


On observe une forte corrélation entre les variables X1 et X2. Cette corrélation élevée (0.85)
peut impacter l’estimation faite de la régression linéaire. On en conclue qu’il ne serait
probablement pas judicieux d’utiliser l’ensemble des variables pour effectuer la régression et
qu’il faudra donc avoir recours à des méthodes de sélections des variables qui permettrons de
choisir le meilleur modèle n’incluant pas simultanément les variables X1 et X2.
On note également une corrélation entre X1 et X3 (0.58) et X2 et X3 (0.47), mais de tels
niveaux de corrélations ne sont pas alarmants.

4) Pour chaque méthode de sélection des variables explicatives dans le cadre d’une
estimation de type Logit quel est le modèle retenu pour l’estimation ? Indiquer
quelle figure correspond à quelle méthode.

La méthode 1 correspond à une méthode Ascendante. Le modèle retenu est le modèle


expliquant la variable Y en fonction des variables X1 et X3.
La méthode 2 est une méthode Descendante. Le modèle retenu est le même que pour la
méthode Ascendante.
Enfin, la méthode 3 est la méthode « both » qui retient à nouveau le même modèle.

5) Calculer la statistique du Chi2 du test de significativité du modèle.

On considère le modèle en Fig.6 qui correspond au modèle retenu à la question précédente.


La statistique du Chi2 est égale à deux fois la différence entre la log vraisemblance du modèle
ne comportant que la constante (null deviance sur la figure) et la log vraisemblance du
modèle qui a été estimé (residual deviance sur la figure). On obtient donc une statistique du
Chi2 égale à 2 x (63.421-28.364)=70.114

6) Cette statistique suit une loi du Chi2 à combien de degrés de liberté ? En vous
référant à la table du Chi2, la p-value de ce test est-elle inférieure à 5% ? A 1% ? A
0.5% ? Qu’en concluez-vous ?

Cette statistique suit une loi du Chi2 à 2 degrés de liberté puisqu’il y a deux variables dans le
modèle estimé. En se référant à la ligne correspondant à 2 degrés de liberté dans la table on
peut voir que la valeur de la statistique que nous avons calculé, 70.114, est bien supérieure à
la valeur correspondant au seuil de 5%, de 1% et de 0.5%. On peut donc en conclure que
notre modèle est significatif, c’est-à-dire qu’au moins un des coefficients estimés est
effectivement non-nul.

7) Calculer le R2 de Mac Fadden du modèle sélectionné. Conclure.

Le R2 de Mac Fadden se calcule en faisant 1 moins le rapport entre la residual deviance et la


null deviance. On obtient donc :

1-(28.364/63.421)=1-0.447=0.553.
On peut donc conclure que le modèle est plutôt un bon modèle. En effet, malgré le fait que le
R2 de McFadden puisse aller de 0 à 1, des valeurs entre 0.2 et 0.4 sont plutôt considérée
comme étant bonnes (de l’avis de McFadden lui-même).

8) Calculer les différents indicateurs concernant la qualité en termes de prévision du


modèle. Conclure.

On se réfère au tableau des prédictions en Figure 13.


Le taux de sensibilité calculé ici comme la capacité à prédire une faillite quand il y a
effectivement faillite. C’est égal à 18/(3+18). Le nombre de 1 correctement prédit sur le
nombre de 1 qui existe dans l’échantillon. On obtient un taux de 86%.

La spécificité est calculée comme la capacité à prédire une absence de faillite. C’est égal à
24/(24+1). Le nombre de 0 correctement prédit sur le nombre de 0 qui existent dans
l’échantillon. On obtient une spécificité de 96%.

La précision est calculée en divisant le nombre de 1 correctement prédit par le nombre de 1


prédits au total par le modèle. On obtient 18/(1+18)=95%.

Le taux de faux positifs est l’oppose de la spécificité (qu’on peut considéré comme le « taux
de vrais négatifs »). Il est donc de 4%. Enfin le taux d’erreur est le nombre de prédiction
incorrecte rapportée au nombre de prédiction totale. Soit 4/46=0.09%.

On peut donc conclure que notre modèle effectue un excellent travail de prédiction. Il repère
très bien les faillites, avec une sensibilité et une précision élevée. Il a un très faible taux
d’erreur et de faux positifs.

9) Interpréter les résultats de l’estimation.

Au vu des résultats à la figure 11 on peut voir que les deux coefficients associés aux variable
X1 et X3 sont significatifs (p-value < 0.05). Ces coefficients sont négatifs. On peut donc en
conclure que plus le taux de couverture est élevé (toutes choses égales par ailleurs) plus la
probabilité de faillite sera faible. Similairement plus la capacité de remboursement est élevée
(toutes choses égales par ailleurs) plus la probabilité de faillite sera faible.

10) Comment et de combien l’augmentation de la capacité de remboursement influe


la probabilité de faillite ?

On ne peut se référer à la valeur des coefficients pour répondre à cette question. Il faut donc
se référer à la figure 9 qui représente les effets marginaux. En moyenne une augmentation de
la capacité de remboursement de 1 fera chuter de 28% la probabilité de faillite d’une
entreprise.
11) Vérifier s’il n’existe pas des données pouvant influencer les résultats de
l’estimation.

On se réfère aux résidus (figure 12). On considère qu’une observation influe fortement les
résultats de l’estimation si la valeur du résidu pour cette observation est supérieure à 2 en
valeur absolue. Il y a une seule observation correspondant à ce cas est c’est l’observation n°
16.

12) On réestime le modèle précédent en utilisant un modèle de type Probit cette fois.
Répondez à nouveau aux questions 4,5,6,7,9 et 10 pour ce modèle.

Les méthodes pour répondre sont exactement les même, seules les valeurs changent. Je ne
rédige donc pas de correction pour cette question.

SORTIES

Figure 1 - Statistiques descriptives des variables

Figure 2 - Ecart-types des variables explicatives


Figure 3 - Matrice de corrélation des variables explicatives

Figure 4 - Histogramme des variables explicatives


Figure 5 - Boxplot des variables explicatives conditionnellement aux modalités de la variable expliquée
Figure 6 - Méthode 1 de sélection des variables
Figure 7 - Méthode 2 de sélection des variables
Figure 8 - Méthode 3 de sélection des variables

Figure 9 - Effets marginaux (modèle Logit)

Figure 10 - Effets marginaux (modèle Probit)


Figure 11 - Estimation du modèle (Logit)

Figure 12 - Résidus

Figure 13 - Tableau de prédiction (en ligne les modalités observées et en colonne les prédictions du modèle
Logit)
Figure 14 - Table de la loi du Chi2 (dl= degrés de libertés)
Figure 15 - Méthode 1 de sélection des variables
Figure 16 - Méthode 2 de sélection des variables
Figure 17 - Méthode 3 de sélection des variables
Figure 18 - Estimation du modèle (Probit)

Vous aimerez peut-être aussi