Vous êtes sur la page 1sur 26

Techniques du Data Mining pour la

prédiction de faillite des entreprises et


la gestion du risque de crédit

Adil Belhouari
HEC - Montréal

- Journées de l’Optimisation 2005 -


09 Mai 2005
PLAN DE LA PRÉSENTATION

 Introduction

 Revue de littérature et principaux travaux

 Positionnement de la recherche

 Méthodologie et traitements

 Résultats résumés de la recherche

 Conclusion

 Discussion et recommandations

© Adil Belhouari - Journées de


l'Optimisation 2005 2
MISE EN CONTEXTE

ƒ Le risque de crédit est présent dans tous les contrats financiers et constitue la
principale source de pertes pour les institutions financières

ƒ Les défauts et les faillites ont atteint des niveaux sans précédent durant les cinq
dernières années touchant les plus grandes entreprises au monde (Enron corp. &
Worldcom corp.), dépassant $63 milliards durant le premier semestre de l’année
2002

ƒ la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance


dans l'industrie bancaire, suscitant le développement de nouveaux outils et moyens
permettant de minimiser les pertes

© Adil Belhouari - Journées de


l'Optimisation 2005 3
QUELQUES DÉFINITIONS

™ Défaillance des entreprises :


Un concept difficile à cerner car il n’y a pas de consensus en la matière :
défaut, faillite, détresse, vulnérabilité financière, liquidation
Deux définitions sont généralement retenues :

ƒ La liquidation judiciaire (code 02 – chapitre 11), concept purement juridique

ƒ La vulnérabilité financière (code 03 – chapitre 7), notion plus large


Le risque de défaillance est le risque de cessation de paiement des dettes

™ Le Credit scoring :
ƒ Une méthode statistique de détection précoce de la défaillance des entreprises en
les classant en firmes défaillantes et autres saines ou survivantes
ƒ Le scoring est utilisée également dans différents domaines liés au Marketing, au
recouvrement financier, au GRH…….

© Adil Belhouari - Journées de


l'Optimisation 2005 4
APERÇU JURIDIQUE
ƒ Augmentation du nombre d’entreprises qui se mettent sous la protection de la
loi 268 sur la faillite
La multiplicité croissante des outils financiers : Produits dérivés, Contrats à
terme et Options

ƒ Merton et Perold (1993) ont développé le concept de Capital-risque (espérance


maximale de perte)

ƒ Accord de Bâle I (1988) : Standards de réglementation

ƒ Accord de Bâle II (2004) : trois piliers pour la solidité du système financier


1. Ajout de l’évaluation du risque opérationnel
2. Supervision et contrôle par les autorités de surveillance
3. Cellules internes de gestion de risque

© Adil Belhouari - Journées de


l'Optimisation 2005 5
REVUE DE LITTÉRATURE ET PRINCIPAUX TRAVAUX

Les trois principales méthodes utilisées sont :

¾ Analyse Discriminante Multivariée (MDA) et modèle logit

¾ Arbres de décision et algorithmes de Partitionnement


Récursif (PR)

¾ Réseaux de Neurones (NN)

© Adil Belhouari - Journées de


l'Optimisation 2005 6
APERÇU HISTORIQUE
Dès les années trente, volonté de comprendre le phénomène de la défaillance à
postériorité
9 Fitzpatrick (1932)
9 Ficher, Smith et Winakor (1935) : Analyse de ratios financiers liés à la liquidité, la
solvabilité et la rentabilité des entreprises
Fin des années soixante, volonté de mettre en œuvre un outil opérationnel de détection
des entreprises en situation difficile
9 Beaver (1966 & 1968) : Analyse dichotomique
9 Altman (1968) : Analyse discriminante multivariée
D’autres travaux ont suivi :
9 Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et
modèle Logit
9 Frydman, Altman & KAO (1985) : Arbres de décision et partitionnement récursif
9 Coats & Fant (1993) : Réseaux de Neurones

© Adil Belhouari - Journées de


l'Optimisation 2005 7
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA)
Les principaux travaux utilisant cette méthode ont commencé par :

¾ Le modèle initial de Altman (1968) : ‘‘Financial ratios, Discriminant Analysis


and predicting of corporate Bankruptcy’’

66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à


la procédure de mise en faillite durant la période 1946-1965)

Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5

Avec X1 = Fonds de Roulement / Actif total


X2 = Réserves / Passif total
X3 = Résultat avant intérêts et impôts / Actif total
X4 = Capitalisation boursière / Ensemble des dettes
X5 = Chiffre d'affaires / Actif total

© Adil Belhouari - Journées de


l'Optimisation 2005 8
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA)

¾ le modèle Zêta de Altman, Halderman & Narayanan (1977) : ‘‘Analyse


discriminante multivariée et modèle Logit’’ sur un échantillon de 111 entreprises
industrielles et commerciales (58 entreprises saines, 53 entreprises ayant été soumises à
la procédure de mise en faillite durant la période 1969-1975)

Avec X1 = Résultat avant intérêts et impôts / Actif total


X2 = 1 / écart-type(résultats avant intérêts & impôts / Actif total)
X3 = Résultat avant intérêts et impôts / Charges financières
X4 = Réserves / Passif total
X5 = Ratio de Liquidité générale (ou ratio de Fonds de Roulement)
X6 = Total de la capitalisation boursière / Capitaux permanents
X7 = log (Actifs totaux)

© Adil Belhouari - Journées de


l'Optimisation 2005 9
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA)
¾ le modèle de scoring pour la banque de France de Mireille Bardos (1998) :
‘‘Detecting the risk of company failure at the Banque de France’’ sur un échantillon
d’entreprises de taille supérieure à 5 millions de FF. La fonction - Score établie
µs − µd
f ( X n ) = (µ s − µ d ) * T −1
* (X n
− )
2

Où X n = ( X n , X n ,............., X n ) est le vecteur représentant les valeurs des p ratios de


1 2 p

l’entreprise n
µ s est le vecteur moyen des p ratios pour le groupe des entreprises survivantes
µ d est le vecteur moyen des p ratios pour le groupe des entreprises défaillantes
T est la matrice de variance – covariance totale pour l’ensemble des p ratios

Alors, le critère de décision était donc :


Si f ( X n ) > 0 Î l’entreprise survivra
Si f ( X n ) ≤ 0 Î l’entreprise fera faillite

© Adil Belhouari - Journées de


l'Optimisation 2005 10
ARBRES DE DÉCISION (PR)

Les principaux travaux utilisant cette méthode ont commencé par :

¾ Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984)


‘‘Introduction to Tree Classification ’’

¾ Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : ‘‘Introducing


Recursive Partitioning for financial Classification : The case of financial Distress’’
Un échantillon de 200 entreprises différentes dont 142 survivantes et 58 défaillantes,
une sélection des variables les plus discriminantes sur l’ensemble des 20 variables
calculées pour la période (1971 – 1981)

© Adil Belhouari - Journées de


l'Optimisation 2005 11
RÉSEAUX DE NEURONES (NN)

Les principaux travaux utilisant cette méthode ont commencé par :

¾ le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) :


‘‘Artificial neural networks in bankruptcy prediction: General framework and cross-
validation analysis ’’

¾ Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : ‘‘Recognizing


Financial Distress Patterns Using a Neural Network Tool ’’

141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT


pour la période (1970 – 1989)

© Adil Belhouari - Journées de


l'Optimisation 2005 12
Méthodes d’ensemble (ME)

Un ensemble de classificateurs individuels permettant d’assurer la combinaison


de leurs prédictions : Dietterich (1997) et Maclin & Opitz (1999)

Méthodes se basant sur la perturbation du processus d’apprentissage

2 types de méthodes ensemblistes :

9 Bagging : ‘Bootstrap Aggregating’ développé par Breiman (1996)

Moyenne de différentes versions du modèle se basant sur des échantillons


aléatoires avec remise est utilisant le maximum de votes
Cas particulier : Méthode des Forêts aléatoires développée par Breiman (2001)

3 Boosting : développé par Schapire (1990)

Règles de prédiction extrêmement précises grâce à la combinaison des résultats


de modèles faibles se basant sur la notion du vote pondéré
© Adil Belhouari - Journées de
l'Optimisation 2005 13
POSITIONNEMENT DE LA RECHERCHE

Objectifs de la recherche :

9 Analyse comparative entre différentes méthodes de prédiction : AMD, modèle

Logit, arbres de décision, combinaison d’arbres de classification

9 Méthodes non paramétriques performeront-elles mieux que les méthodes

paramétriques & linéaires ?

9 Utilisation des méthodes d’ensemble ( Bagging & Boosting )

© Adil Belhouari - Journées de


l'Optimisation 2005 14
MÉTHODOLOGIE ET TRAITEMENTS
¾ La source de données est représentée par les rapports financiers des entreprises
américaines contenus dans COMPUSTAT sur une période entre 1992 et 2002
Taux de Échantillon retenu
¾ Présentation des données : Année
faillite –
COMPUS Taux de
Survivantes Faillites
TAT faillite

1992 0,74% 1808 11 0,60%


Population de Après Années -
1993 1,08% 1972 56 2,80%
COMPUSTAT épuration entreprises
1994 0,71% 2093 47 2,20%
Faillites 835 445 1332
1995 0,64% 2035 33 1,60%
Survivantes 10348 6124 40144 1996 0,54% 2246 33 1,40%
Total 11183 6569 41476 1997 0,52% 2564 30 1,20%
1998 0,65% 2860 41 1,40%
1999 0,79% 3324 45 1,30%
Année N-1 N-2 N-3 N-4 N-5 2000 1,24% 3806 92 2,40%

Nombre 2001 0,76% 3822 42 1,10%


7 125 300 242 187
d’entreprises 2002 0,43% 3525 15 0,40%

Moyenne 0,74% 1,49%

© Adil Belhouari - Journées de


l'Optimisation 2005 15
Échantillonnage
Deux échantillons : Apprentissage et validation basés sur un échantillonnage
stratifié selon la variable cible

Apprentissage Validation

Année Faillites Survivantes Total Faillites Survivantes Total


Horizon 3 ans 259 24627 24886 172 16418 16590
Horizon 4 ans 404 24482 24886 270 16320 16590
Horizon 5 ans 517 24369 24886 344 16246 16590

© Adil Belhouari - Journées de


l'Optimisation 2005 16
MÉTHODOLOGIE

¾ Méthodes utilisées :
™Analyse Discriminante Multivariée
™Régression Logistique
™Arbres de décision
™Combinaison d’arbres de classification ( Bagging & Boosting )

¾ Critères et paramètres d’évaluation des modèles :


Sensitivité
Taux global de bonne classification
Spécificité

¾ Coûts de mauvaise classification : C10 C20 C30 C40 C50

© Adil Belhouari - Journées de


l'Optimisation 2005 17
Résultats – horizon 3 ans
100,00%

99,00%

98,00%

AD10

97,00%

96,00%
Spécificité

BAG50

95,00%
BOO50

BAG40
94,00%

93,00%

92,00%

91,00%
70,00% 75,00% 80,00% 85,00% 90,00% 95,00% 100,00%
Sensitivité

© Adil Belhouari - Journées de


l'Optimisation 2005 18
Résultats – horizon 3 ans

Apprentissage Validation

Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global

AD C10 99,92% 78,38% 99,69% 97,28% 79,65% 97,09%

Bagging C40 96,58% 98,07% 96,60% 94,28% 98,84% 94,33%

Bagging C50 96,73% 99,61% 96,76% 96,08% 99,42% 96,11%

Boosting C50 94,13% 98,84% 94,18% 94,91% 98,84% 94,95%

© Adil Belhouari - Journées de


l'Optimisation 2005 19
Résultats – horizon 4 ans

© Adil Belhouari - Journées de


l'Optimisation 2005 20
Résultats – horizon 4 ans

Apprentissage Validation

Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global

AD C10 99,85% 78,47% 99,51% 99,75% 76,67% 99,38%

Bagging C50 96,14% 99,01% 96,19% 96,12% 99,26% 96,17%

Boosting C40 92,63% 98,02% 92,72% 93,56% 98,15% 93,63%

Boosting C50 92,45% 98,27% 92,55% 94,02% 98,89% 94,10%

© Adil Belhouari - Journées de


l'Optimisation 2005 21
Résultats – horizon 5 ans

© Adil Belhouari - Journées de


l'Optimisation 2005 22
Résultats – horizon 5 ans

Apprentissage Validation
Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global
AD C10 99,56% 68,67% 98,92% 99,58% 67,44% 98,92%
Bagging C50 94,01% 94,58% 94,02% 93,75% 94,48% 93,77%
Boosting C40 91,99% 95,74% 92,07% 93,48% 95,06% 93,51%
Boosting C50 92,34% 95,94% 92,41% 92,59% 95,64% 92,65%

© Adil Belhouari - Journées de


l'Optimisation 2005 23
CONCLUSION

¾ Confirmation des deux hypothèses de départ :

<< L’application des méthodes ensemblistes et non

paramétriques ont permit d’améliorer la qualité de la

prédiction du phénomène de faillite chez les entreprises

pour les différents horizons temporels considérés>>

© Adil Belhouari - Journées de


l'Optimisation 2005 24
DISCUSSION ET RECOMMANDATIONS

Plusieurs pistes de recherche :

¾ Tester la validité des modèles développés, dans un contexte réel de


scoring, sur des données réelles des entreprises

¾Introduction d’autres types de variables : données de marché, informations


macroéconomiques……

¾ Application des mêmes méthodes sur des données canadiennes

¾ Intégration d’autres types de méthodes dans l’analyse comparative :

réseaux de neurones, modèles mixtes….

© Adil Belhouari - Journées de


l'Optimisation 2005 25
© Adil Belhouari - Journées de
l'Optimisation 2005 26

Vous aimerez peut-être aussi