Techniques Du Data Mining Pour La Prédiction de Faillite Des Entreprises Et La Gestion Du Risque de Crédit PDF

Techniques du Data Mining pour la
prédiction de faillite des entreprises et

la gestion du risque de crédit
Adil Belhouari
HEC - Montréal
- Journées de l’Optimisation 2005 -

09 Mai 2005
PLAN DE LA PRÉSENTATION
Â Introduction
Â Revue de littérature et principaux travaux
Â Positionnement de la recherche
Â Méthodologie et traitements
Â Résultats résumés de la recherche
Â Conclusion
Â Discussion et recommandations
© Adil Belhouari - Journées de

l'Optimisation 2005 2
MISE EN CONTEXTE
Le risque de crédit est présent dans tous les contrats financiers et constitue la
principale source de pertes pour les institutions financières
Les défauts et les faillites ont atteint des niveaux sans précédent durant les cinq
dernières années touchant les plus grandes entreprises au monde (Enron corp. &
Worldcom corp.), dépassant $63 milliards durant le premier semestre de l’année
2002
la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance

dans l'industrie bancaire, suscitant le développement de nouveaux outils et moyens
permettant de minimiser les pertes

QUELQUES DÉFINITIONS
Défaillance des entreprises :

Un concept difficile à cerner car il n’y a pas de consensus en la matière :
défaut, faillite, détresse, vulnérabilité financière, liquidation
Deux définitions sont généralement retenues :
La liquidation judiciaire (code 02 – chapitre 11), concept purement juridique
La vulnérabilité financière (code 03 – chapitre 7), notion plus large

Le risque de défaillance est le risque de cessation de paiement des dettes
Le Credit scoring :
Une méthode statistique de détection précoce de la défaillance des entreprises en
les classant en firmes défaillantes et autres saines ou survivantes
Le scoring est utilisée également dans différents domaines liés au Marketing, au
recouvrement financier, au GRH…….

APERÇU JURIDIQUE
Augmentation du nombre d’entreprises qui se mettent sous la protection de la
loi 268 sur la faillite
La multiplicité croissante des outils financiers : Produits dérivés, Contrats à
terme et Options
Merton et Perold (1993) ont développé le concept de Capital-risque (espérance

maximale de perte)
Accord de Bâle I (1988) : Standards de réglementation
Accord de Bâle II (2004) : trois piliers pour la solidité du système financier

1. Ajout de l’évaluation du risque opérationnel
2. Supervision et contrôle par les autorités de surveillance
3. Cellules internes de gestion de risque

REVUE DE LITTÉRATURE ET PRINCIPAUX TRAVAUX
Les trois principales méthodes utilisées sont :
¾ Analyse Discriminante Multivariée (MDA) et modèle logit
¾ Arbres de décision et algorithmes de Partitionnement

Récursif (PR)
¾ Réseaux de Neurones (NN)

APERÇU HISTORIQUE
Dès les années trente, volonté de comprendre le phénomène de la défaillance à
postériorité
9 Fitzpatrick (1932)
9 Ficher, Smith et Winakor (1935) : Analyse de ratios financiers liés à la liquidité, la
solvabilité et la rentabilité des entreprises
Fin des années soixante, volonté de mettre en œuvre un outil opérationnel de détection
des entreprises en situation difficile
9 Beaver (1966 & 1968) : Analyse dichotomique
9 Altman (1968) : Analyse discriminante multivariée
D’autres travaux ont suivi :
9 Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et
modèle Logit
9 Frydman, Altman & KAO (1985) : Arbres de décision et partitionnement récursif
9 Coats & Fant (1993) : Réseaux de Neurones

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA)
Les principaux travaux utilisant cette méthode ont commencé par :
¾ Le modèle initial de Altman (1968) : ‘‘Financial ratios, Discriminant Analysis

and predicting of corporate Bankruptcy’’
66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à

la procédure de mise en faillite durant la période 1946-1965)
Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5
Avec X1 = Fonds de Roulement / Actif total

X2 = Réserves / Passif total
X3 = Résultat avant intérêts et impôts / Actif total
X4 = Capitalisation boursière / Ensemble des dettes
X5 = Chiffre d'affaires / Actif total

¾ le modèle Zêta de Altman, Halderman & Narayanan (1977) : ‘‘Analyse

discriminante multivariée et modèle Logit’’ sur un échantillon de 111 entreprises
industrielles et commerciales (58 entreprises saines, 53 entreprises ayant été soumises à
la procédure de mise en faillite durant la période 1969-1975)
Avec X1 = Résultat avant intérêts et impôts / Actif total

X2 = 1 / écart-type(résultats avant intérêts & impôts / Actif total)
X3 = Résultat avant intérêts et impôts / Charges financières
X4 = Réserves / Passif total
X5 = Ratio de Liquidité générale (ou ratio de Fonds de Roulement)
X6 = Total de la capitalisation boursière / Capitaux permanents
X7 = log (Actifs totaux)

¾ le modèle de scoring pour la banque de France de Mireille Bardos (1998) :
‘‘Detecting the risk of company failure at the Banque de France’’ sur un échantillon
d’entreprises de taille supérieure à 5 millions de FF. La fonction - Score établie
µs − µd
f ( X n ) = (µ s − µ d ) * T −1
* (X n
− )
2
Où X n = ( X n , X n ,............., X n ) est le vecteur représentant les valeurs des p ratios de

1 2 p
l’entreprise n
µ s est le vecteur moyen des p ratios pour le groupe des entreprises survivantes
µ d est le vecteur moyen des p ratios pour le groupe des entreprises défaillantes
T est la matrice de variance – covariance totale pour l’ensemble des p ratios
Alors, le critère de décision était donc :

Si f ( X n ) > 0 Î l’entreprise survivra
Si f ( X n ) ≤ 0 Î l’entreprise fera faillite

ARBRES DE DÉCISION (PR)
¾ Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984)

‘‘Introduction to Tree Classification ’’
¾ Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : ‘‘Introducing

Recursive Partitioning for financial Classification : The case of financial Distress’’
Un échantillon de 200 entreprises différentes dont 142 survivantes et 58 défaillantes,
une sélection des variables les plus discriminantes sur l’ensemble des 20 variables
calculées pour la période (1971 – 1981)

RÉSEAUX DE NEURONES (NN)
¾ le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) :

‘‘Artificial neural networks in bankruptcy prediction: General framework and cross-
validation analysis ’’
¾ Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : ‘‘Recognizing

Financial Distress Patterns Using a Neural Network Tool ’’
141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT

pour la période (1970 – 1989)

Méthodes d’ensemble (ME)
Un ensemble de classificateurs individuels permettant d’assurer la combinaison

de leurs prédictions : Dietterich (1997) et Maclin & Opitz (1999)
Méthodes se basant sur la perturbation du processus d’apprentissage
2 types de méthodes ensemblistes :
9 Bagging : ‘Bootstrap Aggregating’ développé par Breiman (1996)
Moyenne de différentes versions du modèle se basant sur des échantillons

aléatoires avec remise est utilisant le maximum de votes
Cas particulier : Méthode des Forêts aléatoires développée par Breiman (2001)
3 Boosting : développé par Schapire (1990)
Règles de prédiction extrêmement précises grâce à la combinaison des résultats

de modèles faibles se basant sur la notion du vote pondéré
POSITIONNEMENT DE LA RECHERCHE
Objectifs de la recherche :
9 Analyse comparative entre différentes méthodes de prédiction : AMD, modèle
Logit, arbres de décision, combinaison d’arbres de classification
9 Méthodes non paramétriques performeront-elles mieux que les méthodes
paramétriques & linéaires ?
9 Utilisation des méthodes d’ensemble ( Bagging & Boosting )

MÉTHODOLOGIE ET TRAITEMENTS
¾ La source de données est représentée par les rapports financiers des entreprises
américaines contenus dans COMPUSTAT sur une période entre 1992 et 2002
Taux de Échantillon retenu
¾ Présentation des données : Année
faillite –
COMPUS Taux de
Survivantes Faillites
TAT faillite
1992 0,74% 1808 11 0,60%

Population de Après Années -
1993 1,08% 1972 56 2,80%
COMPUSTAT épuration entreprises
1994 0,71% 2093 47 2,20%
Faillites 835 445 1332
1995 0,64% 2035 33 1,60%
Survivantes 10348 6124 40144 1996 0,54% 2246 33 1,40%
Total 11183 6569 41476 1997 0,52% 2564 30 1,20%
1998 0,65% 2860 41 1,40%
1999 0,79% 3324 45 1,30%
Année N-1 N-2 N-3 N-4 N-5 2000 1,24% 3806 92 2,40%
Nombre 2001 0,76% 3822 42 1,10%

7 125 300 242 187
d’entreprises 2002 0,43% 3525 15 0,40%
Moyenne 0,74% 1,49%

Échantillonnage
Deux échantillons : Apprentissage et validation basés sur un échantillonnage
stratifié selon la variable cible
Apprentissage Validation
Année Faillites Survivantes Total Faillites Survivantes Total

Horizon 3 ans 259 24627 24886 172 16418 16590
Horizon 4 ans 404 24482 24886 270 16320 16590
Horizon 5 ans 517 24369 24886 344 16246 16590

MÉTHODOLOGIE
¾ Méthodes utilisées :
Analyse Discriminante Multivariée
Régression Logistique
Arbres de décision
Combinaison d’arbres de classification ( Bagging & Boosting )
¾ Critères et paramètres d’évaluation des modèles :

Sensitivité
Taux global de bonne classification
Spécificité
¾ Coûts de mauvaise classification : C10 C20 C30 C40 C50

Résultats – horizon 3 ans
100,00%
99,00%
98,00%
AD10
97,00%
96,00%
Spécificité
BAG50
95,00%
BOO50
BAG40
94,00%
93,00%
92,00%
91,00%
70,00% 75,00% 80,00% 85,00% 90,00% 95,00% 100,00%
Sensitivité

Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global
AD C10 99,92% 78,38% 99,69% 97,28% 79,65% 97,09%
Bagging C40 96,58% 98,07% 96,60% 94,28% 98,84% 94,33%
Bagging C50 96,73% 99,61% 96,76% 96,08% 99,42% 96,11%
Boosting C50 94,13% 98,84% 94,18% 94,91% 98,84% 94,95%


AD C10 99,85% 78,47% 99,51% 99,75% 76,67% 99,38%
Bagging C50 96,14% 99,01% 96,19% 96,12% 99,26% 96,17%
Boosting C40 92,63% 98,02% 92,72% 93,56% 98,15% 93,63%
Boosting C50 92,45% 98,27% 92,55% 94,02% 98,89% 94,10%


AD C10 99,56% 68,67% 98,92% 99,58% 67,44% 98,92%
Bagging C50 94,01% 94,58% 94,02% 93,75% 94,48% 93,77%
Boosting C40 91,99% 95,74% 92,07% 93,48% 95,06% 93,51%
Boosting C50 92,34% 95,94% 92,41% 92,59% 95,64% 92,65%

CONCLUSION
¾ Confirmation des deux hypothèses de départ :
<< L’application des méthodes ensemblistes et non
paramétriques ont permit d’améliorer la qualité de la
prédiction du phénomène de faillite chez les entreprises
pour les différents horizons temporels considérés>>

DISCUSSION ET RECOMMANDATIONS
Plusieurs pistes de recherche :
¾ Tester la validité des modèles développés, dans un contexte réel de

scoring, sur des données réelles des entreprises
¾Introduction d’autres types de variables : données de marché, informations

macroéconomiques……
¾ Application des mêmes méthodes sur des données canadiennes
¾ Intégration d’autres types de méthodes dans l’analyse comparative :
réseaux de neurones, modèles mixtes….


Techniques Du Data Mining Pour La Prédiction de Faillite Des Entreprises Et La Gestion Du Risque de Crédit PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Techniques Du Data Mining Pour La Prédiction de Faillite Des Entreprises Et La Gestion Du Risque de Crédit PDF

Transféré par

Droits d'auteur :

Formats disponibles

Techniques du Data Mining pour la

prédiction de faillite des entreprises et

- Journées de l’Optimisation 2005 -

Â Revue de littérature et principaux travaux

Â Résultats résumés de la recherche

© Adil Belhouari - Journées de

 la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance

© Adil Belhouari - Journées de

 Défaillance des entreprises :

 La liquidation judiciaire (code 02 – chapitre 11), concept purement juridique

 La vulnérabilité financière (code 03 – chapitre 7), notion plus large

© Adil Belhouari - Journées de

 Merton et Perold (1993) ont développé le concept de Capital-risque (espérance

 Accord de Bâle I (1988) : Standards de réglementation

 Accord de Bâle II (2004) : trois piliers pour la solidité du système financier

© Adil Belhouari - Journées de

Les trois principales méthodes utilisées sont :

¾ Analyse Discriminante Multivariée (MDA) et modèle logit

¾ Arbres de décision et algorithmes de Partitionnement

¾ Réseaux de Neurones (NN)

© Adil Belhouari - Journées de

© Adil Belhouari - Journées de

¾ Le modèle initial de Altman (1968) : ‘‘Financial ratios, Discriminant Analysis

66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à

Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5

Avec X1 = Fonds de Roulement / Actif total

© Adil Belhouari - Journées de

¾ le modèle Zêta de Altman, Halderman & Narayanan (1977) : ‘‘Analyse

Avec X1 = Résultat avant intérêts et impôts / Actif total

© Adil Belhouari - Journées de

Où X n = ( X n , X n ,............., X n ) est le vecteur représentant les valeurs des p ratios de

Alors, le critère de décision était donc :

© Adil Belhouari - Journées de

Les principaux travaux utilisant cette méthode ont commencé par :

¾ Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984)

¾ Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : ‘‘Introducing

© Adil Belhouari - Journées de

Les principaux travaux utilisant cette méthode ont commencé par :

¾ le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) :

¾ Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : ‘‘Recognizing

141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT

© Adil Belhouari - Journées de

Un ensemble de classificateurs individuels permettant d’assurer la combinaison

Méthodes se basant sur la perturbation du processus d’apprentissage

2 types de méthodes ensemblistes :

9 Bagging : ‘Bootstrap Aggregating’ développé par Breiman (1996)

Moyenne de différentes versions du modèle se basant sur des échantillons

3 Boosting : développé par Schapire (1990)

Règles de prédiction extrêmement précises grâce à la combinaison des résultats

9 Analyse comparative entre différentes méthodes de prédiction : AMD, modèle

Logit, arbres de décision, combinaison d’arbres de classification

9 Méthodes non paramétriques performeront-elles mieux que les méthodes

paramétriques & linéaires ?

9 Utilisation des méthodes d’ensemble ( Bagging & Boosting )

© Adil Belhouari - Journées de

1992 0,74% 1808 11 0,60%

Nombre 2001 0,76% 3822 42 1,10%

Moyenne 0,74% 1,49%

© Adil Belhouari - Journées de

Année Faillites Survivantes Total Faillites Survivantes Total

© Adil Belhouari - Journées de

¾ Critères et paramètres d’évaluation des modèles :

¾ Coûts de mauvaise classification : C10 C20 C30 C40 C50

la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance

Défaillance des entreprises :

La liquidation judiciaire (code 02 – chapitre 11), concept purement juridique

La vulnérabilité financière (code 03 – chapitre 7), notion plus large

Merton et Perold (1993) ont développé le concept de Capital-risque (espérance

Accord de Bâle I (1988) : Standards de réglementation

Accord de Bâle II (2004) : trois piliers pour la solidité du système financier