Vous êtes sur la page 1sur 5

Sur le credit scoring par les rseaux de neurones artificiels.

Oussama MARGHENI, Mohamed BENREJEB


Laboratoire de recherche LARA Automatique, Ecole Nationale dIngnieurs de Tunis BP 37, Tunis, Le Belvdre 1002, Tunisie

oussama.margheni@gmail.com , mohamed.benrejeb@enit.rnu.tn
nest pas facilement quantifiable. Les pertes, en cas de dfaut, dpendent aussi des garanties ainsi que des ventuelles rcuprations la suite des dfaillances. En 2004, le comit de Ble sur le contrle bancaire a publi laccord de bale II ; il sagit dun ensemble de mesures et directives visant limiter les risque bancaires, notamment le risque de crdit, en proposant des approches de notations diffrentes, allant des agences de notation externe au systme de notation interne. En 2006, dans sa circulaire 2006-19, la Banque Centrale de Tunisie impose aux tablissements de crdit et aux banques non rsidentes de disposer dune procdure de slection des risques de crdit et dun systme de mesure de ces risques. La notation du crdit, ou le credit scoring, consiste prdire le comportement dun emprunteur partir de lhistorique dautres emprunteurs de la banque. Il sagit en fait de classer les diffrents clients de la banque en classes qui diffrent selon leurs comportements pendant le remboursement, ensuite dassocier le nouvel emprunteur lune de ces classes grce aux donnes fournies. Dans un premier temps, la clientle est rpartie en classes de dfaut et de non dfaut. La classe de dfaut contient les clients qui ont fait dfaut de remboursement. Selon le comit de bale, est considr dfaut un retard de payement de 90 jours ou un abondant total des crances. La classe de non dfaut est relative au cas de payement rgulier des chances sans incidents significatifs.
1

Rsum Dans cet article, un problme de mesure de risque de crdit dans une banque est tudi. Lapproche propose pour le rsoudre utilise un rseau de neurones artificiels. Aprs la collecte des donnes caractrisant des particuliers demandant des crdits, cette approche consiste dabord prtraiter les chantillons recueillis, puis la mise en en uvre de diffrentes architectures de rseaux et combinaisons de fonctions dactivation et dapprentissage et comparaison des rsultats obtenus avec les rsultats des mthodes courantes dans les banques. Mots cls : Risque de crdit, probabilit de dfaut, credit scoring, rseaux de neurones artificiels.

I.

Introduction

Le crdit est le produit qui gnre le plus des gains dans lactivit dune banque ; il constitue, en contre partie, le produit qui engendre le plus de pertes en cas de son non remboursement. La dcision relative son octroi ou son rejet doit donc tre justifie. Le risque de crdit ou de contrepartie est le risque de pertes conscutives au dfaut de remboursement d'un emprunteur. Il n'est pas ncessaire que le dfaut se ralise pour que le risque de crdit affecte ngativement la valeur d'un actif ou d'un portefeuille, il suffit que la vraisemblance de l'vnement augmente. Le risque de crdit pose des problmes de mesure dlicats. La simple connaissance des encours de crdit ne suffit pas pour valuer ce risque. Les pertes possibles sur une contrepartie dpendent des engagements aussi bien que de la probabilit de dfaut des contreparties, une probabilit qui

Le classement est ensuite affin en sous classes qui reprsentent le score du client.

II. Constitution et optimisation de lchantillon


II.1. Collecte des donnes Cette tape consiste rcuprer le plus grand nombre de donnes possible pour permettre la meilleure caractrisation des clients. En pratique, nous avons rcupr des informations existantes dans une base de donnes dune banque source de notre chantillon. Les 33 champs rassembls sont consigns dans le tableau 1. II.1. Prtraitement des donnes II.2.1. Etude de la rpartition des donnes Afin doptimiser lchantillon, nous avons procd une tude descriptive des donnes qui nous a permis dans un premier temps dliminer les champs relations apparentes ou trs faibles variations. Certains champs, tels que le champ ge qui est la diffrence entre la date de naissance du client et la date doctroi du crdit, ont t calculs. Dautres champs dpendent dun ou de plusieurs champs, tels que la capacit de remboursement qui nest que 40% de la somme du salaire et dautres revenus mensuels. Les champs grande partie vide sont aussi limins de lchantillon. Nous avons aussi procd une discrtisation des donnes quantitatives en divisant les valeurs en classes par intervalles, puis attribu un indice chaque classe. Le tableau 2 prsente lexemple de la variable Capacit de remboursement .

10- Situation logement ; 11- Anciennet au logement ; 12- Anciennet du compte ; 13- Zone gographique ; 14- Montant rembours/capacit de remboursement ; 15- Domiciliation.
Tableau1 : Types des donnes collectes
Champ Description Identifiant Identifiant numrique attribu du client par la banque au client Date de naissance Sous format jj-abrviation du mois-aa Sexe Masculin : M ou fminin : F March PAR pour particulier et PRF pour professionnel Profession Artisans, Avocats et assimils, Commerants, Dirigeants dentreprises Salaris Privs, Etudiants/Rentiers/Autres, Mdecins et assimils, Professions librales, Retraits, Salaris privs, Salaris publics, TRE/Artisans/Commerants/ Professions librales, Autres Nombre d'annes Anciennet en annes en logement dans le logement actuel Situation de Propritaire : P, locataire : L logement ou autres : A Client Oui : O, non : N multi-banque Niveau scolaire Non scolaris : N, primaire : P, secondaire : S, universitaire : U Salari Oui : O, non : N Situation Contractuel : C, stagiaire : S, au travail ou titulaire : T Nombre d'Annes Anciennet dans lemploi dans l'emploi en annes Revenu mensuel En dinars tunisiens net Autres revenus En dinars tunisiens mensuels CAP Capacit de remboursement remboursement du client Total Montant rembours mensuellement par le remboursement client hors le crdit en cours dtude, en dinars tunisiens Durpro Revenus dclars dans la dclaration unique annuelle Valeur du bien Valeur du bien acquis avec le crdit en dinars tunisiens Montant de Montant rembours mensuellement par le remboursement client, y compris le crdit en cours dtude, en dinars tunisiens Priodicit de Remboursement mensuel : M, trimestriel : remboursement T, semestriel : S Franchise Nombres de mois de grce avant le dmarrage du remboursement AGE Age, en mois, de la voiture acquise pour les de la voiture crdits auto Assurance vie Oui : O, non : N Domiciliation D : domicili, N : non domicili, P : pension de retraite, S : salarier Dfaut 0 : Pas de dfaut, 1 : Dfaut, observation dans un horizon dun an

123456789-

Sexe ; Age ; Niveau scolaire ; Profession ; Salari ou non salari ; March ; Situation de travail ; Anciennet dans l'emploi ; Capacit de remboursement ;
2

Donnes bancaires

Ce premier traitement nous a permis dallger lchantillon des 33 aux 15 champs suivants :

Donnes du client

Tableau 2 : Rpartition dune population par capacit de remboursement Capacit de Nombres % Indices remboursement <200 dinars 67 7% 1 200<= et <300 dinars 236 24% 2 300<= et <400 dinars 211 21% 3 400<= et <600 dinars 217 22% 4 600 dinars<= 258 26% 5 Total 989 100%

e : le nombre de neurones de la couche dentre ; ni : le nombre de neurones de la couche i, i allant de 1 n ; s : le nombre de neurones de la couche de sortie ; fe, fi, et fs sont respectivement les fonctions dactivation des neurones de la couche dentre de la ime couche cache et de la couche de sortie. La performance du rseau est mesure par la Matrice de Confusion (MC) de la figure 1 et par le Taux du Bon Classement (TBC) de lchantillon de test.
Mauvais clients classes comme mauvais Not Mc_M Bons clients classes comme mauvais Not Bc_M Mauvais clients classes comme bons Not Mc_B Bons clients classes comme bons Not Bc_B

II.2.2. Test de corrlation entre les variables Nous avons calcul la matrice de corrlation des champs retenus. Les champs ayant un coefficient de corrlation appartenant lintervalle 1 0,5 0,5 1 ont t limins. Cette tape nous a permis de retenir un chantillon compos des 10 champs suivants : 1- Sexe ; 2- Age ; 3- Niveau scolaire ; 4- Situation de travail ; 5- Anciennet dans l'emploi ; 6- Capacit de remboursement ; 7- Situation logement ; 8- Anciennet au logement ; 9- Anciennet du compte ; 10- Zone gographique. Le but de notre travail tant de prdire le dfaut du client, le champ dfaut est donc la sortie du modle de score laborer.

Figure 1 : Matrice de confusion La conception et mise en uvre des rseaux de neurones artificiels a suivi lalgoritme de construction suivant : Fixer le nombre de couches ; Fixer le nombre des neurones par couche ; Tester diffrentes fonction dactivation ; Tester diffrentes fonction dapprentissage ; Augmenter le nombre de neurones par couche ; Refaire les tests ; Augmenter le nombre de couches. Dans le tableau 3 sont consignes les meilleures performances atteintes par diffrents rseaux de neurones tests. Lors de la ralisation de ces tests des rseaux de neurones artificiels multicouches, nous constatons que :
-

III.

Les rseaux de neurones artificiels pour le credit scoring

Lchantillon final compos de 10 champs dentre et dun champ de sortie dcrivant 989 individus est divis en trois sous-chantillons comme suit : 60% de lchantillon, soit 593 lignes, destin lapprentissage du modle neuronal ; - 20 %, soit 198 lignes, pour la validation ; - 20 %, soit 198 lignes, dont 49 mauvais clients et 149 bons clients, pour le test. Dans ce qui suit, nous utiliserons les notations suivantes : Res_n[e n1, ni s] avec : n : le nombre de couches caches ;
3

la meilleure performance reste 78,28% ralise par le rseau Res_1[10 5 2], fonctions dactivation arctangente et fonction dapprentissage rgulation bayesienne. La matrice de confusion rsultante de cette architecture est :
_ _ _ 30 10 = ; _ 33 125

Tableau 3: Rsultats de la mise en oeuvre des rseaux de neurones artificiels


Architectures Res_0 [15 2] 22 31 16 37 20 33 19 34 0 63 25 38 24 39 23 40 30 33 0 55 24 31 18 37 17 38 21 34 18 45 29 34 18 45 19 42 13 48 17 44 21 40 23 32 21 34 20 35 12 36 22 26 17 15 14 34 19 39 18 40 15 43 18 40 MC 13 132 9 136 13 132 11 134 0 135 7 128 6 129 7 128 10 125 0 143 19 124 14 129 14 129 21 122 7 128 16 119 6 129 13 124 4 133 1 136 6 131 17 126 18 125 16 127 12 138 22 128 15 135 15 135 9 131 7 133 6 134 5 135 TBC 77,77% 76,76% 76,76% 77,27% 68,18% 77,27% 77,27% 76,26% 78,28% 72,22% 74,74% 74,24% 73,73% 72,22% 73,73% 74,74% 74,24% 72,22% 73,73% 77,27% 76,76% 75,25% 73,73% 74,24% 75,75% 75,75% 76,76% 75,25% 75,75% 76,26% 75,25% 77,27%

le temps ncessaire pour lapprentissage du rseau varie avec la fonction dapprentissage utilise et devient de plus en plus important avec la complexification du rseau ; aprs un certain nombre ditration de lalgorithme de construction, la performance ne samliore plus, dans plusieurs cas on remarque sa diminution.

Res_1 [10 5 2]

Il est donc inutile de continuer augmenter le nombre des couchers et des neurones dans le rseau. IV.

Rsultats de ltude

Res_1 [10 10 2]

La banque source de lchantillon utilise gnralement un modle hybride qui associe un systme expert un modle statistique de rgression non linaire aliment par la base de donnes clients pour son apprentissage. Le taux de bon lchantillon sont : classement appliqu

Res_1 [10 20 2]

pour le modle expert est de 65,1% ; pour le modle statistique est de 76,8% ; pour le modle global est de 73,4%.

Res_1 [10 5 5 2]

Tableau 4 : Rsultats des modles de scores tests


Modle de score Rseau de neurones artificiels Modle de la banque source de lchantillon Rgression non linaire Systme expert Modle global TBC 78,3% 76,8% 65,1% 73,4%

Res_2 [10 5 5 2]

Res_2 [10 5 10 2]

Res_2 [10 10 10 2]

Res_2 [10 5 5 5 2]

Res_3 [10 5 3 5 2]

La rgression non linaire donne une bonne performance, mais la prparation des donnes pour ce modle est une tache lourde et dlicate vu la sensibilit de la rgression aux valeurs extrmes, manquantes ou fausses. Le systme expert a une performance plus faible, en contre partie, ce modle a la particularit dexpliquer son raisonnement . le rseau de neurone artificiel, moyennant certains pretraitements, permet davoir le meilleur taux de bon classement.
4

V.

Conclusion

batch/continu. Thse de Doctorat. Institut National Polytechnique de Toulouse, 2007. [10] A. de Servigny et I. Zelenko. Le risque de crdit, nouveaux enjeux bancaires. Collection Gestion Sup, Dunod, Paris, 2003. [11] F. Desmicht. Pratique de lactivit bancaire. Dunod, Paris, 2004. [12] H. Matoussi, A. Abdelmoula (2009). Using a neural network-based methodology for creditrisk evaluation of a Tunisian bank. Middle Eastern finance and economics. [13] J. P. Nakache, J. Confais. Statistique explicative applique : analyse discriminante, modle logistique, segmentation par arbre. Technip, Paris, 2003. [14] H. Demuth, M. Beale. Neural Network Toolbox users guide. MathWorks, Massachussets, 2002. [15] N. Seddiqi. Credit risq scorecards: Developping and implementing intelligent credit scoring. Wiley, New Jersey, 2006.

Lapproche propose utilisant les rseaux de neurones artificiels pour le credit scoring, permet davoir, moyennant des prtraitements, de bons rsultats avec une sensibilit limite aux valeurs extrmes. Compare aux mthodes couramment utilises par les tablissements bancaires, elle permet davoir une meilleure prcision lors du classement des risques offrant ainsi une alternative intressante lexistant.

Bibliographie
[1] J. Bessis. Gestion des risques et gestion actifpassif des banques. Dollaz, Paris, 1995. [2] Comit de Ble sur le contrle bancaire. Vue densemble du nouvel accord de Ble sur les fonds propres. Banque des rglements internationaux, Ble, Janvier 2001. [3] M. Dietsch, J. Petey. Mesure et gestion des risques dans les institutions financires. Revue Banque dition, Paris, 2003. [4] Banque centrale de Tunisie. Circulaire aux tablissements de crdits n 2006 19. Tunis, 28 novembre 2006. [5] M. Mathieu. Lexploitant bancaire et le risque de crdit : mieux le cerner pour le maitriser. Revue Banque diteur, Paris, 1995. [6] A. Bonnet, J. P. Haton, J. M. Truong. Systmes experts : vers la matrise technique . InterEditions, Paris, 1986. [7] L. C. Thomas, D. B. Edelman, J. N. Crook. Credit scoring and its applications. SIAM, Philadelphia, 2002. [8] P. Borne, M. Benrejeb et J. Haggge. Les rseaux de neurones artificiels : prsentation et applications. Technip, Paris, 2007. [9] M. Y. Ammar. Mise en uvre de rseaux de neurones pour la modlisation de cintiques ractionnelles en vue de la transposition
5