Vous êtes sur la page 1sur 8

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU SCORING

Gilbert Saporta Professeur de Statistique Applique Conservatoire National des Arts et Mtiers Dans leur quasi totalit, les banques et organismes financiers utilisent lanalyse statistique pour prdire si un emprunteur sera un bon ou un mauvais payeur et prendre ensuite la dcision approprie : acceptation sans condition, prise de garantie, refus. La modlisation et la dcision se fondent sur lobservation du pass : on connat pour un certain nombre de prts attribus la qualit payeur qui est donc une variable qualitative Y deux modalits ( bon ou mauvais ) ainsi que les donnes recueillies lors du dpt du dossier de prt : ce sont les variables X (X1, , Xp) . Typiquement pour des particuliers on trouvera lage, la profession , le statut matrimonial, le fait d'tre ou non propritaire, donc majoritairement des variables qualitatives, alors que pour des entreprises on aura plutt des variables numriques comme des ratios issus de la comptabilit. Formellement il sagit de trouver une fonction f(X1, , Xp) permettant de prdire Y. Dans ce qui suit nous dcrirons les diverses tapes et les problmes qui se posent depuis la collecte des donnes jusqu la mise en uvre en donnant chaque fois des indications sur les mthodologies utiliser. I. La collecte de linformation

Le premier travail consiste constituer un fichier qui contient des informations compltes sur des dossiers de prts. Il se prsentera sous la forme dun tableau rectangulaire individusvariables o les n individus sont partags en deux groupes deffectifs n1 et n2 : les bons et les mauvais. Ce travail essentiel est maintenant facilit par le stockage informatique, mais cela na pas toujours t le cas : les variables du dossier de demande ntaient pas forcment saisies car elles ntaient pas toutes juges utiles pour la gestion du prt. Il fallait alors retrouver les dossiers papiers. Les n individus constituent en fait un chantillon de lensemble des N donnes disponibles : nous verrons plus loin quil est indispensable de garder de ct un certain nombre de dossiers afin de valider les rsultats obtenus. Il faut donc prlever alatoirement n individus parmi les N : comme il faut sassurer davoir un nombre suffisant et non alatoire (ce qui introduirait une source de variabilit supplmentaire, donc une moindre prcision) dobservations dans chacun des deux groupes, on procde un sondage stratifi avec tirage spar des n1 et n2 individus. Deux questions se posent alors : quel effectif global et quelle rpartition de n1 et n2 . Une ide naturelle consisterait prlever n1 et n2 en respectant les proportions de bons et mauvais dossiers, dautant plus que lon sait que le sondage stratifi rpartition proportionnelle est toujours meilleur que lchantillonnage simple sans stratification. Cette mthode est cependant dconseiller ici car les deux groupes ont des proportions trs diffrentes : le groupe risque (les mauvais payeurs) quil faut dtecter est trs minoritaire (mettons 10%) et serait mal reprsent. On a pu dmontrer quune rpartition quilibre n1= n2 est bien meilleure, sinon optimale sous des hypothses assez gnrales. Les vraies proportions p1 et p2 servent ultrieurement pour les calculs de probabilits a posteriori. Quant au nombre total n, il est typiquement de quelques milliers.

Un problme plus complexe est celui du biais de slection : en fait les dossiers dont on connat lissue (bons ou mauvais) rsultent dun choix effectu en gnral par des analystes de crdit ; tous les dossiers de prt ntaient videmment pas accepts et ceux qui lont t ne constituent pas un chantillon reprsentatif de toutes les demandes. Mme si la mthode antrieure de slection ntait pas scientifique, il est clair que les dossiers accepts nont pas les mmes caractristiques que les dossiers refuss. Or pour construire une rgle de dcision valable pour tous les nouveaux dossiers, il aurait fallu savoir ce que seraient devenus les dossiers refuss si on les avait acceptsIl faut alors recourir des techniques assez labores (estimation en deux phases, modle Tobit). Sans entrer dans les dtails, disons seulement que lon modlise galement le processus de slection. Le problme du biais de slection nintervient pas dans dautres domaines o des techniques similaires de scoring sont utilises comme lassurance automobile (pour la dtection des conducteurs risque) ou la slection dadresses pour optimiser lenvoi de propositions commerciales (dans ce dernier cas on effectue un scoring partir des rsultats dun premier courrier ; les bons tant les rpondants, les mauvais les non-rpondants) . II Les analyses prliminaires Le fichier brut une fois constitu doit dabord tre nettoy pour liminer erreurs et incohrences. Il comporte alors en gnral un trop grand nombre de variables. Une exploration des liaisons entre chaque variable X et le critre prdire Y permet en gnral dliminer les variables non pertinentes. On utilise alors des outils classiques : test du khideux de liaison entre variables qualitatives, comparaison des % de bons et de mauvais par catgorie de chaque variable X. Dans le mme temps on procde des recodages des variables : regroupement de valeurs en classes pour les variables continues (on saide dhistogrammes), regroupement de classes pour obtenir la meilleure sparation sur Y. On cre galement de nouvelles variables par combinaison de 2 ou plusieurs variables. Par exemple si on saperoit que lanciennet dans lemploi joue diffremment selon la profession , sur la probabilit de bon remboursement, on crera une variable croisant les modalits de ces deux variables (cf. exemple plus loin). Il est couramment admis que toutes ces analyses reprsentent prs de 80% du temps de ce genre dtudes. III La modlisation Les techniques de scoring qui sont les plus utilises dans le secteur bancaire utilisent des mthodes linaires pour leur simplicit et leur grande robustesse. Il existe bien dautres mthodes non-linaires ou non-parametriques comme les arbres de dcision, les rseaux neuronaux etc. dont lusage se rpand (cf. rfrences) mais elles sortent de ce bref expos. Un score est une note de risque que lon calcule comme combinaison linaire des variables explicatives S = ai X i . Les coefficients ai tant optimiss pour la prdiction de Y.
i =1 p

Pour obtenir le vecteur a des coefficients des ai , il existe diverses techniques destimation dont les deux principales sont la fonction linaire discriminante de Fisher et le modle logit (encore appel rgression logistique).

III.1 La fonction linaire discriminante de Fisher. Cest la plus ancienne (elle remonte 1936) : cest la combinaison optimale qui spare le mieux les moyennes du score dans les deux groupes. Plus prcisment si s1 et s2 sont les ( s1 s2 ) 2 scores moyens sur les deux groupes de n1 et n2 individus, on maximise o V ( s) V(s) est la moyenne pondre des variances du score dans chacun des 2 groupes. On montre que a est proportionnel W-1(g1-g2) o W est la moyenne pondre des matrices de variance-covariance des variables explicatives dans chaque groupe et les g les vecteurs des moyennes des variables de chaque groupe. Cest une mthode de moindres carrs. III.2 La rgression logistique ou modle logit . On exprime la probabilit a posteriori dappartenance un des groupes selon : exp( S ) P(G1 / X ) = = 1 + exp( S ) exp( ai X i )
i =1 p

1 + exp( ai X i )
i =1

et on estime alors les ai par la mthode du maximum de vraisemblance. X dsigne ici le vecteur dont les composantes sont les Xi pour i=1 p. Nous avons employ le terme de probabilit a posteriori qui renvoie lusage de la formule de Bayes. En effet si on connat les probabilits a priori dappartenance aux deux groupes p1 et p2=1- p1, qui sont en fait les proportions relles des deux groupes, la probabilit dappartenir au groupe 1 connaissant les informations fournies par le dossier, cest dire les X, est donne par : p1 f1 ( x ) P(G1 / X = x) = o fk est la densit de probabilit des X dans le groupe k. p1 f1 ( x) + p2 f 2 ( x) Pour de nombreux modles probabilistes (gaussiens, multinomial etc.) cette exp( S ) probabilit a posteriori se met sous la forme logistique prcdente : P(G1 / X ) = 1 + exp( S ) En particulier si le vecteur alatoire des X suit une loi normale de mme matrice de variancecovariance dans les deux groupes, la rgle qui consiste classer une observation x dans le groupe qui a la plus forte probabilit a posteriori est quivalente la rgle qui consiste classer une observation dans un groupe selon que son score est infrieur ou suprieur un certain seuil. Les deux mthodes.(Fisher et logit) ne conduisent pas aux mmes estimations des coefficients, mais celles-ci sont en gnral assez proches. Le choix entre les deux ne doit pas tre une question dcole : moindres carrs contre maximum de vraisemblance, mais plutt se faire sur leur capacit prdictive, cest dire sur de nouvelles observations. La rgle nave de Bayes qui consiste prdire le groupe le plus probable, donc ici choisir le groupe qui a une probabilit a posteriori suprieure 0.5, nest en gnral pas adapte la prdiction dun groupe rare. On cherche plutt dtecter un maximum dindividus risque, et on choisira le seuil de dcision en consquence (voir plus loin). 3

III.3 Cas de prdicteurs qualitatifs. Le cas o les variables explicatives Xi sont qualitatives ncessite un traitement particulier. En effet comment faire une combinaison linaire de variables qualitatives ? Cela na videmment pas de sens. La solution retenue est base sur ce que lon appelle la forme disjonctive dune variable qualitative X m modalits (comme une profession). On dfinit les m variables indicatrices des modalits (11, 12, .,1m) telles que 1j vaut 1 si on appartient la modalit j, 0 sinon. Seule une des indicatrices vaut 1, celle qui correspond la modalit prise. Les m indicatrices sont donc quivalentes la variable qualitative. Le score est alors une combinaison linaire des indicatrices, ce qui revient donner une note partielle chaque modalit de chaque variable. Le score final tant la somme des notes partielles ( telle profession correspond telle note ). Les variables explicatives qui interviennent dans les formules sont donc les indicatrices de toutes les variables. Une difficult intervient cependant : la matrice W nest pas de plein rang et nest donc pas inversible car la somme des indicatrices des modalits de chaque variable vaut 1. Cela signifie quil existe une infinit de solutions quivalentes pour estimer les coefficients :une des solutions couramment utilise consiste alors ne prendre que m-1 indicatrices pour chaque variable qualitative puisque la dernire est redondante. III.4 Un exemple Les valeurs suivantes sont fictives (mais ralistes) et ne servent qu illustrer la mthode. Considrons le cas dun tablissement financier qui veut prdire la solvabilit dentreprises pour savoir sil doit ou non accorder un prt. On connat pour chaque entreprise les deux variables suivantes : X1 part des frais financiers dans le rsultat en %, et X2 dlai de crdit fournisseurs (nombre de jours avant de payer les fournisseurs) . Sur lchantillon des entreprises solvables la moyenne de X1 vaut 40, celle de X2 90. Sur lchantillon des entreprises non solvables ces moyennes sont respectivement 90 et 100. On admet que les cart-types sont les mmes dun groupe lautre et sont respectivement s1=40, s2=20, et que X1 et X2 prsentent la mme corrlation r=0.8 dans chaque groupe. La covariance entre X1 et X2 vaut rs1s2=640. 1600 640 La matrice de variance commune (dite galement intra-classe) est alors W = 640 400 50 et le vecteur de diffrence des moyennes g1 g 2 = 10 Il est facile den dduire la fonction de Fisher par la formule a= W-1(g1-g2). Les coefficients tant dfinis une constante multiplicative prs, on peut prendre pour a le vecteur de composantes 1 et 1.2 . La fonction de score est alors S= -X1 + 1.2 X2 On en dduit facilement par transformation linaire que le score moyen des entreprises solvables vaut 68 tandis que le score moyen des entreprises non solvables vaut 30. Les carttypes des variables tant supposs identiques dans les deux groupes on trouve que V ( S ) = V ( X 1 ) + 1.2 2 V ( X 2 ) 2(1.2) cov( X 1 ; X 2 ) = (25.3) 2 On supposera pour la simplicit de lexpos que la distribution du score suit dans chaque groupe une loi normale. Quand il nen est pas ainsi, les densits de probabilit, les fonctions de rpartition, etc. doivent tre estimes dune autre manire.

Un usage classique dans les tudes de ce type est de recaler le score S pour quil prenne la quasi totalit de ses valeurs dans lintervalle [0 ; 1000]. Cela se fait simplement par transformation affine. Ceci peut tre ralis approximativement dans notre exemple en multipliant le score par 5 et en ajoutant 300. La fonction de score vaut donc S= -5X1 + 6 X2 + 300 V. Qualit et utilisation dun score On estime tout dabord les distributions conditionnelles du score dans chacun des deux groupes. Un score efficace doit conduire des distributions bien spares. Dans lexemple prcdent le score suit une loi normale N(640 ;126.5) pour le groupe des entreprises solvables ou une loi N(450 ;126.5) pour les entreprises non-solvables. On vrifiera que le score S donne une meilleure sparation que chaque variable prise sparment en calculant lcart rduit entre moyennes, cest dire la diffrence en valeur absolue entre moyennes divise par lcart-type commun. On considrera galement les fonctions de rpartition :

Lutilisation est la suivante : si on refusait de prter de largent aux entreprises ayant une note de score infrieure 556, on liminerait 80% des entreprises insolvables (les mauvaises ) mais on refuserait tort 25% des entreprises solvables (les bonnes ). Le choix du seuil dpend des risques financiers et est fix par un raisonnement conomique prenant en compte les cots derreur de mauvaise classification : en effet accorder un prt une entreprise qui se rvlera insolvable a un cot diffrent de celui de perdre un bon client.

Dune manire similaire la prsentation classique dun test statistique, la situation peut se dcrire laide des deux densits :

En faisant varier le seuil, on voit quen augmentant le pourcentage de faux mauvais, on augmente aussi le pourcentage 1- de vrais mauvais. La courbe suivante (appele courbe Roc pour receiver operating curve ) est souvent utilise pour mesurer le pouvoir sparateur dun score. Elle donne 1-(s) en fonction de (s) lorsque lon fait varier le seuil s du score. Plus elle est proche de la partie suprieure du carr, meilleure est la sparation. Lorsque les deux densits sont identiques, la courbe ROC se confond avec la diagonale du carr. La surface entre la courbe et laxe des abscisses, comprise entre 0 et 1, est galement parfois utilise. On peut montrer quelle est thoriquement gale la probabilit que P(X1>X2) si X1et X2 sont deux variables tires indpendamment, lune dans la distribution des bons , lautre dans la distribution des mauvais .

Les courbes prcdentes ne font pas intervenir les proportions relles de bons et de mauvais . Les praticiens utilisent alors la courbe de lift ou defficacit de la

slection : en abscisse le % de tous les individus bons et mauvais ayant un score infrieur s, en ordonne le % de mauvais ayant un score infrieur s. La courbe idale est le segment bris qui correspond au cas o la distribution des mauvais est entirement infrieure la distribution des bons .

VI Validit prdictive Mesurer lefficacit dun score, comme dailleurs de toute rgle de slection, sur lchantillon dit dapprentissage , cest dire celui qui a servi estimer les coefficients de la fonction de score, conduit des rsultats trop optimistes : en effet les coefficients ayant t optimiss sur cet chantillon, les taux derreur sont des estimations biaises du vrai taux derreur, que lon aura sur de nouvelles donnes issues de la mme population. On peut en effet obtenir de trs bons taux de reconnaissance sur l'chantillon d'apprentissage si le nombre de variables explicatives est trs lev : la limite avec autant de variables que dobservations on pourrait classer sans erreur toute observation, mais ce rsultat est purement artificiel. La validation du score se fait donc laide dobservations supplmentaires, mises de ct, pour lesquelles on connat Y , et qui servent simuler le comportement futur du score.

Conclusion Les mthodes de score, largement utilises se perfectionnent sans cesse. Elles sont galement appliques dans dautres domaines : en assurance automobile pour dtecter les conducteurs risque, en prospection publicitaire pour slectionner des adresses sur un fichier en vue dun courrier commercial, pour analyser le risque de perte dun client etc. Leur usage bas sur une approche statistique permet de mieux quantifier les risques. Bien sur, comme toute mthode statistique, le scoring commet des erreurs et un individu qui a la malchance davoir un profil proche de celui de mauvais payeurs sera considr comme tel ; mais ce type de mthodes commet moins derreur et est plus objectif que les jugements dexpert. Par ailleurs le score de risque bancaire pour un prt nest quun lment dans le processus de dcision et comme le rappelle la CNIL dans sa Dlibration n 88-083 du 5 juillet 1988 portant adoption d'une recommandation relative la gestion des crdits ou des prts consentis des personnes physiques par les tablissements de crdit : conformment l'article 2 de la loi du 6 janvier 1978, aucune dcision accordant ou refusant un crdit ne peut avoir pour seul fondement un traitement automatis d'informations donnant une dfinition du profil ou de la personnalit de l'intress .

Pour en savoir plus : M Bardos, Analyse discriminante, application au risque et scoring financier , Dunod, 2001 Ouvrage de niveau 2me cycle universitaire, crit par la responsable de lObservatoire des Entreprises de la Banque de France. Unique en son genre, en franais. T.Hastie, R.Tibshirani, J.Friedman , The Elements of Statistical Learning Theory , Springer-Verlag, 2001 Le livre de rfrence pour les annes venir, balayant toutes les techniques de modlisation prdictive. Niveau mathmatique : 3 me cycle.

Vous aimerez peut-être aussi