Vous êtes sur la page 1sur 57

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/344016239

GESTION DU RISQUE DE CRÉDIT DE NON REMBOURSEMENT PAR L'ANALYSE


DISCRIMINANTE ET LA RÉGRESSION LOGISTIQUE Mémoire de DIPESII en
Mathématiques

Thesis · August 2020


DOI: 10.13140/RG.2.2.22895.46244

CITATIONS READS

0 721

3 authors, including:

Isidore Seraphin Ngongo Jimbo Claver


Université de Paris 1 Panthéon-Sorbonne Waseda University
39 PUBLICATIONS   12 CITATIONS    200 PUBLICATIONS   113 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Application of Kalman Filter to Biodynamical System View project

Financial Mathematics and Engineering View project

All content following this page was uploaded by Jimbo Claver on 01 September 2020.

The user has requested enhancement of the downloaded file.


GESTION DU RISQUE DE CRÉDIT DE
NON REMBOURSEMENT PAR
L’ANALYSE DISCRIMINANTE ET LA
RÉGRESSION LOGISTIQUE
Mémoire de DIPESII en Mathématiques
Option: Actuariat
Par

MENGUE MVONDO Jenner


Matricule: 15Y873
DIPES I en Mathématiques
Licencié en Mathématiques Fondamentales
Sous l’encadrement de :
Dr. NGONGO Séraphin Isidore
Chargé de cours
Ecole Normale Supérieure de Yaoundé , Université de Yaoundé 1

Année Académique 2019-2020


♠ Dédicace ♠

Je dédie ce travail à :

À ma famille

Mémoire de DIPESII 2019-2020 i


♠ Remerciements ♠

Ce travail est l’aboutissement d’un dur labeur et de beaucoup de sacrifices ; nos


remerciements vont d’abord au créateur de l’univers qui nous a doté d’intelligence,
et nous a maintenu en santé pour mener à bien cette année d’étude. Ensuite,
je remercie mon encadreur, le Dr. NGONGO Séraphin Isidore à qui je témoigne tout
mon respect et ma gratitude pour les efforts consentis et les conseils qu’il m’a prodigués
afin que ce travail puisse arriver à terme.Je remercie :
♡ Le Directeur de l’Ecole Normale Supérieure de Yaoundé et tout le personnel de cet
établissement, pour leur encadrement durant mes cinq années de formation.
♡ Le professeur JIMBO Henri Claver pour sa disponibilité et l’aide dans la
compréhension de la modélisation mathématiques.
♡ Le Père Barthélemy Patrice YOMI qui m’a toujours soutenu durant mes cinq
années passées à l’école normale supérieure.
♡ Mes amis de la 59ème promotion de l’Ecole Normale supérieure de Yaoundé.
♡ Mes frères et sœurs MEYE Dady Richard, SANAM MVONDO Joslin, pour
leur soutien multiple et varié ;
♡ Tous mes oncles, tantes, cousins et cousines pour tous les conseils qu’ils m’ont
toujours prodigués chaque fois que j’en avais besoin ;
♡ Mes chers et tendres amis LONLA Jordan Gatien, KOGNOU FOPA Marius
Stephane, MEYABEME Justin, MELONG TIOLACK Julia Christeva
et KONGNE Landry, qui ont contribué à la réussite de ce travail.
♡ Mes camarades de classe, à qui je témoigne mes amitiés. Je n’oublie pas toutes les
personnes que je n’ai pas pu citer nommément, je voudrais que chacun de vous
trouve dans ce document l’expression manifeste de ma gratitude.

Mémoire de DIPESII 2019-2020 ii


♠ Déclaration sur l’honneur ♠

Le présent mémoire est une œuvres originale du candidat et n’a été soumis nulle par
ailleurs, en partie ou en totalité, pour une autre évaluation académique. Les contributions
externes ont été dûment mentionnées et recensées en bibliographie.

MENGUE MVONDO Jenner

Mémoire de DIPESII 2019-2020 iii


♠ Résumé ♠

La crise financière qui secoue le monde actuellement, notamment les défaillances


successives des grandes banques ont remis sur le devant de la scène la problématique
des risques bancaires dont le risque crédit. Ce risque doit être géré actuellement par
des méthodes plus sophistiquées. Dans ce mémoire nous présentons deux méthodes qui
nous permettent d’établir deux fonctions à savoir l’analyse discriminante de Fisher et
la régression logistique ; ces deux fonctions nous permettent d’évaluer les risques de
non remboursement encouru par une banque au vu de nos données. Il en ressort que
l’analyse discriminante de Fisher est plus efficace par rapport à la régression logistique pour
l’évaluation du risque de non remboursement de crédit. Pour élaborer ses deux fonctions
nous avons fait appel à un logiciel informatique a savoir le logiciel SPSS, le logiciel R et la
maitrise du langage python.

Mots clefs : banques ; ratios ; risques ; analyse discriminante de Fisher et régression


logistique

Mémoire de DIPESII 2019-2020 iv


♠ Abstract ♠

The financial crisis that is currently shaking the world, particularly the successive
failures of the major banks, has brought the issue of banking risks, including credit risk,
back to the forefront. This risk must now be managed by more sophisticated methods.
In this paper we present two methods that allow us to establish two functions, namely
Fisher discriminant analysis and logistic regression. Both functions allow us to evaluate
the risk of non repayment incurred by a bank in view of our data ; it appears that Fisher
discriminant analysis is more efficient than logistic regression for the evaluation of the risk
of credit non repayment. To develop these two functions, we have used certain computer
software, namely SPSS software, R software and python language skills.

Keys-words : : banks, ratios, risk, Fisher discriminant analysis and regression logistics.

Mémoire de DIPESII 2019-2020 v


♠ Table des matières ♠

Dédicace i

Remerciements ii

Déclaration sur l’honneur iii

Résumé iv

Abstract v

Introduction 1

1 LA REVUE DE LA LITTÉRATURE 3
1.1 Définition de la banque et son rôle . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Définition du crédit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Définition générale du risque et du risque bancaire . . . . . . . . . 5
1.1.3 Définition et typologie du risque de crédit . . . . . . . . . . . . . . . 6
1.2 Historiques de l’analyse discriminante de Fisher et de la régression logistique 8
1.2.1 naissances de l’analyse discriminante de Fisher . . . . . . . . . . . . 8
1.2.2 naissances de la régression logistique . . . . . . . . . . . . . . . . . . . 9

2 OUTILS MATHÉMATIQUES 10
2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Poids d’un individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Concepts de Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Moyenne arithmétique et centre de gravité . . . . . . . . . . . . . . . 11
2.2.2 Matrices de variances et de covariances . . . . . . . . . . . . . . . . . 12
2.3 Métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Principe de classement . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Mémoire de DIPESII 2019-2020 vi


Table des matières

2.3.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15


2.3.3 Cas de deux groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 ANALYSE DISCRIMINANTE DE FISHER ET RÉGRESSION LOGIS-


TIQUE 17
3.1 Analyse discriminante de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.2 Classifieur Bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 Caractérisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3 Estimation des paramètres Pk ; µk ; ∑ . . . . . . . . . . . . . . . . . . . 25
3.2.4 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.5 Analyse d’efficacité du modèle . . . . . . . . . . . . . . . . . . . . . . 26
3.2.6 Principaux outils de mesures de performances . . . . . . . . . . . . . 28
3.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Expression de la probabilité à postériori . . . . . . . . . . . . . . . . . 32
3.3.3 Test de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.4 Sélection des variables explicatives significatives . . . . . . . . . . . . 35
3.3.5 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 APPLICATION 38
4.1 Constitution de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Sélection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Implication pédagogique sur le système éducatif 45

Conclusion et Perspectives 46

Bibliographie 47

ANNEXE 48

Mémoire de DIPESII 2019-2020 vii


♠ Introduction ♠

Les banques sont généralement affectées par plusieurs types de risques parmi lesquels
nous avons le risque de marché, d’option, de crédit, opérationnel, etc. Le risque de crédit,
appelé également risque de contrepartie, est le risque le plus répandu. Il existe plusieurs
types de risque de crédit, celui de non remboursement est majeur. Plusieurs travaux de
recherche ont été réalisés pour détecter à l’avance les empruntes qui seront défaillants de
ceux qui ne seront pas. Ces travaux sont basés essentiellement sur l’analyse des comptes.
Le système bancaire camerounais utilise des méthodes classiques pour faire face aux
risques crédits. Parmi ces méthodes, le diagnostic financier et la prise de garantie occupent
sans doute une place centrale. Cette situation engendre des effets néfastes sur le gonflement
des impayés ce qui peut mettre en cause la survie même de la banque. Or, il existe
actuellement des méthodes sophistiquées destinées à la gestion du risque de crédits dont
l’analyse discriminante et la régression logistique. Ces méthodes correspondent toute à une
méthode d’analyse financière qui tente à synthétiser un ensemble de ratios pour parvenir
à un indicateur unique permettant de distinguer d’avance les bons clients des clients
défaillants. D’après la commission bancaire de l’Afrique centrale (COBAC), le Cameroun
à lui seul compte huit établissements bancaires d’importance systématique parmi les dix
qui existent. Pour éviter de tomber dans un besoin financier dans la zone CEMAC donc le
Cameroun en fait partir il est important de contribuer à la construction d’une méthode
rigoureuse qui permettra aux différentes banques du Cameroun en général et aux huit
citer par la COBAC en particulier de ne pas succomber à une faillite. Car la faillite d’une
seule de ses huit banques du Cameroun conduit immédiatement à une un besoin financier
dans la zone CEMAC.
Dans la suite nous allons essayer de mettre en évidence une démarche pratique pour la
conception et la validation de la capacité prédicative des deux fonctions score issues des
deux modèles et établir une comparaison pour en choisir la plus optimale. Alors à travers
ce présent travail nous allons essayer d’apporter des réponses à la problématique suivantes :

Mémoire de DIPESII 2019-2020 1


Table des matières

« Comment permettre aux banques d’avoir une prévision sur le non-respect


des engagements par un client ?».
Pour répondre à cette problématique les banques ont besoin des informations sur le
client et certains outils de mathématiques plus précisément statistiques et probabilités.
Ce travail est subdivisé en quatre chapitres : Le premier chapitre est consacré à la revue
de la littérature. Celui -ci part sur l’explication du cadre théorique d’une part et sur la
synthèse des recherches antérieures sur le sujet d’autre part. Le deuxième chapitre est
consacré sur les outils mathématiques nécessaire pour la modélisation. Le troisième chapitre
quant à lui est basé sur l’analyse discriminante de Fisher elle présente la méthodologie
de construction d’une fonction score à partir de la connaissance d’un certain nombre
de variables explicatives. Cette fonction permet d’expliquer une variable qui prend deux
modalités (bon client et mauvais client) et la régression logistique qui se différencie de
l’analyse de Fischer par le fait que nous modélisons une variable binomiale, alors que dans
l’analyse de Fischer l’hypothèse de multi-normalité est fondamentale. Le dernier chapitre
est consacré à l’application.

Mémoire de DIPESII 2019-2020 2


⋆ ⋆ Chapitre Un ⋆ ⋆

LA REVUE DE LA LITTÉRATURE

Le risque de crédit est l’une des causes majeures de la volatilité des résultats et des
institutions financières. Comme toute entreprise, un établissement de crédit est exposé a
une pluralité de risque qui peuvent sa défaillance et sa faillite.
La banque définie une relation entre elle et ces client (entreprises, particulier) qui doit
s’exprimer mieux dans la facilité. C’est la raison pour laquelle doit fixer des limites pour
contrecarrer les excès et les défauts pouvant survenir durant la relation. En général le
risque le risque majeur éprouvé par la banque est le risque de crédit qu’il doit circonvenir
par une bonne définition et une bonne analyse pour pouvoir avoir une mesure assez juste
lorsqu’elle prête a tel ou tel client (entreprise ou particulier)
Ce présent travail est consacré pour le risque de crédit, les éléments de guide pour
sa gestion et de sa maitrise puis l’objectif de sa gestion.il est subdivisé en trois sections
la première est consacré pour la définition de certains concepts qui sont essentiel à la
connaissance du risque de crédit, la deuxième traitera le risque de crédit en général et la
dernière elle est consacrée pour les typologies de risque de crédit.

1.1 Définition de la banque et son rôle


La banque est connue par son activité d’intermédiaire financier, en établissant le lien
entre les agents en excèdent de financement et les agents en besoin de financement.
Juridiquement parlant selon l’article 66 à 70 de l’ordonnance n° 03 − 11 sur la monnaie
et le crédit « les banques sont des personnes morales qui effectuent a titre de profession
habituelle et principalement les opérations de banques ; c’est-à-dire la réception de fonds
du public, les opérations de crédit et la mise à disposition de la clientèle des moyens de
paiement et la gestion de ceux-ci. »
D’après le dictionnaire de l’économie : « La banque est une entreprise qui reçoit des

Mémoire de DIPESII 2019-2020 3


1.1. Définition de la banque et son rôle

fonds publics, sous forme de dépôts et d’épargne. Elle réemploie l’argentes des déposants
en distribuant des crédits et en effectuant diverses opérations financières. Elle gère et
met à la disposition de ses clients des moyens de payement (chèque, comptes bancaires,
virement . . . ). Elle sert aussi d’intermédiaire sur le marché financier, entre les émetteurs
d’actions d’obligations (entreprise, État. . . ) et les investisseurs (épargnants, fonds commun,
Compagnies d’assurances. . . ). Elle crée de la monnaie par les crédits qu’elle octroie et en «
achetant » ceux que s’accordent entre eux les agents non financiers (effet de commerce,) ».
Selon LE GOLVAN :« Sont considérées comme banques les établissements qui font
profession habituelle de recevoir du public, sous formes de dépôts ou autrement des
fonds qu’ils emploient pour leur propre compte en opérations d’escompte, de crédit ou
en opérations financières. Cette définition est essentiellement basée sur le commerce de
l’argent, vision traditionnelle et techniciennes de l’activité bancaire ».
Économiquement parlant a pour rôle de financier l’économie par ses deux modes
d’interventions :

● Elle se place comme intermédiaire entre offreurs et demandeurs de capitaux, c’est


l’intermédiaire bancaire.

● Les offreurs et les demandeurs de capitaux entrent directement en relation en se


présentant sur un marché de capitaux (marché financier, marché monétaire. . . etc.)
c’est la désintermédiation.

1.1.1 Définition du crédit

Le mot crédit est défini sous plusieurs angles. Le mot crédit vient du mot latin
«CREDERE » qui veut dire confiance. Faire crédit c’est donc faire confiance ; c’est donner
librement la disposition effective et immédiate d’un bien réel ou d’un pouvoir d’achat
, contre une promesse que le même bien ou un bien équivalent, vous sera restitué dans
un certain délai, le plus souvent avec rémunération du service rendu et du danger couru,
danger de perte partielle ou total que comporte la nature même de ce service.

Définition 1.1.1 (définition économique) : Le crédit est une mise à disposition d’une
ressource (une somme d’argent ou un bien) sous forme de prêt (opération par laquelle des
fonds sont remis par un créancier à un bénéficiaire, moyennant en générale le paiement par
ce dernier d’un intérêt versé au créancier, et assorti de l’engagement de remboursement
de la somme prêtée), consentie par un créancier (une personne ou une organisation) à un

Mémoire de DIPESII 2019-2020 4


1.1. Définition de la banque et son rôle

débiteur. Lorsque la ressource est un bien on parle de crédit fournisseur ; lorsque c’est une
somme d’argent accordée par une banque on parle de crédit bancaire.
Le crédit est fortement lié à la notion de confiance il repose sur la confiance que le
créancier accorde au débiteur.

Définition 1.1.2 (définition juridique) : Juridiquement « le crédit se défini aussi


comme étant tout titre onéreux par lequel une personne met ou promet de mettre des fonds
à la disposition d’une autre personne et prend dans l’intérêt de celle-ci un engagement par
signature tel qu’un aval, un cautionnement ou une garantie sont assimilés aux opérations
de crédit et de location assorties d’opérations d’achats ou notamment les crédits de bail »

1.1.2 Définition générale du risque et du risque bancaire

Définition 1.1.3 (Risque) : Le risque est une notion complexe, de définitions multiples
car ce dernier est à usage multidisciplinaire. Étymologiquement le mot risque vient du
latin « rescare » qui signifie « couper ». Ainsi nous pouvons définir le risque dans le sens
commun comme étant un événement, un inconvénient qui vient « couper » ou perturber
une activité habituelle. La notion de risque est également liée à la gravité des conséquences
de l’aléa (chance bonne ou mauvaise) dont la survenue est probable. Prédire ou prévoir les
conséquences des aléas fait partie de l’analyse et la gestion des risques.
Le risque est également vu comme la probabilité d’un événement négatif combinée avec
l’impact chiffré qu’il peut y avoir. C’est cette dernière définition qui nous ait intéressante
car elle fait appelle à la « probabilité » qui nous laisse sous l’effet d’une analyse quantitative
et qualitative avant de prendre des décisions concernant d’important risque ou de menace
à l’organisation.

Définition 1.1.4 (Risque bancaire) : Le risque bancaire peut se définir d’une manière
systématique comme « l’incertitude temporelle d’un évènement ayant une certaine proba-
bilité de survenir et de mettre en difficulté la banque »

À partir de cette définition nous pouvons relever deux éléments cruciaux qui caracté-
risent le risque dans le milieu bancaire :

● Le caractère aléatoire et imprévisible (qui est à l’origine du risque) ;

● L’enjeu lié aux résultats et pertes futures de la banque (conséquence finale)

Un risque bancaire est le risque couru par le banquier qui consent un crédit à un
client. En d’autres termes c’est le risque auquel s’expose un établissement bancaire lors

Mémoire de DIPESII 2019-2020 5


1.1. Définition de la banque et son rôle

d’une activité bancaire. La banque par son rôle d’intermédiation financière et ses multiples
services expose les établissements bancaires à nombreux risques qui sont directement liés
aux activités de la banque.
Il existe plusieurs types de risque bancaire mais les principaux sont les suivant : le
risque de crédit ou de contrepartie, le risque de marché, le risque de liquidités, le risque
opérationnel, le risque de taux et le risque de change.
Il faut noter que le risque de bancaire a connu un essor. Cette prise de risque accordait
une marge aux clients ceci causait un certain nombre de perte aux banques, ce qui créait
un doute sur la survie de la banque et parfois causait la faillite de la banque.et puisque la
banque permet la distribution de la monnaie il a fallu trouver un moyen pour minimiser
les pertes que coure la banque pour enfin garantir sa survie.

1.1.3 Définition et typologie du risque de crédit

Définition 1.1.5 (Définition du risque de crédit) : Le risque de crédit ou de contre-


partie est le risque le plus important et le plus dangereux auquel est exposé une banque. Il
peut donc se définir ainsi comme étant le risque que l’emprunteur (particulier ou entreprise)
ne rembourse pas sa dette à l’échéance fixé.

Remarque 1.1.1 : Ce risque est en effet lourd de conséquence pour toute banque ou
établissement bancaire : toute dette non rembourser est économiquement une perte sèche
que supporte la banque. Les créances et emprunt accordé aux entreprises ou aux particuliers
constituent ainsi un poste spécifique dans le bilan de la banque et toute évolution négative
obère d’autant la survie de la banque à court ou à long terme.

« En effet le risque de crédit représente la perte consécutive à l’incapacité par un débiteur


de respecter ses engagements. Cet engagement peut aussi être de livrer des fonds ou des
titres dans le cadre d’une opération à terme ou d’une caution ou garantie donnée. Ce
risque est alors enregistré dans le hors-bilan. »
Ainsi le risque de crédit est caractérisé par l’incertitude temporelle d’un événement
ayant une certaine probabilité de survenir et de mettre en difficulté la banque.
D’après Godlewiski C.J « le risque de crédit peut être défini comme une non performance
de la contrepartie engendrant une perte probable au niveau de la banque. »
Dans les affaires de crédit la banque à l’obligation de respecter la règle d’or des banques
cette règle dite principe de l’adossement stipule que : « Les finances les prêts à court terme

Mémoire de DIPESII 2019-2020 6


1.1. Définition de la banque et son rôle

avec des fonds à court terme et les prêts à long terme avec des passifs à long terme ». Du
moment où la banques ne met pas cette règle en vigueur lors de ses transactions elle est
donc exposée aux risques de crédit sur différentes formes.
Il faut donc noter que le risque de crédit est une perturbation de la banque qui peut
faire succomber cette dernière ou de la mettre en difficulté en fonction du type de risque.

Les différents types de risque de crédit

Le risque de crédit comprend trois types de risque qui sont les suivants :

● Le risque défaut clients.

Ce type de risque est caractérisé par le l’incapacité qu’un débiteur à assurer le payement de
ses échéances. Un débiteur est en défaut lorsque l’un ou plusieurs des événements suivants
est aperçus :

✓ L’emprunteur ne remboursera pas en totalité ses dettes ; La constatation d’une perte


portant sur l’une de ses facilités ;

✓ Le débiteur est en défaut de payement depuis quatre-vingt-dix (90) jours sur l’un de
ses crédits ;

●Le risque de dégradation de la qualité du crédit.

Il se traduit par la dégradation de la situation financière d’un emprunteur, ce qui accroit la


probabilité de défaut, même si le défaut proprement dit ne survient pas nécessairement. Le
risque de dégradation de la qualité du crédit est le risque de voir se dégrader la qualité de
la contrepartie (dégradation de sa note) et donc l’accroissement de sa probabilité de défaut.
Cela conduit à une hausse de sa prime de risque, d’où la baisse de la marge sur intérêts.
Ce risque peut être mesuré d’une façon séparée pour chaque contrepartie ou globalement
sur tout le portefeuille de crédit.
Il correspond à la détérioration de la qualité du crédit qui se traduit par la prime de
risque liée à l’emprunteur sur le marché des capitaux. En outre, si celui-ci bénéficie d’un
rating auprès d’une agence de notation, sa note est susceptible de se détériorer. D’ailleurs
ces signaux sont très corrélés avec le risque de défaut et son utilisés par les marchés comme
indicateur d’un risque éminent.

●Le risque de taux de recouvrement.

Mémoire de DIPESII 2019-2020 7


1.2. Historiques de l’analyse discriminante de Fisher et de la régression
logistique

Le taux de recouvrement permet de de déterminer le pourcentage de la créance qui


sera récupéré en entreprenant des procédures judiciaires, suite a la faillite de contrepartie.
Le recouvrement portera sur le principal et les intérêts après déduction du montant des
garanties préalablement recueillies.
Le taux de recouvrement constitue une source d’incertitude pour la banque dans la mesure
où il est déterminé à travers l’analyse de plusieurs facteurs :

✓ La durée des procédures judiciaires qui varient d’un pays à un autres ;

✓ La valeur réelle des garanties ;

✓ Le rang de la banque dans la liste des créanciers

Il correspond à l’incertitude liée aux taux de recouvrement postérieur à un défaut


constaté. Le taux de recouvrement permet de déterminer la proportion des créance qui
sera récupérée par des procédures judiciaires, la valeur réelle des garanties et la priorité
donnée au règlement de certaines créances.

1.2 Historiques de l’analyse discriminante de Fisher


et de la régression logistique

1.2.1 naissances de l’analyse discriminante de Fisher

La banque est une firme spécialisée essentiellement dans la production de crédit, son
métier est de répondre à la demande de fonds qui émanent des agents non financiers pour
des fins de consommation et/ou d’investissement. Cette activité a fait de la gestion et
de l’évaluation des risques l’un des domaines d’activités les plus importants dans toute
institution financière, le but est d’assurer sa pérennité et de maintenir sa stabilité. Dans ce
cadre, les banques sont tenues de bien évaluer les risques et de respecter certaines règles de
bonne gestion édictées par l’accord Bâle II et III dans le domaine du contrôle prudentiel.
Les premières dispositions réglementaires concernant l’activité de la gestion des risques
bancaires, ont été émises par le comité de Bâle I qui a fixé dès 1988 le cadre réglementaire
de l’activité de l’ensemble des banques des pays signataires.
Le credit-scoring a vu le jour suite aux travaux pionniers de BEAVER (1966) et d’ALTMAN
(1968) et sur la base de ces recherches que le crédit scoring s’est développé partout dans le
monde et a évolué au cours de ces 20 dernières années. On notera surtout l’évolution de la
fonction Z de ALTMAN (1968) qui devient la fonction ZETA après les améliorations de

Mémoire de DIPESII 2019-2020 8


1.2. Historiques de l’analyse discriminante de Fisher et de la régression
logistique

ALTMAN, HALDEMAN et NARAYANAN (1977).


En France, dans la lignée des travaux d’ALTMAN (1968), la Banque de France a développé
plusieurs fonctions score. L’ancienne fonction était connue sous le nom de fonction Z
mais elle a été réactualisée en plusieurs fonctions différenciées par secteur d’activité et
disponibles à partir du module 38 de FIBEN (BARDOS, 2001) : BDFI pour les entreprises
industrielles, BDFC pour les commerces et BDFT pour le transport. La conception d’un
modèle de scoring suit une procédure relativement standard.
Elle se fonde sur l’observation ex post du devenir des entreprises (à partir de données
historiques généralement comptables et financières) dont on sait avec certitude si elles ont
été défaillantes ou non. Le but est de sélectionner les variables les plus discriminantes indivi-
duellement, puis de construire un modèle statistique établissant une relation dichotomique
entre ces variables et le fait d’avoir connu la faillite ou non.

1.2.2 naissances de la régression logistique

La fonction logistique a été inventée au 19ème siècle pour la description de la population


et l’évolution des réaction chimiques autocatalytique par Malthus en 1789 la notion de
fonction logistique sera revue par l’astronaute statisticien belge Alphonse Quételet (1795-
1874) par le fait que l’extrapolation de la croissance de la population devrait conduire
à l’impossible de valeur. Il demande également a son élève Pierre François Verhulst de
réfléchir au problème ce dernier publiera trois articles entre 1834 et 1847 donc le premier
sera éditer par son prof Alphonse Quételet en 1838.

Mémoire de DIPESII 2019-2020 9


⋆ ⋆ Chapitre Deux ⋆ ⋆

OUTILS MATHÉMATIQUES

Ce chapitre présente les différents outils mathématiques pour l’analyse discriminante


et la régression logistique que nous allons voir dans le chapitre suivant. Il s’agit en effet
des outils simplement basés sur des notions probabilités-statistiques.

2.1 Notation
L’objet de cette section est de placer le problème de classement dans un cadre géomé-
trique. Pour ce faire, nous devons au préalable fixer les notations. On considère E composé
de n éléments. On collecte auprès de ces n éléments des informations relatives à p variables
quantitatives. La donnée relative à la variable j chez l’élément i est notée Xij . L’ensemble
des données collectées peut être représentée par un tableau ayant la forme suivante :

X1, 1 X1, 2 ... X1, j ... X1, p


X2, 1 X2, 2 ... X2, j ... X2, p
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Xi, 1 Xi, 2 ... Xi, j ... Xi, p
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Xn, 1 Xn, 2 ... Xn, j ... Xn, p

Où par convention, on place les p données relatives à l’élément i dans la ligne numéro i.
Pour la formulation mathématique, ce tableau est identifié à une matrice X de dimension
n × p. De même, on identifie la colonne numéro j de ce tableau, représentant de la variable
j, à un point de Rn qu’on note Xj . Pareillement, on identifie la ligne numéro i représentant

Mémoire de DIPESII 2019-2020 10


2.2. Concepts de Base

de l’élément i de ce même tableau à un point de RP . Ce point est noté X ((i)) .

⎛ X1, 1 X1, 2 . . . X1, j . . . X1, p ⎞ ⎛ X1, j ⎞ ⎛ Xi, 1 ⎞


⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ X2, 1 X2, 2 . . . X2, j . . . X2, p ⎟ ⎜ X ⎟ ⎜ Xi, 2 ⎟
⎜ ⎟ ⎜ 2, j ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟ ⎟ ⎜ ⋮ ⎟ ⎜ ⋮ ⎟
⎜ ⎜ ⎟ ⎜ ⎟
X =⎜ ⎟ , Xj = ⎜ ⎟, X ((i))
=⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ Xi, 1 Xi, 2 . . . Xi, j . . . Xi, p ⎟ ⎜ Xi, j ⎟ ⎜ Xi, j ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟ ⎟ ⎜ ⋮ ⎟ ⎜ ⋮ ⎟
⎜ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ Xn, 1 Xn, 2 . . . Xn, j . . . Xn, p ⎠ ⎝ Xn, p ⎠ ⎝ Xni, p ⎠

2.1.1 Poids d’un individu

Les données disponibles concernant le poids pi associé à chaque individu i. Ce poids


mesure l’importance relative de l’élément dans l’analyse à effectuer. On a par définition
n
pi ≥ 0 ∀ i = 1, . . . , n; ∑ pi = 1
i=1

1
Lorsque les poids sont uniformes on a : pi = n ∀ i = 1, . . . , n
Le poids d’un groupe est défini par la somme des poids des individus formant ce groupe.
n
Définissons E tel que : E = ∑ Ek où Ek ∩E1 ≠ 0 ∀ k ≠ 1 et notons n1 , n2 , . . . , nk , . . . , nm ;
k=1
m
les effectifs respectifs des m groupes considérés. On a ainsi : ∑ nk = n
k=1
Le poids d’un groupe est donc défini comme suit : Πk = ∑ pi .
i∈Ek
Dans le cas uniforme on a : Πk = nk
m, les poids associés au groupe ne sont pas uniformes
car les effectifs des groupes ne sont pas en général égaux.

2.2 Concepts de Base


En admettant les notations sus présentées, nous allons donner des concepts statistiques
et géométriques nécessaires pour définir les méthodes de gestions de risques.

2.2.1 Moyenne arithmétique et centre de gravité

Pour chaque variable Xj on calcule sa moyenne arithmétique x̄j = ∑ni=1 pi xij .


∑n
i=1 xij
Dans le cas uniforme, cette formule prend la forme habituelle x̄j = n .
Le vecteur g des p moyennes arithmétiques est appelé centre de gravité du nuage des
individus g = (x̄1 , x̄2 , . . . , x̄j , . . . , x̄P ). Ce point définit un nouvel individu.

Mémoire de DIPESII 2019-2020 11


2.2. Concepts de Base

On calcule également pour chaque variable Xj sa moyenne arithmétique dans chaque


groupe k.
∑ pi xij
i∈Ek
x̄kj =
Πk
Cela permet de définit un centre de gravité pour le nuage associé à ce groupe, soit

g = (x̄k1 , x̄k2 , . . . , x̄kj , . . . , x̄kP )

∑ pi Xij
Remarque 2.2.1 : Pour le cas uniforme on a :
i∈Ek
x̄kj = nk

Ce point de RP s’identifie ainsi avec l’individu moyen du groupe k, on le considère


comme le représentant du groupe.
La moyenne de la population coïncide avec la moyenne pondérée des moyennes des
groupes. Les pondérations étant importantes pour le groupe.
m
x̄j = ∑ Πk x̄kj
k=1

m
Ce qui nous permet d’écrire : g = ∑ Πk gk (= 0 si le nuage est centré)
i=1

2.2.2 Matrices de variances et de covariances


n
La variance de la variable j est définie par : Vj = ∑ pi (xij − x̄j )2 en développant on
i=1
obtient :
n
Vj = (∑ pi xij ) − x̄2j
i=1

n
Remarque 2.2.2 : Avec les données centrées on a : Vj = ∑ pi xij
i=1

n
∑ xij
Lorsqu’en plus les poids sont uniformes la formule se simplifie :Vj = = n1 Xj ∶ Xj
i=1 ′
n

La covariance des variables j et k est donnée par :


n
Cj, k = ∑ pi (xij − x̄j )(xik − x̄k )
i=1

Mémoire de DIPESII 2019-2020 12


2.2. Concepts de Base

Remarque 2.2.3 : Avec les poids uniformes on a :


∑ xij xih
i∈Ek
Cj, h = − x̄j x̄h
n
Ou encore si le nuage est centré
∑ xij xih
i∈Ek 1 ′
Cj, h = = X .Xh
n n j

On note V la matrice de variances et covariances

⎛ V1 C1, 2 . . . C1, j . . . C1, p ⎞


⎜ ⎟
⎜ C2, 1 V2 . . . C2, j . . . C2, p ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
X =⎜ ⎟
⎜ ⎟
⎜ Cj, 1 Cj, 2 . . . Vj . . . Cj, p ⎟
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
⎜ ⎟
⎝ Cp, 1 Cp, 2 . . . Cp, j . . . Vp ⎠

N.B : En présence d’un nuage centré et des poids uniformes on a : V = n1 X .X


V est une matrice symétrique définie positive, inversible sauf s’il existe une relation
linéaire entre les variables. De même on définit par chaque groupe k une matrice de
variances et covariances spécifique. Soit

⎛ V1k C1,k 2 . . . C1,k j . . . C1,k p ⎞


⎜ ⎟
⎜ C2,k 1 V2k . . . C2,k j . . . C2,k p ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
Vk = ⎜ ⎟
⎜ k ⎟
⎜ Cj,k 1 k k
Cj, 2 . . . Vj . . . Cj, p ⎟
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
⎜ ⎟
⎝ Cp,k 1 Cp,k 2 . . . Cp,k j . . . Vpk ⎠

∑ pi x2ik ∑ pi xik xik


Avec )2 et
i∈Ek i∈Ek
Vjk = Πk − (x̄k Cj,k k = Πk − x̄kj x̄kk .
∑ x2ik ∑ pi xik xik
Si les poids sont uniformes on a : V = − (x̄k )2 et Cj,k k =
i∈Ek i∈Ek
k
Πk nk − x̄kj x̄kk .

Remarque 2.2.4 : Les moyennes ne sont pas nulles car les sous nuages ne sont pas
centrés.

On appelle matrice de variances et covariances intragroupes la matrice W définie par


la moyenne arithmétique des variances Vk :
m
W = ∑ Πk Vk
k=1

Mémoire de DIPESII 2019-2020 13


2.2. Concepts de Base

Il faut également noter que W est en général inversible. On définit également une autre
matrice B appelée matrice des variances covariances intergroupes. C’est la matrice des
variances et covariances calculées.
Au niveau des représentants des différents groupes, il faut noter que chaque représentant
d’un groupe est caractérisé par les moyennes des variables considérées. C’est-à-dire le
centre de gravité de ce groupe. Les données concernant les représentants des groupes
peuvent être consigné dans une matrice G comme suit :

⎛ x̄11 x̄12 . . . x̄1j . . . x̄1p ⎞


⎜ ⎟

⎜ x̄21 x̄22 . . . x̄2j . . . x̄2p ⎟

⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
G=⎜ ⎟
⎜ ⎟
⎜ x̄k1 x̄k2 . . . x̄kj . . . x̄kp ⎟
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
⎜ ⎟
⎝ x̄m
1 x̄m
2 . . . x̄m
j
m
. . . x̄p ⎠

Définissons la matrice B par :

⎛ V1∗ C1,∗ 2 . . . C1,∗ j . . . C1,∗ p ⎞


⎜ ⎟
⎜ C2,∗ 1 V2∗ . . . C2,∗ j . . . C2,∗ p ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
B=⎜ ⎟
⎜ ∗ ⎟
⎜ Cj,∗ 1 Cj, 2 . . . Vj . . . Cj, p ⎟
∗ ∗
⎜ ⎟
⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎟
⎜ ⎟
⎜ ⎟
⎝ Cp,∗ 1 Cp, 2 . . . Cp, j . . . Vp ⎠
∗ ∗ ∗

m m m m
Où Vj∗ = ∑ Πk (x̄kj − x̄j )2 = ∑ Πk (x̄kj )2 et Cj,∗ h = ∑ Πk (x̄kj − x̄j )(x̄kh − x̄h ) = ∑ Πk x̄kj x̄kh
k=1 k=1 k=1 k=1
m
Car le nuage est centré. On a l’égalité suivante B = ∑ Πk gk gk .

k=1
C’est une matrice carrée de dimension p mais en générale de rang inférieur à p. Cette
matrice n’est donc pas en générale inversible.
Ce qui nous conduit à un résultat important connu sous le nom de Formule de l’analyse
de la variance : V = W + B.
Ce résultat s’énonce comme suit : Les variances (et covariances) totales (au niveau
de la population) telles que présentées par la matrice V coïncident avec la somme des
variances (et covariances) intragroupe (au sens des groupes données par la matrice W et
des variances et covariances) intragroupes (entre les groupes) fournis par la matrice B.

Mémoire de DIPESII 2019-2020 14


2.3. Métriques

2.3 Métriques
Pour définir la notion de distance non nécessairement euclidienne on a besoin d’une
matrice M . Il s’agit dans notre cadre d’une matrice symétrique définie positive de dimension
p. La distance entre deux individus a et b est défini par :

d2 (a, b) = (a − b) M (a − b).

La norme associée à cette distance est la suivante :

∥a∥ = d2 (0, a) = a M a

Remarque 2.3.1 : Lorsque M = I, matrice d’identité on a la distance euclidienne.

2.3.1 Principe de classement

Dans le principe de classement nous utilisons l’approche géométrique connue sous le


nom d’analyse discriminante de Fisher que nous allons éclairer dans le chapitre suivant
qui consiste tout simplement à classer un individu dans le groupe le plus proche. On sait
qu’un individu et un représentant du groupe sont deux points de RP . Le groupe recherché
est donc celui pour lequel la distance entre son centre de gravité et le point individu
concerné est plus faible. La métrique considérée pour calculer cette distance est celle de
Mahalonobis définie par l’inverse de la matrice intragroupe W . La règle d’application
prend une formalisation particulière lorsqu’on est en présence de deux groupes seulement,
distinguons dans ce qui suit le cas général du cas de deux groupes.

2.3.2 Cas général

Soit X = (X1 , X2 , . . . , Xp )les coordonnées du nouvel individu. Désignons par d2 (X, gk )


le carré de la distance entre X(le nouvel individu) et gk (le centre de gravité du groupe k)
par définition l’on a :

d2 (X, gk ) = (X − gk ) W −1 (X + gk )

′ ′
= (X − gk )W −1 (X + gk )

= X W −1 X − gk W −1 gk − 2X W −1 gk en devéloppant
′ ′ ′

Donc d2 (X, gk ) = X W −1 X − gk W −1 gk − 2X W −1 gk . (2.1)


′ ′ ′

Mémoire de DIPESII 2019-2020 15


2.3. Métriques

On note que le premier terme du second membre de l’égalité (2.1) (X W −1 X) ne


dépend pas des groupes. On peut donc ne pas en tenir compte et se limiter à la quantité

′ 1 ′
Sk (X) = X W −1 gk − gk W −1 gk
2

En calculant cette quantité pour k = 1, . . . , m et en les triant par ordre croissant, on


identifie le groupe d’affection de l’individu considéré. On peut remarquer que l’expression
précédente est une fonction linéaire des coordonnées du nouvel individu :
p
Sk (x) = βx + ∑ aki xk
i=1

Ce qui constitue un avantage pratique important au regard de la simplicité des calculs


à effectuer.

2.3.3 Cas de deux groupes

Soit X = (X1 , X2 , . . . , Xj , . . . , XP ) les coordonnées du nouvel individu. Cet individu


est ainsi à affecter au groupe 1 lorsque d2 (X, g1 ) < d2 (X, g2 ). Soit en développant ;

X W −1 X + g1 W −1 g1 − 2X W −1 g1 < X W −1 X + g2 W −1 g2 − 2X W −1 g2
′ ′ ′ ′ ′ ′

′ 1 ′ 1 ′
X W −1 g1 − g1 W −1 g1 > XW −1 g2 − g2 W −1 g2
2 2
1
X W −1 (g1 − g2 ) − (g1 W −1 g1 − g2 W −1 g2 ) > 0
′ ′ ′

En simplifiant et en factorisant on trouve :

1
(g1 − g2 ) W −1 (X − (g1 + g2 )) > 0. (2.2)

On remarque que le premier membre de l’inégalité (2.2) est une fonction linéaire de X. En
notant cette fonction S, l’individu dont les coordonnées sont données par X est ainsi à
affecter dans le groupe 1 lorsque : S(X) > 0(et donc au groupe 2 S(X) < 0).

Mémoire de DIPESII 2019-2020 16


⋆ ⋆ Chapitre Trois ⋆ ⋆

ANALYSE DISCRIMINANTE DE
FISHER ET RÉGRESSION
LOGISTIQUE

Dans ce chapitre nous présentons les deux méthodes de gestions de risque qui nous
servirons pour élaborer deux fonctions scores en utilisant les outils mathématiques pré-
cédents en première partie nous présenterons l’analyse discriminante de Fisher puis en
deuxième partie on parlera de la régression logistique.

3.1 Analyse discriminante de Fisher


Cette méthode est la plus ancienne des méthodes statistiques de classement. Remontant
aux travaux de Fisher en 1936, elle permet de classer les individus d’une population entre
différents groupes définis à priori au vu de données relatives à des variables quantitatives.
C’est donc une méthode où les probabilités conditionnelles à estimer sont supposées relever
de lois de probabilités données mais dépendant néanmoins de paramètres inconnus à
estimer à partir des données mises à disposition (estimation paramétrique). Pour ce qui est
de notre travail nous allons utiliser un système binaire pour déclarer les bon entreprises et
les mauvais à cet effet nous utiliserons 0 pour dire l’entreprise est défaillantes et 1 pour
dire que l’entreprise est en bonne état.

3.1.1 Modélisation
m
Dans le chapitre précédant nous avons considéré : E = ⋃ Ek et Ek ∩ El = ∅ ∀ k ≠ l.
k=1
Pour ce qui est de ce chapitre nous considérons : E1 ∪ E2 = E et E1 ∩ E2 = ∅ où cardinal de
E est égale à n , cardinal de E1 est égale à n1 et cardinal de E2 est égal à n2 (n1 + n2 = n) ;

Mémoire de DIPESII 2019-2020 17


3.1. Analyse discriminante de Fisher

E1 représente le groupe des clients en bonnes états et E2 représente le groupe des clients
défaillants. Mesurons simultanément p variables explicatives (Xi )1 ≤ i ≤ p) (c’est-à-dire,
chaque client de chaque sous-échantillon est caractérisé par p variables explicatives) ; et
une variable à expliquer Y à deux modalités (bon client, mauvais client). Nous obtenons
p
S(X) = b + ∑ ai Xj
i=1

Où b est une constante et les ai sont le poids ou les coefficients associes aux variables Xi
La fonction score S(X) ainsi définie permet de calculer le score de chaque individu et de
l’affecter à un groupe. Dans la suite, nous ferons l’hypothèse suivante :

H1 ∶ Les variables explicatives sont continues,indépendantes et normalement distribuées .

3.1.2 Classifieur Bayésien

Élément de la théorie de décision

On considère une population E de n individus répartis entre groupe E1 , E2 définis à priori :


2
⋃ Ek = E et E1 ∩ E2 = ∅.
k=1
Soit un client e de E, dont on ne connait pas le groupe d’appartenance et qu’on cherche
à classer dans l’un des 2 groupes. Ce client peut être considéré comme le résultat d’une
expérience aléatoire de tirage au hasard d’un élément de E.
Vu de cette manière, le problème de classement peut être placé dans le cadre de
la théorie probabiliste. L’ensemble E se présente ainsi comme un ensemble de résultats
possibles d’une expérience aléatoire auquel on peut adjoindre une tribu A et une probabilité
P pour former un espace probabilisé.

État de la nature

Pour un client e dont on ne connait pas le groupe d’appartenance, on définit m états de


nature c’est-à-dire des éventualités, concernant son groupe d’appartenance. Ces états de la
nature sont notés : θk ∶≪ l’ndividu e ∈ Ek ≫ et on désigne par θ = {θ1 , θ2 } l’ensemble des
états de la nature. Soit T une application de E dans θ qui à chaque individu l’associe a
son état de la nature.
On peut considérer T comme une valeur quantitative prenant les modalités θ1 , θ2 et
les probabilités à priori d’appartenance au groupe k ∶ Pk = P (T = θk ) comme sa loi de
probabilité.

Mémoire de DIPESII 2019-2020 18


3.1. Analyse discriminante de Fisher

Remarque 3.1.1 : Il faut noter que T est non observable.

Espaces des observations

Soit x = (x1 , x2 , . . . , xj , . . . , xp ) un vecteur de p observations relevées auprès du client e. On


peut considérer x comme une réalisation du vecteur aléatoire x = (x1 , x2 , . . . , xj , . . . , xp ).
On note Γ = {x ∈ Rp ∶ x réalisation de X}. C’est l’espace des observations. La variable X
est une application de E dans Γ (vérifiant les conditions de mesurabilité).

Espaces des décisions

On a à affecter un client e dans l’un des 2 groupes. C’est une décision, on note ak la décision
d’affecter l’individu e dans le groupe k. On note A l’ensemble de décisions : A = {a1 , a2 }

Règle de décision

C’est une méthode de classement. Formellement, c’est une application de Γ dans A. On


note δ cette application, techniquement c’est un procédé permettant de prendre une
décision
≪ a ≫ au vu de la réalisation x de X ∶ a = δ(x).

Il faut noter que comme x résulte du hasard a = δ(x) résulte aussi du hasard, on définit
aussi la variable aléatoire : Y = δ(X) qui prend les valeurs a1 , a2 avec des probabilités
définies par :
P (Y = a) = P (x ∈ Γ ∶ a = δ(x)) = P (δ −1 (a)).

Fonction de perte

A chaque règle de décision on associe une fonction de perte définie par une application
L de (A; θ) dans R+ ∶ L(ak , θl ) ≥ 0. On l’interprète comme la perte ou le coût supporté
en affectant le client e au groupe k alors qu’en réalité il appartient au groupe l. On note
L(ak , θk ) = 0 pour tout k = 1 à 2. D’autre part, comme ak et θl résulte du hasard, la
perte encourue z = L(ak , θl ) résulte aussi du hasard c’est une réalisation d’une variable
aléatoire Z = L(Y, T ). Dans la suite on est amené à calculer la perte moyenne d’une règle
de décision :

E(Z) = ∑ ∑ P (Y = y, T = θ)L(y, θ)
A θ
= ∑ ∑ P (X = x, T = θ)L(δ(x), θ)
Γ θ

Mémoire de DIPESII 2019-2020 19


3.1. Analyse discriminante de Fisher

Définition 3.1.1 : Étant donné un espace d’état de la nature θ, un espace d’observation


Γ, un espace de décision A et une fonction de perte L, le clasifieur de Bayes est la règle de
décision minimisant la perte moyenne parmi toute les règles de décisions possibles.

Soit ∆ l’ensemble de toute les règles de décisions possibles de Γ dans A. Le classifieur de


bayes δ ∗ est donc tel que :

E(L(δ ∗ (X), T )) ≤ E(L(δ(X), T ) ∀δ ∈ ∆

3.1.3 Caractérisation

Proposition 3.1.1 : Soit δ0 ∈ ∆ minimisant E(L(δ0 (X), T )/X = x) ∀ x ∈ Γ alors δ0


minimise E(L(δ(X), T )).

Preuve :

E(L(δ0 (X), T )/X = x) ≤ E(L(δ(X), T )/X = x) ∀ x ∈ Γ et ∀ δ ∈ ∆ (3.1)

Ex (E(L(δ0 (X), T )/X = x)) ≤ Ex (E(L(δ(X), T )/X = x)) ∀δ ∈ ∆ (3.2)

E(δ0 (X), T ) ≤ E(L(δ(X), T ) ∀ δ ∈ ∆ (3.3)



La règle de Bayes est donc telle que :

E(L(δ ∗ (X), T )/X = x) ≤ E(L(δ(X), T )/X = x) ∀ x ∈ Γ et ∀ δ ∈ ∆

Soit donc,
2 2
∑ L(δ ∗ (x), θk )P (T = θk /X = x) ≤ ∑ L(δ(x), θk )P (T = θk /X = x) ∀ x ∈ Γ et ∀ δ ∈ ∆
k=1 k=1

Or d’après la formule de bayes,


pk fk (x)
P (T = θk /X = x) = 2
∑ pk fk (x)
k=1

En remplaçant on a,
2 2
∑ L(δ ∗ (x), θk )pk fk (x) ≤ ∑ L(δ(x), θk )pk fk (x).
k=1 k=1

Ainsi, étant donné un client e et xe la réalisation de X chez cet individu. Notons


al∗ la décision prise au vue de xe si on applique la règle de Bayes (al∗ = δ ∗ (xe )) et al la
décision prise au vue de xe si on applique une autre règle de décision (al = δ(xe )). Comme
L(ak , θk ) = 0 pour tout k = 1 à 2, on a ainsi :
2 2
∑ L(al∗ , θk )pk fk (x) ≤ ∑ L(al , θk )pk fk (x) ∀ l∗ ≠ l.
k=1 k=1
k≠l∗ k≠l

D’où la règle pratique suivante, étant donné un individu e de caractéristique x :

Mémoire de DIPESII 2019-2020 20


3.1. Analyse discriminante de Fisher

2
● On commence par calculer ∑ L(al , θk )pk fk (x) pour chaque l = 1 à 2.
k=1
k≠l
● Le groupe à retenir pour l’affectation de l’individu e est celui pour lequel cette
quantité est plus faible.

Remarque 3.1.2 : Les coûts varient d’une application a une autre. Si l’on suppose que
les coûts sont égaux, la règle de Bayes une formulation assez simple. En effet en développant
la formule précédant on trouve :

2 2
L(al∗ , θl )pl fl (x) + ∑ L(al∗ , θk )pk fk (x) ≤ L(al∗ , θl∗ )pl∗ fl∗ (x) + ∑ L(al , θk )pk fk (x) ∀ l∗ ≠ l
k=1 k=1
k≠l k≠l
k≠l∗ k≠l∗

Comme les coûts sont égaux alors,

L(al∗ , θl ) = L(al∗ , θl∗ ) et L(al∗ , θk ) = L(al , θk ) ∀ l∗ ≠ l ∀ k = 1 à 2.

On a donc :
2 2
∑ L(a , θk )pk fk (x) = ∑ L(al , θk )pk fk (x) ∀ l∗ ≠ l
l∗ et L(al∗ , θl ) = L(al∗ , θl∗ )(3.4)
k=1 k=1
k≠l k≠l
k≠l∗

En simplifiant les expressions on a,


2
pl fl (x) ≤ pl∗ fl∗ (x) en divisant (3.4) par ∑ pk fk (x) membre par membre .
k=1

P (T = θl /X = x) ≤ P (T = θl∗ /X = x)

Ce qui signifie que le classifieur de Bayes affecte le client e au groupe pour lequel la
probabilité d’appartenance à postériori est la plus élevé. Bien que l’hypothèse d’égalité
des coûts ne soit pas plausible, c’est cette règle qui est la plus retenue en pratique. Ainsi,
étant donné un client e et x ses caractéristiques,

● On commence par calculer la quantité Ck (x) = pk fk (x) pour k = 1 à 2.

● Le groupe d’affectation de e est celui pour lequel la quantité Ck (x) est la plus élevée
ou maximal.

H2 : La loi conditionnelle de X sachant Y suit la loi multinormale de moyenne


µi et de matrice de variance-covariance ∑ X/(Y = k) ↝ N (µi , ∑)

Théorème 3.1.1 (Marie Chavent, 2015) : La règle de décision Bayésienne est donnée
par : gk = argmaxPk fk (x) Sous l’hypothèse H2 ,la densité conditionnelle de X∣Y s’écrit :
1 1
exp(− )(x − µk ) ∑ (x − µk )
′ −1
fk (x) =
2
p 1
2
(2Π) (det ∑) 2

Mémoire de DIPESII 2019-2020 21


3.2. Estimation

Théorème 3.1.2 : la règle de décision bayésienne devient alors :

1
gk = argmax ck (x) avec ck (x) = ln(Pk ) − (x − µk ) ∑ (x − µk )
′ −1
2

Preuve : on sait que gk = argmaxPk fk (x) toute transformation monotone de Pk fk (x)


ne change rien sur la maximisation de cette expression en particulier la transformation
logarithme on a :

ln(Pk fk (x)) = ln(Pk ) + ln(fk (x))


1 p 1
= ln(Pk ) − (x − µk ) ∑ (x − µk ) − ln ((2Π) 2 (det ∑) 2 )
′ −1
2
p 1
Puisque ln ((2Π) 2 (det ∑) 2 ) ne dépend de k maximiser ln (Pk fk (x)) revient à maximiser
ck (x) = ln(Pk ) − (x − µk ) ∑−1 (x − µk ) c’est-à-dire maximiser Pk fk (x) revient à maximiser

ck (x).
On dira donc qu’un client est bon si : g1 > g2

1 1
g1 > g2 Ô⇒ ln(P1 ) − (x − µ1 ) ∑ (x − µ1 ) > ln(P2 ) − (x − µ2 ) ∑ (x − µ2 )
′ −1 ′ −1
2 2
1 ′ 1 ′ 1 ′ 1 ′
Ô⇒ ln(P1 ) − x ∑ x − µ ∑ µ1 + x ∑ µ1 > ln(p2 ) − x ∑ x − µ2 ∑ µ2 + x ∑ µ2
′ ′

2 2 2 2
1 ′ 1 ′
Ô⇒ ln(p1 ) − µ ∑ µ1 + x ∑ µ1 > ln(p2 ) − µ2 ∑ µ2 + x ∑ µ2
′ ′

2 2
1 p1
Ô⇒ x ∑(µ1 − µ2 ) > (µ1 + µ2 ) ∑(µ1 − µ2 ) + ln ( )
′ ′

2 p2

En posant S(x) = x ∑(µ1 − µ2 ) et s = 12 (µ1 + µ2 ) ∑(µ1 − µ2 ) + ln ( pp21 )


′ ′

Un client e au vu de ses observations x est donc dit bon si S(x) > s et il sera dit
défaillant ou mauvais si S(x) < s, s est appelé seuil.
Pour la mise en application du classifieur de Bayes, il faut disposer des probabilités
à priori pk , des moyennes µk et la matrice de variance-covariance ∑. En pratique, ces
grandeurs sont en général inconnues. Il convient en conséquence de les estimer à partir de
l’échantillon. On peut procéder à une estimation directe de ces probabilités dans le cas où
X = (X1 , X2 , . . . , Xj , . . . , Xp ) est discret et p petit (estimation non paramétrique) ∎

3.2 Estimation
Soit X la variable aléatoire que nous souhaitons étudier. Nous effectuons pour cela
n réalisations de X. Les résultats de ces réalisations sont des variables aléatoires notées
X1 , X2 , . . . , Xn , qui ont même loi que X. Nous considérerons dans la suite que les mesures
sont effectuées de manières indépendantes. On dit alors que les variables X1 , X2 , . . . , Xn

Mémoire de DIPESII 2019-2020 22


3.2. Estimation

sont i.i.d. : indépendantes et identiquement distribuées. Le but est ici d’estimer la valeur
du paramètre θ, c’est-à-dire de déterminer la valeur de θ la plus vraisemblable pour
la loi de X1 , X2 , . . . , Xn . Et une fois cette grandeur estimée, quelle est la précision de
l’approximation réalisée ? Soit X une variable aléatoire dont la densité de probabilité
f (x, θ) dépend d’un paramètre θ appartenant à I ⊂ R. A l’aide d’un échantillon issu de X,
il s’agit de déterminer au mieux la vraie valeur θ0 de θ. On pourra utiliser deux méthodes :

- Estimation ponctuelle : on calcule une valeur vraisemblable θ̂ de θ0 .

- estimation par intervalle : on cherche un intervalle dans lequel θ0 se trouve avec une
probabilité élevée.

3.2.1 Estimation ponctuelle

Définition 3.2.1 : Un n-échantillon de X est un n-uplet (X1 , X2 , . . . , Xn ) tel que les Xk


ont la même loi que X et sont indépendantes. Une réalisation de l’échantillon est alors un
n-uplet (x1 , x2 , . . . , xn ) de valeurs prises par l’échantillon.

Définition 3.2.2 : Une statistique de l’échantillon est une variable aléatoire


φ(X1 , X2 , . . . , Xn ) où φ est une application de Rn dans R.
Un estimateur T de θ est une statistique à valeurs dans I. Une estimation est la valeur
de l’estimateur correspondant à une réalisation de l’échantillon.

Exemple 3.1 : est un estimateur de l’espérance mathématique.

Définition 3.2.3 : Le biais de l’estimateur T de θ est E[T ] − θ0 . S’il est nul, on dit
que T est un estimateur sans biais. L’estimateur Tn est asymptotiquement sans biais si
limE[Tn ] = θ0 .
On note souvent le biais bθ (T ).

Définition 3.2.4 : L’estimateur est dit convergent si la suite (Tn ) converge en probabilité
vers θ0 :
∀  > 0, P (∣Tn − θ0 ∣ > ) Ð→
n→+∞ 0

On parle d’estimateur fortement convergent lorsqu’on a convergence presque sûre.

Estimation de la moyenne empirique

Mémoire de DIPESII 2019-2020 23


3.2. Estimation

On considère un n-échantillon (X1 , X2 , . . . , Xn ) issu d’une loi de moyenne µ et de


variance σ 2 , toutes deux inconnues.

- D’après la LGN (loi de grand nombre), la moyenne empirique Xn est un estimateur


convergent de µ.

- L’estimateur Xn est sans biais.


σ2
- par indépendance : V ar(Xn ) = 2 .
2
– si X ∼ N (µ, σ 2 ), alors Xn ∼ N (µ, σ2 ).

Estimation de la variance empirique

La variance empirique associée à un n-échantillon (X1 , X2 , . . . , Xn ) est définie par


n 2
1
Sn2 = n−1 ∑ (X − X̄i ) .
i=1

1. Sn2 est un estimateur convergent de la variance σ 2 .

2. Sn2 est sans biais.

3. loi de Sn2 : pas de résultat général. Cependant, si X ∼ N (µ, σ 2 ), alors la v.a.r


2
Xn ∼ N (µ, σ2 ) suit une loi du chi-deux à n − 1 degrés de libertés χ2 (n − 1).

Estimation par le maximum de vraisemblance

La vraisemblance d’un modèle et d’un échantillon correspondent à la probabilité d’avoir


obtenu cet échantillon lorsqu’on a ce modèle. Ainsi, la vraisemblance des observations
x1 , x2 , . . . , xn s’écrit sous la forme :

⎪Pθ (x1 ), . . . , Pθ (xn ) si on a une loi dicrète ;



L (θ, {x1 , x2 , . . . , xn }) = ⎨

⎩fθ (x1 ), . . . , fθ (xn ) si on a une loi continue ;


La forme de produit est justifiée par l’hypothèse que les observations sont indépendantes.
Le principe de l’estimation par maximum de vraisemblance est de se dire que plus la
probabilité d’avoir obtenu les observations est forte, plus le modèle est proche de la réalité.
Ainsi, on retient le modèle pour lequel la vraisemblance de notre échantillon est la plus
élevée :
θ̂n = argmaxL (θ, {x1 , x2 , . . . , xn }) .

En pratique, le problème ci-dessus est compliqué à résoudre directement en raison de


la présence du produit mais il suffit de prendre le logarithme :

θ̂n = argmax ln (L (θ, {x1 , x2 , . . . , xn })) .

Mémoire de DIPESII 2019-2020 24


3.2. Estimation

Pour trouver le maximum, on résout l’équation du premier ordre :


∂ ln (L (θ, {x1 , x2 , . . . , xn }))
∣θ=θˆn = 0
∂θ
La théorie nous dit que la solution de cette équation nous donne toujours un maximum.
On obtient θˆn sous forme θˆn = g(x1 , x2 , . . . , xn )
L’estimateur du maximum de vraisemblance est alors θˆn = g(X1 , X2 , . . . , Xn ) et l’esti-
mation du maximum de vraisemblance est obtenue en remplaçant x1 , x2 , . . . , xn par leurs
valeurs numériques dans θˆn = g(x1 , x2 , . . . , xn )

3.2.2 Estimation par intervalle

Pour l’estimation ponctuelle, on considère

- un paramètre inconnu θ,

- un ensemble de valeurs observées (x1 , . . . , xn ), réalisations d’un n-échantillon aléatoire


n
1
(X1 , . . . , Xn ), et son estimation ponctuelle x¯n = n ∑ xi . Les estimations ponctuelles
i=0
n’apportent pas d’information sur la précision des résultats, c’est-à-dire qu’elles
ne tiennent pas compte des erreurs dues aux fluctuations d’échantillonnage. Pour
évaluer la confiance que l’on peut avoir en une valeur, il est nécessaire de déterminer
un intervalle contenant, avec une certaine probabilité fixée au préalable, la vraie
valeur du paramètre : c’est l’estimation par intervalle de confiance.

Définition 3.2.5 : Soit (X1 , . . . , Xn ) un n-échantillon aléatoire et θ un paramètre inconnu


de la loi des Xi .
Soit α ∈]0, 1[. S’il existe des v.a.r θmin(X1 ,...,Xn ) et θmax(X1 ,...,Xn ) telles que

P (θ ∈ [θmin(X1 ,...,Xn ) , θmax(X1 ,...,Xn ) ]) = 1 − α,

On dit alors que [θmin(X1 ,...,Xn ) , θmax(X1 ,...,Xn ) ] est un intervalle de confiance pour θ, avec
coefficient de sécurité 1 − α. On le note IC1−α (θ).

3.2.3 Estimation des paramètres Pk ; µk ; ∑

On cherche à estimer le paramètre θ défini par θ = (Pk ; µk ; ∑)


L’estimation de θ par la méthode du maximum de vraisemblance donne :

Pˆk = nnk où nk = card(Ek )









⎨µˆk = gk , k = 1, 2







⎪ ∑ˆ n W

⎩ n−k

Mémoire de DIPESII 2019-2020 25


3.2. Estimation

où les gk et W sont définies comme dans le chapitre précédent à partir d’observations sur
les p variables dans un échantillon de n clients répartis en deux groupes définis à priori.

3.2.4 Validation du modèle

Test de lambda wilk’s :


Il permet de tester si les variables explicatives X = (X1 , X2 , . . . , Xp ) sont liées à une
variable à expliquer Y . Mais aussi, il permet de valider le modèle obtenu par analyse
discriminante de Fischer.

Définition 3.2.6 : La statistique du Lambda de Wilk’s notée Λ est le rapport du déter-


minant de la matrice de variances covariances intra-groupe au déterminant de la somme
det W
des matrices de variances covariances inter et intra-groupe. Donc, Λ = det(W +B) .

Ce rapport est compris entre les nombres 0 et 1 ; où 0 signifie que les variables
explicatives expliquent parfaitement la variable Y , et 1 signifie que les variables explicatives
n’expliquent pas le modèle. Ainsi, plus le lambda de Wilk’s est proche de 0, meilleur est le
modèle.
Cette statistique de test suit une loi de paramètre (p; n − p − 1)

Test du M de Box

C’est une approche paramétrique qui permet de tester si les matrices de variances cova-
riances associées à X∣Y = k sont égales.

Définition 3.2.7 (Statistique du M de Box) : La statistique du M de Box est la


statistique définie par :
2
1 2
M = (n − 2) ln(det(H)) − ∑ (nk − 1) ln(det(Vk )); textoùH = ∑ (nk − 1)Vk
k=1 n − 2 k=1

Afin de pouvoir rapporter la statistique du M de Box à la table de la loi du χ2 , il convient


2(p+1)(p+2)
de lui appliquer la transformation suivante :χ2 = M (1−δ) où δ = 6p+1
[∑2k=1 nk1−1 − n−2
1
]
La statistique de χ2 test du M de Box, suit alors une loi du khi deux à p(p+1)
2 degrés de
liberté. Le M de Box doit être le plus élevé possible.

3.2.5 Analyse d’efficacité du modèle

Une fois un modèle ou plusieurs modèles de scoring sont estimés, il convient d’analyser
leurs performances avant de les valider pour être utilisés comme outil d’aide à la décision.

Mémoire de DIPESII 2019-2020 26


3.2. Estimation

L’analyse de performances, à l’issue de laquelle une méthode de scoring est validée, permet
notamment d’améliorer un modèle en comparant plusieurs de ses variantes (ajout ou retrait
de variables explicatives, etc.)
L’analyse des performances d’un modèle gagnerait à être conduite sur un jeu de
données différent de celui qui a été utilisé pour l’estimation. On doit en effet, lorsque cela
est possible, distinguer entre l’échantillon d’apprentissage et l’échantillon de test ou de
validation. Ce dernier doit nécessairement contenir les valeurs réelles de la variable cible
(appartenance aux groupes). D’une manière générale, il s’agit de comparer entre les valeurs
réelles de la variable cible avec celles prédites par le modèle.

Concepts de base

Comme vue plus haut nous disposons un échantillon de n client partitionnée en deux
sous-groupes E1 et E2 . On appelle (par convention) les bons clients les clients de E1 et
les clients défaillants ou mauvais clients les clients de E2 . On dispose par ailleurs d’une
fonction de score (issue du modèle) notée S et d’un seuil s définies tels que :

● On affecte le client présentant l’observation x au groupe E1 si S(x) > s. Autrement


dit, on considère ce client comme bon.

● Sinon, on l’affecte au groupe E2 , on le considère donc comme défaillant

On appelle :

● Faux bon client, un client défaillant considéré par la méthode de score comme bon
client.

● Faux défaillant, un bon client considéré par la méthode de score comme client
défaillant Spécificité

On appelle coefficient de spécificité et on note 1 − α la probabilité suivante :

1 − α = P r(S(x) < s/x ∈ E2 )

= P r(S(x) < s/Y = 0)

C’est donc la probabilité de bien détecter un négatif ou encore c’est la proportion des
négatifs dans la population pouvant être détecté par la méthode.
La quantité α = P r(S(x) ≥ s/x ∈ E2 ) désigne donc la probabilité de considérer un client
comme bon alors qu’il est défaillant (faux bon client). C’est un premier type de risque
d’erreur d’affectation.

Sensibilité

Mémoire de DIPESII 2019-2020 27


3.2. Estimation

On appelle coefficient de sensibilité et on note 1 − β la probabilité suivante :

1 − β = P r(S(x) > s/x ∈ G1)

= P r(S(x) > s/Y = 1)

C’est donc la probabilité de bien détecter un bon client ou encore c’est la proportion
des bons clients dans la population pouvant être détecté par la méthode.
La quantité β = P r(S(x) ≤ s/x ∈ E1) désigne par conséquent la probabilité de considérer
un client comme défaillant alors qu’il est bon (faux mauvais client).
Il s’agit pour d’un deuxième type de risque d’erreur d’affectation.

Remarque 3.2.1 : ● Le meilleur modèle (et donc la meilleure fonction de score) est
celui qui minimise les deux types de risque d’affectation (les quantités β et α).

● Les coefficients β et α changent lorsque le seuil s change. On les exprime comme


des fonctions de s ∶ α(s) et β(s). Le seuil s est déterminé à l’extérieur du modèle
notamment par des considérations d’ordre économique.

3.2.6 Principaux outils de mesures de performances

Plusieurs outils de mesure de performance sont proposés par la littérature statistique.


On présente dans ce qui suit trois de ces outils qui sont les plus connus : la matrice de
confusion, la courbe ROC et la courbe LIFT.

Matrice de confusion

On l’appelle aussi tableau de classement. Elle prend la forme suivante :

Mauvais clients (Y = 0) Bons clients (Y = 1) Total


Considérés mauvais (Ŷ = 0) n11 n12 n1.
Considérés bons (Ŷ = 1) n21 n22 n2.
Total n.1 n.2 n

Tableau 3.2.1

Où n11 est le nombre de mauvais client, n22 est le nombre de bon client, n12 est le
nombre de mauvais client considéré comme bon client, n21 est le nombre de bon client client
considéré comme mauvais client, n2. est le nombre de client considérés (prédit) comme
mauvais et n1. est le nombre de client considérés (prédit) comme bon. L’avantage d’une

Mémoire de DIPESII 2019-2020 28


3.2. Estimation

telle matrice est qu’elle montre rapidement si le système parvient à classifier correctement
les individus dans leurs groupes.
A partir de ce tableau, on calcule :

● Le taux d’erreur de classement donné par : mc = n12 +n21


n .

● Le taux de biens classés donné par : bc = n11 +n22


n

Courbe de ROC

L’appellation ROC vient des abréviations du nom anglais donné à cette courbe :
( Receiver operating caracteristics).

Définition 3.2.8 : La courbe ROC est défini par la représentation graphique de la


proportion (1 − β(s)) des positifs détectés par la méthode en fonction de la proportion des
faux positifs α(s) lorsque s varie. On peut noter d’après le graphique ci-dessous, que :

● Lorsque α(s) = 0, 1 − β(s) = 0

● Lorsque α(s) = 1, 1 − β(s) = 1.

● 1 − β(s) et α(s) évoluent dans le même sens.

figure 3.2.1

On peut noter que :

● Lorsque les deux distributions de S(x)(dans les deux groupes)sont bien distinctes,
la courbe ROC est horizontale. En effet, lorsque α(s) passe de 0 à 1, 1 − β(s) prend
toujours la valeur 1(Modèle le plus performant).

● Lorsque les deux distributions de S(x) sont confondues, la courbe ROC coïncide
avec la première bissectrice.(Modèle le moins performant). Ces remarques conduisent
à considérer la surface sous la courbe ROC(AUC) comme indicateur synthétique de
la performance d’un modèle :

i) AUC≈ 1 modèle très performant


1
ii) AUC≈ 2 modèle non performant

Mémoire de DIPESII 2019-2020 29


3.3. Régression logistique

Cet indicateur permet ainsi de choisir entre modèles : On retient le modèle ayant le
AUC le plus élevé.
La surface AUC peut être calculée en utilisant la méthode de trapèzes une fois que la
courbe ROC est tracée. Mais en pratique, on utilise la méthode des paires concordantes.
On démontre en effet que : AUC= P (S1 > S2 ) où S1 et S2 sont respectivement les scores
de deux clients tirés d’une manière indépendante dans le groupe des bons clients puis dans
le groupe des clients défaillants.
Dans les applications, cette probabilité est estimée par la proportion des paires concor-
dantes. Le nombre de paires s’élève à n1 n2 . Parmi ces paires, celles où le score du positif
dépasse celle du négatif sont appelées paires concordantes.

3.3 Régression logistique

3.3.1 Modélisation

Considérons toujours : E1 ∪ E2 = E et E1 ∩ E2 = ∅ où cardinal de E est égale à n ,


cardinal de E1 est égale à n1 et cardinal de E2 est égal à n2 (n1 + n2 = n); E1 représente le
groupe des clients en bonnes états et E2 représente le groupe des clients défaillants . Nous
voulons prédire le groupe d’appartenance d’un client à partir des p variables explicatives.
La probabilité apriori est P (Y = k) avec k ∈ {0, 1}. Soit x une observation de la variable
explicative X. Nous cherchons la probabilité a postériori P (Y = k∣X = x) avec k ∈ {0, 1}.

Définition 3.3.1 (Rouvière, 2015) : Soit Y une variable explicative binaire et


X = (1, X1 , X2 , . . . , Xp ) p variables explicatives. Le modèle de régression logistique est
défini comme suit :

P (Y = 1/X = x)
ln (

) = β0 + β1 x1 + ⋅ ⋅ ⋅ + βp xp = x β.
1 − P (Y = 1/X = x)

Simplement Logit(P (Y = 1∣X = x) = x β


- Où β = (β0 , β1 , . . . , βp ) est une matrice uni colonne de dimension (p + 1) × 1 de terme


général (βi )0≤i≤p et à valeurs dans R.

- Logit∶ p → ln( 1−p


p
) est une bijective de ]0, 1[ dans R. C’est la fonction de lien qui
permet d’exprimer le ln ( 1−P (Y =1/X=x) ) en fonction des variables explicatives.
P (Y =1/X=x)

Représentation graphique de la fonction logistique

Mémoire de DIPESII 2019-2020 30


3.3. Régression logistique

figure 3.2.2

Proposition 3.3.1 :
exp(x β)

P (Y = 1∣X = x) =
1 + exp(x′ β)

Preuve : On a P (Y = 1/X = x) = p1 f1 (x)


p1 f1 (x)+p2 f2 (x) grâce à la formule de Bayes en divisant
les membres de l’égalité de droite par p2 f2 (x). On obtient :
p1 f1 (x)
p2 f2 (x)
P (Y = 1/X = x) = (3.5)
1 + pp12 ff12 (x)
(x)

Où f1 et f2 sont des densités du vecteur X respectivement dans les groupes E1 et E2 .


1
Or = 1 + pp21 ff21 (x)
P (Y = 1/X = x) (x)

1 p2 f2 (x) 1 p2 f2 (x)
=1+ ⇐⇒ −1=
P (Y = 1/X = x) p1 f1 (x) P (Y = 1/X = x) p1 f1 (x)
1 − P (Y = 1/X = x) p2 f1 (x)
⇐⇒ =
P (Y = 1/X = x) p1 f1 (x)
P (Y = 1/X = x) p1 f1 (x)
⇐⇒ = (3.6)
1 − P (Y = 1/X = x) p2 f2 (x)
En passant au ln de part et d’autre de l’équation (3.6) on obtient :
P (Y = 1/X = x) p1 f1 (x)
ln ( ) = ln ( )
1 − P (Y = 1/X = x) p2 f2 (x)

P (Y = 1/X = x)
Or par définition nous avons : ln ( ) = β0 + β1 x1 + ⋅ ⋅ ⋅ + βp xp = x β. ce

1 − P (Y = 1/X = x)
qui nous permet d’écrire ln ( p2 f2 (x) ) = x β. c’est-à-dire pp12 ff12 (x)
p1 f1 (x)
(x) = exp(x β). en remplaçant
′ ′

exp(x β

donc p2 f2 (x) par exp(x β) dans (3.5) on obtient : P (Y = 1/X = x) =


p1 f1 (x) ′
.
1 + exp(x′ β
La linéarité d’un score constitue un avantage important en pratique du fait notamment
de la facilité de la mise en œuvre informatique. Néanmoins les hypothèses de normalité et

Mémoire de DIPESII 2019-2020 31


3.3. Régression logistique

d’homoscédasticité peuvent s’avérer dans certain cas peu réalistes et inadaptés.


Cependant en restant dans le cadre Bayésien, il peut être noté que la linéarité du score
peut être obtenue sous autre hypothèse concernant les lois conditionnelles. L’analyse
discriminante logistique, n’impose aucune loi particulière à suivre par les descripteurs. Elle
se donne comme hypothèse de base la linéarité du logarithme du rapport de vraisemblance :

f1 (x)
ln (

)=β x
f2 (x)

Elle est ainsi plus générale que l’analyse discriminante bayésienne avec normalité et
homoscédasticité des descripteurs. ∎

3.3.2 Expression de la probabilité à postériori

Lorsque le score est linéaire, les probabilités à postériori prennent une forme particulière
qui est celle de la loi logistique. En effet, notons p(x)(respectivement q(x)) la probabilité
à postériori d’appartenance au groupe E1 (respectivement E2 ) :

f1 (x)p1
p(x) = P (e ∈ E1 /X = x) =
f1 (x)p1 + f2 (x)p2

Soit en divisant le numérateur et le dénominateur par f2 (x)p2 et compte tenu de



ex β
l’hypothèse de linéarité de logarithme du rapport de vraisemblance :P (x) = de
1 + ex β

on a : q(x) = P (e ∈ E2 /X = x) = f1 (x)p
f2 (x)p2
1 +f2 (x)p2
. En divisant toujours le numérateur et le
1
dénominateur par f2 (x)p2 on obtient : q(x) = ′ .
1 + ex β
Ce qui montre que les probabilités à postériori prennent la forme de la fonction de
répartition d’une loi logistique.
Pour les estimations ici on utilise la méthode du maximum de vraisemblance pour ses
bonne propriété asymptotique.

Estimation des paramètres

On utilise la méthode du maximum de vraisemblance pour ses bonnes propriétés asympto-


tiques.
Soit un échantillon indépendant de n observations :

(y1, ; x1,1 ; x1,2 ; . . . ; x1,j ; . . . ; x1,p ), (y2, ; x2,1 ; x2,2 ; . . . ; x2,j ; . . . ; x2,p ), . . . ,

(yi, ; xi,1 ; xi,2 ; . . . ; xi,j ; . . . ; xi,p ), (yn, ; xn,1 ; xn,2 ; . . . ; xn,j ; . . . ; xn,p ).

Mémoire de DIPESII 2019-2020 32


3.3. Régression logistique

La vraisemblance de cet échantillon est par définition sa probabilité de réalisation :

L(y, x, β) = P ((Y1 = y1 , X1 = x1 ), . . . , (Yi = yi , Xi = xi ), . . . , (Yn = yn , Xn = xn ))

Soit compte tenu de l’indépendance de l’échantillon,


n
L(y, x, β) = ∏ P (Yi = yi , Xi = xi )
i=1
n
P (Yi = yi ∣Xi = xi )
= ∏ P (Yi = yi ∣Xi = xi ) P (Xi = xi ) car P (Yi = yi ∣Xi = xi ) =
i=1 P (Xi = xi )

Soit, en passant aux logarithmes :


n n
ln (L(y, x, β)) = ∑ ln (P (Yi = yi ∣Xi = xi )) + ∑ ln (P (Xi = xi ))
i=1 i=1

D’où en remplaçant,
n n
ln (L(y, x, β)) = ∑ ln (P (xi )yi (1 − P (xi ))1−yi ) + ∑ ln (P (Xi = xi ))
i=1 i=1
n n
= ∑ yi (ln(P (xi )) − ln(1 − P (xi ))) + ∑ ln(P (Xi = xi ))
i=1 i=1
n ′ n
= ∑ yi (xi β) − ln(e ) + ∑ ln(P (Xi = xi ))
′ xi β
i=1 i=1

Notons ln L(y, x, β) par LL par la suite.


La maximisation de L passe par l’annulation de ses dérivées premières.
La solution de cette équation ne peut pas être déterminée explicitement. On utilise à
cet effet un algorithme de résolution numérique, le plus connu étant l’algorithme de
Newton-Raphson. β est ainsi estimé par β̂.

Estimation des probabilités apostérioris

D’après la proposition On a :

exp(x β) 1

P (Y = 1∣X = x) = et P (Y = 0∣X = x) = (3.7)


1 + exp(x′ β) 1 + exp(x′ β)
exp(x β̂ 1

P̂ (Y = 1∣X = x) = et P̂ (Y = 0∣X = x) = (3.8)


1 + exp(x β̂) ′
1 + exp(x′ β̂)
La règle Bayésienne permet d’affecter une nouvelle observation à une classe d’appar-
tenance (Cf chapitre 2). Ainsi pour déterminer la classe d’appartenance d’une nouvelle
observation, on compare les probabilités, P̂ (Y = 1∣X = x)P̂ (Y = 0∣X = x)
P̂ (Y =1∣X=x)
P̂ (Y =0∣X=x)
= P̂ (Y =1∣X=x)
1+P̂ (Y =1∣X=x)
. en appliquant Logit on obtient :

P̂ (Y = 1∣X = x)
ln ( ) = Logit (P̂ (Y = 1∣X = x))
P̂ (Y = 0∣X = x)

Mémoire de DIPESII 2019-2020 33


3.3. Régression logistique

En effet le rapport de ses probabilités est comparé à 1 en passant la fonction ln on a


donc la règle de décision suivante :

Logit (P̂ (Y = 1∣X = x)) > 0 ⇐⇒ x β > 0


donc la nouvelle observation est affectée au groupe des mauvais clients ;

Logit (P̂ (Y = 1∣X = x)) < 0 ⇐⇒ x β < 0


donc la nouvelle observation est affectée au groupe des bons clients ;


x β = 0 on ne peut rien dire.

La fonction score est donc S(x) = x β


3.3.3 Test de paramètres

La théorie du maximum de vraisemblance nous donnant la loi (asymptotique) des


estimateurs, il est possible de tester la significativité des variables explicatives. Pour cela,
deux tests sont généralement utilisés :

- Le test de Wald ;

- Le test du rapport de vraisemblance ou de la déviance.



⎪H0 ∶ β0 = β1 = ⋅ ⋅ ⋅ = βq−1 = 0



Les hypothèses s’écrivent :⎨

⎩H1 ∶ ∃k ∈ {0, . . . , q − 1}∣βk ≠ 0



Test de Wald

Il est basé sur la précision des estimateurs et test. On note β0 , . . . , βq−1 le vecteur
ˆ −1
composé des q premières composantes de β et ∑ 0,...,q−1 , la matrice bloc composée des q

premières lignes et colonnes de p − 1. Il est facile de voir que sous H0 ,


ˆ −1
β ′ 0,...,q−1 ∑ β ↝ χ2q
0,...,q−1) 0,...,q−1)

Le test du rapport de vraisemblance ou de la déviance

La statistique de test est basée sur la différence des rapports de vraisemblance entre
le modèle complet et le modèle sous H0 . On note βH0 l’estimateur du maximum de
vraisemblance contraint par H0 (il s’obtient en supprimant les q premières variables du
modèle). On a alors sous H0 ,
modèle reduit
LR = −2 ln ( )
modèle complet
= [−2LL( modèle réduit )] − [−2LL( modèle complet )]

= LL(β̂) − LL(βˆH0 )

Mémoire de DIPESII 2019-2020 34


3.3. Régression logistique

LR ↝ χ2q

3.3.4 Sélection des variables explicatives significatives

Dans les études réelles, beaucoup de variables disponibles, plus ou moins pertinentes,
concurrente. . . Trop de variables tue l’interprétation, il y a le danger du sur-apprentissage
aussi
Le critère de choix du modèle a pour objectif de comparer les modèles qui ne sont
pas forcément emboîtés les uns dans les autres. Il permet donc de choisir le modèle le
plus parcimonieux (c’est-à-dire un modèle dans lequel les variables explicatives expliquent
parfaitement la variable à expliquer). Pour cela, on pénalise la vraisemblance par une
fonction de nombre de paramètres. En effet, le meilleur modèle est celui qui a la plus
grande log-vraisemblance. Cependant, en présence d’un modèle saturé (Modèle ayant
un nombre maximum de paramètres), la log-vraisemblance sera maximum, car la log-
vraisemblance augmente avec la complexité du modèle, et choisir le modèle qui maximise
la log-vraisemblance revient à choisir le modèle saturé. Ce modèle est clairement sur-
paramétrés. C’est pourquoi, dans la perspective d’obtenir un modèle de taille raisonnable,
il sera donc bon de la pénaliser par une fonction du nombre de paramètres. Deux critères
répondent à ces spécifications.

- Par définition, Le critère de choix Akaike Informative Critérion (AIC) pour un


modèle à p variables est défini par :

AIC = −2L + 2p

Où L est la log-vraisemblance du modèle de régression logistique et 2p est la fonction


de nombre de paramètres ;

- Un autre critère de choix du modèle est le Bayesiam Informative Critérion (BIC),


pour un modèle à p paramètres, il est défini comme suit :

BIC = −2L + p ln(n)

Pour chaque modèle concurrent, le critère de choix est calculé et le modèle qui possède
le plus petit AIC ou BIC est celui que l’on retient.

Sélection ascendante (option Forward)

Elle consiste à ne présenter aucune variable a l’étape initiale . A chaque étape on fait
entrer la variable qui contribue le plus au pouvoir discriminant du modèle, la sélection

Mémoire de DIPESII 2019-2020 35


3.3. Régression logistique

s’arrête lorsque toutes les variables sont intégrées dans le modèle ou lorsque le critère de
choix ne diminue plus .

Sélection descendante (option Backward)

On démarre avec le modèle complet (construit avec toutes les variables) a chaque étape,
la variable contribuant le moins au pouvoir discriminant du modèle est éliminée.
La sélection s’arrête On s’arrête lorsque toutes les variables sont retirées du modèle ou
lorsque le critère de choix ne diminue plus.

Sélection mixte (option Stepwise)

Elle consiste à démarrer comme dans la procédure ascendante ;dès qu’une variable entre
dans le modèle, on vérifie compte tenu de cette entrée si l’une des variables déjà présentes
est susceptible d’être éliminée. La sélection s’arrête quand on ne plus ajouter ou éliminer
de variables.

3.3.5 Validation du modèle

Test d’Hosmer-Lemeshow

Il permet de déterminer la qualité d’ajustement du modèle aux données, si l’ajustement


est correct, les valeurs prédites seront proches des valeurs observées.
On calcule pour chaque observation la probabilité prédite P̂ (Y = 1∣X = xi ). On classe
les observations par déciles de probabilités prédites. On compare dans chaque classe les
effectifs observés et les effectifs théoriques.

- Si dans chaque classe ces deux effectifs sont proches alors le modèle est calibré

- S’il existe des classes dans lesquelles les effectifs sont trop différents, alors le modèle
est mal calibré
H0 : les probabilités théoriques sont proches de celles observées (modèle calibrée)
H1 : les probabilités théoriques sont différentes des observées (modèle non calibrée)
Pour chaque observation xi ,on calcule la probabilité prédite par le modèle P̂ (Y =
1∣X = xi ), que l’on classe par ordre croissant ;

- Ensuite on subdivise ces probabilités en G groupes de tailles égales. En général pour


un échantillon très grand, on attribue à G la valeur 10. Le dernier groupe, celui des
P̂ (Y = 1∣X = xi ), les plus grands, possède un effectif supérieur aux autres. Par la

Mémoire de DIPESII 2019-2020 36


3.3. Régression logistique

suite, on note mg l’effectif du groupe g, fg l’effectif des cas (Y = 1) dans le groupe


g, µg la moyenne des P̂ (Y = 1∣X = xi ), dans le groupe g.

La statistique de test d’Hosmer-Lemeshow est la suivante :


G 2
(fg − µg mg ))
Ĉ = ∑ , sous H0 Ĉ ↝ χ2 (G − 2)
g=0 µg mg (1 − mg )

Validation croisée

la validation croisée est utilisée pour évaluer le taux d’erreur. La validation croisée,
dans sa version la plus classique, connue sous le nom de leave-one-out, procède comme suit
Pour i = 1 à n, on construit la règle de décision sur la base privée de son ième élément et on
affecte ce dernier à l’un des groupes suivant cette règle. Le taux d’erreur estimé est alors
la fréquence de points mal classés de la sorte. L’estimation du taux d’erreur ainsi obtenu
est pratiquement sans biais ;la variance de l’estimation est d’autant plus importante que n
est grand, puisque dans ce cas, les différentes règles de décision construites à partir des
observations communes ont tendance à se ressembler.

Mémoire de DIPESII 2019-2020 37


⋆ ⋆ Chapitre Quatre ⋆ ⋆

APPLICATION

Ce chapitre est essentiellement concentré sur l’élaboration d’une fonction score grâce
aux deux méthodes vu au chapitre 3 à savoir la méthode de Fisher et la régression logistique
et a pour but choisir la méthode la plus optimale ou qui présente moins d’erreur en termes
de donnée. La construction d’une fonction score repose sur 3 étapes à savoir : la constitution
de l’échantillon initial, la sélection des variables discriminantes et l’analyse statistique
proprement dite.

4.1 Constitution de l’échantillon


Consiste à définir une représentativité statistique et homogénéité des échantillons.
Il faut disposer de deux sous-échantillons :

● un composé d’entreprises ayant connu l’événement à détecter (défaut, faillite),

● L’autre d’entreprises ne l’ayant pas connu, réputées saines.

Les données que nous utilisons sont issusde la Rabat- Kenitra du Maroc et qui nous
donne un échantillons de 46 entreprise qui se composent de 23 entreprises jugées comme
défaillantes et 23 saines. Nous notons ici que les entreprises sont représentées par la
variable Y et les entreprises défaillantes prennent la valeur 0 alors que les entreprises non
défaillantes prennent la valeur 1.

Principales caractéristiques Entreprises saines Entreprises deffaillaintes


Secteurs d’activités :

Commerce : 10 15
Industries : 13 08

Tableau 4.1.2

Mémoire de DIPESII 2019-2020 38


4.2. Sélection des variables

figure 4.1.3

4.2 Sélection des variables


Il s’agit ici de sélectionner les variables importantes et qui ont on pouvoir de discrimi-
nation importante et d’éviter de répéter les variables.

Choix des ratios

On a distingué trois grandes catégories de ratios représenté sur le tableau suivant :


Ce tableau montre que les valeurs prises par les sept ratios retenus sont dispersées.
Elles différent fortement d’une entreprise à une autre.
Pour avoir une idée préliminaire sur le pouvoir de discrimination de chaque ratio, nous
utilisons le test de différence de moyennes de student relatives à chaque ratio entre les
entreprises défaillantes et les entreprises saines. Les résultats de ce test se résument ainsi :
Les premiers résultats de notre étude montrent que la moyenne relative au ratio 1
(ratio d’indépendance financière) est plus élevée chez les entreprises saines (0, 96) que
chez les entreprises défaillantes (0, 75). La différence entre ces deux moyennes est positive
(+0, 21) et statistiquement significative. Ce ratio est discriminant selon le test de student.
Cette situation s’applique également pour les ratios R2 (Ratio de trésorerie immédiate),
R3 (ratio de l’équilibre financier), R5 (ratio fournisseurs) et R7 (Rentabilité financière).
Par contre, la moyenne relative au ratio 6 (ratio clients) est plus élevée chez les défaillantes
(1, 37) que chez les saines (0, 44). Le délai client est plus long chez les défaillantes que chez
les entreprises saines. Or, ces remarques élémentaires ne nous permettent pas de trancher
définitivement sur les variables les plus discriminantes.

Construction de la fonction discriminante

Mémoire de DIPESII 2019-2020 39


4.2. Sélection des variables

Aspect Ratios Intitule Formule


Capitaux propres
/capitaux permanents
R1 Ratio d’autonomie financière
Disponibilité
Ratios R2 Ratio de trésorerie immédiate
/dette à court terme
de struc- R3 Ratio d’équilibre financier
Capitaux permanents
ture
/actif
Charge
Part des frais financiers dans
financière/valeur
R4 la valeur ajoutée
Ajoutée
Ratios R5 Part des frais financiers dans
Dettes FRS/achats
d’activité R6 la valeur ajoutée
TTC
Ratio crédit client
créances /CA TTC
Ratios de R7 Rentabilité financière RNE/CP
rentabi-
lité

Tableau 4.2.3

Ratios Valeur Valeur maxi- Moyenne Ecart-type


minimal mal
R1 0, 42 1, 00 0, 8548 0, 1792
R2 0, 00 0, 54 0, 1087 8, 735E −02
R3 0, 45 12, 91 2, 3952 2, 4691
R4 0, 01 0, 44 0, 1422 0, 1092
R5 0, 12 3, 29 1, 5730 0, 8807
R6 0, 01 2, 84 0, 9052 0, 7916
R7 0, 00 0, 21 7, 217E −02 5, 325E −02

Tableau 4.2.4

Mémoire de DIPESII 2019-2020 40


4.2. Sélection des variables

Ratios Entreprises Entreprises Ecart Test-t signification


saines défaillantes
R1 0, 9617 0, 7478 0, 2139 5, 019 0, 000∗
R2 0, 1396 7, 783E 602 6, 174E 602 2, 538 0, 015∗∗
R3 3, 5343 1, 2561 2, 2783 3, 498 0, 01∗
R4 0, 11813 0, 1030 0, 0783 2, 579 0, 013∗∗
R5 1, 9548 1, 1913 0, 7635 3, 234 0, 02∗
R6 0, 4383 1, 3722 0, 9339 −4, 928 0, 00∗
R7 8, 913E −02 5, 522E −02 3, 391E −02 2, 256 0, 29∗∗

Tableau 4.2.5

Le traitement de notre base des données par le biais du logiciel SP SS10 nous a permis
d’identifier la fonction score suivante :

fonction
R1 2, 071
R2 −0, 036
R3 0, 070
R4 1, 662
R5 0, 706
R6 −1, 219
R7 8, 224
constante −2, 772
Tableau 4.2.6( Extrait de SPSS)

Donc notre fonction score peut s’écrire ainsi :

S(X) = 2, 071R1 − 0, 036R2 + 0, 070R3 + 1, 662R4 + 0, 706R5 − 1, 219R6 + 8, 224R7 − 2, 772

L’affectation aux groupes se fera en fonction des centroïdes de ces derniers, c’est-à-dire par
comparaison avec un score discriminant « moyen » pour chaque groupe. Ce score moyen
est calculé à partir de la fonction discriminante, où l’on remplace les valeurs individuelles
par les moyens des variables indépendantes pour le groupe dont on s’occupe. Les scores
discriminants moyens pour les deux groupes sont donnés ainsi :

Mémoire de DIPESII 2019-2020 41


4.2. Sélection des variables

fonction 1
Appartenance Scores moyens
0(entreprises défaillantes) −1, 343
1(entreprises saines) +1, 343
Tableau 4.2.7( Extrait de SPSS)

Chaque score individuel discriminant individuel est ensuite comparé aux deux scores
moyens et affecté au groupe dont-il est le plus proche.
Généralement, on teste la capacité prédictive de la fonction score soit par des tests
statistiques faisant appel à des hypothèses probabilistes, soit par un test pragmatique
par le biais de la matrice de confusion. Concernant les premiers tests, nous utilisons la
corrélation canonique et Lambda de Wilks.

Fonction Valeur propre œde la variance œcumulé Corrélation canonique


1 1, 886 100, 0 100, 0 0, 808

Tableau 4.2.8( Extrait de SPSS)

Plus la corrélation canonique est proche de 1, meilleur est le modèle. Dans notre cas,
la corrélation canonique est égale à 0, 808. Ce résultat est très encourageant parce que
cette valeur confirme un pouvoir discriminant assez important de la fonction discriminante
extraite.

Test de la ou des fonctions Lambda de Wilks khi-deux ddl Signification


1 0, 346 42, 929 7 0, 000

Tableau 4.2.9( Extrait de SPSS)

La valeur de Lambda de Wilks étant faible, et est égale à 0, 346, et donc plus proche
de 0 que de 1, avec un khi-deux ayant un degré de signification nul. Cela veut dire qu’au
niveau global, la différence des moyennes des groupes est significative. Pour s’assurer que la
fonction discriminante classifie bien les entreprises en sous-groupes, on analyse la matrice
de confusion qui regroupe les entreprises bien classées et les mal classées. C’est le moyen
le plus utilisé est aussi le plus « parlant ». La matrice de confusion de notre fonction score
se présente comme suit :

Mémoire de DIPESII 2019-2020 42


4.2. Sélection des variables

figure 4.2.10

Cette matrice fait ressortir que la fonction score extraite ci-dessus permet de classer
un an avant l’occurrence de la défaillance 84, 78œ( 19+20
46 ) des entreprises correctement. Ce

taux peut se décortiquer ainsi :


20
- Le pourcentage des bien classées pour les entreprises saines est égal à 23 = 87œ
19
- Le pourcentage des bien classées pour les entreprises défaillantes est égal à 23 = 82, 6œ
7
Par contre, le taux d’erreurs(entreprises mal classées) est égal seulement ( 46 ) = 15, 21œ.
Toutefois, on distingue pour ce taux entre : l’erreur du premier type (classer une entreprise
défaillante par l’utilisation de la fonction score parmi les entreprises saines) : ce taux est
4
égal à 23 = 17, 4œ ; et l’erreur du second type (classer une entreprise saine comme une
3
entreprise défaillante par le modèle) : ce taux est égal à 23 = 13œ.

Construction de la fonction score par la régression logistique

Pour construire notre fonction nous utilisons python ou nous faisons appelle a la fonction
fit() qui nous permet d’obtenir le tableau suivant :

ratios Coef std Error z value pr(>∣ z ∣) IC90œ


R1 42, 85 28, 15 1, 52 0, 04 [0, 45; 5, 30]
R2 −3, 02 2, 27 −1, 33 0, 10 [−27, 02; −2, 10]
R3 0, 40 28, 15 0, 01 0, 14 [−1, 30; 7, 04]
R4 −7, 49 5, 90 −1, 32 0, 17 [0, 45; 5, 30]
R5 0, 53 0, 26 2, 03 0, 03 [0, 30; 3, 96]
R6 −2, 72 2, 04 −1, 33 0, 13 [−12, 40; 0, 30]
R7 10, 49 5, 86 1, 88 0, 05 [0, 51; 9, 26]
Constance 17, 43 9, 73 1, 79 0, 07 [0, 21; 5, 60]

Tableau 4.2.11 : Résultat du modèle de régression logistique

Mémoire de DIPESII 2019-2020 43


4.2. Sélection des variables

Les différentes valeurs de P r(z) nous constatons que les ratios retenus pour notre
fonction sont R1 , R5 et R7 ; on obtient la fonction score suivante :

S(X)=42,85R1 +0,53R5 +10,49R7 +17,43

Notre fonction étant élaborer il nous reste juste a validé le modèle

Test d’Homser Lemeshow

Le test d’Homser Lemeshow en Python nous été assez compliqué car Python ne dispose
pas de bibliothèque capable par le calcul de la formule Homser Lemeshow nous avons
utilisé la fonction hoslem. Test de la bibliothèque ResourceSelection du logiciel R qui nous
permis d’effectuer ce test et nous avons eu le résultat suivant :

Chix deux ddl p-value


36 8 8, 97 × 10−5

Tableau 4.2.12 : Test de Hosmer Lemeshow au niveau 5œ

Au seuil de significativité de 5œ ; l’ajustement u modèle est bon car la p-value de la


statistique chi deux à 8 degrés de liberté est inférieur à 5œ. Par conséquent l’hypothèse H1
est rejetée on conclut donc que le modèle est calibré donc valide.

Mémoire de DIPESII 2019-2020 44


♠ Implication pédagogique sur le
système éducatif ♠

Ce travail nous a permis de réaliser une forte application didactique, dans le sens
ou il nous a permis de nous familiariser avec les logiciels de programmations tels que
python, SP SS et Latex ; les logiciel de traitement d’image comme Paint et les tableurs
comme Excel. Ils auront un impact direct et positif dans la qualité rédactionnelle de nos
cours, de nos épreuves et dans la production des comptes rendus conformes aux exigences
en la matière ; ce qui améliorera de ce fait nos pratiques enseignantes. Du point de vue
pédagogique, nous avons dans ce mémoire abordé un thème qui touche les domaines
statistiques et probabilistes, domaines qui ne sont pas étrangers aux apprenants des classes
de Première et Terminale des établissements de l’enseignement secondaire. Les Notions
qui y sont abordées sont entre autres,

- Dans le domaine probabiliste, on a : La loi binomiale qui est introduite par des
exemples, et les probabilités conditionnelles ;

- Dans le domaine statistique, on a : Les séries présentant un regroupement en classe (


histogrammes, caractéristiques de dispersion et de position), les séries statistiques à
deux caractères (l’ajustement linéaire simple) et les exemples de séries chronologiques.

Ainsi, à travers ce mémoire, l’enseignant a la capacité de se servir et de mieux comprendre


l’utilisation pratique des outils probabilistes et statistiques pour la résolution des situations
de vie ; par exemple, le calcul de la moyenne de notes des élèves d’un enseignant peux aider
celui-ci à savoir si le niveau de la classe est bon ou mauvais et pour ce dernier, trouver des
mesures pour améliorer ses enseignement.

Mémoire de DIPESII 2019-2020 45


♠ Conclusion et Perspectives ♠

Ce mémoire nous a permis d’élaborer deux techniques statistiques émanant de la


méthode de scoring ces deux techniques qui sont l’analyse discriminante de Fisher et la
régression logistique. Nous avons présenté la démarche théorique et pratique de la construc-
tion de la fonction score pour chaque technique. La validation de l’analyse discriminante
de Fisher s’est faite grâce à la corrélation canonique et du test Lambda de Wilks qui nous
ont permis d’obtenir la fonction suivante :

S(X) = 2, 071R1 − 0, 036R2 + 0, 070R3 + 1, 662R4

+ 0, 706R5 − 1, 219R6 + 8, 224R7 − 2, 772.

Pour ce qui est de la régression logistique le modèle a été valide grâce au test d’Homser
Lemeshow et nous avons obtenu la fonction suivante :

S(X) = 42, 85R1 + 0, 53R5 + 10, 49R7 + 17, 43

Nous pouvons dire que l’analyse discriminante de Fisher est le meilleur modèle pour
notre base de données car elle a considéré tous les ratios sont discriminant et permettent
d’expliquer l’appartenance d’un client à une modalité Y .
Il faut noter que la taille de l’échantillon de notre travail était réduite ce qui nous
a empêché de définir un seuil, et nous a fournis des résultats trop optimiste ceci est dû
au manque d’accès aux données réelles ; le présent travail peut être étendu en tenant
compte d’un plus grand nombre et d’une plus grande variété de variables, notamment,
celles qualitatives. Bien que ces deux méthodes soient classiques dans les recherches nous
pourrons établir une comparaison avec des nouvelles méthodes comme le réseaux neurone
artificiel.

Mémoire de DIPESII 2019-2020 46


♠ Bibliographie ♠

[1] Azzouz,Elhamma.CreditriskmanagementbytheScoringmethod :Case of the popular bank


of Rabat-Kenitra. Remadem . 2009

[2] Chavent, Marie. Analyse discriminante linéaire et quadratique.2015.

[3] Claver, Jimbo Henri, Ngongo Isidore Séraphin, Alemoka Jean Jacques, Andjiga Gabriel
Nicolas, Etoua Remy Magloire, and Takeru Suzuki. Series modelling and Forecasting
for a system of Credit and Debit in Cameroon’s NSIF. Journal of Advances in Applied
Mathematics 5, №2 2020.

[4] Claver, Jimbo Henri, Ngongo Isidore Séraphin, Dogmo Tsamo Arthur, Andjiga Gabriel
Nicolas, and Etoua Remy Magloire. modelling Risk of Non-Repayment of Bank Credit
by Method of Scoring. Journal of Advances Statistics 4, №4 2019.

[5] Hassen MATHLOUTHI .Cours de scoring.

[6] DROESBEKE J-J., LEJEUNE M., SAPORTA G. (Editeurs) .Modèles statistiques


explicative pour données qualitatives. Technip (2005) .

[7] D.W. HOSMER, S. LEMESHOW, Applied Logistic Regression , Wiley, 2003 .

[8] Gilbert Saporta, Probabilités, analyse de données et Statistiques.

[9] Gilbert Saporta. Sensibilité, spécificité, courbe ROC. Conservatoire des arts et mé-
tiers.2012.

[10] https ://lemakistatheux.wordpress.com/2013/08/13/la-lambda-de-de-wilks/.

[11] S. MENARD. Applied Logistic Regression Analysis, 2nd Ed. Sage Publications, 1997.

[12] P. Barbe et M. Ledoux. Probabilité. Espaces 34, Belin, 1998 .

[13] D. Foata et A. Fuchs. Calcul des Probabilités. Dunod, 1998.

[14] Stéphane Tuffery. Data Mining et Statistique Décisionnelle, l’intelligence des données.
2e édition. 2007.

[15] Ricco RAKOTOMALALA.régression logistique pages 06 à 15.

Mémoire de DIPESII 2019-2020 47


♠ ANNEXE ♠

Mémoire de DIPESII 2019-2020 48


View publication stats

Vous aimerez peut-être aussi