Vous êtes sur la page 1sur 19

Introduction au cours

de Scoring

Pr Zineb El Akkaoui
Contenu du Cours

Pré-requis
l Analyse de données par ACP
l Algèbre linéaire
l Statistique
l Probabilité

Scoring
l Introduction & Méthodologie
l AFD pour le Scoring
l Méthode Géométrique (Discrimination linéaire)
l Méthode Analyse Discriminante Probabiliste (Discrimination Bayesienne)
l Méthode de Régression Logistique
l Arbre de décision
l Méthode ensembliste : cas des Forêts Aléatoires
l Évaluation de la performance

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 2


Introduction

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 3


Définition

Qu’est ce qu’un score ?


l En statistique, le score est un « classement »
l Le score est une note globale d’un individu
l Le classement désigne l’affectation des individus d’une population dans des groupes
définis à priori.

Le scoring (statistique) est un ensemble de méthodes conduisant à un


classement de l’individu au sein de groupes/classes définis à priori

Le classement est effectué au vu de certaines caractéristiques de cet individu

Le scoring est une famille d’algorithmes de classification d’apprentissage


supervisé permettant d’effectuer le classement au sein de groupes sur la base
d’un score

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 4


Domaines d’application

Les méthodes de scoring sont appliquées dans plusieurs domaines

Exemples : score d’appétence permet d’apprécier la probabilité qu’un


client soit intéressé par un nouveau produit

Classement selon deux groupes : clients qui sont intéressés par le


nouveau produit et ceux qui ne le sont pas

Ciblage auprès des clients les plus intéressés, afin de


l n’atteindre que les clients les plus réceptifs
l éviter d’importuner les clients non intéressés

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 5


Domaines d’application

Score de risque mesure la probabilité pour un client de subir


un certain événement défavorable pour l’entreprise, exemples :

l Le score risque appelé crédit scoring utilisé par les banques pour
apprécier les risques de non remboursement des crédits accordés

l Le score risque utilisé par les compagnies d’assurance pour


apprécier le niveau de sinistralité d’un nouveau client

• è L’utilisation d’un score de risque permet ainsi de réduire les impayés.


Elle permet également de fournir les bases d’une tarification du risque

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 6


Étapes de construction d’un score

En résumé, trois phases sont distinguées de construction du score

Formulation Construction et Construction d’une


et préparation validation d’un modèle règle de décision

Par la suite, on peut application des prévisions

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 7


Étapes de construction d’un score

Formulation Construction et Construction d’une


et préparation validation d’un modèle règle de décision

1. Choix de la variable à expliquer Y. On parle aussi de critère à modéliser ou encore de


variable cible. La variable Y sera qualitative, généralement binaire à deux modalités.
Chaque modalité définit un groupe.

2. Choix d’un vecteur de variables explicatives, peuvent être quantitatives ou qualitatives.

3. Choix des données et de l’échantillon. L’échantillon doit être représentatif de la


population. On dispose alors d’un échantillon de taille n (nombre d’individus) sur lequel
sont mesurées simultanément les p variables explicatives X1 ,...,Xp et la variable `a
expliquer Y.

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 8


Étapes de construction d’un score

Formulation Construction et Construction d’une


et préparation validation d’un modèle règle de décision

4. Choix de la méthode de construction du score.


• Construction d’un modèle en se basant sur les méthodes de machine learning
• Utilisation du modèle pour construire une fonction score S(X) donnant une note à
un individu en fonction de ses valeurs sur X= (X1,...,Xp).

Page 9
Approches de classification
supervisée
Méthodes du scoring

Page 10
Étapes de construction d’un score

Formulation Construction et Construction d’une


et préparation validation d’un modèle règle de décision

4. Choix de la méthode de construction du score. Une fonction score S(X)


donne une note à un individu en fonction de ses valeurs sur X= (X1,...,Xp).
Parmi les méthodes classiques de construction de scores, on peut citer

l L’analyse factorielle discriminante l L’analyse discriminante probabiliste


(AFD) • Variables explicatives quantitatives
• Variables explicatives quantitatives. • Y et X = (X1,...,Xp) aléatoires
• Outil descriptif de visualisation des • Affectation d’un nouvel individu au groupe « le plus
données probable »
• Analyse quadratique discriminante (AQD)
l L’analyse discriminante géométrique l La régression logistique
• Variables explicatives quantitatives • Variables explicatives quantitatives ou qualitatives
• Affectation d’un nouvel individu au groupe • Y binaire et aléatoire et X = (X1,...,Xp) non aléatoire
« le plus proche »

Page 11
Étapes de construction d’un score

Formulation Construction et Construction d’une


et préparation validation d’un modèle règle de décision

5. Construction d’une règle de décision. Dans le cas où Y est binaire, ses


deux modalités forment deux groupes d’individus et on peux fixer un
seuil c pour obtenir la règle suivante :
• S(X) ≤ c ⇒ l’individu est affecté au groupe 1
• S(X) > c ⇒ l’individu est affecté au groupe 2

6. Evaluation du score (courbe ROC, AUC,...) et évaluation de la règle de


décision (taux d’erreur, sensibilité, spécificité...) en utilisant les méthodes
de l’ échantillon test, de validation croisée....

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 12


Formulation et préparation

Formulation : Les méthodes de scoring consistent en


l La modélisation d'une variable Y qualitative à K modalités à l’aide de p variables
explicatives X = (X1,...,Xp) quantitatives ou qualitatives
l La construction d’une fonction score à la base du modèle constuit

Préparation de données :
l Nous supposons disposer d'un échantillon de n observations de Y, variable qualitative à
K modalités, et de p variables quantitatives X.

l À l’aide d’une partie de ces données, le modèle et la fonction score seront construits.
• Ce sous-échantillon est nommé données d’apprentissage

l À l’aide de l’autre partie s’effectueras la validation du modèle


• Ce sous-échantillon est nommé données de test

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 13


Modélisation et validation

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 14


Modélisation et validation

Modèles peuvent donner de faux résultats (données non fiables) en raison de


l ne pas correspondre aux attentes ou être incompréhensibles ou inacceptables par les
utilisateurs
• souvent en raison des variables utilisées

l mauvaise généralisation dans l’espace (autre échantillon) ou le temps (échantillon


postérieur)
• sur-apprentissage (over-fitting)

under-fitting over-fitting

Principaux outils de comparaison :


l matrices de confusion, courbes ROC, de lift, et indices associés

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 15


Modélisation et validation

L’apprentissage automatique ne devine pas le profil des clients à cibler, il


l’extrapole à partir des données fournies.

Pour les études d’appétence, les retours des actions commerciales précédentes
(refus d’achat) permettent de dégager les profils positifs et négatifs
l Il est capital de mémoriser cette information.

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 16


Comparaison de modèles : courbe ROC

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 17


Cycle de vie d’un score

Les outils de de scoring ont une phase d’expérimentation


l sur une petite échelle
l destinée à les ajuster et valider, et tester leur utilisation

Les outils en production doivent être revus régulièrement (tous les 2 à 5 ans)
l évolution de l’environnement concurrentiel, économique, sociodémographique,
réglementaire
l apparition, disparition, modification de produits

Analyse de Données Avancée et Scoring – Pr. Zineb El Akkaoui Page 18


Fin de l’Introduction

Page 19