Vous êtes sur la page 1sur 177

COURS DE DATA MINING

Stphane TUFFERY

Universit Rennes 1
Master 2 Ingnierie conomique et financire
7 fvrier 2014
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Prsentation de lintervenant
Responsable de lquipe statistique dans un groupe
bancaire franais
Enseigne lENSAI et lUniversit Catholique de
lOuest (Angers)
Docteur en Mathmatiques
Auteur de :
Data Mining et Statistique Dcisionnelle,
ditions Technip, 2005, 4e dition 2012,
prface de Gilbert Saporta
Data Mining and Statistics for Decision
Making, ditions Wiley, mars 2011
tude de cas en Statistique Dcisionnelle,
ditions Technip, 2009
Computational Actuarial Science with R
(ouvrage collectif), ditions Chapman &
Hall, 2014
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Plan
Quest-ce que le data mining ?
Quest-ce que le Big Data ?
quoi sert le data mining ?
quoi sert le Big Data ?
La rforme de Ble et le ratio de solvabilit
Llaboration dun modle de scoring
------------------------------------------------------------------------------------------------------------

La slection des variables


La modlisation
Quelques principes du data mining
Lagrgation de modles
Mthodes pour le Big Data
La dtection des rgles dassociation
Conclusion
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quest-ce que le data mining ?

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

La fouille de donnes
Le data mining est lensemble des :
mthodes scientifiques
destines lexploration et lanalyse
de (souvent) grandes bases de donnes informatiques
en vue de dtecter dans ces donnes des profils-type, des
comportements rcurrents, des rgles, des liens, des tendances
inconnues (non fixes a priori), des structures particulires
restituant de faon concise lessentiel de linformation utile
pour laide la dcision

On parle dextraire linformation de la donne


Selon le MIT, cest lune des 10 technologies mergentes
qui changeront le monde au XXIe sicle
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les 2 types de mthodes de data mining


Les mthodes descriptives (recherche de patterns ) :
visent mettre en vidence des informations prsentes
mais caches par le volume des donnes (cest le cas des
segmentations de clientle et des recherches dassociations de
produits sur les tickets de caisse)
rduisent, rsument, synthtisent les donnes
il ny a pas de variable expliquer

Les mthodes prdictives (modlisation) :


visent extrapoler de nouvelles informations partir des
informations prsentes (cest le cas du scoring)
expliquent les donnes
il y a une variable expliquer
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les 2 principales familles de mthodes


descriptives

carte de Kohonen
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quest-ce que la classification ?


Regrouper des objets en groupes, ou classes, ou familles, ou segments,
ou clusters, de sorte que :
2 objets dun mme groupe se ressemblent le plus possible
2 objets de groupes distincts diffrent le plus possible
le nombre des groupes est parfois fix
les groupes ne sont pas prdfinis mais dtermins au cours de lopration

Mthode descriptive :
pas de variable expliquer privilgie
dcrire de faon simple une ralit complexe en la rsumant

Utilisation en marketing, mdecine, sciences humaines


segmentation de clientle marketing

Les objets classer sont :


des individus
des variables
les deux la fois (biclustering)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Complexit du problme !
Le nombre de partitions (classes non recouvrantes) de n objets
1 kn
est le nombre de Bell : Bn =
e k =1 k!
Exemple : pour n = 4 objets, on a Bn = 15, avec
1 partition 1 classe (abcd)
7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad),
(d,abc)
6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab)
1 partition 4 classes (a,b,c,d)

Exemple : pour n = 30 objets, on a B30 = 8,47.1023


Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Classement et prdiction
Ce sont des mthodes prdictives
on parle aussi dapprentissage supervis (rseaux de neurones)

Classement : la variable expliquer (ou cible , rponse ,


dpendante ) est qualitative
on parle aussi de classification (en anglais) ou discrimination

Prdiction : la variable expliquer est quantitative


on parle aussi de rgression
exemple : le prix dun appartement (en fonction de sa superficie, de
ltage et du quartier)

Scoring : classement appliqu une problmatique


dentreprise (variable expliquer souvent binaire)
chaque individu est affect une classe ( risqu ou non risqu ,
par exemple) en fonction de ses caractristiques
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

10

Quelques types de scores


Score dapptence
prdire lachat dun produit ou service

Score de (comportement) risque


prdire les impays ou la fraude

Score de pr-acceptation

+
Apptence

croisement des deux prcdents

Score doctroi (ou dacceptation)

Risque

prdire en temps rel les impays

Score dattrition
prdire le dpart du client vers un concurrent

Et aussi :
En mdecine : diagnostic (bonne sant : oui / non) en fonction du
dossier du patient et des analyses mdicales
Courriels : spam (oui / non) en fonction des caractristiques du
message (frquence des mots)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

11

Tableau des mthodes descriptives


type
famille
mthodes
modles
descriptives gomtriques

En gris : mthodes
classiques

sous-famille
analyse factorielle
(projection sur un
espace de
dimension
infrieure)
analyse typologique
(regroupement en
classes homognes)
analyse typologique
+ rduction dimens.

07/02/2014

mthode
analyse en composantes principales ACP
(variables continues)
analyse factorielle des correspondances
AFC (2 variables qualitatives)
analyse des correspondances multiples
ACM (+ de 2 var. qualitatives)
mthodes de partitionnement (centres
mobiles, k-means, nues dynamiques)
mthodes hirarchiques (ascendantes,
descendantes)
classification neuronale (cartes de
Kohonen)
classification relationnelle (variables
qualitatives)
dtection dassociations

modles
combinatoires
modles base de dtection de liens
rgles logiques Stphane Tuffry - Usage rserv lUniversit Rennes 1

12

Tableau des mthodes prdictives


type

famille

sous-famille

mthodes
prdictives

modles base
de rgles logiques
modles base
de fonctions
mathmatiques

arbres de
dcision
rseaux de
neurones

En gris : mthodes
classiques

07/02/2014

prdiction sans
modle

mthode

arbres de dcision (variable expliquer


continue ou qualitative)
rseaux apprentissage supervis :
perceptron multicouches, rseau
fonction radiale de base
modles
rgression linaire, ANOVA, MANOVA,
paramtriques ANCOVA, MANCOVA, modle linaire
ou semignral GLM, rgression PLS, SVR
paramtriques (variable expliquer continue)
analyse discriminante linaire, rgression
logistique, rgression logistique PLS, SVM
(variable expliquer qualitative)
modle log-linaire, rgression de
Poisson (variable expliquer discrte =
comptage)
modle linaire gnralis, modle additif
gnralis (variable expliquer continue,
discrte ou qualitative)
k-plus proches voisins (k-NN)

Stphane Tuffry - Usage rserv lUniversit Rennes 1

13

Statistique infrentielle et data mining


Statistique (avant 1950) :
quelques centaines dindividus
quelques variables recueillies avec un
protocole spcial (chantillonnage,
plan dexprience)
fortes hypothses sur les lois
statistiques suivies (linarit, normalit,
homoscdasticit)
le modle prime sur la donne : il est
issu de la thorie et confront aux
donnes
utilisation en laboratoire
Analyse des donnes (1960-1980) :
quelques dizaines de milliers
dindividus
quelques dizaines de variables
construction des tableaux Individus
x Variables
importance du calcul et de la
reprsentation visuelle
07/02/2014

Data mining (depuis 1990) :


plusieurs millions dindividus
plusieurs centaines de variables
certaines variables non numriques
donnes recueillies avant ltude, et
souvent dautres fins
donnes imparfaites, avec des erreurs de
saisie, des valeurs manquantes
pour laide la dcision
ncessit de calculs rapides, parfois en
temps rel
on ne recherche pas toujours loptimum
thorique, mais le plus comprhensible
pour des non statisticiens
faibles hypothses sur les lois statistiques
suivies
la donne prime sur le modle : le modle
est issu des donnes et on en tire
ventuellement des lments thoriques
utilisation en entreprise

Stphane Tuffry - Usage rserv lUniversit Rennes 1

14

Quest-ce que le Big Data ?

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

15

Lexplosion de la production de donnes


Donnes signaltiques et sociodmographiques
Donnes de comportement (utilisation du tlphone, de la
carte bancaire, du vhicule)
Donnes CRM (contact avec un service client, fidlisation)
Donnes externes provenant des mgabases de donnes
prives ou des administrations (Open Data)
Informations remontes par les capteurs industriels, routiers,
climatiques, puces RFID, NFC, objets connects (camras,
compteurs lectriques, appareils mdicaux, voitures)
Golocalisation par GPS ou adresse IP
Donnes de tracking sur Internet (sites visits, mots-cls
recherchs...)
Contenu partag sur Internet (blogs, photos, vidos)
Opinions exprimes dans les rseaux sociaux (sur une
entreprise, une marque, un produit, un service)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

16

Caractrisation des Big Data : les 3 V


Volume
Lordre de grandeur est le ptaoctet (1015 octets)
Laccroissement du volume vient de laugmentation :
du nombre dindividus observs (plus nombreux ou un
niveau plus fin)
de la frquence dobservation et denregistrement des
donnes (mensuel -> quotidien, voire horaire)
du nombre de caractristiques observes
Cet accroissement vient aussi de lobservation de donnes
nouvelles, provenant notamment dInternet : pages indexes,
recherches effectues, ventuellement avec des donnes de
golocalisation
Cet aspect est peut-tre le plus visible et le plus spectaculaire,
mais il nest pas le plus nouveau (grande distribution, banque,
tlphonie manipulent de grands volumes de donnes)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

17

Caractrisation des Big Data : les 3 V


Varit
Ces donnes sont de natures et de formes trs diverses :
numriques, logs web, textes (Word, PDF, courriels, SMS),
sons, images, donnes fonctionnelles
Cette varit rend difficile lutilisation des bases de donnes
usuelles et requiert une varit de mthodes (text mining,
web mining)

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

18

Caractrisation des Big Data : les 3 V


Vitesse, ou Vlocit
Vlocit des donnes qui proviennent de sources o elles
sont mises jour rapidement, parfois en temps rel
Vitesse des traitements mettre en uvre sur ces donnes
La dcision du client sur Internet se fait vite car il suffit
dun clic pour changer de site, aussi faut-il instantanment
lui faire la meilleure offre commerciale
La dtection de la fraude par carte bancaire doit bien sr
aussi tre instantane
Dans certains cas, vitesse de mise jour des modles, et pas
seulement vitesse de leur application

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

19

Le Big Data dInternet

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

20

Quelques exemples dutilisations de ces


donnes 1/2
Transports : fixation dynamique du prix des billets davion,
amlioration du trafic routier par golocalisation, recherche de
la station-service la plus proche, des places libres de
stationnement, facturation dans les zones payantes grce la
lecture et lOCR des plaques dimmatriculation
Marketing : la golocalisation permet lenvoi dune promotion
ou dun coupon sur votre smartphone quand vous passez
proximit dun commerce, dune alerte quand vous passez
ct dune librairie contenant un ouvrage consult la veille sur
Internet, lanalyse des prfrences, des recommandations,
ventuellement en lien avec les donnes de vente, permet de
mieux cibler les consommateurs
Grande distribution : analyse des tickets de caisse et croisement
avec les donnes du programme de fidlit
Ressources humaines : analyse des CV enrichie par la dtection
des liens nous par le candidat sur les rseaux sociaux
Scientifiques : mtorologie, gnomique, pidmiologie, imagerie
mdicale, astronomie, physique nuclaire
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

21

Quelques exemples dutilisations de ces


donnes 2/2
Yield (ou revenue) management :
intresse les activits avec des capacits disponibles limites
(transport, htellerie, espaces publicitaires, tourisme)
dtermine en temps rel les quantits appropries mettre en
vente, au prix appropri, de faon optimiser le profit gnr
par la vente
n dans les annes 1980 dans le transport arien

Informatique : surveillance des machines et rseaux, et


dtection de dysfonctionnements ou dincidents
scuritaires
Scurit : vido-surveillance, renseignement
Enseignement : analyse des rseaux sociaux pour connatre
la popularit des enseignements et la satisfaction des
lves
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

22

Les rseaux sociaux 1/3


Un rseau social est un ensemble d'acteurs (individus,
groupes ou organisations) relis par des liens sociaux
(familiaux, amicaux professionnels)
On le reprsente sous la forme dun graphe dont les
acteurs sont les sommets et les liens sont les artes
On peut tudier le graphe, son nombre de sommets,
dartes, sa densit, son diamtre, ses lments centraux
(avec le plus de liens)
Dans la recherche sur Internet, on peut aussi sintresser
des rseaux de sites et regrouper les sites par similarit
Les sites de commerce en ligne identifient des groupes
dacheteurs en ligne pour formuler des conseils dachat
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

23

Les rseaux sociaux 2/3


Exemple
de
LinkedIn
InMaps
:
http://inmaps.linkedinlabs.com/network
Le graphe reprsente les connexions des contacts avec
une personne et leurs connexions entre eux
Les connexions de LinkedIn sont utilises (au 1er et 2e
niveau), mais aussi les invitations de connexions, les
adresses e-mail, les numros de tlphone, les messages,
les groupes de discussion, le profil (formation,
qualifications, postes, recommandations)
Les couleurs distinguent les diffrents groupes dtects
(collgues, camarades de promotion, participants un
projet)
Des packages graphiques pour les rseaux sociaux existent
aussi dans R
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

24

Les rseaux sociaux 3/3

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

25

A quoi sert le data mining ?

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

26

Le data mining dans la banque


Naissance du score de risque en 1941 (David Durand)
Multiples techniques appliques la banque de dtail et la
banque dentreprise
Surtout la banque de particuliers :
grand nombre de dossiers
dossiers relativement standards
montants unitaires modrs

Essor d :
dveloppement des nouvelles technologies
nouvelles attentes de qualit de service des clients
pression mondiale pour une plus grande rentabilit
surtout : ratio de solvabilit Ble 2
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

27

Brve histoire du credit scoring


1936 : analyse discriminante de Fisher
1941 : utilisation par David Durand pour modliser le risque
de dfaut dun emprunteur partir de quelques
caractristiques telles que son ge et son sexe
Aprs la 2e guerre mondiale : intrt des entreprises
confrontes une pnurie danalystes de crdit
1958 : dveloppement des ordinateurs et premier systme
de credit scoring de Fair Isaac
1968 : Z-score dAltman, fonction discriminante de 5 ratios
financiers, capable de prvoir un an la dfaillance dune
entreprise, avec une fiabilit denviron 94 %
1998 : premiers travaux sur le ratio de solvabilit Ble 2
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

28

Le data mining dans lassurance de risque


Des produits obligatoires (automobile, habitation) :
soit prendre un client un concurrent
soit faire monter en gamme un client que lon dtient dj

Do les sujets dominants :


attrition
ventes croises (cross-selling)
montes en gamme (up-selling)

Besoin de dcisionnel d :
concurrence des nouveaux entrants (bancassurance)
bases clients des assureurs traditionnels mal organises :
compartimentes par agent gnral
ou structures par contrat et non par client

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

29

Le data mining dans la tlphonie


Deux vnements :
fin du monopole de France Tlcom dans la tlphonie fixe
arrive saturation du march de la tlphonie mobile
Do les sujets dominants dans la tlphonie :
score dattrition (churn = changement doprateur)
optimisation des campagnes marketing
et aussi le text mining (pour analyser les lettres de rclamation)

Problme du churn :
cot dacquisition moyen en tlphonie mobile : 250 euros
plus dun million dutilisateurs changent chaque danne
doprateur en France
les lois facilitant le changement doprateur
la portabilit du numro facilite le churn
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

30

Le data mining dans le commerce


Vente Par Correspondance
utilise depuis longtemps des scores dapptence
pour optimiser ses ciblages et en rduire les cots
des centaines de millions de documents envoys par an

e-commerce
personnalisation des pages du site web de lentreprise, en
fonction du profil de chaque internaute
optimisation de la navigation sur un site web

Grande distribution
analyse du ticket de caisse
dtermination des meilleures implantations (gomarketing)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

31

Autres exemples
De linfiniment petit (gnomique) linfiniment grand
(astrophysique pour le classement en toile ou galaxie)
Du plus quotidien (reconnaissance de lcriture manuscrite sur
les enveloppes) au moins quotidien (aide au pilotage
aronautique)
Du plus ouvert (e-commerce) au plus scuritaire (dtection de
la fraude dans la tlphonie mobile ou les cartes bancaires)
Du plus industriel (contrle qualit pour la recherche des
facteurs expliquant les dfauts de la production) au plus
thorique (sciences humaines, biologie)
Du plus alimentaire (agronomie et agroalimentaire) au plus
divertissant (prvisions daudience TV)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

32

A quoi sert le Big Data ?

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

33

Le Big Data dans le marketing


Lanalyse des rseaux sociaux, des forums et des moteurs de
recherche permet de dcouvrir les centres dintrt et les
prfrences des internautes, et donc leur comportement
possible face une proposition de produit ou de service
Cest particulirement utile pour les entreprises qui font du B to
B to C, ont des contacts avec des distributeurs et non leurs
clients finaux, sur lesquels elles ont peu dinformations directes
Lanalyse des rseaux sociaux nest pas seulement utile la vente
et elle peut aider la conception de nouveaux produits, par
lanalyse de la perception positive ou ngative de certaines
caractristiques des produits, et la comparaison avec la
concurrence
Des packages R existent pour traiter les donnes de Twitter et
Facebook
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

34

Le Big Data dans la finance


Risque boursier
Une tude parue dans Nature (2013) dmontre une corrlation entre
les mots cls saisis sur Google et lvolution des cours de bourse.
Avant une chute des indices boursiers, les investisseurs sont
proccups et recherchent sur Internet des informations les aidant
dcider de conserver ou vendre leurs titres.

Risque financier
Ce que lon dit dune entreprise, son image chez ses partenaires, les
analystes financiers ou le grand public, sa rputation, son image en
termes de qualit, dinnovation, de respect social et environnemental
ces lments peuvent concourir sa sant financire moyen/long
terme et peuvent tre intgrs dans les analyses

Risque de fraude
Les donnes de golocalisation des dtenteurs de smartphones
peuvent tre compares aux informations relatives au terminal de
paiement pour sassurer quelles sont cohrentes
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

35

Le Big Data dans lassurance


Aviva a mis au point une application pour smartphone
(Aviva Drive) qui analyse le style de conduite des
conducteurs afin de leur proposer des tarifs appropris
(http://www.aviva.co.uk/drive/)
Un projet similaire avait t imagin en 2006 mais
abandonn en 2008 en raison de la difficult dinstaller des
botes noires dans les vhicules
Cette application analyse pendant 300 km le nombre de
kilomtres parcourus, le temps, le type de route
Un changement radical de comportement pourra faire
suspecter une fraude
Des capteurs sur la voiture pourraient mme signaler des
risques de panne, indiquant au conducteur la conduite
tenir et le garage le plus proche
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

36

Le Big Data dans lindustrie


Les nombreux capteurs (temprature, pression, vibration,
usure) placs sur les composants de lappareil productif
permettent de remonter en temps rel et distance de
nombreuses informations qui, analyses et modlises, peuvent
fournir une probabilit de dfaillance, de rupture dune pice, et
permettre un arbitrage entre :
Des oprations de maintenance inutilement lourdes et frquentes,
entranant des dpenses inutiles
Des oprations de maintenance insuffisantes et laissant se produire des
dfaillances coteuses, voire dangereuses

Optimisation de la chane dapprovisionnement (supply chain)


Prdiction en temps rel de la consommation lectrique, mais
aussi des dysfonctionnements, et facturation plus conomique et
plus rapide, grce aux compteurs connects (Linky)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

37

Le Big Data dans la sant 1/2


Diagnostic mdical distance : dtection de risques de
crise cardiaque
Des applications pour smartphones savent analyser les
donnes transmises par des capteurs (rythme
cardiaque, pression sanguine)
Monitoring des grands prmaturs : analyse en temps
rel des donnes fournies par des capteurs placs sur
les bbs
Gnomique :
Liens entre donnes gnomiques et apparition dune
maladie ou rponse un traitement
Gnomique des populations
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

38

Le Big Data dans la sant 2/2


En analysant les mots cls sur son moteur de recherche, Google
a pu tablir une corrlation entre certaines requtes et
lapparition dune pidmie de grippe. Cette corrlation a t
corrobore par les organismes de veille sanitaire et a fait lobjet
dune publication dans Nature (2009).
Voir : http://www.google.org/flutrends/intl/en_us/about/how.html et
http://websenti.u707.jussieu.fr/sentiweb/?page=google

Cet exemple illustre le V de la vitesse, avec des mises jour de


donnes quotidiennes et non hebdomadaires comme dans les
suivis traditionnels : permet une dtection plus rapide de
lpidmie

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

39

Le Big Data dans la statistique publique


Lanalyse des messages Twitter aux Pays-Bas a montr une
corrlation entre les sentiments exprims et lindice public de
confiance des mnages
Twitter a succd aux mdias classiques dans les analyses
classiques en sciences humaines sur les discours, lopinion
Les journalistes de Bloomberg intgrent aussi les donnes de
Twitter
Dautres donnes peuvent aussi tre utiles : tickets de caisse et
calcul du taux dinflation, sites de recherche demploi et
estimation du taux de chmage
Ces exemples illustrent lapport possible des analyses prives de
Big Data la statistique publique, avec des indicateurs
quivalents mais calculs bien plus rapidement et peut-tre, du
moins terme, moindre cot
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

40

La rforme de Ble et le ratio


de solvabilit

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

41

Les principaux types de risques financiers


Crdit : risque que l'emprunteur ne rembourse pas sa dette l'chance
fixe
Nombreuses mthodes statistiques dveloppes depuis 1941, surtout des
modles binaires dont la variable expliquer est le dfaut de remboursement
Passage de Ble I Ble II dune approche forfaitaire une approche de rating

March : risque que la valeur dun actif (dune dette) dtenu(e) par une
institution financire varie en raison de lvolution des prix sur les marchs
financiers
Modles conomtriques

Oprationnel : risque de pertes directes ou indirectes rsultant dune


inadquation ou dune dfaillance attribuable des procdures, des
personnes, des systmes internes ou des vnements extrieurs
Introduit dans la rforme du ratio de solvabilit Ble II
Inclut le risque juridique mais exclut le risque stratgique
Mthodes probabilistes et dire dexpert
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

42

Autres types de risques financiers


De liquidit : risque de ne pouvoir vendre un actif suffisamment rapidement
pour viter une perte par rapport au prix qu'on aurait d obtenir
Ble III demande aux banques de dtenir un stock dactifs sans risque et
facilement ngociables (cash, titres dtat) lui permettant de rsister pendant
30 jours une crise de liquidit

De rputation : risque rsultant dune perception ngative de la part des


clients, des contreparties, des actionnaires, des investisseurs ou des
rgulateurs qui peut affecter dfavorablement la capacit dune banque
maintenir ou engager des relations daffaires et la continuit de laccs aux
sources de financement
De taux : risque de dsquilibre entre les taux des emplois et les taux des
ressources
De change : risque li aux activits en devise
Stratgique

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

43

Le ratio de solvabilit Ble I


La solvabilit dune banque est sa capacit rembourser ses
dettes
1988 : instauration dun ratio Cooke visant :
Renforcer la solidit et la stabilit du systme bancaire international
Promouvoir des conditions dgalit de concurrence entre les banques vocation
internationale

Ce ratio de 8% est le rapport entre les encours pondrs et le


montant des fonds propres de la banque
Ratio de 4% pour les fonds propres Tier 1

Les crdits sont pondrs selon la catgorie dactifs considre


(0% pour les Souverains, 20% pour les Banques, 50% pour
limmobilier hypothcaire, 100% pour le reste) mais non selon
la qualit de la signature
Au risque de crdit est ajout le risque de march en 1996
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

44

Le ratio de solvabilit Ble II


2004 : accords Ble II
Trois piliers
Pilier 1 : exigences minimales en fonds propres
Pilier 2 : couverture des risques non pris en compte dans le pilier 1
Pilier 3 : transparence et la discipline de march.

Pilier 1 : instauration dun nouveau ratio Mc Donough


toujours gal 8%
mais diversifie les risques pris en compte (en incluant les risques
oprationnels)
et affine la mthode de pondration des risques, notamment en
autorisant lutilisation de systmes ( notations internes ) de
classification des emprunteurs partir des probabilits de dfaillance
prdites dans les diffrents types de portefeuille de la banque :
souverains, banques, entreprises, banque de dtail (particuliers et
professionnels), titres, titrisation et autres
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

45

Laccord Ble III


2010 : recommandations Ble III
Liquidit :
Instauration dun ratio de liquidit LCR (Liquidity Coverage Ratio)
30 jours et dun ratio NSFR (Net Stable Funding Ratio) un an

Fonds propres :
Renforcement de la qualit et du niveau des fonds propres
Mise en place dun coussin de conservation aliment dans les priodes
favorables
Surcharge systmique pour les tablissements les plus importants
Instauration dun ratio deffet de levier (ratio fonds propres / total
des actifs non pondrs ) > 3%

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

46

Le risque de crdit
Les modles de scoring permettent dattribuer une probabilit de
dfaut (PD) de paiement toute entit note, sur un horizon donn
La perte encourue par la banque dpend de deux autres facteurs :
EAD (Exposure At Default) : montant du crdit expos si lemprunteur passe
en dfaut (encours bilan + CCF x encours hors-bilan)
CCF (Credit Conversion Factor) : part de lencours hors-bilan qui sera
utilise par lemprunteur au moment du dfaut
LGD (Loss Given Default) : taux de perte (y compris frais de recouvrement)
subi par la banque (aprs activation des ventuelles garanties) en cas de
dfaut de lemprunteur

Un tablissement bancaire peut avoir une approche Ble II :


Standard (application de pondrations forfaitaires lencours expos)
Interne fondation (IRBF) : estimation par ltablissement de la PD, le CCF
et la LGD tant forfaitaires
Interne avance (IRBA) : estimation par ltablissement de tous les
paramtres

Utilisation possible pour le calcul de lexigence en fonds propres sous


rserve dune validation indpendante par lautorit de tutelle
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

47

Pertes attendues et inattendues


Pertes attendues (EL : expected losses)
Pertes annuelles moyennes : EAD x PD x LGD
Doivent tre couvertes par les provisions et ventuellement par des fonds
propres

Pertes inattendues (UL : unexpected losses)


VaR = pertes annuelles si leves quelles ne sont possibles quune fois sur
1000 : EAD x f(PD) x LGD
UL = VaR - EL
Doivent tre couvertes par les fonds propres rglementaires

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

48

Calcul de lexigence en fonds propres


Actifs pondrs : RWA (risk weighted assets)
12,5 x EAD x (f(PD) - PD) x LGD pour le risque de crdit

Exigence en fonds propres (couvrir les pertes inattendues)


EFP = 8% (RWA + 12,5 x capital risqu au titre du risque de march +
12,5 x capital risqu au titre du risque oprationnel)

Rappel : Exigence en fonds propres Ble I


EFP = 8% x Actifs pondrs Cooke
Actifs pondrs Cooke = encours crdit x pondration

07/02/2014

Nature du risque

Pondration

Souverain

0%

Banques

20 %

Immobilier

50 %

Autres crdits

100 %

Stphane Tuffry - Usage rserv lUniversit Rennes 1

49

Ble II : pondrations en mthode standard


Mme mthode que Ble I avec une pondration des
expositions fixe par le texte et affine :
Notations externes
Contreparties

AAA
AA-

A+
A-

BBB+
BBB-

BB+
B-

Infrieur
B-

Non
not

Souverains

0%

20 %

50 %

100%

150%

100%

Banques

20%

50%

50%

100%

150%

50%

Entreprises

20%

50%

100%

jusqu
BB- :
100%

<BB - :
150%

100%

Retail
Immobilier

35 %

Retail Autres

75 %

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

50

Pondration des risques de crdit


Pondration des risques
RW = 12,5 x (f(PD) - PD) x LGD pour le risque de crdit
EFP = 8% x RW x EAD

Cette pondration RW est comparer :


Au tableau prcdent pour la mthode standard Ble II (par exemple, 75%
pour le Retail Autre)
Aux valeurs pour Ble I : 100 % Autres Crdits, 50% Immobilier

Exemple de calcul en R : RW dun crdit habitat avec une PD = 3% et


une LGD 20%
> ead <- 100
> pd <- 0.03
> lgd <- 0.2
> rho <- 0.15 # immobilier mortgage
> fpd <- pnorm(qnorm(pd)*sqrt(1/(1-rho)) + qnorm(0.999)*sqrt(rho/(1-rho)))
> (rw <- 12.5*lgd*(fpd-pd))
[1] 0.4977229

Cest quasiment le RW = 50% de Ble I et plus que le 35% Standard


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

51

Stphane Tuffry - Usage rserv lUniversit Rennes 1

0.6
0.4
0.2

RW

07/02/2014

0.0

> rw = function(pd,lgd,rho) {
+ fpd <- pnorm(qnorm(pd)*sqrt(1/(1-rho)) + qnorm(0.999)*sqrt(rho/(1-rho)))
+ rw <- 12.5*lgd*(fpd-pd)
+ return(rw)
+}
> rpd <- seq(0,0.1,by=.001)
> plot(rpd,rw(rpd,lgd,rho),type="l",xlab="PD",ylab="RW")

0.8

Comparaison des approches

0.00

0.02

0.04

0.06
PD

0.08

52

0.10

Calcul des actifs pondrs


S=
Min(Max(SalesTurnover),5),50

10

Function is taken from paragraph


272
11

Function is taken from paragraph


273
12

Function is taken from paragraph


328
13

Function is taken from paragraph


329
In Basel II: International
Convergence of Capital Measurement
and Capital Standards: a Revised
Framework (BCBS) (November 2005
Revision)

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

53

Risques oprationnels :
matrice lignes de mtier x types de risque

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

54

Traitement des risques oprationnels


Certains risques ne sont que potentiels : leur probabilit de
survenance est trs faible mais leur gravit trs grande : ce sont les
risques de gravit, pour lesquels on labore des scnarii avec les
experts (on obtient des expositions, des gravits et des probabilits de
survenance conditionnes par des facteurs appels KRI)
Dautres risques sont plus frquents mais leur gravit plus faible : ce
sont les risques de frquence, pour lesquels on recherche des
ajustements sur les historiques de pertes unitaires de lois thoriques
pour la survenance (loi de Poisson) et la gravit (loi log-normale, de
Weibull)
Puis simulations trs nombreuses de sinistres selon les paramtres
tablis, calcul de pertes unitaires puis cumules sur 1 an, et obtention
de la moyenne (= EL) et du quantile 99,9 % (= VaR = UL + EL) de la
perte cumule, cest--dire de la perte pouvant survenir 1 fois sur
1000, soit 1 fois tous les 1000 ans
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

55

Approches des risques oprationnels


Contrairement au risque de crdit, pas de relation simple entre
les pertes attendues et inattendues : ces dernires peuvent
exploser , surtout si la survenance dun risque est lie la
survenance dun autre risque
Comme pour le risque de crdit, trois niveaux dapproche pour
lexigence en fonds propres :
De base : un pourcentage du PNB moyen des 3 annes prcdentes (fix
15%)
Standard : identique lapproche de base, mais pourcentages diffrencis
(entre 12% et 18%) par lignes de mtiers (voir matrice prcdente)
Avance (AMA) : ltablissement dtermine lui-mme ses besoins en fonds
propres par des modles internes

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

56

Politique du risque et gestion dans la banque


Politique du risque dans la banque
Enjeux majeurs en termes financiers, oprationnels, rglementaires et dimage
Sous le contrle permanent de lACPR : Autorit de Contrle Prudentiel et de
Rsolution

Intrication de ces enjeux

Apprhension dans lentreprise


Ncessaire appropriation de la politique du risque par tous les acteurs
Est value par lautorit de tutelle
Cest la fois une condition et une consquence de la qualit des outils de
matrise de risque : un cercle vertueux mettre en place

Les modles de risque doivent tre :


Bien conus
Bien mis en uvre
Bien suivis (outils mettre en place tableaux de bord procdures)
Bien appropris

Gouvernance du risque
Les outils ne suffisent pas : il faut gouverner leur utilisation, leur suivi et leur
volution
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

57

Llaboration dun modle de


scoring

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

58

Dfinition de la variable expliquer


En mdecine : dfinition souvent naturelle
un patient a ou non une tumeur (et encore faut-il distinguer les
diffrents stades dune tumeur)

Dans la banque : quest-ce quun client non risqu ?


aucun impay, 1 impay, n impays mais dette apure ?

Dans certains modles, on dfinit une zone indtermine


non modlise :
1 impay variable expliquer non dfinie
aucun impay variable expliquer = 0
2 impays variable expliquer = 1 ( 3 impays pour Ble 2)

Dfinition parfois encore plus problmatique en attrition


dans la banque, contrairement la tlphonie ou lassurance, on peut
partir brutalement ou progressivement
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

59

Biais de slection
En risque : certaines demandes sont refuses et on ne peut donc pas
mesurer la variable expliquer
certaines populations ont t exclues de la modlisation et on leur
applique pourtant le modle
il existe des mthodes dinfrence des refuss , mais dont aucune nest
totalement satisfaisante
et parfois aucune trace nest conserve des demandes refuses !

En apptence : certaines populations nont jamais t cibles et on ne


leur a pas propos le produit
si on les modlise, elles seront prsentes dans lchantillon des
mauvais (clients sans apptence) peut-tre tort
contrairement au cas prcdent, on peut mesurer la variable expliquer
car il y a des souscriptions spontanes
envisager de limiter le primtre aux clients cibls

Fraude la carte bancaire : certaines transactions ont t rejetes et


on ne sait pas toujours si elles taient frauduleuses
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

60

Taille de lchantillon
taux
d'erreur

mauvaise
gnralisation
donnes de test
t
donnes apprentissage

bonne
gnralisation

taille de l'chantillon
d'apprentissage

Thorme de Vapnik :
R < Remp

h (log(2n / h) + 1) log( / 4)
+
n

07/02/2014

taille suffisante

Stphane Tuffry - Usage rserv lUniversit Rennes 1

61

Reprsentativit de lchantillon dtude


Hypothse fondamentale :
lchantillon dtude est reprsentatif de la population laquelle
sera appliqu le modle

Nimplique pas un chantillonnage alatoire simple :


vnement prdire rare stratification non proportionnelle
de lchantillon sur la variable expliquer
parfois : 50 % de positifs et 50 % de ngatifs
ncessaire quand on utilise CART pour modliser 3 % de
positifs, sinon CART prdit que personne nest positif
excellent taux derreur = 3 % !
change la constante du logit de la rgression logistique
intressant en cas dhtroscdasticit dans une analyse
discriminante linaire
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

62

Inventaire des donnes utiles


Recenser avec les spcialistes mtier et les informaticiens, les
donnes utiles :
accessibles raisonnablement (pas sur microfilms !)
fiables
suffisamment jour
historises, si besoin est
lgalement utilisables

Il y a les donnes :
du systme dinformation (SI) de lentreprise
stockes dans lentreprise, hors du SI (fichiers Excel...)
achetes ou rcupres lextrieur de lentreprise
provenant dInternet et des rseaux sociaux
calcules partir des donnes prcdentes (indicateurs, ratios,
volutions au cours du temps)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

63

Quand on manque de donnes


Enqutes auprs dchantillons de clients
en les incitant rpondre des questionnaires en leur proposant
des cadeaux

Utilisation des mgabases de donnes (Acxiom, Wegener


Direct Marketing)
Scoring prnom
Utilisation de donnes godmographiques (type dhabitat en
fonction de ladresse)
donnes moins prcises que des donnes nominatives
mais disponibles pour des prospects

Recours des modles standards prtablis par des socits


spcialises (ex : scores gnriques)
quand on a des donnes actuelles mais peu dhistorique
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

64

Scoring prnom

P
a
s
c
a
l

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

65

Donnes godmographiques
Donnes conomiques
nombre dentreprises, population active, chmage, commerces et
services de proximit, habitudes de consommation

Donnes sociodmographiques
population, richesse, ge et nombre denfants moyens, structures
familiales, niveau socioprofessionnel

Donnes rsidentielles
anciennet, type et confort des logements, proportion de
locataires et propritaires

Donnes concurrentielles
implantation de lentreprise, implantation de ses concurrents, parts
de march, taux de pntration

Type dhabitat (classification sur les donnes prcdentes) :


beaux quartiers, classe moyenne, classe ouvrire, centre ville et
quartiers commerants...
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

66

Construction de la base danalyse


variable cible :
acheteur (O/N)
O
N

ge

PCS

58
27

46

32

cadre
ouvrier

technicien

employ

situation
nb
montant
famille
achats achats
mari
2
40
clibataire
3
30

clibataire
3
75

mari
1
50

variable expliquer
observe anne n

variable
explicative m

variables explicatives
observes anne n-1

O : au moins 500 clients cibls dans l'anne n et acheteurs


N : au moins 500 clients cibls dans l'anne n et non acheteurs

chantillon
apprentissage
test

test

apprentissage

au moins 1000 cas

n
client
1
2

1000

rpartition
alatoire
des clients
entre les 2
chantillons

PREDICTION

f
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

67

Slection des priodes dobservation


laboration du modle

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois

12 mois

aujourdhui

observation des

observation de la

variables explicatives

variable expliquer

Application du modle

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois

aujourdhui

+ 12 mois

observation des

prdiction de la

variables explicatives

variable expliquer

Le modle sera par exemple une fonction f telle que :


Probabilit(variable cible = x) = f(variables explicatives)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

68

Pr-segmentation
Segmentation (classification) de la population :
en groupes forcment distincts selon les donnes disponibles
(clients / prospects) : homognit du point de vue des variables
explicatives
ou en groupes statistiquement pertinents vis--vis des objectifs
de ltude : homognit du point de vue de la variable
expliquer
ou selon certaines caractristiques sociodmographiques (ge,
profession) si elles correspondent des rgles mtiers (offres
marketing spcifiques)

Autres caractristiques recherches :


Simplicit de la segmentation (pas trop de rgles)
Nombre limit de segments et stabilit des segments
Tailles des segments gnralement du mme ordre de grandeur
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

69

Intrt de segmenter : le paradoxe de Simpson


sans achat
950
475
1 425

Hommes
avec achat
50
25
75

TOTAL
1 000
500
1 500

taux d'achat
5,00%
5,00%
5,00%

courriel
tlphone
TOTAL

sans achat
450
900
1 350

Femmes
avec achat
50
100
150

TOTAL
500
1 000
1 500

taux d'achat
10,00%
10,00%
10,00%

courriel
tlphone
TOTAL

Tous clients
sans achat avec achat
1 400
100
1 375
125
2 775
225

TOTAL
1 500
1 500
3 000

taux d'achat
6,67%
8,33%
7,50%

courriel
tlphone
TOTAL

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

70

Paradoxe de Simpson : explication


Dans le dernier exemple :
les hommes ne rpondent pas mieux au tlphone quau courriel
de mme pour les femmes
et pourtant, le tlphone semble avoir globalement un meilleur taux dachat

Explication :
un individu pris au hasard ne rpond pas mieux au tlphone
mais les femmes achtent plus et on a privilgi le tlphone pour les
contacter
liaison entre les variables sexe et canal de vente

Autre exemple publi dans le Wall-Street Journal du 2/12/2009 :


le taux de chmage est globalement plus faible en octobre 2009 (10,2 %)
quen novembre 1982 (10,8 %)
et pourtant, ce taux de chmage est plus lev en 2009 la fois pour les
diplms et pour les non-diplms !
lexplication est lexistence dune liaison entre lanne et le niveau dtude :
le niveau moyen dtude est plus lev en 2009, et le taux de chmage est
plus faible chez ceux dont le niveau dtude est plus lev
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

71

Analyse exploratoire des donnes 1/2


Explorer la distribution des variables
Vrifier la fiabilit des variables
valeurs incohrentes ou manquantes
suppression ou imputation ou isolement

valeurs extrmes
voir si valeurs aberrantes liminer

certaines variables sont fiables mais trompeuses


le profil de souscripteurs peut tre fauss par une campagne commerciale cible
rcente

Variables continues
dtecter la non-monotonie ou la non-linarit justifiant la discrtisation
tester la normalit des variables (surtout si petits effectifs) et les
transformer pour augmenter la normalit
ventuellement discrtiser : dcouper la variable en tranches en fonction
de la variable expliquer
et isoler les valeurs manquantes ou aberrantes

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

72

Examen de la distribution des variables


La dure du crdit prsente des pics prvisibles 12, 24, 36,
48 et 60 mois
On constate assez nettement la plus forte proportion de
crdits plus longs parmi ceux qui ont des impays
Pas de valeur manquante ou aberrante

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

73

Normalisation : transformations
Log (V)
transformation la plus courante pour corriger un coefficient dasymtrie > 0
Si V 0, on prend Log (1 + V)

Racine carre (V) si coefficient dasymtrie > 0


-1/V ou 1/V si coefficient dasymtrie > 0
V2 ou V3 si coefficient dasymtrie < 0
Arc sinus (racine carre de V/100)
si V est un pourcentage compris entre 0 et 100

La transformation de Box-Cox (f(X) = (X-1)/ si 0, et f(X) = log(X)


sinon) recouvre un ensemble de transformations possibles, selon la valeur
du paramtre dtermine par maximisation de la vraisemblance (en
crivant la densit dune loi normale), et est implmente dans plusieurs
logiciels, dont R (fonction boxplot du package MASS)
Transformation
Correction
Effet
07/02/2014

exp(V)

V3

V2

asymtrie gauche
fort

moyen

V
pas de
correction

log(V)

-1/V

-1/V2

asymtrie droite
moyen

Stphane Tuffry - Usage rserv lUniversit Rennes 1

fort
74

Normalisation : un exemple

Revenus :

Log(1+revenus) :

Racine(revenus) :

Asymtrie = 2,38

Asymtrie = - 2,03

Asymtrie = 0,64

Aplatissement = 11,72

Aplatissement = 12,03

Aplatissement = 1,76

La racine carre normalise ici mieux que le logarithme


07/02/2014

(Loi normale
asymtrie
= aplatissement
Stphane: Tuffry
- Usage rserv
lUniversit Rennes(
1 3) = 0)

75

Utilit de la normalisation
Une des hypothses de lanalyse discriminante linaire :
multinormalit de X/Gi et galit des matrices de covariances

Nest en pratique jamais satisfaite


Mais on constate une amlioration des performances de
lanalyse discriminante lorsque lon sen rapproche :
en neutralisant les outliers (individus hors norme)
en normalisant les variables explicatives susceptibles dentrer
dans le modle

Moralit : mieux vaut connatre les contraintes thoriques


pour se rapprocher des conditions optimales

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

76

Discrtisation en tranches naturelles


Densit

clients sans
apptence

clients avec
apptence

variable explicative Y
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

77

Pourquoi discrtiser ?
Apprhender des liaisons non linaires (de degr >1), voire non
monotones, entre les variables continues et la variable expliquer
par une analyse des correspondances multiples, une rgression
logistique ou une analyse discriminante DISQUAL

Neutraliser les valeurs extrmes ( outliers )


qui sont dans la 1re et la dernire tranches

Grer les valeurs manquantes (imputation toujours dlicate)


rassembles dans une tranche spcifique ou regroupe avec une
autre

Grer les ratios dont le numrateur et le dnominateur peuvent


tre tous deux > 0 ou < 0
EBE / capital conomique (rentabilit conomique), rsultat net /
capitaux propres (rentabilit financire ou ROE)

Amliorer parfois le pouvoir prdictif


Faciliter la lisibilit du modle (grille de score)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

78

Exemple de discrtisation
On commence par
dcouper la variable
explicative en dciles, et
regarder quelle valeur
correspond chaque dcile
Par exemple , le 2e dcile
est 25 ans

07/02/2014

Analysis Variable : Age


Rang pour
N
la variable
Age Obs Minimum Maximum
0

105 19.0000000 23.0000000

85 24.0000000 25.0000000

101 26.0000000 27.0000000

120 28.0000000 30.0000000

105 31.0000000 33.0000000

72 34.0000000 35.0000000

113 36.0000000 39.0000000

98 40.0000000 44.0000000

105 45.0000000 52.0000000

96 53.0000000 75.0000000

Stphane Tuffry - Usage rserv lUniversit Rennes 1

79

Table de dAge par Cible

Exemple de discrtisation

dAge(Rang
pour la
variable Age)
FREQUENCE
Pourcentage
Pct en ligne

Le tableau de contingence montre que


les deux premiers dciles de lge
correspondent un taux dimpays
nettement suprieur celui des autres
dciles. Il y a donc un seuil 25 ans
Aucun autre seuil ne se distingue
nettement, les taux dimpays
fluctuant ensuite entre 20 % et un peu
plus de 30 %
Le dcoupage de lge en deux
tranches est donc dcid
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1 Total

Cible

2 Total

63
42
6.30 4.20
60.00 40.00

105
10.50

47
38
4.70 3.80
55.29 44.71

85
8.50

74
27
7.40 2.70
73.27 26.73

101
10.10

79
41
7.90 4.10
65.83 34.17

120
12.00

72
33
7.20 3.30
68.57 31.43

105
10.50

55
17
5.50 1.70
76.39 23.61

72
7.20

89
24
8.90 2.40
78.76 21.24

113
11.30

70
28
7.00 2.80
71.43 28.57

98
9.80

84
21
8.40 2.10
80.00 20.00

105
10.50

67
29
6.70 2.90
69.79 30.21

96
9.60

700
300 801000
70.00 30.00 100.00

Analyse exploratoire des donnes 2/2


Variables qualitatives ou discrtes
regrouper certaines modalits aux effectifs trop petits
reprsenter les modalits dans une analyse des correspondances multiples

Crer des indicateurs pertinents daprs les donnes brutes


prendre lavis des spcialistes du secteur tudi
cration dindicateurs pertinents (maxima, moyennes, prsence/absence)
utiliser des ratios plutt que des variables absolues (exemple : plafond ligne
de crdit + part utilise taux dutilisation du crdit)
calcul dvolutions temporelles de variables
cration de dures, danciennets partir de dates
croisement de variables, interactions
utilisation de coordonnes factorielles

Dtecter les liaisons entre variables


entre variables explicatives et expliquer (bon)
entre variables explicatives entre elles (colinarit viter dans certaines
mthodes)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

81

Exemple de regroupement de modalits


Regroupement de < 100 et
[100-500 euros[ dont les taux
dimpays sont proches (35,99% et
33,01%)
Regroupement de [500-1000
euros[ et >= 1000 euros : leurs
taux dimpays sont moins proches
mais la 2e modalit est trop petite
pour rester seule
On pourrait mme regrouper ces
deux modalits avec Pas dpargne
07/02/2014

Table de Epargne par Cible


Epargne
FREQUENCE
Pourcentage
Pct en ligne

Cible

OK

KO Total

Pas d'pargne

151
32
15.10 3.20
82.51 17.49

183
18.30

< 100

386 217
38.60 21.70
64.01 35.99

603
60.30

[100-500 euros[

69
34
6.90 3.40
66.99 33.01

103
10.30

[500-1000 euros[

52
11
5.20 1.10
82.54 17.46

63
6.30

>= 1000 euros

42
6
4.20 0.60
87.50 12.50

48
4.80

Total

Stphane Tuffry - Usage rserv lUniversit Rennes 1

700 300
1000
70.00 30.00 100.00

82

Autre exemple de regroupement de modalits


Le regroupement des modalits
Table de Statut_domicile par Cible
Locataire et Logement gratuit Statut_domicile Cible
est vident
FREQUENCE
Pourcentage
Pct en ligne
OK KO Total
Elles sont associes des taux
70
179
Locataire 109
dimpays proches et levs (39,11%
10.90 7.00 17.90
60.89 39.11
et 40,74%)
713
Propritaire 527 186
52.70 18.60 71.30
Les propritaires sont moins risqus,
73.91 26.09
64
44
108
Logement gratuit
surtout sils ont fini leur emprunt,
6.40 4.40 10.80
59.26 40.74
mais pas seulement dans ce cas, car ils
700 300
1000
sont gnralement plus attentifs que la Total
70.00 30.00 100.00
moyenne au bon remboursement de
leur emprunt
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

83

Exploration avec une ACM

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

84

Traitement des valeurs manquantes


Dabord vrifier que les valeurs manquantes ne proviennent pas :
dun problme technique dans la constitution de la base
dindividus qui ne devraient pas se trouver dans la base

Sinon, plusieurs solutions sont envisageables selon les cas :


supprimer les observations (si elles sont peu nombreuses ou si le non
renseignement de la variable est grave et peut laisser suspecter dautres
anomalies dans lobservation)
ne pas utiliser la variable concerne (surtout si elle est peu discriminante) ou la
remplacer par une variable proche mais sans valeur manquante
mieux vaut supprimer une variable a priori peu utile, mais qui est souvent non
renseigne et conduirait exclure de nombreuses observations de la modlisation

traiter la valeur manquante comme une valeur part entire


imputation : remplacer la valeur manquante par une valeur par dfaut ou
dduite des valeurs des autres variables
remplacer les valeurs manquantes grce une source externe (rarement
possible)

Mais aucune solution nest idale


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

85

Imputation des valeurs manquantes


Imputation statistique
par le mode, la moyenne ou la mdiane
par une rgression ou un arbre de dcision
imputation
simple (minore la variabilit et les intervalles de confiance
des paramtres estims)
ou multiple (remplacer chaque valeur manquante par n
valeurs, par exemple n = 5, puis faire les analyses sur les n
tables et combiner les rsultats pour obtenir les paramtres
avec leurs cart-types

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

86

Limputation nest jamais neutre


Surtout si les donnes ne sont pas manquantes au hasard
Dformation des variances et des corrlations

avant imputation
imputation
par
moyenne
ou
rgression

6
5
4
3
2
1
0
0

aprs imputation par la


moyenne
yi

6
5

xi

imputation
par
rgression
+ rsidu
alatoire

yi

xi

0
0

source : J.-P. Nakache A. Gueguen, RSA 2005


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

87

Schma des valeurs manquantes


Exemple de sortie produite par la procdure MI de SAS
Caractristiques des donnes manquantes
Moyennes de groupes
Groupe

Var1

Var2

Var3

6557

80.79

0.04

1108

13.65

-0.075471 0.595276

353

4.35

0.160265

91

1.12

0.000916

0.05

07/02/2014

Frq Pourcentage

Var1

Var2

12.217310 0.245615

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Var3
3.102462
0.166667

88

Le problme de la qualit des donnes :


trois niveaux
Donnes non correctes (manquantes ou aberrantes)
Pas toujours faciles dtecter
0 est-il 0 ou manquant ? 9999..999 est-il manquant ou aberrant ?

Sagit-il dune erreur ou dun individu hors norme ?


Les donnes manquantes ou extrmes sont plus faciles dtecter que les
autres erreurs, qui ne se voient souvent que par croisement des donnes
entre elles
Comment corriger en apprentissage / en application ?

Donnes correctes mais non cohrentes


Venant du rapprochement de donnes correctes isolment MAIS
mesures des dates diffrentes
ou sur des chelles diffrentes
ou issues de rgles de calcul diffrentes

Donnes correctes et cohrentes mais trompeuses


Par exemple, en apptence, le profil des souscripteurs peut tre fauss par
une campagne commerciale cible rcente
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

89

La slection des variables

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

90

Importance de la slection des variables


Exemple de David Hand (2005) : rgression avec un
coefficient de corrlation linaire 0,5 entre chaque
prdicteur (variable explicative) et la variable expliquer, et
un coefficient de corrlation entre chaque prdicteur
Les courbes reprsentent 1-R (proportion de la somme des
carrs non explique) en fonction du nombre de prdicteurs

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

91

Limiter le nombre de variables slectionnes


En prsence de colinarit entre les prdicteurs, lapport
marginal de chaque prdicteur dcrot trs vite
Et pourtant, ici chaque prdicteur est suppos avoir la
mme liaison avec la variable expliquer, ce qui nest pas le
cas dans une slection pas pas relle o la liaison dcrot !
Conclusion :
viter au maximum la colinarit des prdicteurs
Limiter le nombre de prdicteurs : souvent moins de 10
Alternative : la rgression PLS ou rgularise (ridge)

Remarque :
Dans une procdure pas pas, le 1er prdicteur peut occulter un
autre prdicteur plus intressant
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

92

Sur-apprentissage en rgression

(A) Modle trop simp le

(B) Bon modle

(C) Modle trop complexe

Un modle trop pouss dans la phase dapprentissage :


pouse toutes les fluctuations de lchantillon dapprentissage,
dtecte ainsi de fausses liaisons,
et les applique tort sur dautres chantillons

On parle de sur-apprentissage ou sur-ajustement


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

93

Sur-apprentissage en classement
(C) Modle trop
complexe

(B) Bon modle

Source : Olivier Bousquet


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

94

Taux derreur en fonction de la complexit du


modle

taux
d'erreur

donnes de test

mauvaise
gnralisation
bonne
gnralisation
donnes apprentissage

complexit du modle
(A)

(B) arrter ici

(C)

Thorme de Vapnik :
R < Remp +
07/02/2014

h (log(2n / h) + 1) log( / 4)
n
Stphane Tuffry - Usage rserv lUniversit Rennes 1

95

lagage dun arbre de dcision


taux
d'erreur

donnes de test
et d'application

donnes apprentissage

laguer ici

profondeur arbre
(nb de feuilles)

Un bon arbre doit tre lagu pour viter la remonte du taux


derreur due au sur-apprentissage
Dans lexemple prcdent, il faut laguer les feuilles 9 et 10
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

96

Slection des variables explicatives


En prsence de corrlation linaire entre les prdicteurs, lapport
marginal de chaque prdicteur dcrot trs vite
Il peut mme altrer le modle (inversions de signes des paramtres)
et rduire son pouvoir prdictif
On doit effectuer des tests statistiques de liaison
On peut prfrer un prdicteur moins li la variable expliquer sil
est moins corrl aux autres prdicteurs
On peut travailler sur les coordonnes factorielles
Il est plus facile de limiter le nombre de prdicteurs si la population
est homogne
Et mme sils sont peu corrls, les prdicteurs doivent tre
suffisamment peu nombreux (ou borns comme dans la
rgression pnalise) pour viter davoir un modle trop
complexe et du sur-ajustement
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

97

Rappel sur les tests


Tests paramtriques
supposent que les variables suivent une loi
particulire (normalit, homoscdasticit)
ex : test de Student, ANOVA

Tests non-paramtriques
ne supposent pas que les variables suivent une loi particulire
se fondent souvent sur les rangs des valeurs des variables plutt
que sur les valeurs elles-mmes
peu sensibles aux valeurs aberrantes
ex : test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis

Exemple du r de Pearson et du de Spearman :

r > prsence de valeurs extrmes ?


> r liaison non linaire non dtecte par Pearson ?
ex : x = 1, 2, 3 et y = e1, e2, e3

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

98

Liaison entre une variable continue et une


variable de classe
lois suivies

2 chantillons

3 chantillons et plus (***)

normalit homoscdasticit (*)

test T de Student

ANOVA

normalit htroscdasticit

test T de Welch

Welch - ANOVA

non normalit htroscdasticit (**)

Wilcoxon Mann Whitney

Kruskal Wallis

non normalit htroscdasticit (**)

test de la mdiane

test de la mdiane

non normalit htroscdasticit (**)

test de Jonckheere-Terpstra
(chantillons ordonns)

moins puissant
(*) Ces tests supportent mieux la non-normalit que lhtroscdasticit.
(**) Ces tests travaillant sur les rangs et non sur les valeurs elles-mmes,
ils sont plus robustes et sappliquent galement des variables ordinales
(***) ne pas comparer toutes les paires par des tests T on dtecte tort des
diffrences significatives (au seuil de 95 % : dans 27 % des cas pour 4 moyennes gales)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

99

Exemple de liste des variables


Obs

Liste des variables par liaison


dcroissante avec la variable
expliquer
Ici les variables sont qualitatives
et la liaison mesure par le V de
Cramer
0,4
0,35

V_Cramer

Variable

0.35174 Comptes

0.24838 Historique_credit

0.20499 Duree_credit

0.19000 Epargne

0.17354 Objet_credit

0.15809 Montant_credit

0.15401 Biens

0.13553 Anciennete_emploi

0.13491 Statut_domicile

10

0.12794 Age

11

0.11331 Autres_credits

12

0.09801 Situation_familiale

13

0.08152 Garanties

14

0.07401 Taux_effort

15

0.05168 Nb_credits

16

0.04342 Type_emploi

17

0.03647 Telephone

18

0.02737 Anciennete_domicile

0,3
0,25
0,2
0,15
0,1
0,05

07/02/2014

Ag
tre
e
s_
cr
tu
ed
at
io
it s
n_
fa
m
ilia
le
G
ar
an
t ie
Ta
s
ux
_e
ff o
Nb
rt
_c
re
di
Ty
ts
pe
_e
m
pl
oi
An
Te
cie
le
p
nn
ho
et
ne
e_
do
Nb
m
ici
_p
le
er
s_
ch
ar
ge
Si

Au

Hi
s

Co
m
pt
to
es
riq
ue
_c
re
Du
di
t
re
e_
cr
ed
it
Ep
ar
gn
O
e
bj
et
_c
M
re
on
di
ta
t
nt
_c
re
di
t
An
cie
Bi
nn
en
et
s
e_
em
St
at
pl
ut
oi
_d
om
ici
le

Stphane Tuffry - Usage rserv lUniversit Rennes


1
19

100
0.00301 Nb_pers_charge

Pourquoi le V de Cramer ?
Classe 1

Classe 2

Classe 1

Ensemble

Classe 2

Ensemble

Effectifs observs :

Effectifs observs :
A

55

45

100

550

450

1000

20

30

50

200

300

500

Total

75

75

150

Total

750

750

1500

Effectifs attendus si la variable est indpendante de


la classe :

Effectifs attendus si la variable est indpendante de


la classe :

50

50

100

500

500

1000

25

25

50

250

250

500

Total

75

75

150

Total

750

750

1500

Probabilit du = 0,08326454

Probabilit du = 4,3205.10-8

V de Cramer = 0,14142136

V de Cramer = 0,14142136

Quand la taille de la population augmente, le moindre cart finit


par devenir significatif aux seuils usuels
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

101

Le V de Cramer
V de Cramer =

2
2
max

mesure directement l'intensit de la liaison de 2 variables


qualitatives, sans avoir recours une table du
indpendamment du nombre de modalits et de leffectif
en intgrant leffectif et le nombre de degrs de libert, par
l'intermdiaire de max
max = effectif x [min (nb lignes, nb colonnes) 1]
V compris entre 0 (liaison nulle) et 1 (liaison parfaite)

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

102

Slection des variables : bootstrap


On effectue une rgression logistique stepwise sur chacun des chantillons bootstrap
Variable Nb occurrences
Constante
50
V05
46
V09
39
V14
37
V01
35
V03
34
V13
28
V02
23
V04
22
V18
18
V22
18
V19
16
V17
15
V24
14
V08
13
V36
12
V28
11
V07
10

07/02/2014

Variable Nb occurrences
V25
7
V26
7
V15
6
V12
5
V29
5
V31
5
V10
4
V20
4
V06
2
V16
2
V32
2
V37
2
V11
1
V21
1
V23
1
V27
1
V34
1
V35
1

Bootstrap : B tirages alatoires avec


remise de n individus parmi n et
slection de variables sur chacun des B
chantillons bootstrap
C

60 o

V
n
0
50 s e5 V V
t
0
V V
1
a
9
0 0
4
40 n
1 3 V
t
1 V
V
3 0
30
0 V V
2 4 1 2 V V V
V V
1 1
V V
8 2
2 0
20
9 7
3 2
4 8
0 V V V V V V
6 8
V V
7 2 2 1 1 2 3
V V V V V V V V V V
1 2
5 6 5
10
2 9 1 0 0 0 1 3 3 1 2 2 2 3 3
6 6 2 7 1 1 3 7 4 5

seuil

seuil

Stphane Tuffry - Usage rserv lUniversit Rennes 1

103

Slection des variables : classification


laide dune ACP avec rotation
R-squared with

Cluster

Variable

Own
Cluster

Next
Closest

1-R**2
Ratio

Cluster 1

nbpoints

0.6546

0.0011

0.3458

nb points fidlit

nbproduits

0.6189

0.0183

0.3882

nb produits

nbachats

0.5950

0.0007

0.4053

nb achats

revenus

0.4551

0.0234

0.5580

revenus du client

abonnement

0.2537

0.0042

0.7495

abonnement autre service

utilcredit

0.2312

0.0002

0.7689

rglements crdit

age

0.6033

0.0000

0.3967

ge

relation

0.6461

0.0336

0.3662

relation (anciennet client)

evolconsom

0.2151

0.0027

0.7870

volution consommation

Cluster 2

Variable
Label

PROC VARCLUS DATA=fichier_client;


VAR age relation nbpoints nbproduits nbachats revenus abonnement evolconsom
utilcredit;
RUN;
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

104

La modlisation

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

105

Mthodes inductives : 4 tapes


Apprentissage : construction du modle sur
un 1er chantillon pour lequel on connat la
valeur de la variable expliquer
Test : vrification du modle sur un 2d
chantillon pour lequel on connat la valeur de la
variable expliquer, que lon compare la valeur
prdite par le modle
si le rsultat du test est insuffisant (daprs la
matrice de confusion ou la courbe ROC), on
recommence lapprentissage
Validation du modle sur un 3e chantillon,
ventuellement out of time , pour avoir une
ide du taux derreur non biais du modle
Application du modle lensemble de la
population
07/02/2014

valeur prdite

valeur relle
A

1800

200

300

1700

TOTAL

Stphane Tuffry - Usage rserv lUniversit Rennes 1

TOTAL

4000

106

Quelques mthodes classiques de scoring


Analyse discriminante linaire
Rsultat explicite P(Y/ X1, , Xp) sous forme dune formule
Requiert des Xi continues et des lois Xi/Y multinormales et
homoscdastiques (attention aux individus hors norme)
Optimale si les hypothses sont remplies
Rgression logistique
Sans hypothse sur les lois Xi/Y, Xi peut tre discret, ncessaire absence de
colinarit entre les Xi
Mthode trs souvent performante
Mthode la plus utilise en scoring
Arbres de dcision
Rgles compltement explicites
Traitent les donnes htrognes, ventuellement manquantes, sans
hypothses de distribution
Dtection dinteractions et de phnomnes non linaires
Mais moindre robustesse
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

107

Grille de score
Passage de coefficients ( Estimation ) des pondrations dont la
somme est comprise entre 0 et 100
Variable

Modalit

Age

> 25 ans

Age

25 ans

Autres_credits

Aucun crdit extrieur

Nb points

Analyse des estimations de la vraisemblance maximum


Erreur
Khi 2
DF Estimation
std de Wald Pr > Khi 2

Paramtre
Intercept

-3.1995

0.3967

65.0626

<.0001

Comptes

CC >= 200 euros

1.0772

0.4254

6.4109

0.0113

Autres_credits

Crdits extrieurs

Comptes

CC < 0 euros

2.0129

0.2730

54.3578

<.0001

Comptes

Pas de compte

Comptes

CC [0-200 euros[

1.5001

0.2690

31.1067

<.0001

Comptes

Pas de compte

Comptes

CC 200 euros

13

Historique_credit Crdits en impay

1.0794

0.3710

8.4629

0.0036

Comptes

CC [0-200 euros[

19

Historique_credit Crdits sans retard

0.4519

0.2385

3.5888

0.0582

Comptes

CC < 0 euros

25

Historique_credit Jamais aucun crdit

Duree_credit

> 36 mois

1.4424

0.3479

17.1937

<.0001

Duree_credit

15 mois

Duree_credit

16-36 mois

1.0232

0.2197

21.6955

<.0001

Duree_credit

16-36 mois

13

Duree_credit

<= 15 mois

Duree_credit

<= 25 ans

0.6288

0.2454

6.5675

0.0104

> 36 mois

18

Age
Age

> 25 ans

Epargne

pas pargne ou > 500 euros

Epargne

< 500 euros

0.6415

0.2366

7.3501

0.0067

Epargne

< 500 euros

Epargne

pas pargne ou > 500 euros

Garanties

Avec garant

-1.7210

0.5598

9.4522

0.0021

Garanties

Avec garant

Garanties

Sans garant

Garanties

Sans garant

21

Autres_credits

Aucun crdit extrieur

-0.5359

0.2439

4.8276

0.0280

Historique_credit

Jamais aucun crdit

Autres_credits

Crdits extrieurs

Historique_credit

Crdits sans retard

07/02/2014

Historique_credit
Crdits en1 impay
Stphane Tuffry - Usage
rserv lUniversit Rennes

108

13

Exemples de notations
Note dun jeune de moins de 25 ans, qui demande pour la
premire fois un crdit dans ltablissement et qui nen a
pas ailleurs, sans impay, avec un compte dont le solde
moyen est lgrement positif (mais < 200 ), avec un peu
dpargne (< 500 ), sans garant, qui demande un crdit sur
36 mois :
8 + 0 + 19 + 13 + 8 + 21 + 0 = 69 points

Note dun demandeur de plus de 25 ans, avec des crdits


la concurrence, sans impay, avec un compte dont le solde
moyen est > 200 , avec plus de 500 dpargne, sans
garant, qui demande un crdit sur 12 mois :
0 + 7 + 13 + 0 + 0 + 21 + 0 = 41 points

On constate la facilit de limplmentation et du calcul du


score
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

109

Dcoupage de la note de score


On peut calculer les dciles du nombre de points et leurs
Table de dnbpoints par Cible
taux dimpays correspondants :
dnbpoints(Rang
pour la variable
nbpoints)

Analysis Variable : nbpoints

FREQUENCE
Pct en ligne

Rang pour
N
la variable
nbpoints Obs Minimum Maximum
0

07/02/2014

104

Cible
OK

KO Total

99
95.19

5
4.81

104

89
93.68

6
6.32

95

100
93.46

7
6.54

107

6.0000000 29.0000000

95 33.0000000 37.0000000

107 39.0000000 42.0000000

101
19
84.17 15.83

120

120 43.0000000 48.0000000

71
27
72.45 27.55

98

98 49.0000000 54.0000000

60
33
64.52 35.48

93

93 55.0000000 60.0000000

81

81 61.0000000 65.0000000

48
33
59.26 40.74

60
44
57.69 42.31

104

38
54
41.30 58.70

92

34
72
32.08 67.92

106

104 66.0000000 69.0000000

92 70.0000000 74.0000000

106 75.0000000 95.0000000

Seuils
de taux

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Total

700

300

110

1000

Taux dimpays par tranches de score


Table de nbpoints par Cible
nbpoints
FREQUENCE
Pourcentage
Pct en ligne

8,69% dimpays
octroi du crdit avec un minimum
de formalits

Cible

OK

risque faible 389


[0 , 48] points 38.90

KO Total
37
3.70
8.69

426
42.60

risque moyen 239 137


[49 , 69] points 23.90 13.70

376
37.60

72 126
7.20 12.60
36.36 63.64

198
19.80

91.31

63.56 36.44

risque fort
70 points
Total
07/02/2014

Tranche de risque faible :

Tranche de risque moyen :


36,44% dimpays
octroi du crdit selon la procdure
standard

Tranche de risque lev :


63,64% dimpays
octroi du crdit interdit sauf par
lchelon hirarchique suprieur
(directeur dagence)

700 300
1000
70.00 30.00 100.00
Stphane Tuffry - Usage rserv lUniversit Rennes 1

111

Reprenons nos exemples


Demandeur de moins de 25 ans, qui demande pour la
premire fois un crdit dans ltablissement et qui nen a
pas ailleurs, sans impay, avec un compte dont le solde
moyen est lgrement positif (mais < 200 ), avec un peu
dpargne (< 500 ), sans garant, qui demande un crdit sur
36 mois :
69 points risque moyen
On est la limite du risque lev et cette limite aurait t
franchie avec un crdit sur plus de 36 mois

Demandeur de plus de 25 ans, avec des crdits la


concurrence, sans impay, avec un compte dont le solde
moyen est > 200 , avec plus de 500 dpargne, sans
garant, qui demande un crdit sur 12 mois :
41 points risque faible
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

112

Exemple de prdiction des impays 12 mois


100%
90%

5,61
7,64

80%

10,46

70%

17,27

50,3

60%
50%

26,8

40%

22,37

30%
20%

17,45

32,23

10%

5,67
3,41
0,8

0%
% clients
Score 1

07/02/2014

Score 2

% impays
Score 3

Score 4

Score 5

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Score 6

113

Les rsultats du modle retenu


(autre exemple)
50,00%
45,00%
40,00%
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
taux souscription

10

0,10%

0,22%

0,67%

0,86%

1,38%

2,15%

3,23%

9,37%

21,08%

44,76%

Observer lvolution exponentielle du taux de souscription


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

114

Sensibilit et spcificit
Pour un score devant discriminer un groupe A (les positifs;
ex : les risqus) par rapport un autre groupe B (les
ngatifs ; ex : les non risqus), on dfinit 2 fonctions du seuil
de sparation s du score :
sensibilit = (s) = Prob(score s / A) = probabilit de bien
dtecter un positif
spcificit = (s) = Prob(score < s / B) = probabilit de bien
dtecter un ngatif

Pour un modle, on cherche s qui maximise (s) tout en


minimisant les faux positifs 1 - (s) = Prob(score s / B)

faux positifs : ngatifs considrs comme positifs cause du


score

Le meilleur modle : permet de dtecter le plus possible de


vrais positifs avec le moins possible de faux positifs
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

115

1,0

Courbe ROC

,8

Source de la courbe
,5

Ligne de rfrence
arbre de dcision

,3
analys discriminante

La courbe ROC

0,0
0,0

rgress. logistique
,3

,5

,8

1,0

sur laxe Y : sensibilit = (s)


sur laxe X : 1 - spcificit = 1 - (s)
proportion y de vrais positifs en fonction de la proportion x de faux
positifs, lorsque l'on fait varier le seuil s du score

Aire AUC sous la courbe ROC = probabilit que score(x) >


score(y), si x est tir au hasard dans le groupe A ( prdire) et y
dans le groupe B
1re mthode destimation : par la mthode des trapzes
2e mthode destimation : par les paires concordantes
3e mthode quivalente : par le test de Mann-Whitney

Le modle est d'autant meilleur que lAUC sapproche de 1


AUC = 0,5 modle pas meilleur qu'une notation alatoire
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

116

Exemple de courbe ROC


#

Classe

Score

Classe

0,90

11

0,40

0,80

12

0,39

0,70

13

0,38

0,65

14

0,37

0,60

15

0,35

0,55

16

1,000
N

0,30

0,50

17

0,25

0,45

18

0,44

19

10

0,42

20

,900

Score

0,20

0,15

0,10

,800

0,37

0,15

0,10

,900

1,000

0,25
0,40

,700
True positive rate

0,50
,600

0,42
,500
,400
,300
,200

0,70
,100

,000
,000

07/02/2014

,100

,200

,300

,400

,500

,600

False positive
Stphane Tuffry - Usage rserv lUniversit
Rennesrate
1

,700

,800

117

Interprtation de la courbe ROC


seuil s minimum :
tous classs en +

taux de vrais positifs

prdiction parfaite

seuil s maximum :
tous classs en -

prdiction nulle

taux de faux positifs


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

118

Matrice de confusion et courbe ROC


Tableau de classementa
Prvu
CHD
Observ
CHD

0
0
1

1
45
16

Pourcentage global

12
27

Pourcentage
correct
78,9
62,8
72,0

a. La valeur de csure est ,500

Sensibilit = 27/43 = 0,63


Seuil 0,5 (= csure de
la matrice de confusion)

1 - Spcificit = 1-(45/57) = 0,21


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

119

Courbes ROC avec entre progressive des


variables du modle
Sensi bi l i t
1. 0

_step_ = 7
0. 9

0. 8

0. 7

_step_ = 1
0. 6

0. 5

0. 4

0. 3

Rapprocher lapport de plus en plus


faible de chaque variable avec la
remarque de David Hand

0. 2

0. 1

0. 0
0. 0

0. 1

0. 2

0. 3

0. 4

0. 5

0. 6

0. 7

0. 8

0. 9

1. 0

1 - Spci f i ci t

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

120

Quelques principes du data


mining

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

121

Les 8 principes de base de la modlisation


La prparation des donnes est la phase la plus longue, peut-tre la
plus laborieuse mais la plus importante
Il faut un nombre suffisant dobservations pour en infrer un modle
Validation sur un chantillon de test distinct de celui dapprentissage
(ou validation croise)
Arbitrage entre la prcision dun modle et sa robustesse ( dilemme
biais variance )
Limiter le nombre de variables explicatives et surtout viter leur
colinarit
Perdre parfois de linformation pour en gagner
dcoupage des variables continues en classes

On modlise mieux des populations homognes


intrt dune classification pralable la modlisation

La performance dun modle dpend souvent plus de la qualit des


donnes et du type de problme que de la mthode
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

122

Qualits attendues dune technique prdictive


1/2
La prcision
le taux derreur doit tre le plus bas possible, et laire sous la
courbe ROC la plus proche possible de 1

La robustesse
tre le moins sensible possible aux fluctuations alatoires de
certaines variables et aux valeurs manquantes
ne pas dpendre de lchantillon dapprentissage utilis et bien
se gnraliser dautres chantillons

La concision
les rgles du modle doivent tre les plus simples et les moins
nombreuses possible

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

123

Qualits attendues dune technique


prdictive 2/2
Des rsultats explicites
les rgles du modle doivent tre accessibles et comprhensibles

La diversit des types de donnes manipules


toutes les mthodes ne sont pas aptes traiter les donnes
qualitatives, discrtes, continues et manquantes

La rapidit de calcul du modle


un apprentissage trop long limite le nombre dessais possibles

Les possibilits de paramtrage


dans un classement, il est parfois intressant de pouvoir pondrer
les erreurs de classement, pour signifier, par exemple, quil est plus
grave de classer un patient malade en non-malade que linverse
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

124

Choix dune mthode : nature des donnes


explicatives

1 quantitative n quantitatives
(covariable)
(covariables)

1 qualitative
(facteur)

n qualitatives
(facteurs)

mlange

ANOVA, arbres
de dcision,
rseaux de
neurones

ANCOVA,
arbres de
dcision,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
rgression
logistique,
arbres, rseaux
de neurones

expliquer
1 quantitative

n quantitatives
(reprsentent des
quantits )

1 qualitative
nominale ou
binaire

1 discrte
(comptage)
1 quantitative
asymtrique
1 qualitative
ordinale
n quantitatives
ou07/02/2014
qualitatives

rg. linaire
simple,
rgression
robuste, arbres
de dcision
rgression
PLS2
ADL,
rgression
logistique,
arbres de
dcision

rg. linaire multiple, ANOVA,


rg. robuste, PLS,
arbres de
arbres, rseaux de
dcision
neurones
rgression PLS2,
rseaux de neurones

MANOVA

MANOVA,
rseaux de
neurones
ADL, rg. logistique, rgression
rgression
reg. logistique PLS, logistique,
logistique,
arbres, rseaux de
DISQUAL,
DISQUAL,
neurones, SVM
arbres
arbres, rseaux
de neurones
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
modle linaire gnralis
(rgressions gamma et log-normale)
rgression logistique ordinale
(au moins 3 niveaux)

modle mesures rptes


(les
n variables
reprsentent
des mesures
rptesRennes
dune 1mme quantit)
Stphane
Tuffry
- Usage rserv
lUniversit

125

Choix dune mthode : prcision, robustesse,


concision, lisibilit
Prcision : privilgier la rgression linaire, lanalyse
discriminante linaire, DISQUAL et la rgression
logistique, et parfois les SVM et les rseaux de neurones
en prenant garde au sur-apprentissage (ne pas avoir trop
de neurones dans la ou les couches caches)
Robustesse : viter les arbres de dcision et se mfier des
rseaux de neurones, prfrer une rgression robuste
une rgression linaire par les moindres carrs
Concision : privilgier la rgression linaire, lanalyse
discriminante et la rgression logistique, ainsi que les
arbres sans trop de feuilles
Lisibilit : prfrer les arbres de dcision et prohiber les
rseaux de neurones. La rgression logistique, DISQUAL,
lanalyse discriminante linaire et la rgression linaire
fournissent aussi des modles faciles interprter
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

126

Choix dune mthode : autres critres


Peu de donnes : viter les arbres de dcision et les rseaux
de neurones
Donnes avec des valeurs manquantes : essayer de recourir
un arbre, une rgression PLS, ou une rgression logistique
en codant les valeurs manquantes comme une classe
particulire
Les valeurs extrmes de variables continues naffectent pas les
arbres de dcision, ni la rgression logistique et DISQUAL
quand les variables continues sont dcoupes en classes et les
extrmes placs dans 1 ou 2 classes
Variables explicatives trs nombreuses ou trs corrles :
arbres de dcision (pour limiter le nombre de variables du
modle), rgression rgularise ou PLS (pour conserver le
maximum de variables dans le modle)
Mauvaise comprhension de la structure des donnes :
rseaux de neurones (sinon exploiter la comprhension des
donnes par dautres types de modles)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

127

Choix dune mthode : topographie des


classes discriminer
1

0
0
0
1
0 1
0
1
0
0
1
1
? 0
1
1
0
1

0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11

0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11

? est class en "1"

? est class en "0"

? est class en "0"

Analyse discriminante

Rseau de neurones

Arbre de dcision

Toutes les mthodes de classement dcoupent lespace


des variables en rgions, dont chacune est associe une
des classes discriminer
La forme de ces rgions dpend de la mthode employe
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

128

Influence des donnes et mthodes


Pour un jeu de donnes fix, les carts entre les performances de
diffrents modles sont souvent faibles
exemple de Gilbert Saporta sur des donnes dassurance automobile
(on mesure laire sous la courbe ROC) :
rgression logistique : 0,933
rgression PLS : 0,933
analyse discriminante DISQUAL : 0,934
analyse discriminante barycentrique : 0,935

le choix de la mthode est parfois affaire dcole

Les performances dun modle dpendent :


un peu de la technique de modlisation employe
beaucoup plus des donnes !

Do limportance de la phase prliminaire dexploration et


danalyse des donnes
Collecter des donnes pertinentes nouvelles (ex : smiomtriques)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

129

Lagrgation de modles

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

130

Fonction de perte et risque dun modle


Lerreur de prdiction dun modle se mesure par une fonction
de perte :
y continue L(y,f(x)) = (y f(x))
y = 1/+1 L(y,f(x)) = |y f(x)|

Risque (ou risque rel) = esprance de la fonction de perte sur


lensemble des valeurs possibles des donnes (x,y)
comme on ne connat pas la loi de probabilit conjointe de x et y, on
ne peut questimer le risque
lestimation la plus courante
est le risque empirique
1 n 1
1
y i f ( xi )
( y f ( x ) ) ou n
n
i =1 2
on retrouve le taux derreur pour y = 1/+1 (n = effectif)
n

i =1

Dans le cas quadratique, le risque se dcompose en :


Biais(modle) + Variance(modle)
(diffrence entre esprance de la prdiction f(x) et valeur moyenne
de y) + variance de la prdiction
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

131

Dilemme Biais-Variance
Plus un modle est complexe, plus son biais diminue mais plus sa
variance augmente
Nous devons trouver le bon rglage (trade-off) entre biais et variance,
entre ajustement aux donnes dapprentissage (biais) et capacit de
gnralisation (variance)
Dans quelques cas simples, la complexit dun modle est gale au
nombre p de paramtres
Dans certaines situations, on ne peut pas diminuer le nombre de
paramtres car les utilisateurs veulent voire apparatre simultanment
des critres mme sils sont fortement corrls
Mdecine, avec des mesures physiologiques, des rsultats danalyses
Banque, avec des critres qualitatifs saisis sur les entreprises

Cette complexit peut tre diminue par lintroduction de bornes ||||


C dans la recherche des coefficients dun modle de rgression (les

observations tant dans une sphre de rayon R)


complexit min [partie entire (R.C),p] + 1
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

132

Solutions de rduction de complexit


La rgression avec pnalisation Ld (d 0)
Minimiser -2.log-vraisemblance (ou des carrs) + |i|d, d 0
minimiser -2.log-vraisemblance avec la contrainte |i|d C
d 1: slection de prdicteurs (AIC, BIC si d = 0 , Lasso si d = 1)
d > 1: rtrcissements de coefficients (Ridge si d = 2)

La rgression ridge (ou logistique ridge) est la plus rpandue


Elle rduit les coefficients dans toutes les directions, surtout celles faible
variance (le coefficient de la ridge sur la 1re composante principale diminue
moins que le coefficient sur la 2e composante, etc.)

La complexit peut aussi tre rduite par la rgression PLS


Avec une seule composante : les signes des coefficients sont gaux aux
signes des corrlations entre prdicteurs et variable rponse
La rgression PLS rduit les coefficients dans les directions faible variance,
mais peut provoquer une hausse trop grande dans les directions forte
variance lerreur de prdiction de la PLS est souvent un peu suprieure
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

133

Ridge plot
volution des coefficients en fonction de la pnalisation

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

134

Introduction aux mthodes dagrgation


Nous avons vu que la complexit dun modle doit tre
matrise pour lui assurer une faible somme biais +
variance et donc une bonne gnralisation
La complexit dun modle peut tre diminue par :
La diminution du nombre de prdicteurs
Lintroduction de bornes sur les coefficients de rgression de ces
prdicteurs
Laugmentation de la marge des SVM

Nous allons voir une autre approche avec les mthodes


dagrgation (synonyme : mthodes densemble) qui
consistent agrger les prdictions de plusieurs modles de
mme type, dune faon qui permette de rduire la variance
et ventuellement le biais du modle agrg
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

135

Principe des mthodes dagrgation


La moyenne de B variables alatoires i.i.d. de variance , a
une variance
Lesprance de cette moyenne de variables alatoires est
gale lesprance de chaque variable
Si les variables sont identiquement distribues mais
dpendantes, avec une corrlation positive , la variance de
la moyenne est +

Cette formule peut tre applique la fonction de


prdiction dfinie par chaque modle dans lagrgation. Si
ces fonctions sont fortement corrles, lagrgation rduira
peu la variance, mme si B est grand
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

136

Bagging 1/2
En moyennant des classifieurs (par exemple des arbres) sur B
chantillons bootstrap, on obtient un classifieur :
dont le biais na pas diminu
dont la variance a diminu dautant plus que la corrlation entre les
classifieurs est faible

Les n modles sont agrgs :


par un vote ou une moyenne des probabilits P(Y=1|X) quand on sait
calculer cette moyenne (classement)
par une moyenne des estimations (rgression)

Cest le bagging : Bootstrap AGGregatING, Breiman, 1996


La procdure de vote applique des arbres de faible qualit
peut conduire un rsultat pire lors de lagrgation
Supposons que Y = 1 pour tout x et que chaque classifieur prdise 1
avec la probabilit 0,4 et 0 avec la probabilit 0,6. Lerreur de
classement de chaque classifieur vaudra 0,6 mais lagrgation par vote
donnera un classifieur dont lerreur vaudra 1.
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

137

Bagging 2/2
Le classifieur de base est le mme chaque itration : arbre de
dcision, rseau de neurones
La corrlation entre les classifieurs est diminue par :
le mcanisme de bootstrap
laugmentation de la complexit

Le bagging sapplique mieux aux classifieurs faible biais et


variance leve particulirement les arbres de dcision
La stratgie dlagage est simple : prfrer le bagging sur des
arbres profonds
Bagging inefficace sur un classifieur fort, dont les diffrents
modles seront trop corrls pour rduire la variance
R : packages ipred, randomForest
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

138

Forts alatoires 1/3


Le bagging manque defficacit quand les modles sont trop corrls
on veut donc les dcorrler
Introduction dune 2e randomisation : sur les individus (bagging) mais
aussi sur les prdicteurs, en ajoutant chaque scission un tirage
alatoire dun sous-ensemble de taille q (constante) parmi lensemble
des p prdicteurs (forts alatoires, Breiman, 2001)
Plus la corrlation baisse (elle peut atteindre = 0,05) plus la
variance du modle agrg diminue : +

vite de voir apparatre trop souvent les mmes variables les plus
discriminantes
Chaque arbre lmentaire est moins performant mais lagrgation
conduit un modle agrg plus performant : laugmentation du biais
est plus que compense par la diminution de la variance
R : packages randomForest (sur arbre CART) et party (sur arbre Ctree)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

139

Forts alatoires 2/3


Diminuer le nombre q de prdicteurs augmente le biais mais diminue
la corrlation entre les modles et la variance du modle final q
permet de rgler le trade-off entre biais et variance
Pour le classement, Breiman suggre un sous-ensemble de q = p
variables ou [log(p)+1] ou 1
Mais il ne faut pas que ce nombre q soit trop faible si une forte
proportion de variables sont peu discriminantes
Les forts alatoires commencent tre trs efficaces lorsque la
probabilit de slectionner un prdicteur discriminant est > 0,5. Cette
probabilit est donne par la loi hypergomtrique.
Si 6 variables discriminantes sont mlanges 30 non discriminantes, la
probabilit de tirer au moins une variable discriminante parmi 6 est :
> cumsum(dhyper(1:6, 6, 30, 6))
[1] 0.4389771 0.6500237 0.6917119 0.6950619 0.6951543 0.6951548
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

140

Forts alatoires 3/3


Le nombre q de prdicteurs est le seul paramtre
rellement rgler
Le nombre ditrations est moins sensible rgler, et on a
intrt le choisir assez lev
Le nombre de modles agrger devrait crotre avec le nombre de
prdicteurs
noter la convergence des performances atteinte avec un nombre de
modles agrgs parfois trs infrieur au nombre de combinaisons de p
variables parmi n (n!/p!(np)!), cest--dire bien avant que toutes les
combinaisons possibles de variables soient apparues.
Les forts alatoires rsistent bien au sur-apprentissage (contrairement aux
rseaux de neurones et au boosting) mme quand le nombre de modles
agrgs est grand

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

141

Similarits entre forts alatoires et


rgression pnalise ridge
Le rtrcissement des coefficients dans la rgression
ridge
slection de q < p prdicteurs alatoirement parmi
les p prdicteurs
Augmenter ou rduire q :
augmente le biais, puisque la solution est cherche dans un sousespace fix par la contrainte
rduit la variance, de faon compenser la hausse du biais

Autre analogie : tous les prdicteurs peuvent apparatre


dans le modle
par rtrcissement de leurs coefficients dans la rgression ridge
ou par slection au hasard dans les forts alatoires
le travail de slection des variables est simplifi !

Pouvoir prdictif lev !


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

142

Diffrences entre forts alatoires et


rgression pnalise ridge
Le paramtre de pnalisation permet un ajustement
continu du biais-variance, alors que le nombre q est discret
Il permet dajuster les coefficients laide du ridge plot
en sorte que tous les coefficients aient un signe cohrent
voire que certains coefficients soit suprieur un certain seuil fix
par les experts du domaine

La rgression pnalise est dterministe


Les calculs de la rgression pnalise sont plus rapides
mais les calculs des forts alatoires peuvent tre parallliss

Manque de lisibilit dun modle de forts alatoires, qui


dtruit la structure darbre
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

143

Agrgation de modles : le boosting


BOOSTING, Freund et Schapire, 1996
Algorithme adaptatif et gnralement dterministe :
on travaille souvent sur toute la population
et chaque itration, on augmente le poids des individus mal classs ou
mal ajusts dans les itrations prcdentes
la fin, on agrge les modles en les pondrant par leur qualit

Diminue le biais et pas seulement la variance (grce au mcanisme


dagrgation) mais peut tre sujet au sur-ajustement
Nombreux algorithmes : Discrete AdaBoost, Real AdaBoost, Gentle
AdaBoost, LogitBoost, Arcing (Adaptative Resampling and
Combining)
Performances pas toujours trs diffrencies sur des donnes relles
(voir plus loin larc-x4 de Breiman)
R : packages ada, gbm et mboost
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

144

Illustration (Robert Schapire)


Extrait dune confrence visible ici :
http://videolectures.net/mlss05us_schapire_b/

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

145

Algorithme Discrete AdaBoost


1) Initialiser les poids des N individus de lchantillon dapprentissage :
pi = 1/N, i = 1, 2, , N
2) Rpter pour m = 1 M
ajuster le classifieur fm(x) {-1,+1} sur lchantillon
dapprentissage pondr par les poids pi
calculer le taux derreur m de fm(x) (tenant compte du poids de chaque
observation mal classe) et calculer m = ln((1-m)/m)
on peut multiplier m par un paramtre de pnalisation 1
si m < 0,5, multiplier le poids pi de chaque observation mal classe par
exp(m) (sinon : interrompre lalgorithme ou rinitialiser les poids) le
multiplicateur dcrot avec le taux derreur
normaliser les poids pi pour que leur somme soit 1

3) Le classifieur boost est le signe de la somme mmfm(x) (ou la


valeur moyenne des mfm(x))
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

146

Algorithme Arcing
1) Initialiser les poids des N individus de lchantillon
dapprentissage : pi = 1/N, i = 1, 2, , N
2) Rpter pour m = 1 M
dans lchantillon dapprentissage, tirer avec remise N individus chacun
selon la probabilit pi
ajuster le classifieur fm(x) {-1,+1} sur lchantillon ainsi tir
sur lchantillon dapprentissage initial :
calculer le taux derreur m pondr des observations mal classes par fm(x) et
calculer m = ln((1-m)/m)
si m < 0,5, multiplier le poids pi de chaque observation mal classe par exp(m)
pour i = 1, 2, , N (sinon : interrompre lalgorithme ou rinitialiser les poids)
normaliser les poids pi pour que leur somme soit 1

3) Le classifieur boost est le signe de la somme mmfm(x) (ou


la valeur moyenne des mfm(x))
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

147

Intrt de lalgorithme Arcing


Larcing introduit un facteur alatoire par un tirage avec remise et avec
une probabilit de tirage plus importante pour les individus mal
classs litration prcdente
contrairement au Discrete AdaBoost qui conserve chaque individu en
modifiant son poids mais non sa probabilit dtre tir

Ce tirage alatoire introduit une plus grande diversit dans les


modles obtenus et agrgs
Variante arc-x4 de larcing
chaque itration, le poids dun individu est proportionnel la somme de
1 et des puissances 4e des nombres derreurs de classement des itrations
prcdentes
Breiman (Breiman, 1996) a choisi la puissance 4e de faon empirique aprs
avoir test plusieurs valeurs
performances comparables celle de lalgorithme standard
montre que lefficacit dun algorithme de boosting vient moins de son
dispositif spcifique de pondration des observations que de son principe
gnral de rchantillonnage adaptatif
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

148

Algorithme Real AdaBoost


1) Initialiser les poids des N individus :
pi = 1/N, i = 1, 2, , N

2) Rpter pour m = 1 M
calculer la probabilit pm(x) = P(Y = 1|x) sur lchantillon
dapprentissage pondr par les poids pi

calculer fm(x) = Log(pm(x)/(1-pm(x))


multiplier le poids pi de chaque observation (xi,yi) par
exp(- . yi.fm(xi)) pour i = 1, 2, , N, o 1 est un paramtre
de pnalisation
normaliser les poids pi pour que leur somme soit 1

3) Le classifieur boost est le signe de la somme mfm(x)


07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

149

Comparaison des caractristiques


BAGGING
Le bagging est un
mcanisme alatoire

FORTS ALATOIRES
Idem bagging

chaque itration,
lapprentissage se fait sur un
Idem bagging
chantillon bootstrap
diffrent
chaque itration,
chaque itration,
lapprentissage se fait sur un
lapprentissage se fait sur
sous-ensemble alatoire de
lensemble des prdicteurs
prdicteurs
chaque itration, le modle
produit doit aussi tre
chaque itration, le
modle produit doit tre
performant sur lensemble des
performant sur lensemble observations, mais lest moins
des observations
que le bagging, puisque tous les
prdicteurs ne sont pas utiliss
Dans lagrgation finale,
tous les modles ont le
Idem bagging
mme poids
07/02/2014

BOOSTING
Le boosting est un mcanisme
adaptatif et gnralement (sauf
larcing) dterministe
Gnralement (sauf larcing),
chaque itration, lapprentissage
se fait sur lchantillon initial
complet
chaque itration,
lapprentissage se fait sur
lensemble des prdicteurs
chaque itration, le modle
produit doit tre performant
sur certaines observations ; un
modle performant sur certains
outliers sera moins performant
sur les autres observations
Dans lagrgation finale, les
modles sont gnralement
pondrs selon leur derreur

Stphane Tuffry - Usage rserv lUniversit Rennes 1

150

Comparaison des points forts / faibles


BAGGING

FORTS ALATOIRES

BOOSTING

Rduction de la variance par


moyenne de modles

Peut diminuer la variance et le


Idem bagging, mais avec une plus biais du classifieur de base
grande rduction de la variance Mais la variance peut augmenter
avec un classifieur de base stable

Perte de lisibilit sur des


arbres de dcision

Idem

Idem

Peu efficace sur les stumps Efficace sur les stumps

Trs efficace sur les stumps

Convergence plus rapide

Idem bagging

Convergence plus lente

Idem bagging

Algorithme squentiel ne
pouvant tre paralllis

Idem bagging

Risque de sur-apprentissage si le
nombre ditrations est grand

Les forts alatoires sont


toujours suprieures au bagging
et assez souvent plus que le
boosting (sauf si les prdicteurs
discriminants sont trs rares)

Le boosting est souvent plus


efficace que le bagging, du moins
sur les donnes non bruites

Possibilit de parallliser
lalgorithme
Pas de sur-apprentissage :
suprieur au boosting en
prsence de bruit
Le bagging est le plus simple
mettre en uvre mais est
gnralement moins
discriminant que les forts
alatoires et le boosting
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

151

Mthodes pour le Big Data

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

152

Mthodes pour le Big Data


Les questions dchantillonnage sont importantes, puisquelles
peuvent permettre de diminuer le volume de donnes et
dinfrer des conclusions gnrales partir dobservations
partielles
Mais la reprsentativit des chantillons est dlicate tablir, avec des
sources de donnes multiples, qui ne couvrent pas les mmes populations
et comportent un nombre important de valeurs manquantes
Il faut russir apparier les donnes et redresser les chantillons

Ltude des matrices en grande dimension survient avec des


matrices dont les lignes sont des clients et les colonnes des
produits tlchargs, achets ou recommands
Il peut aussi sagir de matrices reprsentant des relations entre individus
ou entre institutions financires cotes (rendements journaliers croiss
avec les rendements dcals) dans un contexte dtude du risque
systmique

Un autre axe de recherche porte sur la visualisation des


donnes en grande dimension
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

153

De nouvelles problmatiques
Les donnes fonctionnelles sont des donnes qui ne sont pas
ponctuelles mais sont continues, comme des courbes ou des
images
Ces donnes se sont multiplies avec les progrs technologiques qui
permettent la collecte et le stockage dobservations de plus en plus
fines, captant en continu les informations sur un objet tudi
(mtorologique, environnemental, mdical, alimentaire)
Au lieu de discriminer des individus au vu de quelques caractristiques
des instants choisis, on na pas da priori sur le moment et la dure
des diffrences entre deux courbes dvolution

Dans les problmatiques lies au web, on ne recherche pas


systmatiquement des modles robustes et lisibles, mais des
modles construits rapidement sur des micro-segments
mouvants, afin de prdire les comportements ou les
prfrences dun petit nombre dinternautes
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

154

p >> n
La rgression en grande dimension pose le problme
classique de slection des variables
On rencontre aussi, par exemple en bio-statistique
(squenage de lADN) ou en chimiomtrie (statistique
applique aux donnes chimiques), des situations o le
nombre de variables est suprieur, voire trs suprieur, au
nombre dindividus (on parle de tableaux plats), et o les
mthodes classiques de rgression ne sappliquent pas et
cdent la place des mthodes telles que la rgression
Lasso ou PLS
Le nombre de variables tudies peut varier entre 104 et
108, alors que le nombre d'observations est de quelques
centaines
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

155

Nouvelles approches en machine learning


Les mthodes de machine learning (agrgation de modles,
SVM, rseaux de neurones) sont utilises pour leur pouvoir
prdictif lev, dans des situations o la lisibilit du modle
nest pas recherche et o leur caractristique bote noire
nest pas un inconvnient
Exemple dune librairie en ligne, qui veut proposer des titres
ses clients. Dans ce problme, les variables (titres dj achets)
sont excessivement nombreuses et crent des matrices creuses
difficiles modliser. Lapproche courante est de dcomposer la
clientle en un trs grand nombre de segments, ventuellement
des milliers, recalculs en permanence par des techniques
statistiques qui permettent de situer chaque client dans un petit
segment de clients ayant des gots proches. Ensuite, on lui
propose les titres souvent acquis par les autres clients de son
segment, que lui-mme naurait pas encore acquis. Ces calculs
sont refaits en permanence, sans recherche de segments et de
modles robustes et comprhensibles.

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

156

Les mthodes dagrgation


Les mthodes d'agrgation, ou mthodes d'ensemble, ainsi que
le stacking, consistent combiner entre elles des mthodes
prdictives
Dans le stacking, on combine diffrentes mthodes ; dans les
mthodes dagrgation, on applique un grand nombre de fois la
mme mthode
Quand on agrge des modles prdictifs, parfois simplement en
faisant la moyenne de leurs prdictions, il vaut mieux agrger
des modles moins pousss, individuellement moins
performants, pour obtenir un modle final plus performant !
Cela vient de ce que les modles individuels plus pousss se
ressemblent plus, et que le gain de leur agrgation est beaucoup
moins grand
On touche ici au besoin de puissance du Big Data, car ces
mthodes peuvent tre trs gourmandes en temps de calcul
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

157

Remarque sur les mthodes appliques au


Big Data
Toutes les mthodes utilises pour le Big Data ne sont pas trs
rcentes, et la plupart faisait du Big Data comme Monsieur
Jourdain : Par ma foi ! il y a plus de quarante ans que je dis de
la prose sans que j'en susse rien, et je vous suis le plus oblig du
monde de m'avoir appris cela. Molire, Le Bourgeois
gentilhomme, 1670
ct des mthodes classiques, on utilise des mthodes plus
modernes (les mthodes dagrgation par exemple) mais
aussi des perfectionnements trs rcents de mthodes
classiques (les mthodes pnalises , par exemple)
C'est comme la musique dite classique, qui ne s'est pas arrte
au XIXe sicle, et qui s'enrichit en permanence de nouvelles
uvres, certaines plus novatrices et originales que des uvres
de musique dite moderne (coutons par exemple Henri
Dutilleux)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

158

Algorithme PageRank 1/2


La structure dune base de donnes classique permet den
extraire des informations
Mais le Web est immense et peu structur
La recherche par mots-cls ne permet pas de limiter
suffisamment le nombre de rponses
Do la recherche dun algorithme pour trier les rponses selon
leur pertinence algorithme PageRank de Google
(cofondateur Larry Page)
Principe : classement des pages Web selon leur popularit sur le
Web, donc selon le nombre de lien pointant sur elles
Un lien dune page A vers une page B augmente le PageRank de
B
l'augmentation du PageRank de la page B est d'autant plus importante
que le PageRank de la page A est lev
l'augmentation du PageRank de la page B est d'autant plus importante
que la page A fait peu de liens
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

159

Algorithme PageRank 2/2


Soient A1, A2, ..., An les pages pointant vers une page B, PR(Ak) le
PageRank de Ak, N(Ak) le nombre de liens sortants prsents sur
la page Ak, et d un facteur compris entre 0 et 1, souvent fix
0,85
PR(B) = (1-d) + { d x [ PR(A1)/N(A1) + ... + PR(An)/N(An) ] }
Si aucune page ne pointe vers B, alors PR(B) = 1-d
PR(Ak) = contribution de la page Ak lensemble des autres pages

Le PageRank dpend des liens et non des clics


Lalgorithme PageRank est inspir par le systme de rfrence
des publications universitaires dans lequel la valeur d'une
publication est dtermine par le nombre de citations que cette
publication reoit
Rfrence : Page, L., Brin, S., Motwani, R. and Winograd, T. (1998).
The pagerank citation ranking: bringing order to the web,
Technical report, Stanford Digital Library Technologies Project
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

160

La dtection des rgles


dassociations

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

161

Les recherches dassociations


Rechercher les associations consiste
rechercher les rgles du type :
Si pour un individu, la variable A = xA,
la variable B = xB, etc, alors, dans 80%
des cas, la variable Z = xZ, cette
configuration se rencontrant pour 20 %
des individus
La valeur de 80% est appele indice de
confiance et la valeur de 20% est appele
indice de support
Par exemple, dans lensemble de
transactions ci-contre :

T26

T1245

T156

T2356

T145

lindice de confiance de B E = 3/4


lindice de support de B E = 3/5

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

162

Les associations : dfinitions


Une rgle est donc une expression de la forme :
> Si Condition alors Rsultat
Synonymes :
Condition = Antcdent
Rsultat = Consquent

Les lments dune rgle {A = xA, B = xB, ...} {Z = xZ} sont les items
Exemple :
>

Si riz et vin blanc, alors poisson

Lindice de support est la probabilit :


> Prob (condition et rsultat)
Lindice de confiance est la probabilit :
> Prob (condition et rsultat) / Prob (condition)
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

163

Intrt dune rgle dassociation


Dans lexemple prcdent, on a :
indice de confiance de lassociation C B est 2/3
indice de support = 2/5

Or, Prob (B) = 0,8


B est prsent dans presque tous les tickets de caisse

Cette probabilit est suprieure lindice de confiance de


C B, ce qui fait que lon ne gagne rien utiliser la rgle
C B pour prdire B
Si lon suppose alatoirement quun ticket de caisse
contient B, on na qu1 chance sur 5 de se tromper,
contre 1 chance sur 3 en appliquant la rgle C B
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

164

Lift dune rgle : mesure son intrt


Lamlioration apporte par une rgle, par rapport une
rponse au hasard est appele lift et vaut :
lift (rgle) = confiance (rgle) / Prob (rsultat)
= Prob (condition et rsultat) / [ Prob (condition) x Prob
(rsultat) ]

Quand le lift est < 1, la rgle napporte rien


car Prob (rsultat) > indice de confiance (rgle)

Exemples :
lift (C B) = 5/6 (rgle inutile)
lift (B E) = 5/4 (rgle utile)

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

165

Lift de la rgle inverse


Il faut noter que si le lift de la rgle
Si Condition alors Rsultat

est < 1, alors le lift de la rgle inverse, c.a.d. de :


Si Condition alors NON Rsultat

est > 1, puisque :


confiance (rgle inverse) = 1 - confiance (rgle)

et
Prob (NON rsultat) = 1 - Prob (rsultat)
do Prob (NON rsultat) < confiance (rgle inverse)

Si une rgle nest pas utile, on peut donc essayer la rgle


inverse en esprant que cette dernire soit
intressante en termes de mtier ou de marketing
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

166

Algorithme Apriori
Cest lalgorithme le plus rpandu (Agrawal et al.)
Il fonctionne en deux tapes :
il commence par rechercher les sous-ensembles ditems ayant une
probabilit dapparition (support) suprieure un certain seuil s
1e passe : limination des items moins frquents que s
2e passe : constitution des combinaisons de deux items parmi les
prcdents, et limination des combinaisons moins frquentes que s
etc : les ensembles frquents de taille n qui nous intressent sont ceux
provenant densembles de taille n 1 eux-mmes frquents

puis il tente de dcomposer chaque sous-ensemble sous une forme


{Condition Rsultat} telle que le quotient Prob (Condition et
Rsultat) / Prob (Condition) (indice de confiance), soit suprieur
un certain seuil
difficult : pour chaque sous-ensemble ditems E n lments, il y a 2n1 1
rgles de la forme A {E A}
optimisation dApriori pour lidentification des rgles conserver
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

167

Mise en uvre
En pratique, les rgles demeurent trs nombreuses, et la plupart des
logiciels permettent de stocker ces rgles dans un fichier, dans lequel
il est possible de filtrer les rgles Condition Rsultat en de dun
certain indice de support, et de les trier selon leur support, leur
confiance ou leur lift
On est gnralement plus svre sur le seuil de confiance que de
support, surtout si lon recherche des rgles rares, et un exemple
courant de filtre sera 75 % pour la confiance et 5 % pour le support
(et bien sr 1 pour le lift)
Mme avec ces filtres, le nombre de rgles peut vite atteindre
plusieurs millions pour seulement quelques centaines ditems et
quelques milliers dobservations
Certains logiciels permettent dajouter un filtre sur le contenu des
rgles, pour ne conserver que celles qui contiennent un item donn
dans leur rsultat ou leurs conditions
Les logiciels permettent aussi de fixer une limite la taille des rgles :
on dpasse rarement 10 items
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

168

Taxinomie : dfinition
Les produits peuvent tre dfinies avec un niveau plus ou
moins fin de dtail
On peut par exemple considrer :
les produits dpargne bancaire, financire
parmi les produits dpargne bancaire, les comptes de chques,
les livrets
parmi les livrets, les livrets A, les Codevi, les LEP

La taxinomie des produits est lensemble de ces niveaux

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

169

Taxinomie : utilisation
Le niveau le plus fin permet dentreprendre des actions
commerciales plus prcises
Mais travailler au niveau le plus fin multiplie les rgles, parmi
lesquelles un grand nombre nauront quun faible support et
seront peut-tre limines

Travailler au niveau le plus gnral permet dobtenir


des rgles plus fortes
>
>

Les 2 points de vue ont leurs avantages et leurs


inconvnients
Il faut adapter le niveau de gnralit chaque produit, en
fonction notamment de sa raret

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

170

Taxinomie : intrt
Les articles les plus rares et les plus chers (exemple :
micro-informatique ou HIFI dans un grand magasin) seront
codifis au niveau le plus fin
Les articles les plus courants (exemple : produits
alimentaires) seront codifis un niveau plus gnral
On regroupera par exemple tous les yaourts, fromages
blancs, flancs en produits laitiers , tout en distinguant
un tlviseur dun magntoscope ou dun camscope
Lintrt de cette faon de procder est dobtenir des
rgles plus pertinentes, dans lesquelles les articles les plus
courants ne dissimulent pas, par leur frquence, les articles
les moins courants
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

171

Lanalyse du ticket de caisse


Cette technique est trs utilise dans la grande
distribution :
> do les termes danalyse du ticket de
caisse ou du panier de la mnagre
(market basket analysis) pour dsigner la
recherche dassociations
Autres usages :
associations doptions retenues dans les
produits packags (banque, tlphonie,
assurance)
web mining (analyse de la navigation sur un
site internet)
Difficults :
volumes de donnes importants
trouver des rgles intressantes noyes
parmi les rgles triviales ou non utilisables
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

172

Utilisation de variables supplmentaires


En ajoutant des variables temporelles (jour et heure de la
transaction), on pourra rechercher lensemble des vnements
qui dbouchent sur lacquisition dun nouveau produit, sur le
dpart du client
En ajoutant le nom du fabricant, on pourra dtecter des
phnomnes dattachement une marque
Autres variables supplmentaires :
canal de distribution
mode de paiement

Le dveloppement des cartes de fidlit permet de croiser les


achats avec de nombreuses autres donnes : ge, adresse
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

173

Conclusion

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

174

Perspectives professionnelles
Finance
Rglementations Ble II (et Ble III)
volution des marchs boursiers
Marketing
Dont marketing direct et sur le web
tude des prfrences et des comportements des consommateurs
Revenue management
Assurance (scoring et actuariat)
Industrie
Contrle qualit
Industrie pharmaceutique, sant
Tests cliniques, pharmacovigilance, pidmiologie
Mdecine
Analyses de survie, causes, prvention et traitement des maladies
Environnement et Mtorologie
tudes sur le climat, la pollution
Recherche scientifique

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

175

Le Big Data et lemploi


Le Big Data fait partie des 34 plans industriels lancs par le
gouvernement franais le 12 septembre 2013
Le Big Data a besoin de data scientists qui connaissent :
les enjeux mtiers (marketing, risque, production)
les technologies informatiques (architecture, algorithmes, logiciels)
les mthodes de statistique et de machine learning

Des centaines de milliers demplois de data scientists annoncs


dans le monde
Le manque de data scientists se fait sentir dans tous les pays.
On peut l'imputer la prise de conscience rcente du potentiel
recel par les donnes, et une valorisation encore insuffisante
du data scientist en entreprise.
Premires formations spcialises en 2013 aux USA et en
France

07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

176

Quelques liens
Site de la Socit Franaise de Statistique : www.sfds.asso.fr
Site de Gilbert Saporta (contenu riche, avec de nombreux cours) :
http://cedric.cnam.fr/~saporta/
Site de Philippe Besse (trs complet sur les statistiques et le data mining) :
www.math.univ-toulouse.fr/~besse/
Site du livre The Elements of Statistical Learning de Hastie, Tibshirani et
Friedman : http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Un livre complmentaire : http://www-bcf.usc.edu/~gareth/ISL/index.html
StatNotes Online Textbook (statistiques) :
www2.chass.ncsu.edu/garson/pa765/statnote.htm
Statistique avec R : http://zoonek2.free.fr/UNIX/48_R/all.html
Donnes relles : http://www.umass.edu/statdata/statdata/index.htm
Site dOlivier Decourt (spcialiste de SAS) : www.od-datamining.com/
Blog dArthur Charpentier : http://freakonometrics.blog.free.fr/
07/02/2014

Stphane Tuffry - Usage rserv lUniversit Rennes 1

177

Vous aimerez peut-être aussi