Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF

COURS DE DATA MINING
Stphane TUFFERY
Universit Rennes 1
Master 2 Ingnierie conomique et financire
7 fvrier 2014
07/02/2014
Stphane Tuffry - Usage rserv lUniversit Rennes 1
Prsentation de lintervenant
Responsable de lquipe statistique dans un groupe
bancaire franais
Enseigne lENSAI et lUniversit Catholique de
lOuest (Angers)
Docteur en Mathmatiques
Auteur de :
Data Mining et Statistique Dcisionnelle,
ditions Technip, 2005, 4e dition 2012,
prface de Gilbert Saporta
Data Mining and Statistics for Decision
Making, ditions Wiley, mars 2011
tude de cas en Statistique Dcisionnelle,
ditions Technip, 2009
Computational Actuarial Science with R
(ouvrage collectif), ditions Chapman &
Hall, 2014
07/02/2014
Plan
Quest-ce que le data mining ?
Quest-ce que le Big Data ?
quoi sert le data mining ?
quoi sert le Big Data ?
La rforme de Ble et le ratio de solvabilit
Llaboration dun modle de scoring
------------------------------------------------------------------------------------------------------------
La slection des variables

La modlisation
Quelques principes du data mining
Lagrgation de modles
Mthodes pour le Big Data
La dtection des rgles dassociation
Conclusion
07/02/2014
Quest-ce que le data mining ?
07/02/2014
La fouille de donnes
Le data mining est lensemble des :
mthodes scientifiques
destines lexploration et lanalyse
de (souvent) grandes bases de donnes informatiques
en vue de dtecter dans ces donnes des profils-type, des
comportements rcurrents, des rgles, des liens, des tendances
inconnues (non fixes a priori), des structures particulires
restituant de faon concise lessentiel de linformation utile
pour laide la dcision
On parle dextraire linformation de la donne

Selon le MIT, cest lune des 10 technologies mergentes
qui changeront le monde au XXIe sicle
07/02/2014
Les 2 types de mthodes de data mining

Les mthodes descriptives (recherche de patterns ) :
visent mettre en vidence des informations prsentes
mais caches par le volume des donnes (cest le cas des
segmentations de clientle et des recherches dassociations de
produits sur les tickets de caisse)
rduisent, rsument, synthtisent les donnes
il ny a pas de variable expliquer
Les mthodes prdictives (modlisation) :

visent extrapoler de nouvelles informations partir des
informations prsentes (cest le cas du scoring)
expliquent les donnes
il y a une variable expliquer
07/02/2014
Les 2 principales familles de mthodes

descriptives
carte de Kohonen
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
07/02/2014
Quest-ce que la classification ?

Regrouper des objets en groupes, ou classes, ou familles, ou segments,
ou clusters, de sorte que :
2 objets dun mme groupe se ressemblent le plus possible
2 objets de groupes distincts diffrent le plus possible
le nombre des groupes est parfois fix
les groupes ne sont pas prdfinis mais dtermins au cours de lopration
Mthode descriptive :
pas de variable expliquer privilgie
dcrire de faon simple une ralit complexe en la rsumant
Utilisation en marketing, mdecine, sciences humaines

segmentation de clientle marketing
Les objets classer sont :

des individus
des variables
les deux la fois (biclustering)
07/02/2014
Complexit du problme !
Le nombre de partitions (classes non recouvrantes) de n objets
1 kn
est le nombre de Bell : Bn =
e k =1 k!
Exemple : pour n = 4 objets, on a Bn = 15, avec
1 partition 1 classe (abcd)
7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad),
(d,abc)
6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab)
1 partition 4 classes (a,b,c,d)
Exemple : pour n = 30 objets, on a B30 = 8,47.1023

Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
07/02/2014
Classement et prdiction
Ce sont des mthodes prdictives
on parle aussi dapprentissage supervis (rseaux de neurones)
Classement : la variable expliquer (ou cible , rponse ,

dpendante ) est qualitative
on parle aussi de classification (en anglais) ou discrimination
Prdiction : la variable expliquer est quantitative

on parle aussi de rgression
exemple : le prix dun appartement (en fonction de sa superficie, de
ltage et du quartier)
Scoring : classement appliqu une problmatique

dentreprise (variable expliquer souvent binaire)
chaque individu est affect une classe ( risqu ou non risqu ,
par exemple) en fonction de ses caractristiques
07/02/2014
10
Quelques types de scores

Score dapptence
prdire lachat dun produit ou service
Score de (comportement) risque

prdire les impays ou la fraude
Score de pr-acceptation
+
Apptence
croisement des deux prcdents
Score doctroi (ou dacceptation)
Risque
prdire en temps rel les impays
Score dattrition
prdire le dpart du client vers un concurrent
Et aussi :
En mdecine : diagnostic (bonne sant : oui / non) en fonction du
dossier du patient et des analyses mdicales
Courriels : spam (oui / non) en fonction des caractristiques du
message (frquence des mots)
07/02/2014
11
Tableau des mthodes descriptives

type
famille
mthodes
modles
descriptives gomtriques
En gris : mthodes
classiques
sous-famille
analyse factorielle
(projection sur un
espace de
dimension
infrieure)
analyse typologique
(regroupement en
classes homognes)
analyse typologique
+ rduction dimens.
07/02/2014
mthode
analyse en composantes principales ACP
(variables continues)
analyse factorielle des correspondances
AFC (2 variables qualitatives)
analyse des correspondances multiples
ACM (+ de 2 var. qualitatives)
mthodes de partitionnement (centres
mobiles, k-means, nues dynamiques)
mthodes hirarchiques (ascendantes,
descendantes)
classification neuronale (cartes de
Kohonen)
classification relationnelle (variables
qualitatives)
dtection dassociations
modles
combinatoires
modles base de dtection de liens
rgles logiques Stphane Tuffry - Usage rserv lUniversit Rennes 1
12
Tableau des mthodes prdictives

type
famille
sous-famille
mthodes
prdictives
modles base
de rgles logiques
modles base
de fonctions
mathmatiques
arbres de
dcision
rseaux de
neurones
En gris : mthodes
classiques
07/02/2014
prdiction sans
modle
mthode
arbres de dcision (variable expliquer

continue ou qualitative)
rseaux apprentissage supervis :
perceptron multicouches, rseau
fonction radiale de base
modles
rgression linaire, ANOVA, MANOVA,
paramtriques ANCOVA, MANCOVA, modle linaire
ou semignral GLM, rgression PLS, SVR
paramtriques (variable expliquer continue)
analyse discriminante linaire, rgression
logistique, rgression logistique PLS, SVM
(variable expliquer qualitative)
modle log-linaire, rgression de
Poisson (variable expliquer discrte =
comptage)
modle linaire gnralis, modle additif
gnralis (variable expliquer continue,
discrte ou qualitative)
k-plus proches voisins (k-NN)
13
Statistique infrentielle et data mining

Statistique (avant 1950) :
quelques centaines dindividus
quelques variables recueillies avec un
protocole spcial (chantillonnage,
plan dexprience)
fortes hypothses sur les lois
statistiques suivies (linarit, normalit,
homoscdasticit)
le modle prime sur la donne : il est
issu de la thorie et confront aux
donnes
utilisation en laboratoire
Analyse des donnes (1960-1980) :
quelques dizaines de milliers
dindividus
quelques dizaines de variables
construction des tableaux Individus
x Variables
importance du calcul et de la
reprsentation visuelle
07/02/2014
Data mining (depuis 1990) :

plusieurs millions dindividus
plusieurs centaines de variables
certaines variables non numriques
donnes recueillies avant ltude, et
souvent dautres fins
donnes imparfaites, avec des erreurs de
saisie, des valeurs manquantes
pour laide la dcision
ncessit de calculs rapides, parfois en
temps rel
on ne recherche pas toujours loptimum
thorique, mais le plus comprhensible
pour des non statisticiens
faibles hypothses sur les lois statistiques
suivies
la donne prime sur le modle : le modle
est issu des donnes et on en tire
ventuellement des lments thoriques
utilisation en entreprise
14
Quest-ce que le Big Data ?
07/02/2014
15
Lexplosion de la production de donnes

Donnes signaltiques et sociodmographiques
Donnes de comportement (utilisation du tlphone, de la
carte bancaire, du vhicule)
Donnes CRM (contact avec un service client, fidlisation)
Donnes externes provenant des mgabases de donnes
prives ou des administrations (Open Data)
Informations remontes par les capteurs industriels, routiers,
climatiques, puces RFID, NFC, objets connects (camras,
compteurs lectriques, appareils mdicaux, voitures)
Golocalisation par GPS ou adresse IP
Donnes de tracking sur Internet (sites visits, mots-cls
recherchs...)
Contenu partag sur Internet (blogs, photos, vidos)
Opinions exprimes dans les rseaux sociaux (sur une
entreprise, une marque, un produit, un service)
07/02/2014
16
Caractrisation des Big Data : les 3 V

Volume
Lordre de grandeur est le ptaoctet (1015 octets)
Laccroissement du volume vient de laugmentation :
du nombre dindividus observs (plus nombreux ou un
niveau plus fin)
de la frquence dobservation et denregistrement des
donnes (mensuel -> quotidien, voire horaire)
du nombre de caractristiques observes
Cet accroissement vient aussi de lobservation de donnes
nouvelles, provenant notamment dInternet : pages indexes,
recherches effectues, ventuellement avec des donnes de
golocalisation
Cet aspect est peut-tre le plus visible et le plus spectaculaire,
mais il nest pas le plus nouveau (grande distribution, banque,
tlphonie manipulent de grands volumes de donnes)
07/02/2014
17

Varit
Ces donnes sont de natures et de formes trs diverses :
numriques, logs web, textes (Word, PDF, courriels, SMS),
sons, images, donnes fonctionnelles
Cette varit rend difficile lutilisation des bases de donnes
usuelles et requiert une varit de mthodes (text mining,
web mining)
07/02/2014
18

Vitesse, ou Vlocit
Vlocit des donnes qui proviennent de sources o elles
sont mises jour rapidement, parfois en temps rel
Vitesse des traitements mettre en uvre sur ces donnes
La dcision du client sur Internet se fait vite car il suffit
dun clic pour changer de site, aussi faut-il instantanment
lui faire la meilleure offre commerciale
La dtection de la fraude par carte bancaire doit bien sr
aussi tre instantane
Dans certains cas, vitesse de mise jour des modles, et pas
seulement vitesse de leur application
07/02/2014
19
Le Big Data dInternet
07/02/2014
20
Quelques exemples dutilisations de ces

donnes 1/2
Transports : fixation dynamique du prix des billets davion,
amlioration du trafic routier par golocalisation, recherche de
la station-service la plus proche, des places libres de
stationnement, facturation dans les zones payantes grce la
lecture et lOCR des plaques dimmatriculation
Marketing : la golocalisation permet lenvoi dune promotion
ou dun coupon sur votre smartphone quand vous passez
proximit dun commerce, dune alerte quand vous passez
ct dune librairie contenant un ouvrage consult la veille sur
Internet, lanalyse des prfrences, des recommandations,
ventuellement en lien avec les donnes de vente, permet de
mieux cibler les consommateurs
Grande distribution : analyse des tickets de caisse et croisement
avec les donnes du programme de fidlit
Ressources humaines : analyse des CV enrichie par la dtection
des liens nous par le candidat sur les rseaux sociaux
Scientifiques : mtorologie, gnomique, pidmiologie, imagerie
mdicale, astronomie, physique nuclaire
07/02/2014
21
Quelques exemples dutilisations de ces

donnes 2/2
Yield (ou revenue) management :
intresse les activits avec des capacits disponibles limites
(transport, htellerie, espaces publicitaires, tourisme)
dtermine en temps rel les quantits appropries mettre en
vente, au prix appropri, de faon optimiser le profit gnr
par la vente
n dans les annes 1980 dans le transport arien
Informatique : surveillance des machines et rseaux, et

dtection de dysfonctionnements ou dincidents
scuritaires
Scurit : vido-surveillance, renseignement
Enseignement : analyse des rseaux sociaux pour connatre
la popularit des enseignements et la satisfaction des
lves
07/02/2014
22
Les rseaux sociaux 1/3

Un rseau social est un ensemble d'acteurs (individus,
groupes ou organisations) relis par des liens sociaux
(familiaux, amicaux professionnels)
On le reprsente sous la forme dun graphe dont les
acteurs sont les sommets et les liens sont les artes
On peut tudier le graphe, son nombre de sommets,
dartes, sa densit, son diamtre, ses lments centraux
(avec le plus de liens)
Dans la recherche sur Internet, on peut aussi sintresser
des rseaux de sites et regrouper les sites par similarit
Les sites de commerce en ligne identifient des groupes
dacheteurs en ligne pour formuler des conseils dachat
07/02/2014
23

Exemple
de
LinkedIn
InMaps
:
http://inmaps.linkedinlabs.com/network
Le graphe reprsente les connexions des contacts avec
une personne et leurs connexions entre eux
Les connexions de LinkedIn sont utilises (au 1er et 2e
niveau), mais aussi les invitations de connexions, les
adresses e-mail, les numros de tlphone, les messages,
les groupes de discussion, le profil (formation,
qualifications, postes, recommandations)
Les couleurs distinguent les diffrents groupes dtects
(collgues, camarades de promotion, participants un
projet)
Des packages graphiques pour les rseaux sociaux existent
aussi dans R
07/02/2014
24
07/02/2014
25
A quoi sert le data mining ?
07/02/2014
26
Le data mining dans la banque

Naissance du score de risque en 1941 (David Durand)
Multiples techniques appliques la banque de dtail et la
banque dentreprise
Surtout la banque de particuliers :
grand nombre de dossiers
dossiers relativement standards
montants unitaires modrs
Essor d :
dveloppement des nouvelles technologies
nouvelles attentes de qualit de service des clients
pression mondiale pour une plus grande rentabilit
surtout : ratio de solvabilit Ble 2
07/02/2014
27
Brve histoire du credit scoring

1936 : analyse discriminante de Fisher
1941 : utilisation par David Durand pour modliser le risque
de dfaut dun emprunteur partir de quelques
caractristiques telles que son ge et son sexe
Aprs la 2e guerre mondiale : intrt des entreprises
confrontes une pnurie danalystes de crdit
1958 : dveloppement des ordinateurs et premier systme
de credit scoring de Fair Isaac
1968 : Z-score dAltman, fonction discriminante de 5 ratios
financiers, capable de prvoir un an la dfaillance dune
entreprise, avec une fiabilit denviron 94 %
1998 : premiers travaux sur le ratio de solvabilit Ble 2
07/02/2014
28
Le data mining dans lassurance de risque

Des produits obligatoires (automobile, habitation) :
soit prendre un client un concurrent
soit faire monter en gamme un client que lon dtient dj
Do les sujets dominants :

attrition
ventes croises (cross-selling)
montes en gamme (up-selling)
Besoin de dcisionnel d :
concurrence des nouveaux entrants (bancassurance)
bases clients des assureurs traditionnels mal organises :
compartimentes par agent gnral
ou structures par contrat et non par client
07/02/2014
29
Le data mining dans la tlphonie

Deux vnements :
fin du monopole de France Tlcom dans la tlphonie fixe
arrive saturation du march de la tlphonie mobile
Do les sujets dominants dans la tlphonie :
score dattrition (churn = changement doprateur)
optimisation des campagnes marketing
et aussi le text mining (pour analyser les lettres de rclamation)
Problme du churn :
cot dacquisition moyen en tlphonie mobile : 250 euros
plus dun million dutilisateurs changent chaque danne
doprateur en France
les lois facilitant le changement doprateur
la portabilit du numro facilite le churn
07/02/2014
30
Le data mining dans le commerce

Vente Par Correspondance
utilise depuis longtemps des scores dapptence
pour optimiser ses ciblages et en rduire les cots
des centaines de millions de documents envoys par an
e-commerce
personnalisation des pages du site web de lentreprise, en
fonction du profil de chaque internaute
optimisation de la navigation sur un site web
Grande distribution
analyse du ticket de caisse
dtermination des meilleures implantations (gomarketing)
07/02/2014
31
Autres exemples
De linfiniment petit (gnomique) linfiniment grand
(astrophysique pour le classement en toile ou galaxie)
Du plus quotidien (reconnaissance de lcriture manuscrite sur
les enveloppes) au moins quotidien (aide au pilotage
aronautique)
Du plus ouvert (e-commerce) au plus scuritaire (dtection de
la fraude dans la tlphonie mobile ou les cartes bancaires)
Du plus industriel (contrle qualit pour la recherche des
facteurs expliquant les dfauts de la production) au plus
thorique (sciences humaines, biologie)
Du plus alimentaire (agronomie et agroalimentaire) au plus
divertissant (prvisions daudience TV)
07/02/2014
32
A quoi sert le Big Data ?
07/02/2014
33
Le Big Data dans le marketing

Lanalyse des rseaux sociaux, des forums et des moteurs de
recherche permet de dcouvrir les centres dintrt et les
prfrences des internautes, et donc leur comportement
possible face une proposition de produit ou de service
Cest particulirement utile pour les entreprises qui font du B to
B to C, ont des contacts avec des distributeurs et non leurs
clients finaux, sur lesquels elles ont peu dinformations directes
Lanalyse des rseaux sociaux nest pas seulement utile la vente
et elle peut aider la conception de nouveaux produits, par
lanalyse de la perception positive ou ngative de certaines
caractristiques des produits, et la comparaison avec la
concurrence
Des packages R existent pour traiter les donnes de Twitter et
Facebook
07/02/2014
34
Le Big Data dans la finance

Risque boursier
Une tude parue dans Nature (2013) dmontre une corrlation entre
les mots cls saisis sur Google et lvolution des cours de bourse.
Avant une chute des indices boursiers, les investisseurs sont
proccups et recherchent sur Internet des informations les aidant
dcider de conserver ou vendre leurs titres.
Risque financier
Ce que lon dit dune entreprise, son image chez ses partenaires, les
analystes financiers ou le grand public, sa rputation, son image en
termes de qualit, dinnovation, de respect social et environnemental
ces lments peuvent concourir sa sant financire moyen/long
terme et peuvent tre intgrs dans les analyses
Risque de fraude
Les donnes de golocalisation des dtenteurs de smartphones
peuvent tre compares aux informations relatives au terminal de
paiement pour sassurer quelles sont cohrentes
07/02/2014
35
Le Big Data dans lassurance

Aviva a mis au point une application pour smartphone
(Aviva Drive) qui analyse le style de conduite des
conducteurs afin de leur proposer des tarifs appropris
(http://www.aviva.co.uk/drive/)
Un projet similaire avait t imagin en 2006 mais
abandonn en 2008 en raison de la difficult dinstaller des
botes noires dans les vhicules
Cette application analyse pendant 300 km le nombre de
kilomtres parcourus, le temps, le type de route
Un changement radical de comportement pourra faire
suspecter une fraude
Des capteurs sur la voiture pourraient mme signaler des
risques de panne, indiquant au conducteur la conduite
tenir et le garage le plus proche
07/02/2014
36
Le Big Data dans lindustrie

Les nombreux capteurs (temprature, pression, vibration,
usure) placs sur les composants de lappareil productif
permettent de remonter en temps rel et distance de
nombreuses informations qui, analyses et modlises, peuvent
fournir une probabilit de dfaillance, de rupture dune pice, et
permettre un arbitrage entre :
Des oprations de maintenance inutilement lourdes et frquentes,
entranant des dpenses inutiles
Des oprations de maintenance insuffisantes et laissant se produire des
dfaillances coteuses, voire dangereuses
Optimisation de la chane dapprovisionnement (supply chain)

Prdiction en temps rel de la consommation lectrique, mais
aussi des dysfonctionnements, et facturation plus conomique et
plus rapide, grce aux compteurs connects (Linky)
07/02/2014
37
Le Big Data dans la sant 1/2

Diagnostic mdical distance : dtection de risques de
crise cardiaque
Des applications pour smartphones savent analyser les
donnes transmises par des capteurs (rythme
cardiaque, pression sanguine)
Monitoring des grands prmaturs : analyse en temps
rel des donnes fournies par des capteurs placs sur
les bbs
Gnomique :
Liens entre donnes gnomiques et apparition dune
maladie ou rponse un traitement
Gnomique des populations
07/02/2014
38
Le Big Data dans la sant 2/2

En analysant les mots cls sur son moteur de recherche, Google
a pu tablir une corrlation entre certaines requtes et
lapparition dune pidmie de grippe. Cette corrlation a t
corrobore par les organismes de veille sanitaire et a fait lobjet
dune publication dans Nature (2009).
Voir : http://www.google.org/flutrends/intl/en_us/about/how.html et
http://websenti.u707.jussieu.fr/sentiweb/?page=google
Cet exemple illustre le V de la vitesse, avec des mises jour de

donnes quotidiennes et non hebdomadaires comme dans les
suivis traditionnels : permet une dtection plus rapide de
lpidmie
07/02/2014
39
Le Big Data dans la statistique publique

Lanalyse des messages Twitter aux Pays-Bas a montr une
corrlation entre les sentiments exprims et lindice public de
confiance des mnages
Twitter a succd aux mdias classiques dans les analyses
classiques en sciences humaines sur les discours, lopinion
Les journalistes de Bloomberg intgrent aussi les donnes de
Twitter
Dautres donnes peuvent aussi tre utiles : tickets de caisse et
calcul du taux dinflation, sites de recherche demploi et
estimation du taux de chmage
Ces exemples illustrent lapport possible des analyses prives de
Big Data la statistique publique, avec des indicateurs
quivalents mais calculs bien plus rapidement et peut-tre, du
moins terme, moindre cot
07/02/2014
40
La rforme de Ble et le ratio

de solvabilit
07/02/2014
41
Les principaux types de risques financiers

Crdit : risque que l'emprunteur ne rembourse pas sa dette l'chance
fixe
Nombreuses mthodes statistiques dveloppes depuis 1941, surtout des
modles binaires dont la variable expliquer est le dfaut de remboursement
Passage de Ble I Ble II dune approche forfaitaire une approche de rating
March : risque que la valeur dun actif (dune dette) dtenu(e) par une
institution financire varie en raison de lvolution des prix sur les marchs
financiers
Modles conomtriques
Oprationnel : risque de pertes directes ou indirectes rsultant dune

inadquation ou dune dfaillance attribuable des procdures, des
personnes, des systmes internes ou des vnements extrieurs
Introduit dans la rforme du ratio de solvabilit Ble II
Inclut le risque juridique mais exclut le risque stratgique
Mthodes probabilistes et dire dexpert
07/02/2014
42
Autres types de risques financiers

De liquidit : risque de ne pouvoir vendre un actif suffisamment rapidement
pour viter une perte par rapport au prix qu'on aurait d obtenir
Ble III demande aux banques de dtenir un stock dactifs sans risque et
facilement ngociables (cash, titres dtat) lui permettant de rsister pendant
30 jours une crise de liquidit
De rputation : risque rsultant dune perception ngative de la part des

clients, des contreparties, des actionnaires, des investisseurs ou des
rgulateurs qui peut affecter dfavorablement la capacit dune banque
maintenir ou engager des relations daffaires et la continuit de laccs aux
sources de financement
De taux : risque de dsquilibre entre les taux des emplois et les taux des
ressources
De change : risque li aux activits en devise
Stratgique
07/02/2014
43
Le ratio de solvabilit Ble I

La solvabilit dune banque est sa capacit rembourser ses
dettes
1988 : instauration dun ratio Cooke visant :
Renforcer la solidit et la stabilit du systme bancaire international
Promouvoir des conditions dgalit de concurrence entre les banques vocation
internationale
Ce ratio de 8% est le rapport entre les encours pondrs et le

montant des fonds propres de la banque
Ratio de 4% pour les fonds propres Tier 1
Les crdits sont pondrs selon la catgorie dactifs considre

(0% pour les Souverains, 20% pour les Banques, 50% pour
limmobilier hypothcaire, 100% pour le reste) mais non selon
la qualit de la signature
Au risque de crdit est ajout le risque de march en 1996
07/02/2014
44
Le ratio de solvabilit Ble II

2004 : accords Ble II
Trois piliers
Pilier 1 : exigences minimales en fonds propres
Pilier 2 : couverture des risques non pris en compte dans le pilier 1
Pilier 3 : transparence et la discipline de march.
Pilier 1 : instauration dun nouveau ratio Mc Donough

toujours gal 8%
mais diversifie les risques pris en compte (en incluant les risques
oprationnels)
et affine la mthode de pondration des risques, notamment en
autorisant lutilisation de systmes ( notations internes ) de
classification des emprunteurs partir des probabilits de dfaillance
prdites dans les diffrents types de portefeuille de la banque :
souverains, banques, entreprises, banque de dtail (particuliers et
professionnels), titres, titrisation et autres
07/02/2014
45
Laccord Ble III

2010 : recommandations Ble III
Liquidit :
Instauration dun ratio de liquidit LCR (Liquidity Coverage Ratio)
30 jours et dun ratio NSFR (Net Stable Funding Ratio) un an
Fonds propres :
Renforcement de la qualit et du niveau des fonds propres
Mise en place dun coussin de conservation aliment dans les priodes
favorables
Surcharge systmique pour les tablissements les plus importants
Instauration dun ratio deffet de levier (ratio fonds propres / total
des actifs non pondrs ) > 3%
07/02/2014
46
Le risque de crdit
Les modles de scoring permettent dattribuer une probabilit de
dfaut (PD) de paiement toute entit note, sur un horizon donn
La perte encourue par la banque dpend de deux autres facteurs :
EAD (Exposure At Default) : montant du crdit expos si lemprunteur passe
en dfaut (encours bilan + CCF x encours hors-bilan)
CCF (Credit Conversion Factor) : part de lencours hors-bilan qui sera
utilise par lemprunteur au moment du dfaut
LGD (Loss Given Default) : taux de perte (y compris frais de recouvrement)
subi par la banque (aprs activation des ventuelles garanties) en cas de
dfaut de lemprunteur
Un tablissement bancaire peut avoir une approche Ble II :

Standard (application de pondrations forfaitaires lencours expos)
Interne fondation (IRBF) : estimation par ltablissement de la PD, le CCF
et la LGD tant forfaitaires
Interne avance (IRBA) : estimation par ltablissement de tous les
paramtres
Utilisation possible pour le calcul de lexigence en fonds propres sous

rserve dune validation indpendante par lautorit de tutelle
07/02/2014
47
Pertes attendues et inattendues

Pertes attendues (EL : expected losses)
Pertes annuelles moyennes : EAD x PD x LGD
Doivent tre couvertes par les provisions et ventuellement par des fonds
propres
Pertes inattendues (UL : unexpected losses)

VaR = pertes annuelles si leves quelles ne sont possibles quune fois sur
1000 : EAD x f(PD) x LGD
UL = VaR - EL
Doivent tre couvertes par les fonds propres rglementaires
07/02/2014
48
Calcul de lexigence en fonds propres

Actifs pondrs : RWA (risk weighted assets)
12,5 x EAD x (f(PD) - PD) x LGD pour le risque de crdit
Exigence en fonds propres (couvrir les pertes inattendues)

EFP = 8% (RWA + 12,5 x capital risqu au titre du risque de march +
12,5 x capital risqu au titre du risque oprationnel)
Rappel : Exigence en fonds propres Ble I

EFP = 8% x Actifs pondrs Cooke
Actifs pondrs Cooke = encours crdit x pondration
07/02/2014
Nature du risque
Pondration
Souverain
0%
Banques
20 %
Immobilier
50 %
Autres crdits
100 %
49
Ble II : pondrations en mthode standard

Mme mthode que Ble I avec une pondration des
expositions fixe par le texte et affine :
Notations externes
Contreparties
AAA
AA-
A+
A-
BBB+
BBB-
BB+
B-
Infrieur
B-
Non
not
Souverains
0%
20 %
50 %
100%
150%
100%
Banques
20%
50%
50%
100%
150%
50%
Entreprises
20%
50%
100%
jusqu
BB- :
100%
<BB - :
150%
100%
Retail
Immobilier
35 %
Retail Autres
75 %
07/02/2014
50
Pondration des risques de crdit

Pondration des risques
RW = 12,5 x (f(PD) - PD) x LGD pour le risque de crdit
EFP = 8% x RW x EAD
Cette pondration RW est comparer :

Au tableau prcdent pour la mthode standard Ble II (par exemple, 75%
pour le Retail Autre)
Aux valeurs pour Ble I : 100 % Autres Crdits, 50% Immobilier
Exemple de calcul en R : RW dun crdit habitat avec une PD = 3% et

une LGD 20%
> ead <- 100
> pd <- 0.03
> lgd <- 0.2
> rho <- 0.15 # immobilier mortgage
> fpd <- pnorm(qnorm(pd)*sqrt(1/(1-rho)) + qnorm(0.999)*sqrt(rho/(1-rho)))
> (rw <- 12.5*lgd*(fpd-pd))
[1] 0.4977229
Cest quasiment le RW = 50% de Ble I et plus que le 35% Standard

07/02/2014
51
0.6
0.4
0.2
RW
07/02/2014
0.0
> rw = function(pd,lgd,rho) {
+ fpd <- pnorm(qnorm(pd)*sqrt(1/(1-rho)) + qnorm(0.999)*sqrt(rho/(1-rho)))
+ rw <- 12.5*lgd*(fpd-pd)
+ return(rw)
+}
> rpd <- seq(0,0.1,by=.001)
> plot(rpd,rw(rpd,lgd,rho),type="l",xlab="PD",ylab="RW")
0.8
Comparaison des approches
0.00
0.02
0.04
0.06
PD
0.08
52
0.10
Calcul des actifs pondrs

S=
Min(Max(SalesTurnover),5),50
10
Function is taken from paragraph

272
11

273
12

328
13

329
In Basel II: International
Convergence of Capital Measurement
and Capital Standards: a Revised
Framework (BCBS) (November 2005
Revision)
07/02/2014
53
Risques oprationnels :
matrice lignes de mtier x types de risque
07/02/2014
54
Traitement des risques oprationnels

Certains risques ne sont que potentiels : leur probabilit de
survenance est trs faible mais leur gravit trs grande : ce sont les
risques de gravit, pour lesquels on labore des scnarii avec les
experts (on obtient des expositions, des gravits et des probabilits de
survenance conditionnes par des facteurs appels KRI)
Dautres risques sont plus frquents mais leur gravit plus faible : ce
sont les risques de frquence, pour lesquels on recherche des
ajustements sur les historiques de pertes unitaires de lois thoriques
pour la survenance (loi de Poisson) et la gravit (loi log-normale, de
Weibull)
Puis simulations trs nombreuses de sinistres selon les paramtres
tablis, calcul de pertes unitaires puis cumules sur 1 an, et obtention
de la moyenne (= EL) et du quantile 99,9 % (= VaR = UL + EL) de la
perte cumule, cest--dire de la perte pouvant survenir 1 fois sur
1000, soit 1 fois tous les 1000 ans
07/02/2014
55
Approches des risques oprationnels

Contrairement au risque de crdit, pas de relation simple entre
les pertes attendues et inattendues : ces dernires peuvent
exploser , surtout si la survenance dun risque est lie la
survenance dun autre risque
Comme pour le risque de crdit, trois niveaux dapproche pour
lexigence en fonds propres :
De base : un pourcentage du PNB moyen des 3 annes prcdentes (fix
15%)
Standard : identique lapproche de base, mais pourcentages diffrencis
(entre 12% et 18%) par lignes de mtiers (voir matrice prcdente)
Avance (AMA) : ltablissement dtermine lui-mme ses besoins en fonds
propres par des modles internes
07/02/2014
56
Politique du risque et gestion dans la banque

Politique du risque dans la banque
Enjeux majeurs en termes financiers, oprationnels, rglementaires et dimage
Sous le contrle permanent de lACPR : Autorit de Contrle Prudentiel et de
Rsolution
Intrication de ces enjeux
Apprhension dans lentreprise

Ncessaire appropriation de la politique du risque par tous les acteurs
Est value par lautorit de tutelle
Cest la fois une condition et une consquence de la qualit des outils de
matrise de risque : un cercle vertueux mettre en place
Les modles de risque doivent tre :

Bien conus
Bien mis en uvre
Bien suivis (outils mettre en place tableaux de bord procdures)
Bien appropris
Gouvernance du risque
Les outils ne suffisent pas : il faut gouverner leur utilisation, leur suivi et leur
volution
07/02/2014
57
Llaboration dun modle de

scoring
07/02/2014
58
Dfinition de la variable expliquer

En mdecine : dfinition souvent naturelle
un patient a ou non une tumeur (et encore faut-il distinguer les
diffrents stades dune tumeur)
Dans la banque : quest-ce quun client non risqu ?

aucun impay, 1 impay, n impays mais dette apure ?
Dans certains modles, on dfinit une zone indtermine

non modlise :
1 impay variable expliquer non dfinie
aucun impay variable expliquer = 0
2 impays variable expliquer = 1 ( 3 impays pour Ble 2)
Dfinition parfois encore plus problmatique en attrition

dans la banque, contrairement la tlphonie ou lassurance, on peut
partir brutalement ou progressivement
07/02/2014
59
Biais de slection
En risque : certaines demandes sont refuses et on ne peut donc pas
mesurer la variable expliquer
certaines populations ont t exclues de la modlisation et on leur
applique pourtant le modle
il existe des mthodes dinfrence des refuss , mais dont aucune nest
totalement satisfaisante
et parfois aucune trace nest conserve des demandes refuses !
En apptence : certaines populations nont jamais t cibles et on ne

leur a pas propos le produit
si on les modlise, elles seront prsentes dans lchantillon des
mauvais (clients sans apptence) peut-tre tort
contrairement au cas prcdent, on peut mesurer la variable expliquer
car il y a des souscriptions spontanes
envisager de limiter le primtre aux clients cibls
Fraude la carte bancaire : certaines transactions ont t rejetes et

on ne sait pas toujours si elles taient frauduleuses
07/02/2014
60
Taille de lchantillon
taux
d'erreur
mauvaise
gnralisation
donnes de test
t
donnes apprentissage
bonne
gnralisation
taille de l'chantillon
d'apprentissage
Thorme de Vapnik :
R < Remp
h (log(2n / h) + 1) log( / 4)
+
n
07/02/2014
taille suffisante
61
Reprsentativit de lchantillon dtude

Hypothse fondamentale :
lchantillon dtude est reprsentatif de la population laquelle
sera appliqu le modle
Nimplique pas un chantillonnage alatoire simple :

vnement prdire rare stratification non proportionnelle
de lchantillon sur la variable expliquer
parfois : 50 % de positifs et 50 % de ngatifs
ncessaire quand on utilise CART pour modliser 3 % de
positifs, sinon CART prdit que personne nest positif
excellent taux derreur = 3 % !
change la constante du logit de la rgression logistique
intressant en cas dhtroscdasticit dans une analyse
discriminante linaire
07/02/2014
62
Inventaire des donnes utiles

Recenser avec les spcialistes mtier et les informaticiens, les
donnes utiles :
accessibles raisonnablement (pas sur microfilms !)
fiables
suffisamment jour
historises, si besoin est
lgalement utilisables
Il y a les donnes :
du systme dinformation (SI) de lentreprise
stockes dans lentreprise, hors du SI (fichiers Excel...)
achetes ou rcupres lextrieur de lentreprise
provenant dInternet et des rseaux sociaux
calcules partir des donnes prcdentes (indicateurs, ratios,
volutions au cours du temps)
07/02/2014
63
Quand on manque de donnes

Enqutes auprs dchantillons de clients
en les incitant rpondre des questionnaires en leur proposant
des cadeaux
Utilisation des mgabases de donnes (Acxiom, Wegener

Direct Marketing)
Scoring prnom
Utilisation de donnes godmographiques (type dhabitat en
fonction de ladresse)
donnes moins prcises que des donnes nominatives
mais disponibles pour des prospects
Recours des modles standards prtablis par des socits

spcialises (ex : scores gnriques)
quand on a des donnes actuelles mais peu dhistorique
07/02/2014
64
Scoring prnom
P
a
s
c
a
l
07/02/2014
65
Donnes godmographiques
Donnes conomiques
nombre dentreprises, population active, chmage, commerces et
services de proximit, habitudes de consommation
Donnes sociodmographiques
population, richesse, ge et nombre denfants moyens, structures
familiales, niveau socioprofessionnel
Donnes rsidentielles
anciennet, type et confort des logements, proportion de
locataires et propritaires
Donnes concurrentielles
implantation de lentreprise, implantation de ses concurrents, parts
de march, taux de pntration
Type dhabitat (classification sur les donnes prcdentes) :

beaux quartiers, classe moyenne, classe ouvrire, centre ville et
quartiers commerants...
07/02/2014
66
Construction de la base danalyse

variable cible :
acheteur (O/N)
O
N
ge
PCS
58
27
46
32
cadre
ouvrier
technicien
employ
situation
nb
montant
famille
achats achats
mari
2
40
clibataire
3
30
clibataire
3
75
mari
1
50
variable expliquer
observe anne n
variable
explicative m
variables explicatives
observes anne n-1
O : au moins 500 clients cibls dans l'anne n et acheteurs

N : au moins 500 clients cibls dans l'anne n et non acheteurs
chantillon
apprentissage
test
test
apprentissage
au moins 1000 cas
n
client
1
2
1000
rpartition
alatoire
des clients
entre les 2
chantillons
PREDICTION
f
07/02/2014
67
Slection des priodes dobservation

laboration du modle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois
12 mois
aujourdhui
observation des
observation de la
variable expliquer
Application du modle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois
aujourdhui
+ 12 mois
observation des
prdiction de la
variable expliquer
Le modle sera par exemple une fonction f telle que :

Probabilit(variable cible = x) = f(variables explicatives)
07/02/2014
68
Pr-segmentation
Segmentation (classification) de la population :
en groupes forcment distincts selon les donnes disponibles
(clients / prospects) : homognit du point de vue des variables
explicatives
ou en groupes statistiquement pertinents vis--vis des objectifs
de ltude : homognit du point de vue de la variable
expliquer
ou selon certaines caractristiques sociodmographiques (ge,
profession) si elles correspondent des rgles mtiers (offres
marketing spcifiques)
Autres caractristiques recherches :

Simplicit de la segmentation (pas trop de rgles)
Nombre limit de segments et stabilit des segments
Tailles des segments gnralement du mme ordre de grandeur
07/02/2014
69
Intrt de segmenter : le paradoxe de Simpson

sans achat
950
475
1 425
Hommes
avec achat
50
25
75
TOTAL
1 000
500
1 500
taux d'achat
5,00%
5,00%
5,00%
courriel
tlphone
TOTAL
sans achat
450
900
1 350
Femmes
avec achat
50
100
150
TOTAL
500
1 000
1 500
taux d'achat
10,00%
10,00%
10,00%
courriel
tlphone
TOTAL
Tous clients
sans achat avec achat
1 400
100
1 375
125
2 775
225
TOTAL
1 500
1 500
3 000
taux d'achat
6,67%
8,33%
7,50%
courriel
tlphone
TOTAL
07/02/2014
70
Paradoxe de Simpson : explication

Dans le dernier exemple :
les hommes ne rpondent pas mieux au tlphone quau courriel
de mme pour les femmes
et pourtant, le tlphone semble avoir globalement un meilleur taux dachat
Explication :
un individu pris au hasard ne rpond pas mieux au tlphone
mais les femmes achtent plus et on a privilgi le tlphone pour les
contacter
liaison entre les variables sexe et canal de vente
Autre exemple publi dans le Wall-Street Journal du 2/12/2009 :

le taux de chmage est globalement plus faible en octobre 2009 (10,2 %)
quen novembre 1982 (10,8 %)
et pourtant, ce taux de chmage est plus lev en 2009 la fois pour les
diplms et pour les non-diplms !
lexplication est lexistence dune liaison entre lanne et le niveau dtude :
le niveau moyen dtude est plus lev en 2009, et le taux de chmage est
plus faible chez ceux dont le niveau dtude est plus lev
07/02/2014
71
Analyse exploratoire des donnes 1/2

Explorer la distribution des variables
Vrifier la fiabilit des variables
valeurs incohrentes ou manquantes
suppression ou imputation ou isolement
valeurs extrmes
voir si valeurs aberrantes liminer
certaines variables sont fiables mais trompeuses

le profil de souscripteurs peut tre fauss par une campagne commerciale cible
rcente
Variables continues
dtecter la non-monotonie ou la non-linarit justifiant la discrtisation
tester la normalit des variables (surtout si petits effectifs) et les
transformer pour augmenter la normalit
ventuellement discrtiser : dcouper la variable en tranches en fonction
de la variable expliquer
et isoler les valeurs manquantes ou aberrantes
07/02/2014
72
Examen de la distribution des variables

La dure du crdit prsente des pics prvisibles 12, 24, 36,
48 et 60 mois
On constate assez nettement la plus forte proportion de
crdits plus longs parmi ceux qui ont des impays
Pas de valeur manquante ou aberrante
07/02/2014
73
Normalisation : transformations
Log (V)
transformation la plus courante pour corriger un coefficient dasymtrie > 0
Si V 0, on prend Log (1 + V)
Racine carre (V) si coefficient dasymtrie > 0

-1/V ou 1/V si coefficient dasymtrie > 0
V2 ou V3 si coefficient dasymtrie < 0
Arc sinus (racine carre de V/100)
si V est un pourcentage compris entre 0 et 100
La transformation de Box-Cox (f(X) = (X-1)/ si 0, et f(X) = log(X)

sinon) recouvre un ensemble de transformations possibles, selon la valeur
du paramtre dtermine par maximisation de la vraisemblance (en
crivant la densit dune loi normale), et est implmente dans plusieurs
logiciels, dont R (fonction boxplot du package MASS)
Transformation
Correction
Effet
07/02/2014
exp(V)
V3
V2
asymtrie gauche
fort
moyen
V
pas de
correction
log(V)
-1/V
-1/V2
asymtrie droite
moyen
fort
74
Normalisation : un exemple
Revenus :
Log(1+revenus) :
Racine(revenus) :
Asymtrie = 2,38
Asymtrie = - 2,03
Asymtrie = 0,64
Aplatissement = 11,72
La racine carre normalise ici mieux que le logarithme

07/02/2014
(Loi normale
asymtrie
= aplatissement
Stphane: Tuffry
- Usage rserv
lUniversit Rennes(
1 3) = 0)
75
Utilit de la normalisation
Une des hypothses de lanalyse discriminante linaire :
multinormalit de X/Gi et galit des matrices de covariances
Nest en pratique jamais satisfaite

Mais on constate une amlioration des performances de
lanalyse discriminante lorsque lon sen rapproche :
en neutralisant les outliers (individus hors norme)
en normalisant les variables explicatives susceptibles dentrer
dans le modle
Moralit : mieux vaut connatre les contraintes thoriques

pour se rapprocher des conditions optimales
07/02/2014
76
Discrtisation en tranches naturelles

Densit
clients sans
apptence
clients avec
apptence
variable explicative Y
07/02/2014
77
Pourquoi discrtiser ?
Apprhender des liaisons non linaires (de degr >1), voire non
monotones, entre les variables continues et la variable expliquer
par une analyse des correspondances multiples, une rgression
logistique ou une analyse discriminante DISQUAL
Neutraliser les valeurs extrmes ( outliers )

qui sont dans la 1re et la dernire tranches
Grer les valeurs manquantes (imputation toujours dlicate)

rassembles dans une tranche spcifique ou regroupe avec une
autre
Grer les ratios dont le numrateur et le dnominateur peuvent

tre tous deux > 0 ou < 0
EBE / capital conomique (rentabilit conomique), rsultat net /
capitaux propres (rentabilit financire ou ROE)
Amliorer parfois le pouvoir prdictif

Faciliter la lisibilit du modle (grille de score)
07/02/2014
78
Exemple de discrtisation
On commence par
dcouper la variable
explicative en dciles, et
regarder quelle valeur
correspond chaque dcile
Par exemple , le 2e dcile
est 25 ans
07/02/2014
Analysis Variable : Age

Rang pour
N
la variable
Age Obs Minimum Maximum
0
105 19.0000000 23.0000000
85 24.0000000 25.0000000
101 26.0000000 27.0000000
120 28.0000000 30.0000000
105 31.0000000 33.0000000
72 34.0000000 35.0000000
113 36.0000000 39.0000000
98 40.0000000 44.0000000
105 45.0000000 52.0000000
96 53.0000000 75.0000000
79
Table de dAge par Cible
Exemple de discrtisation
dAge(Rang
pour la
variable Age)
FREQUENCE
Pourcentage
Pct en ligne
Le tableau de contingence montre que

les deux premiers dciles de lge
correspondent un taux dimpays
nettement suprieur celui des autres
dciles. Il y a donc un seuil 25 ans
Aucun autre seuil ne se distingue
nettement, les taux dimpays
fluctuant ensuite entre 20 % et un peu
plus de 30 %
Le dcoupage de lge en deux
tranches est donc dcid
07/02/2014
Stphane Tuffry - Usage rserv lUniversit Rennes 1 Total
Cible
2 Total
63
42
6.30 4.20
60.00 40.00
105
10.50
47
38
4.70 3.80
55.29 44.71
85
8.50
74
27
7.40 2.70
73.27 26.73
101
10.10
79
41
7.90 4.10
65.83 34.17
120
12.00
72
33
7.20 3.30
68.57 31.43
105
10.50
55
17
5.50 1.70
76.39 23.61
72
7.20
89
24
8.90 2.40
78.76 21.24
113
11.30
70
28
7.00 2.80
71.43 28.57
98
9.80
84
21
8.40 2.10
80.00 20.00
105
10.50
67
29
6.70 2.90
69.79 30.21
96
9.60
700
300 801000
70.00 30.00 100.00
Analyse exploratoire des donnes 2/2

Variables qualitatives ou discrtes
regrouper certaines modalits aux effectifs trop petits
reprsenter les modalits dans une analyse des correspondances multiples
Crer des indicateurs pertinents daprs les donnes brutes

prendre lavis des spcialistes du secteur tudi
cration dindicateurs pertinents (maxima, moyennes, prsence/absence)
utiliser des ratios plutt que des variables absolues (exemple : plafond ligne
de crdit + part utilise taux dutilisation du crdit)
calcul dvolutions temporelles de variables
cration de dures, danciennets partir de dates
croisement de variables, interactions
utilisation de coordonnes factorielles
Dtecter les liaisons entre variables

entre variables explicatives et expliquer (bon)
entre variables explicatives entre elles (colinarit viter dans certaines
mthodes)
07/02/2014
81
Exemple de regroupement de modalits

Regroupement de < 100 et
[100-500 euros[ dont les taux
dimpays sont proches (35,99% et
33,01%)
Regroupement de [500-1000
euros[ et >= 1000 euros : leurs
taux dimpays sont moins proches
mais la 2e modalit est trop petite
pour rester seule
On pourrait mme regrouper ces
deux modalits avec Pas dpargne
07/02/2014
Table de Epargne par Cible

Epargne
FREQUENCE
Pourcentage
Pct en ligne
Cible
OK
KO Total
Pas d'pargne
151
32
15.10 3.20
82.51 17.49
183
18.30
< 100
386 217
38.60 21.70
64.01 35.99
603
60.30
[100-500 euros[
69
34
6.90 3.40
66.99 33.01
103
10.30
[500-1000 euros[
52
11
5.20 1.10
82.54 17.46
63
6.30
>= 1000 euros
42
6
4.20 0.60
87.50 12.50
48
4.80
Total
700 300
1000
70.00 30.00 100.00
82
Autre exemple de regroupement de modalits

Le regroupement des modalits
Table de Statut_domicile par Cible
Locataire et Logement gratuit Statut_domicile Cible
est vident
FREQUENCE
Pourcentage
Pct en ligne
OK KO Total
Elles sont associes des taux
70
179
Locataire 109
dimpays proches et levs (39,11%
10.90 7.00 17.90
60.89 39.11
et 40,74%)
713
Propritaire 527 186
52.70 18.60 71.30
Les propritaires sont moins risqus,
73.91 26.09
64
44
108
Logement gratuit
surtout sils ont fini leur emprunt,
6.40 4.40 10.80
59.26 40.74
mais pas seulement dans ce cas, car ils
700 300
1000
sont gnralement plus attentifs que la Total
70.00 30.00 100.00
moyenne au bon remboursement de
leur emprunt
07/02/2014
83
Exploration avec une ACM
07/02/2014
84
Traitement des valeurs manquantes

Dabord vrifier que les valeurs manquantes ne proviennent pas :
dun problme technique dans la constitution de la base
dindividus qui ne devraient pas se trouver dans la base
Sinon, plusieurs solutions sont envisageables selon les cas :

supprimer les observations (si elles sont peu nombreuses ou si le non
renseignement de la variable est grave et peut laisser suspecter dautres
anomalies dans lobservation)
ne pas utiliser la variable concerne (surtout si elle est peu discriminante) ou la
remplacer par une variable proche mais sans valeur manquante
mieux vaut supprimer une variable a priori peu utile, mais qui est souvent non
renseigne et conduirait exclure de nombreuses observations de la modlisation
traiter la valeur manquante comme une valeur part entire

imputation : remplacer la valeur manquante par une valeur par dfaut ou
dduite des valeurs des autres variables
remplacer les valeurs manquantes grce une source externe (rarement
possible)
Mais aucune solution nest idale

07/02/2014
85
Imputation des valeurs manquantes

Imputation statistique
par le mode, la moyenne ou la mdiane
par une rgression ou un arbre de dcision
imputation
simple (minore la variabilit et les intervalles de confiance
des paramtres estims)
ou multiple (remplacer chaque valeur manquante par n
valeurs, par exemple n = 5, puis faire les analyses sur les n
tables et combiner les rsultats pour obtenir les paramtres
avec leurs cart-types
07/02/2014
86
Limputation nest jamais neutre

Surtout si les donnes ne sont pas manquantes au hasard
Dformation des variances et des corrlations
avant imputation
imputation
par
moyenne
ou
rgression
6
5
4
3
2
1
0
0
aprs imputation par la

moyenne
yi
6
5
xi
imputation
par
rgression
+ rsidu
alatoire
yi
xi
0
0
source : J.-P. Nakache A. Gueguen, RSA 2005

07/02/2014
87
Schma des valeurs manquantes

Exemple de sortie produite par la procdure MI de SAS
Caractristiques des donnes manquantes
Moyennes de groupes
Groupe
Var1
Var2
Var3
6557
80.79
0.04
1108
13.65
-0.075471 0.595276
353
4.35
0.160265
91
1.12
0.000916
0.05
07/02/2014
Frq Pourcentage
Var1
Var2
12.217310 0.245615
Var3
3.102462
0.166667
88
Le problme de la qualit des donnes :

trois niveaux
Donnes non correctes (manquantes ou aberrantes)
Pas toujours faciles dtecter
0 est-il 0 ou manquant ? 9999..999 est-il manquant ou aberrant ?
Sagit-il dune erreur ou dun individu hors norme ?

Les donnes manquantes ou extrmes sont plus faciles dtecter que les
autres erreurs, qui ne se voient souvent que par croisement des donnes
entre elles
Comment corriger en apprentissage / en application ?
Donnes correctes mais non cohrentes

Venant du rapprochement de donnes correctes isolment MAIS
mesures des dates diffrentes
ou sur des chelles diffrentes
ou issues de rgles de calcul diffrentes
Donnes correctes et cohrentes mais trompeuses

Par exemple, en apptence, le profil des souscripteurs peut tre fauss par
une campagne commerciale cible rcente
07/02/2014
89
La slection des variables
07/02/2014
90
Importance de la slection des variables

Exemple de David Hand (2005) : rgression avec un
coefficient de corrlation linaire 0,5 entre chaque
prdicteur (variable explicative) et la variable expliquer, et
un coefficient de corrlation entre chaque prdicteur
Les courbes reprsentent 1-R (proportion de la somme des
carrs non explique) en fonction du nombre de prdicteurs
07/02/2014
91
Limiter le nombre de variables slectionnes

En prsence de colinarit entre les prdicteurs, lapport
marginal de chaque prdicteur dcrot trs vite
Et pourtant, ici chaque prdicteur est suppos avoir la
mme liaison avec la variable expliquer, ce qui nest pas le
cas dans une slection pas pas relle o la liaison dcrot !
Conclusion :
viter au maximum la colinarit des prdicteurs
Limiter le nombre de prdicteurs : souvent moins de 10
Alternative : la rgression PLS ou rgularise (ridge)
Remarque :
Dans une procdure pas pas, le 1er prdicteur peut occulter un
autre prdicteur plus intressant
07/02/2014
92
Sur-apprentissage en rgression
(A) Modle trop simp le
(B) Bon modle
(C) Modle trop complexe
Un modle trop pouss dans la phase dapprentissage :

pouse toutes les fluctuations de lchantillon dapprentissage,
dtecte ainsi de fausses liaisons,
et les applique tort sur dautres chantillons
On parle de sur-apprentissage ou sur-ajustement

07/02/2014
93
Sur-apprentissage en classement
(C) Modle trop
complexe
(B) Bon modle
Source : Olivier Bousquet

07/02/2014
94
Taux derreur en fonction de la complexit du

modle
taux
d'erreur
donnes de test
mauvaise
gnralisation
bonne
gnralisation
complexit du modle
(A)
(B) arrter ici
(C)
Thorme de Vapnik :
R < Remp +
07/02/2014
h (log(2n / h) + 1) log( / 4)
n
95
lagage dun arbre de dcision

taux
d'erreur
donnes de test
et d'application
laguer ici
profondeur arbre
(nb de feuilles)
Un bon arbre doit tre lagu pour viter la remonte du taux

derreur due au sur-apprentissage
Dans lexemple prcdent, il faut laguer les feuilles 9 et 10
07/02/2014
96
Slection des variables explicatives

En prsence de corrlation linaire entre les prdicteurs, lapport
marginal de chaque prdicteur dcrot trs vite
Il peut mme altrer le modle (inversions de signes des paramtres)
et rduire son pouvoir prdictif
On doit effectuer des tests statistiques de liaison
On peut prfrer un prdicteur moins li la variable expliquer sil
est moins corrl aux autres prdicteurs
On peut travailler sur les coordonnes factorielles
Il est plus facile de limiter le nombre de prdicteurs si la population
est homogne
Et mme sils sont peu corrls, les prdicteurs doivent tre
suffisamment peu nombreux (ou borns comme dans la
rgression pnalise) pour viter davoir un modle trop
complexe et du sur-ajustement
07/02/2014
97
Rappel sur les tests

Tests paramtriques
supposent que les variables suivent une loi
particulire (normalit, homoscdasticit)
ex : test de Student, ANOVA
Tests non-paramtriques
ne supposent pas que les variables suivent une loi particulire
se fondent souvent sur les rangs des valeurs des variables plutt
que sur les valeurs elles-mmes
peu sensibles aux valeurs aberrantes
ex : test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis
Exemple du r de Pearson et du de Spearman :
r > prsence de valeurs extrmes ?

> r liaison non linaire non dtecte par Pearson ?
ex : x = 1, 2, 3 et y = e1, e2, e3
07/02/2014
98
Liaison entre une variable continue et une

variable de classe
lois suivies
2 chantillons
3 chantillons et plus (***)
normalit homoscdasticit (*)
test T de Student
ANOVA
normalit htroscdasticit
test T de Welch
Welch - ANOVA
non normalit htroscdasticit (**)
Wilcoxon Mann Whitney
Kruskal Wallis
test de la mdiane
test de la mdiane
test de Jonckheere-Terpstra
(chantillons ordonns)
moins puissant
(*) Ces tests supportent mieux la non-normalit que lhtroscdasticit.
(**) Ces tests travaillant sur les rangs et non sur les valeurs elles-mmes,
ils sont plus robustes et sappliquent galement des variables ordinales
(***) ne pas comparer toutes les paires par des tests T on dtecte tort des
diffrences significatives (au seuil de 95 % : dans 27 % des cas pour 4 moyennes gales)
07/02/2014
99
Exemple de liste des variables

Obs
Liste des variables par liaison

dcroissante avec la variable
expliquer
Ici les variables sont qualitatives
et la liaison mesure par le V de
Cramer
0,4
0,35
V_Cramer
Variable
0.35174 Comptes
0.24838 Historique_credit
0.20499 Duree_credit
0.19000 Epargne
0.17354 Objet_credit
0.15809 Montant_credit
0.15401 Biens
0.13553 Anciennete_emploi
0.13491 Statut_domicile
10
0.12794 Age
11
0.11331 Autres_credits
12
0.09801 Situation_familiale
13
0.08152 Garanties
14
0.07401 Taux_effort
15
0.05168 Nb_credits
16
0.04342 Type_emploi
17
0.03647 Telephone
18
0.02737 Anciennete_domicile
0,3
0,25
0,2
0,15
0,1
0,05
07/02/2014
Ag
tre
e
s_
cr
tu
ed
at
io
it s
n_
fa
m
ilia
le
G
ar
an
t ie
Ta
s
ux
_e
ff o
Nb
rt
_c
re
di
Ty
ts
pe
_e
m
pl
oi
An
Te
cie
le
p
nn
ho
et
ne
e_
do
Nb
m
ici
_p
le
er
s_
ch
ar
ge
Si
Au
Hi
s
Co
m
pt
to
es
riq
ue
_c
re
Du
di
t
re
e_
cr
ed
it
Ep
ar
gn
O
e
bj
et
_c
M
re
on
di
ta
t
nt
_c
re
di
t
An
cie
Bi
nn
en
et
s
e_
em
St
at
pl
ut
oi
_d
om
ici
le
Stphane Tuffry - Usage rserv lUniversit Rennes

1
19
100
0.00301 Nb_pers_charge
Pourquoi le V de Cramer ?
Classe 1
Classe 2
Classe 1
Ensemble
Classe 2
Ensemble
Effectifs observs :
Effectifs observs :
A
55
45
100
550
450
1000
20
30
50
200
300
500
Total
75
75
150
Total
750
750
1500
Effectifs attendus si la variable est indpendante de

la classe :
Effectifs attendus si la variable est indpendante de

la classe :
50
50
100
500
500
1000
25
25
50
250
250
500
Total
75
75
150
Total
750
750
1500
Probabilit du = 0,08326454
Probabilit du = 4,3205.10-8
V de Cramer = 0,14142136
V de Cramer = 0,14142136
Quand la taille de la population augmente, le moindre cart finit

par devenir significatif aux seuils usuels
07/02/2014
101
Le V de Cramer
V de Cramer =
2
2
max
mesure directement l'intensit de la liaison de 2 variables

qualitatives, sans avoir recours une table du
indpendamment du nombre de modalits et de leffectif
en intgrant leffectif et le nombre de degrs de libert, par
l'intermdiaire de max
max = effectif x [min (nb lignes, nb colonnes) 1]
V compris entre 0 (liaison nulle) et 1 (liaison parfaite)
07/02/2014
102
Slection des variables : bootstrap

On effectue une rgression logistique stepwise sur chacun des chantillons bootstrap
Variable Nb occurrences
Constante
50
V05
46
V09
39
V14
37
V01
35
V03
34
V13
28
V02
23
V04
22
V18
18
V22
18
V19
16
V17
15
V24
14
V08
13
V36
12
V28
11
V07
10
07/02/2014
Variable Nb occurrences
V25
7
V26
7
V15
6
V12
5
V29
5
V31
5
V10
4
V20
4
V06
2
V16
2
V32
2
V37
2
V11
1
V21
1
V23
1
V27
1
V34
1
V35
1
Bootstrap : B tirages alatoires avec

remise de n individus parmi n et
slection de variables sur chacun des B
chantillons bootstrap
C
60 o
V
n
0
50 s e5 V V
t
0
V V
1
a
9
0 0
4
40 n
1 3 V
t
1 V
V
3 0
30
0 V V
2 4 1 2 V V V
V V
1 1
V V
8 2
2 0
20
9 7
3 2
4 8
0 V V V V V V
6 8
V V
7 2 2 1 1 2 3
V V V V V V V V V V
1 2
5 6 5
10
2 9 1 0 0 0 1 3 3 1 2 2 2 3 3
6 6 2 7 1 1 3 7 4 5
seuil
seuil
103
Slection des variables : classification

laide dune ACP avec rotation
R-squared with
Cluster
Variable
Own
Cluster
Next
Closest
1-R**2
Ratio
Cluster 1
nbpoints
0.6546
0.0011
0.3458
nb points fidlit
nbproduits
0.6189
0.0183
0.3882
nb produits
nbachats
0.5950
0.0007
0.4053
nb achats
revenus
0.4551
0.0234
0.5580
revenus du client
abonnement
0.2537
0.0042
0.7495
abonnement autre service
utilcredit
0.2312
0.0002
0.7689
rglements crdit
age
0.6033
0.0000
0.3967
ge
relation
0.6461
0.0336
0.3662
relation (anciennet client)
evolconsom
0.2151
0.0027
0.7870
volution consommation
Cluster 2
Variable
Label
PROC VARCLUS DATA=fichier_client;

VAR age relation nbpoints nbproduits nbachats revenus abonnement evolconsom
utilcredit;
RUN;
07/02/2014
104
La modlisation
07/02/2014
105
Mthodes inductives : 4 tapes

Apprentissage : construction du modle sur
un 1er chantillon pour lequel on connat la
valeur de la variable expliquer
Test : vrification du modle sur un 2d
chantillon pour lequel on connat la valeur de la
variable expliquer, que lon compare la valeur
prdite par le modle
si le rsultat du test est insuffisant (daprs la
matrice de confusion ou la courbe ROC), on
recommence lapprentissage
Validation du modle sur un 3e chantillon,
ventuellement out of time , pour avoir une
ide du taux derreur non biais du modle
Application du modle lensemble de la
population
07/02/2014
valeur prdite
valeur relle
A
1800
200
300
1700
TOTAL
TOTAL
4000
106
Quelques mthodes classiques de scoring

Analyse discriminante linaire
Rsultat explicite P(Y/ X1, , Xp) sous forme dune formule
Requiert des Xi continues et des lois Xi/Y multinormales et
homoscdastiques (attention aux individus hors norme)
Optimale si les hypothses sont remplies
Rgression logistique
Sans hypothse sur les lois Xi/Y, Xi peut tre discret, ncessaire absence de
colinarit entre les Xi
Mthode trs souvent performante
Mthode la plus utilise en scoring
Arbres de dcision
Rgles compltement explicites
Traitent les donnes htrognes, ventuellement manquantes, sans
hypothses de distribution
Dtection dinteractions et de phnomnes non linaires
Mais moindre robustesse
07/02/2014
107
Grille de score
Passage de coefficients ( Estimation ) des pondrations dont la
somme est comprise entre 0 et 100
Variable
Modalit
Age
> 25 ans
Age
25 ans
Autres_credits
Aucun crdit extrieur
Nb points
Analyse des estimations de la vraisemblance maximum

Erreur
Khi 2
DF Estimation
std de Wald Pr > Khi 2
Paramtre
Intercept
-3.1995
0.3967
65.0626
<.0001
Comptes
CC >= 200 euros
1.0772
0.4254
6.4109
0.0113
Autres_credits
Crdits extrieurs
Comptes
CC < 0 euros
2.0129
0.2730
54.3578
<.0001
Comptes
Pas de compte
Comptes
CC [0-200 euros[
1.5001
0.2690
31.1067
<.0001
Comptes
Pas de compte
Comptes
CC 200 euros
13
Historique_credit Crdits en impay
1.0794
0.3710
8.4629
0.0036
Comptes
CC [0-200 euros[
19
Historique_credit Crdits sans retard
0.4519
0.2385
3.5888
0.0582
Comptes
CC < 0 euros
25
Historique_credit Jamais aucun crdit
Duree_credit
> 36 mois
1.4424
0.3479
17.1937
<.0001
Duree_credit
15 mois
Duree_credit
16-36 mois
1.0232
0.2197
21.6955
<.0001
Duree_credit
16-36 mois
13
Duree_credit
<= 15 mois
Duree_credit
<= 25 ans
0.6288
0.2454
6.5675
0.0104
> 36 mois
18
Age
Age
> 25 ans
Epargne
pas pargne ou > 500 euros
Epargne
< 500 euros
0.6415
0.2366
7.3501
0.0067
Epargne
< 500 euros
Epargne
pas pargne ou > 500 euros
Garanties
Avec garant
-1.7210
0.5598
9.4522
0.0021
Garanties
Avec garant
Garanties
Sans garant
Garanties
Sans garant
21
Autres_credits
Aucun crdit extrieur
-0.5359
0.2439
4.8276
0.0280
Historique_credit
Jamais aucun crdit
Autres_credits
Crdits extrieurs
Historique_credit
Crdits sans retard
07/02/2014
Historique_credit
Crdits en1 impay
Stphane Tuffry - Usage
rserv lUniversit Rennes
108
13
Exemples de notations
Note dun jeune de moins de 25 ans, qui demande pour la
premire fois un crdit dans ltablissement et qui nen a
pas ailleurs, sans impay, avec un compte dont le solde
moyen est lgrement positif (mais < 200 ), avec un peu
dpargne (< 500 ), sans garant, qui demande un crdit sur
36 mois :
8 + 0 + 19 + 13 + 8 + 21 + 0 = 69 points
Note dun demandeur de plus de 25 ans, avec des crdits

la concurrence, sans impay, avec un compte dont le solde
moyen est > 200 , avec plus de 500 dpargne, sans
garant, qui demande un crdit sur 12 mois :
0 + 7 + 13 + 0 + 0 + 21 + 0 = 41 points
On constate la facilit de limplmentation et du calcul du

score
07/02/2014
109
Dcoupage de la note de score

On peut calculer les dciles du nombre de points et leurs
Table de dnbpoints par Cible
taux dimpays correspondants :
dnbpoints(Rang
pour la variable
nbpoints)
Analysis Variable : nbpoints
FREQUENCE
Pct en ligne
Rang pour
N
la variable
nbpoints Obs Minimum Maximum
0
07/02/2014
104
Cible
OK
KO Total
99
95.19
5
4.81
104
89
93.68
6
6.32
95
100
93.46
7
6.54
107
6.0000000 29.0000000
95 33.0000000 37.0000000
107 39.0000000 42.0000000
101
19
84.17 15.83
120
120 43.0000000 48.0000000
71
27
72.45 27.55
98
98 49.0000000 54.0000000
60
33
64.52 35.48
93
93 55.0000000 60.0000000
81
81 61.0000000 65.0000000
48
33
59.26 40.74
60
44
57.69 42.31
104
38
54
41.30 58.70
92
34
72
32.08 67.92
106
104 66.0000000 69.0000000
92 70.0000000 74.0000000
106 75.0000000 95.0000000
Seuils
de taux
Total
700
300
110
1000
Taux dimpays par tranches de score

Table de nbpoints par Cible
nbpoints
FREQUENCE
Pourcentage
Pct en ligne
8,69% dimpays
octroi du crdit avec un minimum
de formalits
Cible
OK
risque faible 389

[0 , 48] points 38.90
KO Total
37
3.70
8.69
426
42.60
risque moyen 239 137

[49 , 69] points 23.90 13.70
376
37.60
72 126
7.20 12.60
36.36 63.64
198
19.80
91.31
63.56 36.44
risque fort
70 points
Total
07/02/2014
Tranche de risque faible :
Tranche de risque moyen :

36,44% dimpays
octroi du crdit selon la procdure
standard
Tranche de risque lev :

63,64% dimpays
octroi du crdit interdit sauf par
lchelon hirarchique suprieur
(directeur dagence)
700 300
1000
70.00 30.00 100.00
111
Reprenons nos exemples

Demandeur de moins de 25 ans, qui demande pour la
premire fois un crdit dans ltablissement et qui nen a
pas ailleurs, sans impay, avec un compte dont le solde
moyen est lgrement positif (mais < 200 ), avec un peu
dpargne (< 500 ), sans garant, qui demande un crdit sur
36 mois :
69 points risque moyen
On est la limite du risque lev et cette limite aurait t
franchie avec un crdit sur plus de 36 mois
Demandeur de plus de 25 ans, avec des crdits la

concurrence, sans impay, avec un compte dont le solde
moyen est > 200 , avec plus de 500 dpargne, sans
garant, qui demande un crdit sur 12 mois :
41 points risque faible
07/02/2014
112
Exemple de prdiction des impays 12 mois

100%
90%
5,61
7,64
80%
10,46
70%
17,27
50,3
60%
50%
26,8
40%
22,37
30%
20%
17,45
32,23
10%
5,67
3,41
0,8
0%
% clients
Score 1
07/02/2014
Score 2
% impays
Score 3
Score 4
Score 5
Score 6
113
Les rsultats du modle retenu

(autre exemple)
50,00%
45,00%
40,00%
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
taux souscription
10
0,10%
0,22%
0,67%
0,86%
1,38%
2,15%
3,23%
9,37%
21,08%
44,76%
Observer lvolution exponentielle du taux de souscription

07/02/2014
114
Sensibilit et spcificit
Pour un score devant discriminer un groupe A (les positifs;
ex : les risqus) par rapport un autre groupe B (les
ngatifs ; ex : les non risqus), on dfinit 2 fonctions du seuil
de sparation s du score :
sensibilit = (s) = Prob(score s / A) = probabilit de bien
dtecter un positif
spcificit = (s) = Prob(score < s / B) = probabilit de bien
dtecter un ngatif
Pour un modle, on cherche s qui maximise (s) tout en

minimisant les faux positifs 1 - (s) = Prob(score s / B)
faux positifs : ngatifs considrs comme positifs cause du

score
Le meilleur modle : permet de dtecter le plus possible de

vrais positifs avec le moins possible de faux positifs
07/02/2014
115
1,0
Courbe ROC
,8
Source de la courbe
,5
Ligne de rfrence
arbre de dcision
,3
analys discriminante
La courbe ROC
0,0
0,0
rgress. logistique
,3
,5
,8
1,0
sur laxe Y : sensibilit = (s)

sur laxe X : 1 - spcificit = 1 - (s)
proportion y de vrais positifs en fonction de la proportion x de faux
positifs, lorsque l'on fait varier le seuil s du score
Aire AUC sous la courbe ROC = probabilit que score(x) >

score(y), si x est tir au hasard dans le groupe A ( prdire) et y
dans le groupe B
1re mthode destimation : par la mthode des trapzes
2e mthode destimation : par les paires concordantes
3e mthode quivalente : par le test de Mann-Whitney
Le modle est d'autant meilleur que lAUC sapproche de 1

AUC = 0,5 modle pas meilleur qu'une notation alatoire
07/02/2014
116
Exemple de courbe ROC

#
Classe
Score
Classe
0,90
11
0,40
0,80
12
0,39
0,70
13
0,38
0,65
14
0,37
0,60
15
0,35
0,55
16
1,000
N
0,30
0,50
17
0,25
0,45
18
0,44
19
10
0,42
20
,900
Score
0,20
0,15
0,10
,800
0,37
0,15
0,10
,900
1,000
0,25
0,40
,700
True positive rate
0,50
,600
0,42
,500
,400
,300
,200
0,70
,100
,000
,000
07/02/2014
,100
,200
,300
,400
,500
,600
False positive
Stphane Tuffry - Usage rserv lUniversit
Rennesrate
1
,700
,800
117
Interprtation de la courbe ROC

seuil s minimum :
tous classs en +
taux de vrais positifs
prdiction parfaite
seuil s maximum :
tous classs en -
prdiction nulle
taux de faux positifs

07/02/2014
118
Matrice de confusion et courbe ROC

Tableau de classementa
Prvu
CHD
Observ
CHD
0
0
1
1
45
16
Pourcentage global
12
27
Pourcentage
correct
78,9
62,8
72,0
a. La valeur de csure est ,500
Sensibilit = 27/43 = 0,63

Seuil 0,5 (= csure de
la matrice de confusion)
1 - Spcificit = 1-(45/57) = 0,21

07/02/2014
119
Courbes ROC avec entre progressive des

variables du modle
Sensi bi l i t
1. 0
_step_ = 7
0. 9
0. 8
0. 7
_step_ = 1
0. 6
0. 5
0. 4
0. 3
Rapprocher lapport de plus en plus

faible de chaque variable avec la
remarque de David Hand
0. 2
0. 1
0. 0
0. 0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
1. 0
1 - Spci f i ci t
07/02/2014
120
Quelques principes du data

mining
07/02/2014
121
Les 8 principes de base de la modlisation

La prparation des donnes est la phase la plus longue, peut-tre la
plus laborieuse mais la plus importante
Il faut un nombre suffisant dobservations pour en infrer un modle
Validation sur un chantillon de test distinct de celui dapprentissage
(ou validation croise)
Arbitrage entre la prcision dun modle et sa robustesse ( dilemme
biais variance )
Limiter le nombre de variables explicatives et surtout viter leur
colinarit
Perdre parfois de linformation pour en gagner
dcoupage des variables continues en classes
On modlise mieux des populations homognes

intrt dune classification pralable la modlisation
La performance dun modle dpend souvent plus de la qualit des

donnes et du type de problme que de la mthode
07/02/2014
122
Qualits attendues dune technique prdictive

1/2
La prcision
le taux derreur doit tre le plus bas possible, et laire sous la
courbe ROC la plus proche possible de 1
La robustesse
tre le moins sensible possible aux fluctuations alatoires de
certaines variables et aux valeurs manquantes
ne pas dpendre de lchantillon dapprentissage utilis et bien
se gnraliser dautres chantillons
La concision
les rgles du modle doivent tre les plus simples et les moins
nombreuses possible
07/02/2014
123
Qualits attendues dune technique

prdictive 2/2
Des rsultats explicites
les rgles du modle doivent tre accessibles et comprhensibles
La diversit des types de donnes manipules

toutes les mthodes ne sont pas aptes traiter les donnes
qualitatives, discrtes, continues et manquantes
La rapidit de calcul du modle

un apprentissage trop long limite le nombre dessais possibles
Les possibilits de paramtrage

dans un classement, il est parfois intressant de pouvoir pondrer
les erreurs de classement, pour signifier, par exemple, quil est plus
grave de classer un patient malade en non-malade que linverse
07/02/2014
124
Choix dune mthode : nature des donnes

explicatives
1 quantitative n quantitatives
(covariable)
(covariables)
1 qualitative
(facteur)
n qualitatives
(facteurs)
mlange
ANOVA, arbres
de dcision,
rseaux de
neurones
ANCOVA,
arbres de
dcision,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
rgression
logistique,
arbres, rseaux
de neurones
expliquer
1 quantitative
n quantitatives
(reprsentent des
quantits )
1 qualitative
nominale ou
binaire
1 discrte
(comptage)
1 quantitative
asymtrique
1 qualitative
ordinale
n quantitatives
ou07/02/2014
qualitatives
rg. linaire
simple,
rgression
robuste, arbres
de dcision
rgression
PLS2
ADL,
rgression
logistique,
arbres de
dcision
rg. linaire multiple, ANOVA,

rg. robuste, PLS,
arbres de
arbres, rseaux de
dcision
neurones
rgression PLS2,
rseaux de neurones
MANOVA
MANOVA,
rseaux de
neurones
ADL, rg. logistique, rgression
rgression
reg. logistique PLS, logistique,
logistique,
arbres, rseaux de
DISQUAL,
DISQUAL,
neurones, SVM
arbres
arbres, rseaux
de neurones
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
modle linaire gnralis
(rgressions gamma et log-normale)
rgression logistique ordinale
(au moins 3 niveaux)
modle mesures rptes

(les
n variables
reprsentent
des mesures
rptesRennes
dune 1mme quantit)
Stphane
Tuffry
- Usage rserv
lUniversit
125
Choix dune mthode : prcision, robustesse,

concision, lisibilit
Prcision : privilgier la rgression linaire, lanalyse
discriminante linaire, DISQUAL et la rgression
logistique, et parfois les SVM et les rseaux de neurones
en prenant garde au sur-apprentissage (ne pas avoir trop
de neurones dans la ou les couches caches)
Robustesse : viter les arbres de dcision et se mfier des
rseaux de neurones, prfrer une rgression robuste
une rgression linaire par les moindres carrs
Concision : privilgier la rgression linaire, lanalyse
discriminante et la rgression logistique, ainsi que les
arbres sans trop de feuilles
Lisibilit : prfrer les arbres de dcision et prohiber les
rseaux de neurones. La rgression logistique, DISQUAL,
lanalyse discriminante linaire et la rgression linaire
fournissent aussi des modles faciles interprter
07/02/2014
126
Choix dune mthode : autres critres

Peu de donnes : viter les arbres de dcision et les rseaux
de neurones
Donnes avec des valeurs manquantes : essayer de recourir
un arbre, une rgression PLS, ou une rgression logistique
en codant les valeurs manquantes comme une classe
particulire
Les valeurs extrmes de variables continues naffectent pas les
arbres de dcision, ni la rgression logistique et DISQUAL
quand les variables continues sont dcoupes en classes et les
extrmes placs dans 1 ou 2 classes
Variables explicatives trs nombreuses ou trs corrles :
arbres de dcision (pour limiter le nombre de variables du
modle), rgression rgularise ou PLS (pour conserver le
maximum de variables dans le modle)
Mauvaise comprhension de la structure des donnes :
rseaux de neurones (sinon exploiter la comprhension des
donnes par dautres types de modles)
07/02/2014
127
Choix dune mthode : topographie des

classes discriminer
1
0
0
0
1
0 1
0
1
0
0
1
1
? 0
1
1
0
1
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11
? est class en "1"
? est class en "0"
? est class en "0"
Analyse discriminante
Rseau de neurones
Arbre de dcision
Toutes les mthodes de classement dcoupent lespace

des variables en rgions, dont chacune est associe une
des classes discriminer
La forme de ces rgions dpend de la mthode employe
07/02/2014
128
Influence des donnes et mthodes

Pour un jeu de donnes fix, les carts entre les performances de
diffrents modles sont souvent faibles
exemple de Gilbert Saporta sur des donnes dassurance automobile
(on mesure laire sous la courbe ROC) :
rgression logistique : 0,933
rgression PLS : 0,933
analyse discriminante DISQUAL : 0,934
analyse discriminante barycentrique : 0,935
le choix de la mthode est parfois affaire dcole
Les performances dun modle dpendent :

un peu de la technique de modlisation employe
beaucoup plus des donnes !
Do limportance de la phase prliminaire dexploration et

danalyse des donnes
Collecter des donnes pertinentes nouvelles (ex : smiomtriques)
07/02/2014
129
Lagrgation de modles
07/02/2014
130
Fonction de perte et risque dun modle

Lerreur de prdiction dun modle se mesure par une fonction
de perte :
y continue L(y,f(x)) = (y f(x))
y = 1/+1 L(y,f(x)) = |y f(x)|
Risque (ou risque rel) = esprance de la fonction de perte sur

lensemble des valeurs possibles des donnes (x,y)
comme on ne connat pas la loi de probabilit conjointe de x et y, on
ne peut questimer le risque
lestimation la plus courante
est le risque empirique
1 n 1
1
y i f ( xi )
( y f ( x ) ) ou n
n
i =1 2
on retrouve le taux derreur pour y = 1/+1 (n = effectif)
n
i =1
Dans le cas quadratique, le risque se dcompose en :

Biais(modle) + Variance(modle)
(diffrence entre esprance de la prdiction f(x) et valeur moyenne
de y) + variance de la prdiction
07/02/2014
131
Dilemme Biais-Variance
Plus un modle est complexe, plus son biais diminue mais plus sa
variance augmente
Nous devons trouver le bon rglage (trade-off) entre biais et variance,
entre ajustement aux donnes dapprentissage (biais) et capacit de
gnralisation (variance)
Dans quelques cas simples, la complexit dun modle est gale au
nombre p de paramtres
Dans certaines situations, on ne peut pas diminuer le nombre de
paramtres car les utilisateurs veulent voire apparatre simultanment
des critres mme sils sont fortement corrls
Mdecine, avec des mesures physiologiques, des rsultats danalyses
Banque, avec des critres qualitatifs saisis sur les entreprises
Cette complexit peut tre diminue par lintroduction de bornes ||||

C dans la recherche des coefficients dun modle de rgression (les
observations tant dans une sphre de rayon R)

complexit min [partie entire (R.C),p] + 1
07/02/2014
132
Solutions de rduction de complexit

La rgression avec pnalisation Ld (d 0)
Minimiser -2.log-vraisemblance (ou des carrs) + |i|d, d 0
minimiser -2.log-vraisemblance avec la contrainte |i|d C
d 1: slection de prdicteurs (AIC, BIC si d = 0 , Lasso si d = 1)
d > 1: rtrcissements de coefficients (Ridge si d = 2)
La rgression ridge (ou logistique ridge) est la plus rpandue

Elle rduit les coefficients dans toutes les directions, surtout celles faible
variance (le coefficient de la ridge sur la 1re composante principale diminue
moins que le coefficient sur la 2e composante, etc.)
La complexit peut aussi tre rduite par la rgression PLS

Avec une seule composante : les signes des coefficients sont gaux aux
signes des corrlations entre prdicteurs et variable rponse
La rgression PLS rduit les coefficients dans les directions faible variance,
mais peut provoquer une hausse trop grande dans les directions forte
variance lerreur de prdiction de la PLS est souvent un peu suprieure
07/02/2014
133
Ridge plot
volution des coefficients en fonction de la pnalisation
07/02/2014
134
Introduction aux mthodes dagrgation

Nous avons vu que la complexit dun modle doit tre
matrise pour lui assurer une faible somme biais +
variance et donc une bonne gnralisation
La complexit dun modle peut tre diminue par :
La diminution du nombre de prdicteurs
Lintroduction de bornes sur les coefficients de rgression de ces
prdicteurs
Laugmentation de la marge des SVM
Nous allons voir une autre approche avec les mthodes

dagrgation (synonyme : mthodes densemble) qui
consistent agrger les prdictions de plusieurs modles de
mme type, dune faon qui permette de rduire la variance
et ventuellement le biais du modle agrg
07/02/2014
135
Principe des mthodes dagrgation

La moyenne de B variables alatoires i.i.d. de variance , a
une variance
Lesprance de cette moyenne de variables alatoires est
gale lesprance de chaque variable
Si les variables sont identiquement distribues mais
dpendantes, avec une corrlation positive , la variance de
la moyenne est +
Cette formule peut tre applique la fonction de

prdiction dfinie par chaque modle dans lagrgation. Si
ces fonctions sont fortement corrles, lagrgation rduira
peu la variance, mme si B est grand
07/02/2014
136
Bagging 1/2
En moyennant des classifieurs (par exemple des arbres) sur B
chantillons bootstrap, on obtient un classifieur :
dont le biais na pas diminu
dont la variance a diminu dautant plus que la corrlation entre les
classifieurs est faible
Les n modles sont agrgs :

par un vote ou une moyenne des probabilits P(Y=1|X) quand on sait
calculer cette moyenne (classement)
par une moyenne des estimations (rgression)
Cest le bagging : Bootstrap AGGregatING, Breiman, 1996

La procdure de vote applique des arbres de faible qualit
peut conduire un rsultat pire lors de lagrgation
Supposons que Y = 1 pour tout x et que chaque classifieur prdise 1
avec la probabilit 0,4 et 0 avec la probabilit 0,6. Lerreur de
classement de chaque classifieur vaudra 0,6 mais lagrgation par vote
donnera un classifieur dont lerreur vaudra 1.
07/02/2014
137
Bagging 2/2
Le classifieur de base est le mme chaque itration : arbre de
dcision, rseau de neurones
La corrlation entre les classifieurs est diminue par :
le mcanisme de bootstrap
laugmentation de la complexit
Le bagging sapplique mieux aux classifieurs faible biais et

variance leve particulirement les arbres de dcision
La stratgie dlagage est simple : prfrer le bagging sur des
arbres profonds
Bagging inefficace sur un classifieur fort, dont les diffrents
modles seront trop corrls pour rduire la variance
R : packages ipred, randomForest
07/02/2014
138
Forts alatoires 1/3

Le bagging manque defficacit quand les modles sont trop corrls
on veut donc les dcorrler
Introduction dune 2e randomisation : sur les individus (bagging) mais
aussi sur les prdicteurs, en ajoutant chaque scission un tirage
alatoire dun sous-ensemble de taille q (constante) parmi lensemble
des p prdicteurs (forts alatoires, Breiman, 2001)
Plus la corrlation baisse (elle peut atteindre = 0,05) plus la
variance du modle agrg diminue : +
vite de voir apparatre trop souvent les mmes variables les plus
discriminantes
Chaque arbre lmentaire est moins performant mais lagrgation
conduit un modle agrg plus performant : laugmentation du biais
est plus que compense par la diminution de la variance
R : packages randomForest (sur arbre CART) et party (sur arbre Ctree)
07/02/2014
139
Forts alatoires 2/3

Diminuer le nombre q de prdicteurs augmente le biais mais diminue
la corrlation entre les modles et la variance du modle final q
permet de rgler le trade-off entre biais et variance
Pour le classement, Breiman suggre un sous-ensemble de q = p
variables ou [log(p)+1] ou 1
Mais il ne faut pas que ce nombre q soit trop faible si une forte
proportion de variables sont peu discriminantes
Les forts alatoires commencent tre trs efficaces lorsque la
probabilit de slectionner un prdicteur discriminant est > 0,5. Cette
probabilit est donne par la loi hypergomtrique.
Si 6 variables discriminantes sont mlanges 30 non discriminantes, la
probabilit de tirer au moins une variable discriminante parmi 6 est :
> cumsum(dhyper(1:6, 6, 30, 6))
[1] 0.4389771 0.6500237 0.6917119 0.6950619 0.6951543 0.6951548
07/02/2014
140
Forts alatoires 3/3

Le nombre q de prdicteurs est le seul paramtre
rellement rgler
Le nombre ditrations est moins sensible rgler, et on a
intrt le choisir assez lev
Le nombre de modles agrger devrait crotre avec le nombre de
prdicteurs
noter la convergence des performances atteinte avec un nombre de
modles agrgs parfois trs infrieur au nombre de combinaisons de p
variables parmi n (n!/p!(np)!), cest--dire bien avant que toutes les
combinaisons possibles de variables soient apparues.
Les forts alatoires rsistent bien au sur-apprentissage (contrairement aux
rseaux de neurones et au boosting) mme quand le nombre de modles
agrgs est grand
07/02/2014
141
Similarits entre forts alatoires et

rgression pnalise ridge
Le rtrcissement des coefficients dans la rgression
ridge
slection de q < p prdicteurs alatoirement parmi
les p prdicteurs
Augmenter ou rduire q :
augmente le biais, puisque la solution est cherche dans un sousespace fix par la contrainte
rduit la variance, de faon compenser la hausse du biais
Autre analogie : tous les prdicteurs peuvent apparatre

dans le modle
par rtrcissement de leurs coefficients dans la rgression ridge
ou par slection au hasard dans les forts alatoires
le travail de slection des variables est simplifi !
Pouvoir prdictif lev !

07/02/2014
142
Diffrences entre forts alatoires et

rgression pnalise ridge
Le paramtre de pnalisation permet un ajustement
continu du biais-variance, alors que le nombre q est discret
Il permet dajuster les coefficients laide du ridge plot
en sorte que tous les coefficients aient un signe cohrent
voire que certains coefficients soit suprieur un certain seuil fix
par les experts du domaine
La rgression pnalise est dterministe

Les calculs de la rgression pnalise sont plus rapides
mais les calculs des forts alatoires peuvent tre parallliss
Manque de lisibilit dun modle de forts alatoires, qui

dtruit la structure darbre
07/02/2014
143
Agrgation de modles : le boosting

BOOSTING, Freund et Schapire, 1996
Algorithme adaptatif et gnralement dterministe :
on travaille souvent sur toute la population
et chaque itration, on augmente le poids des individus mal classs ou
mal ajusts dans les itrations prcdentes
la fin, on agrge les modles en les pondrant par leur qualit
Diminue le biais et pas seulement la variance (grce au mcanisme

dagrgation) mais peut tre sujet au sur-ajustement
Nombreux algorithmes : Discrete AdaBoost, Real AdaBoost, Gentle
AdaBoost, LogitBoost, Arcing (Adaptative Resampling and
Combining)
Performances pas toujours trs diffrencies sur des donnes relles
(voir plus loin larc-x4 de Breiman)
R : packages ada, gbm et mboost
07/02/2014
144
Illustration (Robert Schapire)

Extrait dune confrence visible ici :
http://videolectures.net/mlss05us_schapire_b/
07/02/2014
145
Algorithme Discrete AdaBoost

1) Initialiser les poids des N individus de lchantillon dapprentissage :
pi = 1/N, i = 1, 2, , N
2) Rpter pour m = 1 M
ajuster le classifieur fm(x) {-1,+1} sur lchantillon
dapprentissage pondr par les poids pi
calculer le taux derreur m de fm(x) (tenant compte du poids de chaque
observation mal classe) et calculer m = ln((1-m)/m)
on peut multiplier m par un paramtre de pnalisation 1
si m < 0,5, multiplier le poids pi de chaque observation mal classe par
exp(m) (sinon : interrompre lalgorithme ou rinitialiser les poids) le
multiplicateur dcrot avec le taux derreur
normaliser les poids pi pour que leur somme soit 1
3) Le classifieur boost est le signe de la somme mmfm(x) (ou la

valeur moyenne des mfm(x))
07/02/2014
146
Algorithme Arcing
1) Initialiser les poids des N individus de lchantillon
dapprentissage : pi = 1/N, i = 1, 2, , N
dans lchantillon dapprentissage, tirer avec remise N individus chacun
selon la probabilit pi
ajuster le classifieur fm(x) {-1,+1} sur lchantillon ainsi tir
sur lchantillon dapprentissage initial :
calculer le taux derreur m pondr des observations mal classes par fm(x) et
calculer m = ln((1-m)/m)
si m < 0,5, multiplier le poids pi de chaque observation mal classe par exp(m)
pour i = 1, 2, , N (sinon : interrompre lalgorithme ou rinitialiser les poids)
3) Le classifieur boost est le signe de la somme mmfm(x) (ou

la valeur moyenne des mfm(x))
07/02/2014
147
Intrt de lalgorithme Arcing

Larcing introduit un facteur alatoire par un tirage avec remise et avec
une probabilit de tirage plus importante pour les individus mal
classs litration prcdente
contrairement au Discrete AdaBoost qui conserve chaque individu en
modifiant son poids mais non sa probabilit dtre tir
Ce tirage alatoire introduit une plus grande diversit dans les

modles obtenus et agrgs
Variante arc-x4 de larcing
chaque itration, le poids dun individu est proportionnel la somme de
1 et des puissances 4e des nombres derreurs de classement des itrations
prcdentes
Breiman (Breiman, 1996) a choisi la puissance 4e de faon empirique aprs
avoir test plusieurs valeurs
performances comparables celle de lalgorithme standard
montre que lefficacit dun algorithme de boosting vient moins de son
dispositif spcifique de pondration des observations que de son principe
gnral de rchantillonnage adaptatif
07/02/2014
148
Algorithme Real AdaBoost

1) Initialiser les poids des N individus :
pi = 1/N, i = 1, 2, , N
calculer la probabilit pm(x) = P(Y = 1|x) sur lchantillon
dapprentissage pondr par les poids pi
calculer fm(x) = Log(pm(x)/(1-pm(x))

multiplier le poids pi de chaque observation (xi,yi) par
exp(- . yi.fm(xi)) pour i = 1, 2, , N, o 1 est un paramtre
de pnalisation
3) Le classifieur boost est le signe de la somme mfm(x)

07/02/2014
149
Comparaison des caractristiques

BAGGING
Le bagging est un
mcanisme alatoire
FORTS ALATOIRES
Idem bagging
chaque itration,
lapprentissage se fait sur un
Idem bagging
chantillon bootstrap
diffrent
chaque itration,
chaque itration,
lapprentissage se fait sur un
lapprentissage se fait sur
sous-ensemble alatoire de
lensemble des prdicteurs
prdicteurs
chaque itration, le modle
produit doit aussi tre
chaque itration, le
modle produit doit tre
performant sur lensemble des
performant sur lensemble observations, mais lest moins
des observations
que le bagging, puisque tous les
prdicteurs ne sont pas utiliss
Dans lagrgation finale,
tous les modles ont le
Idem bagging
mme poids
07/02/2014
BOOSTING
Le boosting est un mcanisme
adaptatif et gnralement (sauf
larcing) dterministe
Gnralement (sauf larcing),
chaque itration, lapprentissage
se fait sur lchantillon initial
complet
chaque itration,
lapprentissage se fait sur
lensemble des prdicteurs
chaque itration, le modle
produit doit tre performant
sur certaines observations ; un
modle performant sur certains
outliers sera moins performant
sur les autres observations
Dans lagrgation finale, les
modles sont gnralement
pondrs selon leur derreur
150
Comparaison des points forts / faibles

BAGGING
FORTS ALATOIRES
BOOSTING
Rduction de la variance par

moyenne de modles
Peut diminuer la variance et le

Idem bagging, mais avec une plus biais du classifieur de base
grande rduction de la variance Mais la variance peut augmenter
avec un classifieur de base stable
Perte de lisibilit sur des

arbres de dcision
Idem
Idem
Peu efficace sur les stumps Efficace sur les stumps
Trs efficace sur les stumps
Convergence plus rapide
Idem bagging
Convergence plus lente
Idem bagging
Algorithme squentiel ne
pouvant tre paralllis
Idem bagging
Risque de sur-apprentissage si le
nombre ditrations est grand
Les forts alatoires sont

toujours suprieures au bagging
et assez souvent plus que le
boosting (sauf si les prdicteurs
discriminants sont trs rares)
Le boosting est souvent plus

efficace que le bagging, du moins
sur les donnes non bruites
Possibilit de parallliser
lalgorithme
Pas de sur-apprentissage :
suprieur au boosting en
prsence de bruit
Le bagging est le plus simple
mettre en uvre mais est
gnralement moins
discriminant que les forts
alatoires et le boosting
07/02/2014
151
07/02/2014
152

Les questions dchantillonnage sont importantes, puisquelles
peuvent permettre de diminuer le volume de donnes et
dinfrer des conclusions gnrales partir dobservations
partielles
Mais la reprsentativit des chantillons est dlicate tablir, avec des
sources de donnes multiples, qui ne couvrent pas les mmes populations
et comportent un nombre important de valeurs manquantes
Il faut russir apparier les donnes et redresser les chantillons
Ltude des matrices en grande dimension survient avec des

matrices dont les lignes sont des clients et les colonnes des
produits tlchargs, achets ou recommands
Il peut aussi sagir de matrices reprsentant des relations entre individus
ou entre institutions financires cotes (rendements journaliers croiss
avec les rendements dcals) dans un contexte dtude du risque
systmique
Un autre axe de recherche porte sur la visualisation des

donnes en grande dimension
07/02/2014
153
De nouvelles problmatiques
Les donnes fonctionnelles sont des donnes qui ne sont pas
ponctuelles mais sont continues, comme des courbes ou des
images
Ces donnes se sont multiplies avec les progrs technologiques qui
permettent la collecte et le stockage dobservations de plus en plus
fines, captant en continu les informations sur un objet tudi
(mtorologique, environnemental, mdical, alimentaire)
Au lieu de discriminer des individus au vu de quelques caractristiques
des instants choisis, on na pas da priori sur le moment et la dure
des diffrences entre deux courbes dvolution
Dans les problmatiques lies au web, on ne recherche pas

systmatiquement des modles robustes et lisibles, mais des
modles construits rapidement sur des micro-segments
mouvants, afin de prdire les comportements ou les
prfrences dun petit nombre dinternautes
07/02/2014
154
p >> n
La rgression en grande dimension pose le problme
classique de slection des variables
On rencontre aussi, par exemple en bio-statistique
(squenage de lADN) ou en chimiomtrie (statistique
applique aux donnes chimiques), des situations o le
nombre de variables est suprieur, voire trs suprieur, au
nombre dindividus (on parle de tableaux plats), et o les
mthodes classiques de rgression ne sappliquent pas et
cdent la place des mthodes telles que la rgression
Lasso ou PLS
Le nombre de variables tudies peut varier entre 104 et
108, alors que le nombre d'observations est de quelques
centaines
07/02/2014
155
Nouvelles approches en machine learning

Les mthodes de machine learning (agrgation de modles,
SVM, rseaux de neurones) sont utilises pour leur pouvoir
prdictif lev, dans des situations o la lisibilit du modle
nest pas recherche et o leur caractristique bote noire
nest pas un inconvnient
Exemple dune librairie en ligne, qui veut proposer des titres
ses clients. Dans ce problme, les variables (titres dj achets)
sont excessivement nombreuses et crent des matrices creuses
difficiles modliser. Lapproche courante est de dcomposer la
clientle en un trs grand nombre de segments, ventuellement
des milliers, recalculs en permanence par des techniques
statistiques qui permettent de situer chaque client dans un petit
segment de clients ayant des gots proches. Ensuite, on lui
propose les titres souvent acquis par les autres clients de son
segment, que lui-mme naurait pas encore acquis. Ces calculs
sont refaits en permanence, sans recherche de segments et de
modles robustes et comprhensibles.
07/02/2014
156
Les mthodes dagrgation

Les mthodes d'agrgation, ou mthodes d'ensemble, ainsi que
le stacking, consistent combiner entre elles des mthodes
prdictives
Dans le stacking, on combine diffrentes mthodes ; dans les
mthodes dagrgation, on applique un grand nombre de fois la
mme mthode
Quand on agrge des modles prdictifs, parfois simplement en
faisant la moyenne de leurs prdictions, il vaut mieux agrger
des modles moins pousss, individuellement moins
performants, pour obtenir un modle final plus performant !
Cela vient de ce que les modles individuels plus pousss se
ressemblent plus, et que le gain de leur agrgation est beaucoup
moins grand
On touche ici au besoin de puissance du Big Data, car ces
mthodes peuvent tre trs gourmandes en temps de calcul
07/02/2014
157
Remarque sur les mthodes appliques au

Big Data
Toutes les mthodes utilises pour le Big Data ne sont pas trs
rcentes, et la plupart faisait du Big Data comme Monsieur
Jourdain : Par ma foi ! il y a plus de quarante ans que je dis de
la prose sans que j'en susse rien, et je vous suis le plus oblig du
monde de m'avoir appris cela. Molire, Le Bourgeois
gentilhomme, 1670
ct des mthodes classiques, on utilise des mthodes plus
modernes (les mthodes dagrgation par exemple) mais
aussi des perfectionnements trs rcents de mthodes
classiques (les mthodes pnalises , par exemple)
C'est comme la musique dite classique, qui ne s'est pas arrte
au XIXe sicle, et qui s'enrichit en permanence de nouvelles
uvres, certaines plus novatrices et originales que des uvres
de musique dite moderne (coutons par exemple Henri
Dutilleux)
07/02/2014
158
Algorithme PageRank 1/2

La structure dune base de donnes classique permet den
extraire des informations
Mais le Web est immense et peu structur
La recherche par mots-cls ne permet pas de limiter
suffisamment le nombre de rponses
Do la recherche dun algorithme pour trier les rponses selon
leur pertinence algorithme PageRank de Google
(cofondateur Larry Page)
Principe : classement des pages Web selon leur popularit sur le
Web, donc selon le nombre de lien pointant sur elles
Un lien dune page A vers une page B augmente le PageRank de
B
l'augmentation du PageRank de la page B est d'autant plus importante
que le PageRank de la page A est lev
l'augmentation du PageRank de la page B est d'autant plus importante
que la page A fait peu de liens
07/02/2014
159
Algorithme PageRank 2/2

Soient A1, A2, ..., An les pages pointant vers une page B, PR(Ak) le
PageRank de Ak, N(Ak) le nombre de liens sortants prsents sur
la page Ak, et d un facteur compris entre 0 et 1, souvent fix
0,85
PR(B) = (1-d) + { d x [ PR(A1)/N(A1) + ... + PR(An)/N(An) ] }
Si aucune page ne pointe vers B, alors PR(B) = 1-d
PR(Ak) = contribution de la page Ak lensemble des autres pages
Le PageRank dpend des liens et non des clics

Lalgorithme PageRank est inspir par le systme de rfrence
des publications universitaires dans lequel la valeur d'une
publication est dtermine par le nombre de citations que cette
publication reoit
Rfrence : Page, L., Brin, S., Motwani, R. and Winograd, T. (1998).
The pagerank citation ranking: bringing order to the web,
Technical report, Stanford Digital Library Technologies Project
07/02/2014
160
La dtection des rgles

dassociations
07/02/2014
161
Les recherches dassociations

Rechercher les associations consiste
rechercher les rgles du type :
Si pour un individu, la variable A = xA,
la variable B = xB, etc, alors, dans 80%
des cas, la variable Z = xZ, cette
configuration se rencontrant pour 20 %
des individus
La valeur de 80% est appele indice de
confiance et la valeur de 20% est appele
indice de support
Par exemple, dans lensemble de
transactions ci-contre :
T26
T1245
T156
T2356
T145
lindice de confiance de B E = 3/4

lindice de support de B E = 3/5
07/02/2014
162
Les associations : dfinitions

Une rgle est donc une expression de la forme :
> Si Condition alors Rsultat
Synonymes :
Condition = Antcdent
Rsultat = Consquent
Les lments dune rgle {A = xA, B = xB, ...} {Z = xZ} sont les items
Exemple :
>
Si riz et vin blanc, alors poisson
Lindice de support est la probabilit :

> Prob (condition et rsultat)
Lindice de confiance est la probabilit :
> Prob (condition et rsultat) / Prob (condition)
07/02/2014
163
Intrt dune rgle dassociation

Dans lexemple prcdent, on a :
indice de confiance de lassociation C B est 2/3
indice de support = 2/5
Or, Prob (B) = 0,8

B est prsent dans presque tous les tickets de caisse
Cette probabilit est suprieure lindice de confiance de

C B, ce qui fait que lon ne gagne rien utiliser la rgle
C B pour prdire B
Si lon suppose alatoirement quun ticket de caisse
contient B, on na qu1 chance sur 5 de se tromper,
contre 1 chance sur 3 en appliquant la rgle C B
07/02/2014
164
Lift dune rgle : mesure son intrt

Lamlioration apporte par une rgle, par rapport une
rponse au hasard est appele lift et vaut :
lift (rgle) = confiance (rgle) / Prob (rsultat)
= Prob (condition et rsultat) / [ Prob (condition) x Prob
(rsultat) ]
Quand le lift est < 1, la rgle napporte rien

car Prob (rsultat) > indice de confiance (rgle)
Exemples :
lift (C B) = 5/6 (rgle inutile)
lift (B E) = 5/4 (rgle utile)
07/02/2014
165
Lift de la rgle inverse

Il faut noter que si le lift de la rgle
Si Condition alors Rsultat
est < 1, alors le lift de la rgle inverse, c.a.d. de :

Si Condition alors NON Rsultat
est > 1, puisque :

confiance (rgle inverse) = 1 - confiance (rgle)
et
Prob (NON rsultat) = 1 - Prob (rsultat)
do Prob (NON rsultat) < confiance (rgle inverse)
Si une rgle nest pas utile, on peut donc essayer la rgle

inverse en esprant que cette dernire soit
intressante en termes de mtier ou de marketing
07/02/2014
166
Algorithme Apriori
Cest lalgorithme le plus rpandu (Agrawal et al.)
Il fonctionne en deux tapes :
il commence par rechercher les sous-ensembles ditems ayant une
probabilit dapparition (support) suprieure un certain seuil s
1e passe : limination des items moins frquents que s
2e passe : constitution des combinaisons de deux items parmi les
prcdents, et limination des combinaisons moins frquentes que s
etc : les ensembles frquents de taille n qui nous intressent sont ceux
provenant densembles de taille n 1 eux-mmes frquents
puis il tente de dcomposer chaque sous-ensemble sous une forme

{Condition Rsultat} telle que le quotient Prob (Condition et
Rsultat) / Prob (Condition) (indice de confiance), soit suprieur
un certain seuil
difficult : pour chaque sous-ensemble ditems E n lments, il y a 2n1 1
rgles de la forme A {E A}
optimisation dApriori pour lidentification des rgles conserver
07/02/2014
167
Mise en uvre
En pratique, les rgles demeurent trs nombreuses, et la plupart des
logiciels permettent de stocker ces rgles dans un fichier, dans lequel
il est possible de filtrer les rgles Condition Rsultat en de dun
certain indice de support, et de les trier selon leur support, leur
confiance ou leur lift
On est gnralement plus svre sur le seuil de confiance que de
support, surtout si lon recherche des rgles rares, et un exemple
courant de filtre sera 75 % pour la confiance et 5 % pour le support
(et bien sr 1 pour le lift)
Mme avec ces filtres, le nombre de rgles peut vite atteindre
plusieurs millions pour seulement quelques centaines ditems et
quelques milliers dobservations
Certains logiciels permettent dajouter un filtre sur le contenu des
rgles, pour ne conserver que celles qui contiennent un item donn
dans leur rsultat ou leurs conditions
Les logiciels permettent aussi de fixer une limite la taille des rgles :
on dpasse rarement 10 items
07/02/2014
168
Taxinomie : dfinition
Les produits peuvent tre dfinies avec un niveau plus ou
moins fin de dtail
On peut par exemple considrer :
les produits dpargne bancaire, financire
parmi les produits dpargne bancaire, les comptes de chques,
les livrets
parmi les livrets, les livrets A, les Codevi, les LEP
La taxinomie des produits est lensemble de ces niveaux
07/02/2014
169
Taxinomie : utilisation
Le niveau le plus fin permet dentreprendre des actions
commerciales plus prcises
Mais travailler au niveau le plus fin multiplie les rgles, parmi
lesquelles un grand nombre nauront quun faible support et
seront peut-tre limines
Travailler au niveau le plus gnral permet dobtenir

des rgles plus fortes
>
>
Les 2 points de vue ont leurs avantages et leurs

inconvnients
Il faut adapter le niveau de gnralit chaque produit, en
fonction notamment de sa raret
07/02/2014
170
Taxinomie : intrt
Les articles les plus rares et les plus chers (exemple :
micro-informatique ou HIFI dans un grand magasin) seront
codifis au niveau le plus fin
Les articles les plus courants (exemple : produits
alimentaires) seront codifis un niveau plus gnral
On regroupera par exemple tous les yaourts, fromages
blancs, flancs en produits laitiers , tout en distinguant
un tlviseur dun magntoscope ou dun camscope
Lintrt de cette faon de procder est dobtenir des
rgles plus pertinentes, dans lesquelles les articles les plus
courants ne dissimulent pas, par leur frquence, les articles
les moins courants
07/02/2014
171
Lanalyse du ticket de caisse

Cette technique est trs utilise dans la grande
distribution :
> do les termes danalyse du ticket de
caisse ou du panier de la mnagre
(market basket analysis) pour dsigner la
recherche dassociations
Autres usages :
associations doptions retenues dans les
produits packags (banque, tlphonie,
assurance)
web mining (analyse de la navigation sur un
site internet)
Difficults :
volumes de donnes importants
trouver des rgles intressantes noyes
parmi les rgles triviales ou non utilisables
07/02/2014
172
Utilisation de variables supplmentaires

En ajoutant des variables temporelles (jour et heure de la
transaction), on pourra rechercher lensemble des vnements
qui dbouchent sur lacquisition dun nouveau produit, sur le
dpart du client
En ajoutant le nom du fabricant, on pourra dtecter des
phnomnes dattachement une marque
Autres variables supplmentaires :
canal de distribution
mode de paiement
Le dveloppement des cartes de fidlit permet de croiser les

achats avec de nombreuses autres donnes : ge, adresse
07/02/2014
173
Conclusion
07/02/2014
174
Perspectives professionnelles
Finance
Rglementations Ble II (et Ble III)
volution des marchs boursiers
Marketing
Dont marketing direct et sur le web
tude des prfrences et des comportements des consommateurs
Revenue management
Assurance (scoring et actuariat)
Industrie
Contrle qualit
Industrie pharmaceutique, sant
Tests cliniques, pharmacovigilance, pidmiologie
Mdecine
Analyses de survie, causes, prvention et traitement des maladies
Environnement et Mtorologie
tudes sur le climat, la pollution
Recherche scientifique
07/02/2014
175
Le Big Data et lemploi

Le Big Data fait partie des 34 plans industriels lancs par le
gouvernement franais le 12 septembre 2013
Le Big Data a besoin de data scientists qui connaissent :
les enjeux mtiers (marketing, risque, production)
les technologies informatiques (architecture, algorithmes, logiciels)
les mthodes de statistique et de machine learning
Des centaines de milliers demplois de data scientists annoncs

dans le monde
Le manque de data scientists se fait sentir dans tous les pays.
On peut l'imputer la prise de conscience rcente du potentiel
recel par les donnes, et une valorisation encore insuffisante
du data scientist en entreprise.
Premires formations spcialises en 2013 aux USA et en
France
07/02/2014
176
Quelques liens
Site de la Socit Franaise de Statistique : www.sfds.asso.fr
Site de Gilbert Saporta (contenu riche, avec de nombreux cours) :
http://cedric.cnam.fr/~saporta/
Site de Philippe Besse (trs complet sur les statistiques et le data mining) :
www.math.univ-toulouse.fr/~besse/
Site du livre The Elements of Statistical Learning de Hastie, Tibshirani et
Friedman : http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Un livre complmentaire : http://www-bcf.usc.edu/~gareth/ISL/index.html
StatNotes Online Textbook (statistiques) :
www2.chass.ncsu.edu/garson/pa765/statnote.htm
Statistique avec R : http://zoonek2.free.fr/UNIX/48_R/all.html
Donnes relles : http://www.umass.edu/statdata/statdata/index.htm
Site dOlivier Decourt (spcialiste de SAS) : www.od-datamining.com/
Blog dArthur Charpentier : http://freakonometrics.blog.free.fr/
07/02/2014
177

Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF

Transféré par

Droits d'auteur :

Formats disponibles

COURS DE DATA MINING

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Stphane Tuffry - Usage rserv lUniversit Rennes 1

La slection des variables

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quest-ce que le data mining ?

Stphane Tuffry - Usage rserv lUniversit Rennes 1

On parle dextraire linformation de la donne

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les 2 types de mthodes de data mining

Les mthodes prdictives (modlisation) :

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les 2 principales familles de mthodes

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quest-ce que la classification ?

Utilisation en marketing, mdecine, sciences humaines

Les objets classer sont :

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Exemple : pour n = 30 objets, on a B30 = 8,47.1023

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Classement : la variable expliquer (ou cible , rponse ,

Prdiction : la variable expliquer est quantitative

Scoring : classement appliqu une problmatique

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quelques types de scores

Score de (comportement) risque

croisement des deux prcdents

Score doctroi (ou dacceptation)

prdire en temps rel les impays

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Tableau des mthodes descriptives

Tableau des mthodes prdictives

arbres de dcision (variable expliquer

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Statistique infrentielle et data mining

Data mining (depuis 1990) :

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quest-ce que le Big Data ?

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Lexplosion de la production de donnes

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Caractrisation des Big Data : les 3 V

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Caractrisation des Big Data : les 3 V

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Caractrisation des Big Data : les 3 V

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Le Big Data dInternet

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quelques exemples dutilisations de ces

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Quelques exemples dutilisations de ces

Informatique : surveillance des machines et rseaux, et

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les rseaux sociaux 1/3

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les rseaux sociaux 2/3

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Les rseaux sociaux 3/3

Stphane Tuffry - Usage rserv lUniversit Rennes 1

A quoi sert le data mining ?

Stphane Tuffry - Usage rserv lUniversit Rennes 1

Le data mining dans la banque