DATA MINING
& STATISTIQUE DCISIONNELLE
27/01/2009
Prsentation de lauteur
En
charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 lUniversit ParisDauphine, lUniversit Rennes 1 et lISUP (Universit Paris 6) Docteur en Mathmatiques Auteur de : Data Mining et Scoring (puis), ditions Dunod, 2002 Data Mining et Statistique Dcisionnelle, ditions Technip,
2005, 2de dition 2007, prface de Gilbert Saporta Ouvrage consacr lapplication en entreprise des techniques et mthodologies de data mining et statistique
Stphane Tuffry - Data Mining - http://data.mining.free.fr
27/01/2009
Prsentation du cours
Cette
prsentation est issue de cours donns dans des DESS et Master 2 dconomtrie et dIngnierie Statistique entre 1999 et 2009. Ces enseignements ont ensuite trouv un dveloppement dans des ouvrages publis chez Dunod puis chez Technip. Ces cours sont donc consacrs aux techniques de data mining, de statistique dcisionnelle et de scoring, et leur mise en oeuvre en entreprise. Ils contiennent une introduction, une partie technique (prparation des donnes, analyse factorielle, rgression linaire, rgression logistique, GLM, analyse discriminante, arbres de dcision, rseaux de neurones, algorithmes gntiques, SVM, k-means et centres mobiles, CAH) et une partie mthodologique (conduite de projet, facteurs de succs, RSI, aspects informatiques, CNIL).
Stphane Tuffry - Data Mining - http://data.mining.free.fr 3
27/01/2009
Plan du cours
Quest-ce que le data mining ? A quoi sert le data mining ? Les deux grandes familles de techniques Le droulement dun projet de data mining Cots et gains du data mining Facteurs de succs - Erreurs - Consulting Informatique dcisionnelle et de gestion La prparation des donnes Techniques descriptives de data mining Techniques prdictives de data mining Logiciels de statistique et de data mining CNIL et limites lgales du data mining Le text mining Le web mining
27/01/2009 Stphane Tuffry - Data Mining - http://data.mining.free.fr 4
27/01/2009
27/01/2009
La fouille de donnes
27/01/2009
Les
techniques de data mining sont bien sr plus complexes que de simples statistiques descriptives :
outils dintelligence artificielle (rseaux de neurones) algorithmes sophistiqus (algorithmes gntiques, analyse relationnelle) thorie de linformation (arbres de dcision) beaucoup danalyse des donnes traditionnelle
(analyse factorielle, classification, analyse discriminante, etc.)
27/01/2009
Hier :
tudes de laboratoire exprimentations cliniques actuariat analyses de risque - scoring
les 1res observations permettent de formuler des hypothses thoriques que lon confirme ou infirme laide de tests statistiques
27/01/2009
Aujourdhui :
de l petit (gnomique) l grand (astrophysique) du plus quotidien (reconnaissance de lcriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aronautique) du plus ouvert (e-commerce) au plus scuritaire (dtection de la fraude dans la tlphonie mobile ou les cartes bancaires) du plus industriel (contrle qualit) au plus thorique (sciences humaines, biologie) du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prvisions daudience TV)
plus
ou
moins
10
Statistique : quelques centaines dindividus quelques variables recueillies avec un protocole spcial (chantillonnage, plan dexprience...) fortes hypothses sur les lois statistiques suivies les modles sont issus de la thorie et confronts aux donnes mthodes probabilistes et statistiques utilisation en laboratoire Analyse des donnes : quelques dizaines de milliers dindividus quelques dizaines de variables construction des tableaux Individus x Variables importance du calcul et de la reprsentation visuelle
Stphane Tuffry - Data Mining - http://data.mining.free.fr 11
27/01/2009
Data mining : plusieurs millions dindividus plusieurs centaines de variables nombreuses variables non numriques, parfois textuelles donnes recueillies avant ltude, et souvent dautres fins donnes imparfaites, avec des erreurs de saisie, de codification, des valeurs manquantes, aberrantes population constamment volutive (difficult dchantillonner) ncessit de calculs rapides, parfois en temps rel on ne recherche pas toujours loptimum mathmatique, mais le modle le plus facile apprhender par des utilisateurs nonstatisticiens faibles hypothses sur les lois statistiques suivies les modles sont issus des donnes et on en tire des lments thoriques mthodes statistiques, dintelligence artificielle et de thorie de lapprentissage ( machine learning ) utilisation en entreprise
Stphane Tuffry - Data Mining - http://data.mining.free.fr 12
27/01/2009
Prhistoire
1875 1896 1900 1936 1941 1943 1944 1958 1962 1964 1965 1967 1972
: : : : : : : : : : : : :
rgression linaire de Francis Galton formule du coefficient de corrlation de Karl Pearson distribution du de Karl Pearson analyse discriminante de Fisher et Mahalanobis analyse factorielle des correspondances de Guttman rseaux de neurones de Mc Culloch et Pitts rgression logistique de Joseph Berkson perceptron de Rosenblatt analyse des correspondances de J.-P. Benzcri arbre de dcision AID de J.P.Sonquist et J.-A.Morgan mthode des centres mobiles de E. W. Forgy mthode des k-means de Mac Queen modle linaire gnralis de Nelder et Wedderburn
Stphane Tuffry - Data Mining - http://data.mining.free.fr 13
27/01/2009
Histoire
1975 : algorithmes gntiques de Holland 1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS 1983 : rgression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus 2001 : forts alatoires de L. Breiman
Stphane Tuffry - Data Mining - http://data.mining.free.fr 14
27/01/2009
Ces techniques ne sont pas toutes rcentes Ce qui est nouveau, ce sont aussi :
la recherche en IA et en thorie de lapprentissage les capacits de stockage et de calcul offertes par le matriel et les techniques informatiques modernes la constitution de giga-bases de donnes pour les besoins de gestion des entreprises les logiciels universels, puissants et conviviaux lintgration du data mining dans les processus de production
27/01/2009
27/01/2009
17
analyse des informations clients
CRM OPRATIONNEL
CRM ANALYTIQUE
27/01/2009
19
Le CRM oprationnel
Objectif
mise en uvre optimale des stratgies identifies grce au CRM analytique gestion des diffrents canaux
forces commerciales, centres dappels tlphoniques, serveurs vocaux, Minitel, centres dappel web, bornes interactives, tlphonie mobile, TV interactive
Moyens
Composants
outils interfacs avec les applications de back-office, les progiciels de gestion intgre (ERP), les outils de workflow, de gestion des agendas et des alertes commerciales
Stphane Tuffry - Data Mining - http://data.mining.free.fr 20
27/01/2009
Le CRM analytique
Objectif
fournir une vision complte et unifie du client dans lentreprise et mieux comprendre son profil et ses besoins extraction, stockage, analyse informations pertinentes data warehouse data mart analyse multidimensionnelle (OLAP) data mining outils de reporting
Stphane Tuffry - Data Mining - http://data.mining.free.fr 21
Moyens
et restitution des
Composants
27/01/2009
Mais :
Quel est leur profil ? Quels autres produits les intresseront ? Quand seront-ils intresss ?
27/01/2009
22
27/01/2009
23
Mieux connatre le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidlit
(+ coteux dacqurir un client que le conserver)
les produits se ressemblent entre tablissements le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font la diffrence
Stphane Tuffry - Data Mining - http://data.mining.free.fr 24
27/01/2009
pour concentrer les mailings et le phoning sur les clients les plus susceptibles de rpondre favorablement
pour dterminer les produits souvent achets simultanment, et agencer les rayons et organiser les promotions en consquence
27/01/2009
25
Marketing one-to-one
Marketing traditionnel Client anonyme Produit standard Production en srie Publicit large diffusion Communication unilatrale Marketing 1:1 Client individualis Produit et service personnaliss Production sur mesure Message individuel Communication interactive
Ralisation dune vente, fort taux de souscription Fidlisation du client, faible taux dattrition Part de march Large cible Segmentation mtier Part de client Niche rentable Segmentation statistique canaux (plates-formes tlphoniques,
27/01/2009
27
27/01/2009
28
29
30
27/01/2009
31
Naissance du score de risque en 1941 (David Durand) Multiples techniques appliques la banque de dtail et
la banque des entreprises Surtout la banque de particuliers :
Essor d :
montants unitaires modrs grand nombre de dossiers dossiers relativement standards dveloppement des nouvelles technologies nouvelles attentes de qualit de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des socits de crdit pression mondiale pour une plus grande rentabilit surtout : nouveau ratio de solvabilit Ble 2
Stphane Tuffry - Data Mining - http://data.mining.free.fr 32
27/01/2009
Exemples bancaires
27/01/2009
33
soit prendre un client un concurrent soit faire monter en gamme un client que lon dtient dj
Besoin de dcisionnel d :
Problme du churn :
27/01/2009
VPC
utilise depuis longtemps des scores dapptence pour optimiser ses ciblages et en rduire les cots La Redoute envoie sa clientle 250 millions de documents par an personnalisation des pages dun site web en fonction du profil de chaque internaute optimisation de la navigation sur un site web dtermination des profils de consommateurs, du ticket de caisse , de leffet des soldes ou de la publicit dtermination des meilleures implantations (gomarketing)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 36
e-commerce Distribution
27/01/2009
Exemples mdicaux
Dterminer des segments de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque segment regroupant tous les patients ragissant identiquement Mettre en vidence des facteurs de risque ou de rmission dans certaines maladies. Choisir le traitement le + appropri Pronostic des infarctus et des cancers (dcs, survie) Prdire le temps de rtablissement aprs une opration, en fonction des donnes concernant le patient (ge, poids, taille, fumeur, mtier, antcdents mdicaux, etc.) et le praticien (nb doprations pratiques, nb dannes dexprience, etc.) Dcryptage du gnome Tests de mdicaments, de cosmtiques Prdire les effets sur la peau humaine de nouveaux cosmtiques, en limitant le nombre de tests sur les animaux
Stphane Tuffry - Data Mining - http://data.mining.free.fr 37
27/01/2009
Exemples divers
Contrle qualit
causes des accidents Prdiction des parts daudience pour une nouvelle mission de tlvision (BBC)
en fonction des caractristiques de lmission (genre, horaire, dure, prsentateur), des programmes prcdant et suivant cette mission sur la mme chane, des programmes diffuss simultanment sur les chanes concurrentes, des conditions mtorologiques, de lpoque de lanne et des vnements se droulant simultanment
38
27/01/2009
39
visent mettre en vidence des informations prsentes mais caches par le volume des donnes (cest le cas des segmentations de clientle et des recherches dassociations de produits sur les tickets de caisse) rduisent, rsument, synthtisent les donnes il ny a pas de variable cible prdire. visent extrapoler de nouvelles informations partir des informations prsentes (cest le cas du scoring) expliquent les donnes il y a une variable cible prdire.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 40
27/01/2009
27/01/2009
Mthodes descriptives
type famille mthodes modles descriptives gomtriques
En gris : mthodes classiques
sous-famille analyse factorielle (projection sur un espace de dimension infrieure) analyse typologique (regroupement en classes homognes) analyse typologique + rduction dimens.
algorithme analyse en composantes principales ACP (var. continues) analyse factorielle des correspondances AFC (var. qualitativ.) analyse des correspondances multiples ACM (var. qualitatives) mthodes de partitionnement (centres mobiles, k-means, nues dynamiques) mthodes hirarchiques classification neuronale (cartes de Kohonen) classification relationnelle (var. qualitatives) dtection dassociations
42
Mthodes prdictives
type famille sous-famille algorithme
mthodes prdictives
27/01/2009
arbres de dcision (variable expliquer continue ou qualitative) rseaux apprentissage supervis : perceptron multicouches, rseau fonction radiale de base modles rgression linaire, ANOVA, MANOVA, paramtriques ANCOVA, MANCOVA, modle linaire ou semignral GLM, rgression PLS (variable paramtriques expliquer continue) analyse discriminante linaire, rgression logistique, rgression logistique PLS (variable expliquer qualitative) modle log-linaire, rgression de Poisson (variable expliquer discrte = comptage) modle linaire gnralis, modle additif gnralis (variable expliquer continue, discrte ou qualitative) k-plus proches voisins (k-NN)
43