Vous êtes sur la page 1sur 43

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Prsentation de lauteur

En

charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 lUniversit ParisDauphine, lUniversit Rennes 1 et lISUP (Universit Paris 6) Docteur en Mathmatiques Auteur de : Data Mining et Scoring (puis), ditions Dunod, 2002 Data Mining et Statistique Dcisionnelle, ditions Technip,
2005, 2de dition 2007, prface de Gilbert Saporta Ouvrage consacr lapplication en entreprise des techniques et mthodologies de data mining et statistique
Stphane Tuffry - Data Mining - http://data.mining.free.fr

27/01/2009

Prsentation du cours

Cette

prsentation est issue de cours donns dans des DESS et Master 2 dconomtrie et dIngnierie Statistique entre 1999 et 2009. Ces enseignements ont ensuite trouv un dveloppement dans des ouvrages publis chez Dunod puis chez Technip. Ces cours sont donc consacrs aux techniques de data mining, de statistique dcisionnelle et de scoring, et leur mise en oeuvre en entreprise. Ils contiennent une introduction, une partie technique (prparation des donnes, analyse factorielle, rgression linaire, rgression logistique, GLM, analyse discriminante, arbres de dcision, rseaux de neurones, algorithmes gntiques, SVM, k-means et centres mobiles, CAH) et une partie mthodologique (conduite de projet, facteurs de succs, RSI, aspects informatiques, CNIL).
Stphane Tuffry - Data Mining - http://data.mining.free.fr 3

27/01/2009

Plan du cours

Quest-ce que le data mining ? A quoi sert le data mining ? Les deux grandes familles de techniques Le droulement dun projet de data mining Cots et gains du data mining Facteurs de succs - Erreurs - Consulting Informatique dcisionnelle et de gestion La prparation des donnes Techniques descriptives de data mining Techniques prdictives de data mining Logiciels de statistique et de data mining CNIL et limites lgales du data mining Le text mining Le web mining
27/01/2009 Stphane Tuffry - Data Mining - http://data.mining.free.fr 4

Quest-ce que le data mining ?

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Place du data mining

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

La fouille de donnes

Le data mining est lensemble des :



algorithmes et mthodes destins lexploration et lanalyse de (souvent) grandes bases de donnes informatiques en vue de dtecter dans ces donnes des rgles, des associations, des tendances inconnues (non fixes a priori), des structures particulires restituant de faon concise lessentiel de linformation utile pour laide la dcision

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Data mining statistiques descriptives

Les

techniques de data mining sont bien sr plus complexes que de simples statistiques descriptives :
outils dintelligence artificielle (rseaux de neurones) algorithmes sophistiqus (algorithmes gntiques, analyse relationnelle) thorie de linformation (arbres de dcision) beaucoup danalyse des donnes traditionnelle
(analyse factorielle, classification, analyse discriminante, etc.)

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Data mining et statistique 1/2

Hier :

tudes de laboratoire exprimentations cliniques actuariat analyses de risque - scoring

Volumes de donnes limits Analyse du rel pour mieux le comprendre :

les 1res observations permettent de formuler des hypothses thoriques que lon confirme ou infirme laide de tests statistiques

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Data mining et statistique 2/2

Aujourdhui :

de l petit (gnomique) l grand (astrophysique) du plus quotidien (reconnaissance de lcriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aronautique) du plus ouvert (e-commerce) au plus scuritaire (dtection de la fraude dans la tlphonie mobile ou les cartes bancaires) du plus industriel (contrle qualit) au plus thorique (sciences humaines, biologie) du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prvisions daudience TV)

Volumes de donnes importants Systmes daide la dcision


automatiques
27/01/2009

plus

ou

moins
10

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Des statistiques ...

Statistique : quelques centaines dindividus quelques variables recueillies avec un protocole spcial (chantillonnage, plan dexprience...) fortes hypothses sur les lois statistiques suivies les modles sont issus de la thorie et confronts aux donnes mthodes probabilistes et statistiques utilisation en laboratoire Analyse des donnes : quelques dizaines de milliers dindividus quelques dizaines de variables construction des tableaux Individus x Variables importance du calcul et de la reprsentation visuelle
Stphane Tuffry - Data Mining - http://data.mining.free.fr 11

27/01/2009

... au Data mining

Data mining : plusieurs millions dindividus plusieurs centaines de variables nombreuses variables non numriques, parfois textuelles donnes recueillies avant ltude, et souvent dautres fins donnes imparfaites, avec des erreurs de saisie, de codification, des valeurs manquantes, aberrantes population constamment volutive (difficult dchantillonner) ncessit de calculs rapides, parfois en temps rel on ne recherche pas toujours loptimum mathmatique, mais le modle le plus facile apprhender par des utilisateurs nonstatisticiens faibles hypothses sur les lois statistiques suivies les modles sont issus des donnes et on en tire des lments thoriques mthodes statistiques, dintelligence artificielle et de thorie de lapprentissage ( machine learning ) utilisation en entreprise
Stphane Tuffry - Data Mining - http://data.mining.free.fr 12

27/01/2009

Prhistoire

1875 1896 1900 1936 1941 1943 1944 1958 1962 1964 1965 1967 1972

: : : : : : : : : : : : :

rgression linaire de Francis Galton formule du coefficient de corrlation de Karl Pearson distribution du de Karl Pearson analyse discriminante de Fisher et Mahalanobis analyse factorielle des correspondances de Guttman rseaux de neurones de Mc Culloch et Pitts rgression logistique de Joseph Berkson perceptron de Rosenblatt analyse des correspondances de J.-P. Benzcri arbre de dcision AID de J.P.Sonquist et J.-A.Morgan mthode des centres mobiles de E. W. Forgy mthode des k-means de Mac Queen modle linaire gnralis de Nelder et Wedderburn
Stphane Tuffry - Data Mining - http://data.mining.free.fr 13

27/01/2009

Histoire

1975 : algorithmes gntiques de Holland 1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS 1983 : rgression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus 2001 : forts alatoires de L. Breiman
Stphane Tuffry - Data Mining - http://data.mining.free.fr 14

27/01/2009

Le data mining aujourdhui

Ces techniques ne sont pas toutes rcentes Ce qui est nouveau, ce sont aussi :

la recherche en IA et en thorie de lapprentissage les capacits de stockage et de calcul offertes par le matriel et les techniques informatiques modernes la constitution de giga-bases de donnes pour les besoins de gestion des entreprises les logiciels universels, puissants et conviviaux lintgration du data mining dans les processus de production

qui permettent de traiter de grands volumes de donnes


et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises
Stphane Tuffry - Data Mining - http://data.mining.free.fr 15 27/01/2009

Le data mining aujourdhui

Le data mining se rpand


particulirement dans les secteurs qui, par leur activit, dtiennent de nombreuses informations conomiques et comportementales individualises : VPC, grande distribution, tlphonie, banque... Selon le MIT (Massachussets Institute of Technology) : le data mining est lune des 10 technologies mergentes qui changeront le monde au XXIe sicle.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 16

27/01/2009

Data mining et CRM

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

17

Rappel : Gestion de la relation client

La richesse des entreprises : leurs clients Objectifs des entreprises :



augmenter la rentabilit et la fidlit de leurs clients en matrisant les risques en utilisant les bons canaux au bon moment pour vendre le bon produit la Gestion de la Relation Client (GRC) synonyme : Customer Relationship Management (CRM) 2 lments : CRM analytique, CRM oprationnel

Un des moyens dy parvenir :

Une matire 1re prcieuse : les donnes sur les clients


27/01/2009 Stphane Tuffry - Data Mining - http://data.mining.free.fr 18

CRM analytique et oprationnel

gestion des canaux

collecte des informations clients

gestion des campagnes


analyse des informations clients

CRM OPRATIONNEL

CRM ANALYTIQUE

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

19

Le CRM oprationnel

Objectif

mise en uvre optimale des stratgies identifies grce au CRM analytique gestion des diffrents canaux
forces commerciales, centres dappels tlphoniques, serveurs vocaux, Minitel, centres dappel web, bornes interactives, tlphonie mobile, TV interactive

Moyens

Composants

outils interfacs avec les applications de back-office, les progiciels de gestion intgre (ERP), les outils de workflow, de gestion des agendas et des alertes commerciales
Stphane Tuffry - Data Mining - http://data.mining.free.fr 20

gestion des campagnes marketing

27/01/2009

Le CRM analytique

Objectif

fournir une vision complte et unifie du client dans lentreprise et mieux comprendre son profil et ses besoins extraction, stockage, analyse informations pertinentes data warehouse data mart analyse multidimensionnelle (OLAP) data mining outils de reporting
Stphane Tuffry - Data Mining - http://data.mining.free.fr 21

Moyens
et restitution des

Composants

27/01/2009

Ce que lon veut savoir

On ne veut plus seulement savoir :

Combien de clients ont achet tel produit pendant telle priode ?

Mais :

Quel est leur profil ? Quels autres produits les intresseront ? Quand seront-ils intresss ?

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

22

Data mining statistiques descriptives

Les profils de clientle dcouvrir sont en gnral des


profils complexes : pas seulement des oppositions jeunes/seniors , citadins/ruraux que lon pourrait deviner en ttonnant par des statistiques descriptives, mais des combinaisons plus complexes qui ne pourraient pas tre dcouvertes par hasard.

>Le data mining fait passer



danalyses confirmatoires des analyses exploratoires.

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

23

Utilit du data mining

Mieux connatre le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidlit
(+ coteux dacqurir un client que le conserver)

La connaissance du client est encore plus utile dans le


secteur tertiaire :

les produits se ressemblent entre tablissements le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font la diffrence
Stphane Tuffry - Data Mining - http://data.mining.free.fr 24

27/01/2009

Applications du data mining au CRM

tudes dapptence dans les socits commerciales

pour concentrer les mailings et le phoning sur les clients les plus susceptibles de rpondre favorablement

Prdiction de lattrition dans la tlphonie mobile

attrition = dpart dun client pour un concurrent

Analyse du ticket de caisse dans les grandes surfaces

pour dterminer les produits souvent achets simultanment, et agencer les rayons et organiser les promotions en consquence

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Marketing one-to-one
Marketing traditionnel Client anonyme Produit standard Production en srie Publicit large diffusion Communication unilatrale Marketing 1:1 Client individualis Produit et service personnaliss Production sur mesure Message individuel Communication interactive

Ralisation dune vente, fort taux de souscription Fidlisation du client, faible taux dattrition Part de march Large cible Segmentation mtier Part de client Niche rentable Segmentation statistique canaux (plates-formes tlphoniques,

Canaux de distribution traditionnels, dconnects Nouveaux

Internet, mobiles), interconnects Marketing orient produit


27/01/2009

Marketing orient client


26

Stphane Tuffry - Data Mining - http://data.mining.free.fr

A quoi sert le data mining ?

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

27

Sondage sur www.kdnuggets.com


Sondage effectu en juin 2002

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

Sondage sur www.kdnuggets.com


Industries/fields where you successfully applied data mining in the past 3 years [149 replies, 421 votes total] Banking (51) Biotech/Genomics (11) Credit Scoring (35) CRM (52) Direct Marketing/ Fundraising (34) e-Commerce (11) Entertainment/ Music (4) Fraud Detection (31) Gambling (2) Government applications (12) Insurance (24) Investment / Stocks (5) Junk email / Anti-spam (5) Health care/ HR (15) Manufacturing (19) Medical/ Pharma (12) Retail (25) Science (17) Security / Anti-terrorism (5) Telecom (23) Travel/Hospitality (8) Web (9) Other (11) 27/01/2009 1% 1% 4% 5% 3% 6% 4% 1% 5% 2% 2% 0% 3% 6% 3% 1% 7% 8% 3% 8% 12% 12%

Sondage effectu en juillet 2005

Stphane Tuffry - Data Mining - http://data.mining.free.fr 3%

29

Sondage sur www.kdnuggets.com


In what industries/sectors were your data mining clients in 2007-2008? [100 voters] Banking (36) Financial (21) Telecom and wireless (20) Retail (18) Insurance (16) e-Commerce (15) Utilities (gas (13) Government (10) Pharma (9) Manufacturing (9) Health care/ HR (9) Biotech/Genomics (9) Travel/Hospitality (8) No clients (8) Investment / Stocks (8) Software (6) Other (6) Non-profit org (6) Security (5) Entertainment/ Music (5) Military (4) Mortgage/Lending (3) 36.0% 21.0% 20.0% 18.0% 16.0% 15.0% 13.0% 10.0% 9.0% 9.0% 9.0% 9.0% 8.0% 8.0% 8.0% 6.0% 6.0% 6.0% 5.0% 5.0% 4.0% 3.0% 2.0% Stphane Tuffry - Data Mining - http://data.mining.free.fr

Sondage effectu en mars 2008

27/01/2009 Law (2)

30

Sondage sur www.kdnuggets.com


Industries / Fields where you applied Data Mining in 2008: [107 voters] CRM/ consumer analytics (41) Banking (34) Fraud Detection (21) Finance (18) Direct Marketing/ Fundraising (15) Other (14) Investment / Stocks (14) Credit Scoring (14) Telecom / Cable (13) Retail (13) Advertising (13) Biotech/Genomics (12) Science (11) Insurance (11) Health care/ HR (10) Manufacturing (9) e-Commerce (8) Web usage mining (8) Social Policy/Survey analysis (8) Medical/ Pharma (8) Security / Anti-terrorism (6) Search / Web content mining (6) Government/Military (4) Travel / Hospitality (3) Junk email / Anti-spam (3) Entertainment/ Music (3) Social Networks (2) 38.3% 31.8% 19.6% 16.8% 14.0% 13.1% 13.1% 13.1% 12.1% 12.1% 12.1% 11.2% 10.3% 10.3% 9.3% 8.4% 7.5% 7.5% 7.5% 7.5% 5.6% 5.6% 3.7% 2.8% 2.8% 2.8% 1.9%

Sondage effectu en dcembre 2008

27/01/2009

None (2) Tuffry - Data Mining - http://data.mining.free.fr 1.9% Stphane

31

Le data mining dans la banque

Naissance du score de risque en 1941 (David Durand) Multiples techniques appliques la banque de dtail et
la banque des entreprises Surtout la banque de particuliers :

Essor d :

montants unitaires modrs grand nombre de dossiers dossiers relativement standards dveloppement des nouvelles technologies nouvelles attentes de qualit de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des socits de crdit pression mondiale pour une plus grande rentabilit surtout : nouveau ratio de solvabilit Ble 2
Stphane Tuffry - Data Mining - http://data.mining.free.fr 32

27/01/2009

Exemples bancaires

Utilisation du score de risque pour proposer le montant


de crdit le plus adapt chaque client Aide la dcision de paiement Meilleur taux de rponse des campagnes marketing Dcouverte de segments de clientle Adaptation de la communication marketing chaque segment de clientle Choix du meilleur canal de distribution Identification des clients susceptibles de partir la concurrence Calcul de la rentabilit et de la life time value

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

33

Le data mining dans lassurance IARD

Des produits obligatoires (automobile, habitation) : Do les sujets dominants :



attrition ventes croises (cross-selling) montes en gamme (up-selling) concurrence des nouveaux entrants (bancassurance) bases clients des assureurs traditionnels mal organises :
compartimentes par agent gnral ou structures par contrat et non par client
27/01/2009 Stphane Tuffry - Data Mining - http://data.mining.free.fr 34

soit prendre un client un concurrent soit faire monter en gamme un client que lon dtient dj

Besoin de dcisionnel d :

Le data mining dans la tlphonie

Deux vnements : Do les sujets dominants dans la tlphonie :


score dattrition (churn = changement doprateur) text mining (pour analyser les lettres de rclamation) optimisation des campagnes marketing score dimpays
cot dacquisition moyen en tlphonie mobile : 150 euros plus dun million dutilisateurs changent chaque danne doprateur
Stphane Tuffry - Data Mining - http://data.mining.free.fr 35

ouverture du monopole de France Tlcom arrive saturation du march de la tlphonie mobile

Problme du churn :

27/01/2009

Le data mining dans le commerce

VPC

utilise depuis longtemps des scores dapptence pour optimiser ses ciblages et en rduire les cots La Redoute envoie sa clientle 250 millions de documents par an personnalisation des pages dun site web en fonction du profil de chaque internaute optimisation de la navigation sur un site web dtermination des profils de consommateurs, du ticket de caisse , de leffet des soldes ou de la publicit dtermination des meilleures implantations (gomarketing)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 36

e-commerce Distribution

27/01/2009

Exemples mdicaux

Dterminer des segments de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque segment regroupant tous les patients ragissant identiquement Mettre en vidence des facteurs de risque ou de rmission dans certaines maladies. Choisir le traitement le + appropri Pronostic des infarctus et des cancers (dcs, survie) Prdire le temps de rtablissement aprs une opration, en fonction des donnes concernant le patient (ge, poids, taille, fumeur, mtier, antcdents mdicaux, etc.) et le praticien (nb doprations pratiques, nb dannes dexprience, etc.) Dcryptage du gnome Tests de mdicaments, de cosmtiques Prdire les effets sur la peau humaine de nouveaux cosmtiques, en limitant le nombre de tests sur les animaux
Stphane Tuffry - Data Mining - http://data.mining.free.fr 37

27/01/2009

Exemples divers

Contrle qualit

Prvisions de trafic routier (Bison fut), recherche des

recherche des facteurs expliquant les dfauts de la production

causes des accidents Prdiction des parts daudience pour une nouvelle mission de tlvision (BBC)
en fonction des caractristiques de lmission (genre, horaire, dure, prsentateur), des programmes prcdant et suivant cette mission sur la mme chane, des programmes diffuss simultanment sur les chanes concurrentes, des conditions mtorologiques, de lpoque de lanne et des vnements se droulant simultanment

Le classement en toile ou galaxie dun nouveau


corps cleste dcouvert au tlescope (systme SKICAT)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 27/01/2009

38

Les deux grandes familles de techniques

27/01/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

39

Les 2 types de techniques de DM

Les techniques descriptives :

visent mettre en vidence des informations prsentes mais caches par le volume des donnes (cest le cas des segmentations de clientle et des recherches dassociations de produits sur les tickets de caisse) rduisent, rsument, synthtisent les donnes il ny a pas de variable cible prdire. visent extrapoler de nouvelles informations partir des informations prsentes (cest le cas du scoring) expliquent les donnes il y a une variable cible prdire.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 40

Les techniques prdictives :


27/01/2009

Les 2 types de techniques de DM

Les techniques descriptives : Les techniques prdictives :



analyse factorielle classification automatique (clustering) recherche dassociations (analyse du ticket de caisse) classement/discrimination (variable cible qualitative)
analyse discriminante / rgression logistique arbres de dcision rseaux de neurones

prdiction (variable cible quantitative)


rgression linaire (simple et multiple) ANOVA, MANOVA, ANCOVA, MANCOVA (GLM) arbres de dcision rseaux de neurones
Stphane Tuffry - Data Mining - http://data.mining.free.fr 41

27/01/2009

Mthodes descriptives
type famille mthodes modles descriptives gomtriques
En gris : mthodes classiques

sous-famille analyse factorielle (projection sur un espace de dimension infrieure) analyse typologique (regroupement en classes homognes) analyse typologique + rduction dimens.

modles combinatoires modles base de dtection de liens rgles logiques


27/01/2009

algorithme analyse en composantes principales ACP (var. continues) analyse factorielle des correspondances AFC (var. qualitativ.) analyse des correspondances multiples ACM (var. qualitatives) mthodes de partitionnement (centres mobiles, k-means, nues dynamiques) mthodes hirarchiques classification neuronale (cartes de Kohonen) classification relationnelle (var. qualitatives) dtection dassociations
42

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Mthodes prdictives
type famille sous-famille algorithme

mthodes prdictives

modles base de rgles logiques modles base de fonctions mathmatiques

arbres de dcision rseaux de neurones

En gris : mthodes classiques

27/01/2009

prdiction sans modle

arbres de dcision (variable expliquer continue ou qualitative) rseaux apprentissage supervis : perceptron multicouches, rseau fonction radiale de base modles rgression linaire, ANOVA, MANOVA, paramtriques ANCOVA, MANCOVA, modle linaire ou semignral GLM, rgression PLS (variable paramtriques expliquer continue) analyse discriminante linaire, rgression logistique, rgression logistique PLS (variable expliquer qualitative) modle log-linaire, rgression de Poisson (variable expliquer discrte = comptage) modle linaire gnralis, modle additif gnralis (variable expliquer continue, discrte ou qualitative) k-plus proches voisins (k-NN)
43

Stphane Tuffry - Data Mining - http://data.mining.free.fr