Vous êtes sur la page 1sur 126

Datamining

Des donnes la connaissance Extraction de connaissances partir de donnes (ECD)

Un tour dhorizon

ENSA
www.itech4you.com

ALLO
Extrait dune conversation tlphonique (relle) :
All, monsieur Kamel? Je travaille pour X et nous dsirons rencontrer tous les habitants de votre rue (sic). Quand pouvons-nous vous rencontrer pour vous parler de nos offres en matire dassurances ?

All

Le but de notre propos est de brosser par touches successives le portrait dune discipline nouvelle. Il sagit ainsi les avis couramment exprims par des utilisateurs et des fouilleurs de donnes , ainsi que les avis de la littrature.

Avant propos
Sleon une tdue de luvinersit de Cmabrigde, lodrre des ltteres dans un mot na pas dipmrotncae, la suele coshe ipmrotnate est que la pmeire et la drenire soenit la bnone palce. Le rsete puet rte dans un dsordre ttoal et vuos puoevz tujoruors lrie snas porlbme. Cest prace que le creaveu hmauin ne lit pas chuaqe lterre elle mme, mais le mot cmome un tuot. Cest dniuge, non?

Avant propos
Ne restez pas indfiniment sur la route qui ne

mne qu des endroits connus, abandonnez parfois les sentiers battus et entrez dans la fort, vous dcouvrirez certainement quelque chose que vous n'avez jamais vu, bien sur ce ne sera qu'une petite chose, mais prtez y attention, suivez la, explorez la, une dcouverte en amnera une autre, et avant mme de vous rendre compte, vous aurez mis a jour une ide intressante.
Alexander Graham Bell

Agenda

Prhistoire et Histoire Dfinitions, concepts et enjeux

Atelier 1

Apprentissage Supervis et non Supervis CRM Conclusion

Dfinition

Diffrence Qu'est ce que le sens pour des donnes informatiques?

Donnes

Information

Connaissance

Donnes Versus Information

D
onnes

I
formation

La donne est de l'information dshabille de sa valeur potentielle pour un agent. La donne est un fait alatoire.

L'information est l'habilit agir partir de ces faits alatoires.

Quest ce que le Datamining ?


Dans Datamining il y a Data = Donnes
1. Ce qui est donn, connu, dtermin lavance

dans lnonc dun problme, et qui sert dcouvrir ce qui est inconnu 2. Ce qui est admis, connu ou reconnu et qui sert de base un raisonnement de point de dpart pour une recherche ou une tude Source: Le Petit Robert
Donnes Client: Tout ce quon est en mesure de savoir sur chaque client priori

Quest-ce que le Data Mining


La richesse des entreprises rside dans leurs clients

(entreprises valorises sur la base de leur fichier clientle).


client = ??? Euros anticiper leurs besoins devient un objectif majeur (tt en maitrisant les risques et en utilisant les bons canaux au bon moment) Pour y parvenir, la matrise de linformation, fournie par les clients ou dtenue sur eux, est un lment primordial de succs (CRM). CRM (oprationnel, analytique et collaboratif).

Datamining :Concept
It is a process of discovering meaningful new correlations, patterns, trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies, statistical and mathematical techniques Gartner Group, 1995 Le datamining nest pas une technologie Le datamining nest pas un outil informatique

Datamining
AU CUR DE LINTELLIGENCE ECONOMIQUE (Business intelligence)
Veille commerciale Veille stratgique

Veille concurrentielle

Veille technologique

INDISPENSABLE AUX SYSTEMES DE VEILLE

Enjeu Entreprise du Datamining


La matrise de linformation et de la connaissance permet de :

Tirer parti dun avantage concurrentiel (dcider avant le concurrent) Raliser des conomies dchelles grce la rutilisation des mthodes Dployer les mthodes sur tous les domaines applicatifs Dvelopper les comptences, la capacit et lautonomie de rflexion et daction de lentreprise ( dcider en temps rel)

Processus de datamining
Processus (ISO 9000-1) : Transformation ajoutant

de la valeur et impliquant des personnes et dautres ressources

Lquation fondamentale :

Donnes + Processus = Information

Donnes

Processus

Information

Positionnement du datamining

Collecte Datawarehouse Interface S.I. Datamining Interface mtier Management dactivit Actions

Objet du datamining Un Processus permettant de :


Dcrire une situation partir de donnes connues Comprendre la situation , cest dire identifier les faits et relations de causes effets en relation avec la situation Modliser la situation , cest dire abstraire la situation en ne retenant que les faits et relations pertinents pour une reprsentation de la situation Prdire la situation partir des donnes nouvelles en utilisant le modle Exploiter la connaissance acquise pour agir

Les composants du processus Datamining Mthodes-Techniques


Donnes quantitatives et qualitatives
Slection par chantillonnage Analyse exploratoire des Arbres de dcision Modlisation de donnes Prvision - Prdiction

Rseaux neuronaux

donnes, visualisation Dtection dassociations ou de dviations Analyses factorielles Classifications Etc.

Donnes en language naturel


Analyse linguistique Exploitation linguistique Codification qualitative,

puis datamining sur donnes qualitatives

Enjeu Entreprise du Datamining

J. Welsh

Knowledge is the only competitive advantage


CEO General Electric

Datamining

2. Solution Datamining pour le management de la Connaissance Client Points Cls

Enjeux conomiques de la Connaissance Client (C.K.M. )


LEnjeu de la Connaissance fine et dtaille des clients est de crer, dvelopper, maintenir des relations profitables pour lentreprise et pour ses clients au moyen de techniques de management de linformation client permettant de :

dtecter des niches marketing dterminer des profils de clients modliser le comportement des clients dtecter des besoins et services nouveaux dtecter des potentiels conomiques de clients dtecter et expliquer les risques dinfidlit

Enjeux conomiques de la Connaissance Client (C.K.M. ) suite


dtecter et expliquer les risques dimpays dtecter et expliquer la QS perue par les clients dtecter les tendances des concurrents et des marchs damliorer la QS fournie aux clients damliorer la satisfaction des clients dtecter et expliquer la fraude ...

Le Datamining Client est un Processus de Management de lInformation Client


Le

datamining client est un processus de management des donnes client qui opre partir des donnes lmentaires pour produire de linformation, de la connaissance en vue dune action bien dtermine vis vis des clients

Le datamining nest pas un outil informatique

Exemples de Processus de Management de linformation Client


Donnes
Processus Information
Action
donnes marketing datamining client score de fidlit connatre pour fidliser les clients

Donnes
Processus
Information
Action

lettres de rclamations textmining client thmes dinsatisfaction notoire connatre pour amliorer la QS client

Exemples de Processus de Management de lInformation Client


Donnes
Processus Information
Action
donnes marketing datamining client score de risque client connatre pour se prvenir des mauvais payeurs

Donnes
Processus
Information
Action

donnes de facturation datamining client score de risque de fraude connatre pour se prvenir des fraudeurs

Processus de Management de lInformation Client/Action Client

Processus Marketing ou Support Client

Objectif Action Client

Processus de Management de linformation Client

Analyser linformation client

La Matire Premire de lEntreprise : Les Donnes Client


LInformation client est un Produit labor par un processus de transformation itratif, interactif partir de donnes clients lmentaires mise en lumire au cours dvnements :

Exemple : Etude de la Fidlit des Clients


Objectif : Identifier les clients

potentiellement infidles selon leur potentiel conomique et de mettre en place des actions marketing adaptes

Objectif du Datamining associ


Modliser le comportement dinfidlit des clients Estimer pour chaque client son risque dinfidlit Re-segmenter les clients au regard des risques

encourus

Les donnes Client :


Les donnes de la connaissance client - Les donnes de la concurrence

Donnes provenant de diffrentes sources



Donnes Donnes Donnes Donnes Donnes Donnes Marketing du service client de facturation de sondages, panels, enqutes de rclamations sur les concurrents

Toutes donnes permettant de connatre les

clients un un ainsi que leur environnement

Ide Directrice de la Connaissance


Rsumer linformation client en deux

composantes:
Un indicateur de risque dinfidlit par client Un indicateur de potentiel conomique par client

Indicateur de valeur conomique

Indice de fidlit

Processus de management de linformation Client

Situation t Slectionner les donnes pertinentes et corrlatives de la fidlisation

Situation t Modlisation des indices de fidlit et de valeur conomique

Situation t valuation des modles, choix d un modle

Situation t Calculer un indice de fidlisation et indice de valeur conomique par client (scoring)

Situation t Dterminer les actions en fonction des indices de fidlisation et de valeur des clients

Passage de la situation linstant t la situation linstant (t+1)

Situation t Implmenter les actions valuer les rsultats

Processus de management de linformation Client


Six tapes cls:
Etape 1
Dtecter les variables dterminantes
Construire les modles valuer les modles

Etape 2

Etape 3 Etape 4 Etape 5

Prdire les clients infidles selon leur valeur conomique Exploiter les modles valuer les rsultats des actions marketing

Etape 4

Exemple 2 : tude de Cas Telecom

Les donnes
1499 clients ayant rsili leur contrat

4804 clients en cours de contrat


Echantillon d apprentissage 1000 clients (786 fidles; 214 infidles) Echantillon de contrle : 2000 clients avec 3% d infidles

Exemple2
Objectif : Etude de la Q.S client au moyen des

lettres de rclamations

Text mining

= Datamining appliqu des donnes textuelles

QS Client et Text mining


La QS Client est un processus de management des

clients, itratif, interactif sappuyant sur un processus de management des lettres de rclamations des clients mettant en uvre des techniques de text mining client

Objectif du Text mining associ lAmlioration de la Q.S


Modliser le comportement de rclamation des

clients Dtecter les facteurs significatifs des rclamations Estimer pour chaque client son risque de rclamant Agir auprs des clients au regard des risques encourus

Ide Directrice de lAmlioration de la Q.S. Client


Modliser linformation rclamation client en deux

ensembles significatifs :
Un ensemble de thmes significatifs par client Un ensemble de mots cls significatifs par client

thmes significatifs

Mots cls significatifs

Les Donnes Client de la QS Donnes provenant de diffrentes sources



Donnes Donnes Donnes Donnes Donnes Etc. Marketing du service client de facturation de sondages, panels, enqutes de rclamations

Toutes donnes permettant de connatre les

clients un un ainsi que leur environnement

Processus de management de linformation de la QS client

Situation t Slectionner les Thmes pertinents et corrlatifs de la QS Client

Situation t Modlisation des Thmes et des Mots cls significatifs des rclamations

Situation t valuation du modle

Situation t Prdire les thmes en fonction des Mots cls Situation t Dterminer les actions en fonction des Thmes dinsatifaction des clients

Passage de la situation linstant t la situation linstant (t+1)

Situation t Implmenter les actions valuer les rsultats

Processus de management de linformation de la QS Client


Six tapes cls:
Etape 1
Dtecter les Thmes et les mots cls significatifs de la QS
Construire le modle de relation entre Thmes et Mots cls pour la QS Client valuer le modle de relation

Etape 2

Etape 3 Etape 4 Etape 5

Prdire les Thmes clients selon leurs Mots cls significatifs Exploiter le modle de QS Client

Etape 6

valuer les rsultats des actions de QS

Processus de Management de linformation Oriente Dcision


Univers de la dcision et de laction DECISION - MAKING
Plans dactions Actions Donnes existantes

Univers de la planification DATA PLANING


Objectifs Conception des donnes Conception des traitements Collecte des donnes

ACTION
Dcision Tableaux de bord Rapports Analyse diffre des donnes

PLAN

Enjeux
Dcision initiale

CHECK

DO

Contrle des donnes

Analyse immdiate des donnes

Import Saisie des donnes Gestion des donnes

DATA MINING Accs aux Univers de la Connaissance donnes

DATAWAREHOUSING Univers de la Gestion

Objectif du Datamining Client: Rappel

Customer Knowledge is the only competitive advantage

Proposition dune dfinition

Partir du niveau de dtail le plus fin dont on dispose mme si des agrgations seront ncessaires Le data mining est un processus li un objectif prcis de lentreprise Dans la pratique, les donnes rellement disponibles seront souvent le vrai facteur limitant

Dans le cadre dune mission donne, analyser les donnes dtailles pertinentes dont on dispose pour en dduire les actions les plus rationnelles, cest--dire dont la rentabilit sera probablement la meilleure.

Lutilisation faite des connaissances permet dvaluer les risques La critre conomique permet en dfinitive de mesurer la qualit des actions. Sil nest pas accessible directement, des critres dgrads seront utilises (ex: pages vues)

La connaissance qui aura t extraite de lanalyse des donnes conduit des actions concrtes

Pr-histoire

1875 : rgression linaire de Francis Galton 1896 : formule du coefficient de corrlation de Karl Pearson 1900 : distribution du de Karl Pearson 1936 : analyse discriminante de Fisher et Mahalanobis 1941 : analyse factorielle des correspondances de Guttman 1943 : rseaux de neurones de Mc Culloch et Pitts 1944 : rgression logistique de Joseph Berkson 1958 : perceptron de Rosenblatt 1962 : analyse des correspondances de J.-P. Benzcri 1964 : arbre de dcision AID de J.P.Sonquist et J.-A.Morgan 1965 : mthode des centres mobiles de E. W. Forgy 1967 : mthode des k-means de Mac Queen 1972 : modle linaire gnralis de Nelder et Wedderburn

Histoire

1975 : algorithmes gntiques de Holland 1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS 1983 : rgression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus 2001 : forts alatoires de L. Breiman

Quest-ce que le data mining


Processus inductif, itratif et interactif de

dcouverte dans les BD larges de modles de donnes valides, nouveaux, utiles et comprhensibles. Itratif : ncessite plusieurs passes Interactif : lutilisateur est dans la boucle du processus Valides : valables dans le futur Nouveaux : non prvisibles Utiles : permettent lutilisateur de prendre des
dcisions Comprhensibles : prsentation simple

Schma dinfrence: Notion dAbduction, Dduction et Induction


Cette technique est notamment utilise dans les outils daide au diagnostic mdical pour dcouvrir la maladie la plus probable depuis une liste de symptmes Raisonnement qui conclut partir de prmisses et dhypothses la vrit dune proposition en usant des rgles dinfrence

Abduction
Toutes les voitures ont 4 roues La Peugeot 206 a 4 roues ==> La Peugeot 206 est une voiture
Il faut cependant tre trs vigilant avec ce type de raisonnement car il peut produire des rsultats aberrants ou triviaux : Toutes les voitures ont un moteur, lAirbus 320 a un moteur lAirbus 320 est une voiture.

Dduction
Toutes les voitures ont 4 roues La Peugeot 206 est une voiture ==> La Peugeot 206 a 4 roues
Cest le type de raisonnement le plus utilis et le plus familier. Son atout majeur est quil ne laisse pas de place au doute

Schmas dinfrence

La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190 a 4 roues ==> Toutes les voitures ont 4 roues

Gnralisation dune observation ou dun raisonnement tablis partir de cas singuliers. Utilise en Data mining (tirer une conclusion partir d une srie de faits, pas sre 100%)

Induction

Motivations (1)
Explosion des donnes

Masse importante de donnes (millions de milliards


dinstances) : elle double tous les 20 mois.
BD trs larges - Very Large Databases (VLDB)

Donnes multi-dimensionnelles (milliers dattributs)


BD denses

Inexploitables par les mthodes danalyse classiques Collecte de masses importantes de donnes
(Gbytes/heure)
Donnes satellitaires, gnomiques (micro-arrays, ), simulations scientifiques, etc.

Besoin de traitement en temps rel de ces donnes

Motivations (2)
Amliorer la productivit

Forte pression due la concurrence du march Brivet du cycle de vie des produits Besoin de prendre des dcisions stratgiques efficaces
Exploiter le vcu (donnes historiques) pour prdire le futur et anticiper le march individualisation des consommateurs (d-massification).

Croissance en puissance/cot des machines

capables de supporter de gros volumes de donnes dexcuter le processus intensif dexploration htrognit des supports de stockage

Motivations (3)

Masse importante de donnes supports htrognes

Le processus de dcouverte de connaissances


Data mining : coeur de KDD (Knowledge Data Discovery).
Prparation des donnes

Data Warehouse Collecte Nettoyage Intgration

Donnes apprentissage

Datamining
Vrification et Evaluation

Modles, Patterns

Source de donnes

Dmarche mthodologique (1)


Comprendre lapplication Connaissances a priori, objectifs, etc. Slectionner un chantillon de donnes Choisir une mthode dchantillonnage Nettoyage et transformation des donnes Supprimer le bruit : donnes superflues, marginales, donnes manquantes, etc. Effectuer une slection dattributs, rduire la dimension du problme, etc. Appliquer les techniques de fouille de donnes Choisir le bon algorithme

Dmarche mthodologique (2)


Visualiser, valuer et interprter les modles

dcouverts Analyser la connaissance (intrt) Vrifier sa validit (sur le reste de la base de donnes) Ritrer le processus si ncessaire Grer la connaissance dcouverte La mettre la disposition des dcideurs Lchanger avec dautres applications (systme expert,
) etc.

Data Mining et aide la dcision


Potentiel de support de dcision
Utilisateur(s)
Dcideur(s)
Prise de dcisions Prsentation des connaissances Techniques de visualisation DataMining Dcouverte de connaissances

Analyste(s) de donnes

Exploration de donnes (Statistique, Requtes, ) Administrateur de Bases de donnes

Data Warehouses (OLAP, )

Sources de donnes (Papier, Fichiers, Fournisseurs dinformation, SGBD, )

Objectifs
Dvelopper des techniques et systmes efficaces et

extensibles pour lexploration de : BD larges et multi-dimensionnelles Donnes distribues


Faciliter lutilisation des systmes de DM

Limiter lintervention de lutilisateur Reprsentation simple de la connaissance Visualisation sous forme exploitable

Communauts impliques
Intelligence artificielle et apprentissage Bases de donnes Analyse de donnes (statistiques) Visualisation Recherche oprationnelle et optimisation Informatique parallle et distribue Etc.

Domaines dapplication
Prise de dcision

base sur de nouvelles connaissances Ex., impact sur le marketing Le rle et limportance du KDD et DM est de plus en plus important Mais le DM nest pas seulement dans le marketing...

Domaines dapplication
Marketing direct : population cibler (ge, sexe,

profession, habitation, rgion, ) pour un publipostage. Gestion et analyse des marchs : Ex. Grande distribution : profils des consommateurs, modle d achat, effet des priodes de solde ou de publicit, panier de la mnagre Dtection de fraudes : Tlcommunications, ... Gestion de stocks : quand commander un produit, quelle quantit demander, Analyse financire : maximiser l investissement de portefeuilles d actions.

Domaines dapplication
Gestion et analyse de risque : Assurances, Banques

(crdit accord ou non) Compagnies ariennes Bioinformatique et Gnome : ADN mining, Mdecine et pharmacie : Diagnostic : dcouvrir daprs les symptmes du
patient sa maladie Choix du mdicament le plus appropri pour gurir une maladie donn
Web mining, text mining: pour analyser les lettres

de rclamation.

Domaines dapplication et % 13% : La banque 9% : Les tlcommunications 9% : Le e-commerce 8% : La dtection des fraudes 8% : Les tudes scientifiques 7% : Le marketing direct 6% : Lassurance 6% : La distribution 5% : La biologie 5% : Lindustrie pharmaceutique

Exemple 1 - Marketing
Vous tes gestionnaire marketing dun

oprateur de de tlcommunications mobiles : Les clients reoivent un tlphone gratuit


(valeur 150) avec un contrat dun an ; vous payer une commission de vente de 250 par contrat Problme : Taux de renouvellement ( la fin du contrat) est de 25% Donner un nouveau tlphone toute personne ayant expirer son contrat cote cher. Faire revenir un client aprs avoir quitter est difficile et coteux.

Exemple 1 - Marketing
Trois

mois avant contrat lexpiration du contrat, prdire les les clients qui vont quitter:

Si vous voulez les garder, offrir un nouveau tlphone.


Yippee! Je reste !

Exemple 2 - Assurances
Oh,oui! Jaime ma Ferrari!

Vous tes un agent dassurance

et vous devez dfinir un paiement mensuel adapt un jeune de 18 ans qui a achet une Ferrari.
Quest ce quil faut faire ?

Exemple 2 - Assurances
Analyser

les donnes de tous les clients de la compagnie. La probabilit davoir un accident est base sur ?
Sexe du client (M/F) et lge Modle de la voiture, ge, adresse, .... etc.
Si la probabilit davoir un accident

est suprieure la moyenne, initialiser la mensualit suivant les risques.

Exemple 3: Bancaire
compagnies bancaires le scoring, pour mieux cibler les propositions de prts et viter les surendettements (et donc les mauvais payeurs).

Vous tes ltranger et quelquun a vol votre carte de crdit ou votre mobile : Utiliser les donnes historiques pour construire un modle de comportement frauduleux et utiliser le data mining pour identifier des instances similaires.

Exemple4 Tlcom
compagnies tlphoniques prdiction de lattrition (usure, churn en anglais), cest-dire le changement doprateur.

Analyser les patterns qui drivent du comportement attendu (destinataire, dure, etc.)

Exemple 5 - Web mining et e-commerce


50% des clients dun constructeur de machine achtent ses

machines travers le web. Mais seulement 0,5% des visiteurs du site deviennent clients. Lide est de stocker les squences de click des visiteurs et danalyser les caractristiques des acheteurs pour adapter le contenu du site.
Les logs des accs Web sont analyss pour

Dcouvrir les prfrences des utilisateurs Amliorer lorganisation du site Web De manire similaire Lanalyse de tous les types dinformations sur les logs Adaptation de linterface utilisateur/service
bonne exprience de surfing!

Paramtres dun processus KDD


Format, Type ? Technique?

Donnes dapprentissage

Data Mining

Tche?

Type de reprsentation ?

Modles Paterns

Les donnes
Valeurs des champs des enregistrements des tables

de lentrept (base de donnes) Types :


Donnes discrtes : donnes binaires (sexe, ), donnes numratives (couleur, ), numratives ordonnes (rponses 1:trs satisfait, 2:satisfait, ). Donnes continues : donnes entires ou relles (ge, salaire, ) Dates Donnes textuelles Pages/liens web, Multimdia,

Les mthodes
Nous ne prsentons que certaines mthodes qui

viennent complter les outils classiques que sont : les requtes SQL, les requtes analyse croise, les outils de visualisation, la statistique descriptive et l'analyse des donnes. Les mthodes choisies qui seront dtailles dans les sections suivantes sont :

un algorithme pour la segmentation, les rgles d'association, (Knime, Clementine, Tanagra) les plus proches voisins (raisonnement partir de cas), les arbres de dcision, (Knime, Tanagra, Weka) les rseaux de neurones, les algorithmes gntiques.
Il n'existe pas de mthode suprieure toutes les autres

f(Donnes, Mthodes)
Par consquent, tout jeu de donnes et tout

problme correspond une ou plusieurs mthodes. Le choix se fera en fonction



de la tche rsoudre, de la nature et de la disponibilit des donnes, des connaissances et des comptences disponibles, de la finalit du modle construit. Pour cela, les critres suivants sont importants : complexit de la construction du modle, complexit de son utilisation, ses performances, sa prennit, et, plus gnralement, de l'environnement de l'entreprise.

Tches du Data Mining

La classification (clustering) Lestimation La prdiction Le groupement par similitudes

Analyse des clusters La description


Classification Clustering (Segmentation) Recherche dassociations Recherche de squences Dtection de dviation

Les tches du DM

Classification
Elle permet de prdire si une instance de donne

est membre dun groupe ou dune classe prdfinie. Classes


Groupes dinstances avec des profils particuliers Apprentissage supervis : classes connues lavance Applications : marketing direct (profils des consommateurs), grande distribution (classement des clients), mdecine (malades/non malades), etc. Exemple : les acheteurs de voitures de sport sont de jeunes citadins ayant un revenu important

Encore

Classification

Consiste examiner les caractristiques d'un objet

et lui attribuer une classe, la classe est un champ particulier valeurs discrtes. Des exemples de tche de classification sont :

attribuer ou non un prt un client, tablir un diagnostic, accepter ou refuser un retrait dans un distributeur, attribuer un sujet principal un article de presse, ...

Estimation
consiste estimer la valeur d'un champ partir des

caractristiques d'un objet. Le champ estimer est un champ valeurs continues. L'estimation peut tre utilise dans un but de classification. Il suffit d'attribuer une classe particulire pour un intervalle de valeurs du champ estim. Des exemples de tche d'estimation sont :
noter un candidat un prt ; cette estimation peut tre utilise pour attribuer un prt (classification), par exemple, en fixant un seuil d'attribution, estimer les revenus d'un client.

Prdiction
consiste estimer une valeur future. En gnral,

les valeurs connues sont historises. On cherche prdire la valeur future d'un champ. Cette tche est proche des prcdentes. Les mthodes de classification et d'estimation peuvent tre utilises en prdiction. Des exemples de tche de prdiction sont :
prdire les valeurs futures d'actions, prdire au vu de leurs actions passes les dparts de clients.

Clustering (Segmentation)
Partitionnement logique de la base de donnes en

clusters Clusters : groupes dinstances ayant les mmes


caractristiques Apprentissage non supervis (classes inconnues) Pb : interprtation des clusters identifis Applications : Economie (segmentation de marchs), mdecine (localisation de tumeurs dans le cerveau), etc.

Rgles dassociation
Corrlations (ou relations) entre attributs (mthode

non supervise) Applications : grande distribution, gestion des stocks, web (pages visites), etc. Exemple

BD commerciale : panier de la mnagre Articles figurant dans le mme ticket de caisse Ex : achat de riz + boisson==> achat de poisson Le client qui achte de la peinture achte un pinceau Le client qui achte un tlviseur achte un magntoscope sous 5 ans.

Les tches du DM: LEstimation


La classification se rfre des vnements

discrets Lestimation se rfre des valeurs continues. Estimer une valeur continue qui dcrit un objet revient classer cet objet dans un ensemble partitionn en un nombre infini de classes. Exemple :
la dure de vie d un client la probabilit de rponse un mailing

Les tches du DM: La prdiction


La prdiction est assimilable au classement ou

lestimation mais les objets sont classs en fonction d un comportement futur prdit On ne peut vrifier la prcision de la classification ou de lestimation quaprs coup Exemple
Prdiction des clients qui vont disparatre dans les six mois. Prdiction dun volume de vente dun produit dans les mois qui suivent.

Les tches du DM : Le groupement par similitudes


Il sagit de regrouper des objets qui vont

naturellement ensemble pour dfinir des rgles d association Exemples :


Dans un supermarch, dterminer les choses qui se retrouvent dans un mme caddie Dans une base de donnes de cinphiles, trouver les associations entre les films

Les tches du DM : Lanalyse de clusters


Lanalyse de clusters permet de dcouper

postriori un population htrogne en classes homognes La signification des clusters forms par la mthode est dcouvrir par ailleurs. Exemples :
En fonction de critres d achats d une voiture, faire une segmentation des acheteurs En fonction des notes obtenues dans les diffrentes matires, faire une segmentation des tudiants

Les tches du DM : La description


Il sagit de dcrire les donnes pour essayer de

dcouvrir et de comprendre le processus qui est lorigine de ces donnes Il sagit souvent du dmarrage dune tude o on a peu de connaissances sur le phnomne tudi. Cette description permet denchaner sur une ou plusieurs des tches prcdentes.

Data mining et CRM

Rappel : Gestion de la relation client


La richesse des entreprises : leurs clients Objectifs des entreprises : augmenter la rentabilit et la fidlit de leurs clients en matrisant les risques en utilisant les bons canaux au bon moment pour vendre le bon produit Un des moyens dy parvenir : la Gestion de la Relation Client (GRC) synonyme : Customer Relationship Management (CRM) 2 lments : CRM analytique, CRM oprationnel Une matire 1re prcieuse : les donnes sur les

clients

CRM analytique et oprationnel

gestion des canaux

collecte des informations clients

gestion des campagnes

analyse des informations clients

CRM OPERATIONNEL

CRM ANALYTIQUE

Le CRM oprationnel
Objectif

mise en uvre optimale des stratgies identifies


grce au CRM analytique
Moyens

gestion des diffrents canaux


forces commerciales, centres dappels tlphoniques, serveurs vocaux, Minitel, centres dappel web, bornes interactives, tlphonie mobile, TV interactive

gestion des campagnes marketing Composants outils interfacs avec les applications de back-office,
les progiciels de gestion intgre (ERP), les outils de workflow, de gestion des agendas et des alertes commerciales

Le CRM analytique
Objectif fournir une vision complte et unifie du client dans lentreprise et mieux comprendre son profil et ses besoins Moyens extraction, stockage, analyse et restitution des informations pertinentes Composants data warehouse data mart analyse multidimensionnelle (OLAP) data mining outils de reporting

Ce que lon veut savoir


On ne veut plus seulement savoir : Combien de clients ont achet tel produit pendant telle priode ?

Mais : Quel est leur profil ? Quels autres produits les intresseront ? Quand seront-ils intresss ?

Data mining statistiques descriptives


Les profils de clientle dcouvrir sont en gnral des

profils complexes : pas seulement des oppositions jeunes/seniors , citadins/ruraux que lon pourrait deviner en ttonnant par des statistiques descriptives, mais des combinaisons plus complexes qui ne pourraient pas tre dcouvertes par hasard.

Le data mining fait passer


danalyses confirmatoires des analyses exploratoires.

Utilit du data mining


Mieux connatre le client pour mieux le servir

pour augmenter sa satisfaction pour augmenter sa fidlit


(+ coteux dacqurir un client que le conserver)

La connaissance du client est encore plus utile dans

le secteur tertiaire :
les produits se ressemblent entre tablissements le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font la diffrence

Applications du data mining au CRM


tudes dapptence dans les socits commerciales pour concentrer les mailings et le phoning sur les clients les plus susceptibles de rpondre favorablement Prdiction de lattrition dans la tlphonie mobile attrition = dpart dun client pour un concurrent Analyse du ticket de caisse dans les grandes

surfaces
pour dterminer les produits souvent achets simultanment, et agencer les rayons et organiser les promotions en consquence
Lapptence exprime le dsir dusage ou dachat ressenti par lindividu pour un produit ou une marque. Elle peut tre notamment mesure par des questions relatives aux intentions dachats. Il est galement possible de dfinir un score dapptence en appliquant une mthode de scoring un fichier qualifi. Ce score dapptence traduit une probabilit dachat plus ou moins forte.

Marketing one-to-one
Marketing traditionnel
Client anonyme Produit standard Production en srie Publicit large diffusion Communication unilatrale Ralisation dune vente, fort taux de souscription Part de march Large cible Segmentation mtier Canaux de distribution traditionnels, dconnects Marketing orient produit

Marketing 1:1
Client individualis Produit et service personnaliss Production sur mesure Message individuel Communication interactive Fidlisation du client, faible taux dattrition Part de client Niche rentable Segmentation statistique Nouveaux canaux (plates-formes tlphoniques, Internet, mobiles), interconnects Marketing orient client

Conclusion

55%
Jattends la suite pour comprendre

12.4%
Je nai pas trop compris

10.6%
Jtais absent

22%
Jai compris et jattends la suite pour confirmer

Lanalyse des paniers de la mnagre ou (market basket analysis)


Dcouverte de rgles dassociation

ENSA
www.itech4you.com

Agenda

Dfinitions et Concepts Motifs Frquents et Algorithme Apriori

Atelier 2

Generation des rgles dassociation Illustration Exercice

Analyse du panier de la mnagre APM

Appele galement recherche d'associations, l'analyse du panier de la mnagre (APM) est un processus de dcouverte de connaissances non dirige. Cette technique permet, comme l'indique son nom, d'tudier quels articles ont tendance tre achets ensembles et lesquels seront le mieux adapts pour mettre en uvre des techniques commerciales. Bien qu'elle soit issue du secteur de la distribution, on peut nanmoins appliquer cette technique ds lors que plusieurs actions sont effectues par un mme individu. Le systme gnre des rgles d'association de forme "Si action1 ou condition alors action2". Elles peuvent se situer dans le temps : "Si action1 ou condition l'instant t1 alors action2 l'instant t2". Enfin elles sont assorties d'une mtrique de confiance. Exemples de rgles: Si achat de riz et de coca, alors achat de poisson (84%) Si maladie X et traitement Y alors gurison (97%) Si maladie X et traitement Y alors gurison dans Z annes (97%) Si achat de tlviseur alors achat de magntoscope dans les 5 ans (45%) Si condition1 et condition2 alors fraudeur (62%) Si prsence et travail alors russite l'examen (99,9%)

Illustration
Exemple
Un complexe cinmatographique a dcid de fidliser son public en lanant la carte d'abonnement au cinma dit 'illimit'. Les films vus par chaque cinphile sont enregistrs dans une base de donnes a chaque fois que le client se prsente au guichet. Elle est exploite par la suite pour comprendre les attitudes de consommation du cinma, les types de films les plus prises par le public, les heures auxquelles les gens prfrent venir voir un film, etc.

Illustration
La table D est un extrait (fictif) et donne pour chaque

cinphile identifi par un numro tid, l'ensemble des films qu'il a vus durant le mois courant. Les films concerns sont donns dans la table T. Par exemple la ligne d'identificateur tid=1 de D concerne un client ayant vu dans le mois les deux films suivants : Harry Potter et Star Wars II .

Reprsentation d'une base transactionnelle


Une base de donnes transactionnelle peut tre

reprsente sous forme horizontale, verticale ou boolenne.

Dfinitions
Frquence:

La frquence d'un itemset X, note freq(X), est le nombre de transactions de D contenant X :

Exemple
Dans l'exemple prcdent, on a freq(ab)= 2, vu que l'itemset ab apparat dans les transactions 1 et 5 de D.

Support:

Le support d'un itemset X, note supp(X) est la proportion de transactions de D contenant X :

Le support prend sa valeur dans l'intervalle [0,1]. Exemple


On a supp(ab)= 0.4(= 40%) vu que l'itemset ab apparat dans deux transactions parmi 5 de D.

Dfinitions
Itemset frequent

Etant donne un seuil , appel support minimum, un itemset X est dit frquent (relativement a ) dans une base de transactions D, si son support dpasse un seuil fix a priori appel support minimum et note . X est frquent ssi supp(X) Exemple Dans l'exemple prcdent, pour un support de = 40%, l'itemset cd de support gal a 3/5 = 60% est frquent. ItemSet On appelle itemset tout sous-ensemble d'items de I.
Un itemset constitue de k items sera appel un k-itemset. Pour simplfier, on crira un itemset sans les accolades et sans les virgules sparant les lments de l'ensemble. Litemset {a, b, c} est un 3-itemset not abc.

Proprit
Proprit d'antimonotonicit: Tout sous-ensemble d'un itemset frquent est un itemset frquent.

Treillis
Un ensemble ordonne (T, ) est un treillis si toute paire dlments de T possde une borne inferieure et une borne suprieure. On dsignera par la suite la borne inferieure de la paire (x,y) par (x ^ y) et la borne suprieure par (x V y).

suite

Espace de recherche 1234 1235

12345

1245

1345

2345

123 124

125

134 135 145 234 235 245 345

12

13

14

15

23

24

25

34

35

45

Algorithme Apriori
Le premier algorithme dextraction de rgles dassociation

dans les bases de donnes transactionnelles.


Le problme consiste gnrer toutes les rgles

dassociation solides liant les itemsets frquents entre eux.


Apriori

se base essentiellement sur la proprit d'antimonotonicit existant entre les itemsets. En effet, cette proprit est utilise a chaque itration de l'algorithme Apriori afin de diminuer le nombre d'itemsets candidats considrer. Afin d'optimiser la gnration d'itemsets candidats et le calcul de leurs supports, on suppose dans Apriori que les itemsets sont ordonns par ordre lexicographique

Agrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules . In : Proc. 20th Int. Conf. Very Large Data Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) et Zaniolo (Carlo). pp. 487-499. Morgan Kaufmann, 1994.

Extraction de motifs frquents


Lalgorithme utilise une approche itrative par niveaux pour

gnrer les itemsets frquents.


Pour cela, le treillis des itemsets est explore en largeur

d'abord. Apriori effectue chaque itration k, un passage dans la base de transactions afin de calculer le support de chaque k-itemset.
l'ensemble des k-itemsets candidats (i.e. dont on ne connat

pas encore le support dans D) sera dnot par Ck et lensemble des k-itemsets frquents de taille k par Fk.

Extraction de motifs frquents

Algorithme Apriori

Agrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules. In : Proc. 20th Int. Conf. Very Large Data Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) et Zaniolo (Carlo). pp. 487{499. { Morgan Kaufmann, 1994.

Algorithme Apriori

Illustrations de Apriori
L'exemple ci-dessous montre le processus d'extraction des itemsets frquents sur la base de transactions D pour un support = 0.4 correspondant 2 transactions. A la premire itration de l'algorithme, chaque item de T est un 1-itemset de C1. Un premier parcours de D permet de trouver le support de chaque 1-itemset. Tous les 1-itemsets frquents, i.e. de support suprieur ou gal 0.4 seront gards dans F1. Afin de dcouvrir les 2-itemsets frquents, Apriori effectue dans la seconde itration une jointure de F1 et F1 pour trouver l'ensemble C2 des candidats de taille 2. Seuls les 2-candidats n'ayant pas de sousensembles peu frquents sont gards. Un second parcours de D est alors effectu pour dterminer le support de chacun des 2-itemsets candidats, seuls les 2-itemsets frquents sont gards dans F2. Ainsi l'itemset ad n'ayant pas de support suffisant est supprim. Les 3-itemsets sont obtenus en combinant les itemsets de F2 deux deux, i.e. par jointure F2 et F2. Seuls les 2-itemsets ayant le mme prfixe de taille 1 sont gnrs. Par exemple les 2-itemsets ab et ac forment le candidat abc. On s'assure galement que les candidats gnrs n'ont pas de sous-ensembles peu frquents. Un troisime parcours de D est alors effectue pour dterminer les 3-itemsets frquents. De nouveau, on effectue la jointure de F3 et F3 pour trouver l'ensemble C4 des candidats de taille

Illustrations de Apriori

K=1

Illustrations de Apriori

K=2

< 0,4

K=3

< 0,4

Exercice
D

La figure reprsente le rsultat dun sondage fictif ralis auprs de touristes trangers en visite Paris. Les objets correspondent des touristes anonymes (Ti) et les attributs reprsentent les lieux visits : les bateaux mouches (BM), le centre Pompidou (CP), le muse du Louvre (LO), le muse dOrsay (MO), la cathdrale Notre Dame (ND) et la tour Eiffel (TE).

tid 1 2 3 4 5 6 7 8 9 10

Transaction BM LO MO ND BM LO MO ND BM LO MO ND TE BM ND TE BM LO MO ND TE CP LO ND ND LO ND LO ND BM CP LO MO ND

1- Reprsenter les donnes sous forme horizontale, verticale et boolenne. 2- Donner les motifs frquents avec un support de = 40%.

Rgles dassociation

Encore les motifs frquents


les motifs frquents apportent une information simple, mais

trs incomplte. En particulier, si AB est un items frquent, l'expert n'a aucune information sur d'ventuels liens logiques entre A et B. Les occurrences de A sont-elles souvent associes aux occurrences de B ? L'inverse ?
Imaginons que

AB et B soient vrais dans 60% des cas, mais que A le soit dans 80%. De toute vidence, B semble avoir une influence sur A dans la mesure ou ds que B est vrai, A l'est aussi. Par contre l'inverse est plutt incertain. En outre, on ne sait rien de ce qu'il se passe lorsque A et B sont faux...

Rgles dassociation
Des exemples de rgles d'association dans le

monde des affaires ou de la recherche sont:


tudier la proportion d'abonns d'une compagnie de
tlphonie mobile qui rpondent positivement une offre d'upgrade de leur abonnement; examiner la proportion d'enfants qui sont bons lecteurs et dont les parents lisent beaucoup; prdire la dgradation de la qualit de rception d'un rseau de tlcommunication ; trouver les articles dans un supermarch qui sont achets ensemble, et ceux qui ne sont l'inverse jamais achets ensemble; dterminer la proportion de cas pour lesquels un mdicament peut avoir un effet indsirable.

Rgles dassociation
Les rgles d'association prennent la forme si

antcdent, alors consquence associes avec une mesure du support et du seuil de confiance de la rgle
Par exemple, un supermarch peut constater que

sur mille clients qui font les courses le vendredi soir, deux cents ont achet des PC et parmi ceuxci, cinquante ont achet des imprimantes. La rgle d'association serait si on achte des PC, alors on achte des imprimantes avec un support de 50/1000 = 5 % et un seuil de confiance de 50/200 = 25 %.

Dfinitions
Rgle d'association Soit X, un itemset et A un sous-ensemble de X. Une rgle d'association est une rgle de la forme A X-A, exprimant le fait que les items de A tendent apparatre avec ceux de X-A. A s'appelle l'antcdent de la rgle et X-A not C le consquent de la rgle. Exemple La rgle d'association a b exprime le fait que les cinphiles ayant vu <Harry Potter> tendent aussi voir <Star Wars>.

Dfinitions
Confiance La confiance d'une rgle d'association A C, note conf(A C) reprsente la proportion de transactions couvrant A qui couvrent aussi C.

On peut crire aussi :

Conf(A C) = |t(A C)|/|t(A)|

Remarque : 0 conf(A C) 1.

Dfinitions
Rgle d'association solide Une rgle d'association A C est dite solide si tant donn un
support minimum , l'itemset A C est frquent et si sa confiance dpasse un seuil donn, fix a priori, appel le seuil de confiance minimum not . A C est solide ssi supp(A C) et conf(A C)

Exemple Si on prend = 60% et = 40%, la rgle d'association c d est


considre comme une rgle solide car sa confiance, gale 75%, dpasse le seuil de confiance minimum = 60% et son support de 60% dpasse le support minimum de 40%.

Gnration des rgles dassociation


Pour gnrer les rgles d'association, on considre

l'ensemble F des itemsets frquents trouvs en phase prcdente. Pour chaque itemset frquent l, on considre tous ses sous ensembles (tous frquents d'aprs la proprit d'antimonotonicit). A partir de ces sous ensembles frquents, on gnre toutes les rgles solides de la forme gnrale suivante : (l - C)

Remarque:
La gnration de rgles d'association est beaucoup moins
coteuse que la gnration des itemsets frquents, car il n'est plus ncessaire de faire des parcours coteux de la base de transactions.

Rgles dassociation

LA RECHERCHE DES REGLES DASSOCIATIONS

La recherche de rgles d'association dans un grand ensemble de donnes est un processus en deux tapes :
1.

Trouver tous les ensembles d'articles frquents : en fait tous les ensembles avec une frquence d'articles suprieure la moyenne. partir des ensembles d'articles frquents, gnrer des rgles d'association qui satisfassent les conditions de support et de seuil de confiance minimum

2.

Algorithme Apriori : Gnration des RA

Algorithme Apriori : Gnration des RA

Illustration
Reprenons l'exemple prcdent, les tableaux suivants

montrent les rgles d'association gnres pour une confiance minimum = 60%. Les rgles d'association sont gnres en considrant d'abord les itemsets frquents de taille 2, puis ceux de taille 3, etc. Les itemsets frquents de taille 2, F2 ont permis de gnrer les rgles d'association du tableau1. Dans ce cas la procdure Gen-Regle n'est pas appele vu qu'on ne peut avoir plus d'un item en consquence des rgles d'association. Les itemsets frquents de taille 3, F3, a savoir l'unique itemset bcd a permis de gnrer les rgles d'association, d'abord avec un consquent a un item figurant dans le tableau 2. Les consquences de taille d'un item trouves ayant constitue des rgles solides

Illustration
Rgles d'association 2 items et 1 item comme consquence Supp(ab)/supp(a)

tableau 1

Illustration
Rgles d'association 3

items et 1 item comme

consquence

tableau 2

Rgles d'association 3

items et 2 items comme

consquence

tableau 3