Vous êtes sur la page 1sur 44

Ricco Rakotomalala Universit Lumire Lyon 2 Laboratoire ERIC

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Plan

1. Quest ce que le Data Mining ? 2. Spcificits du Data Mining 3. Quelques exemples 4. Typologie des mthodes de Data Mining 5. Ressources Sites web et bibliographie

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Une dmarche plus quune thorie !

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Exemple introductif : demande de crdit bancaire

divorc 5 enfants charge chmeur en fin de droit compte dcouvert

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Exprience de lentreprise : ses clients et leur comportement

coteuse en stockage inexploite

Comment et quelles fins utiliser cette exprience accumule


Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Le processus ECD (Extraction de connaissances partir de donnes) KDD Knowledge discovery in Databases
Graphes d'Induction Rseaux de neurones Analyse discriminante Rgression logistique

Echantillonnage Prparation des donnes Visualisation des donnes

Tests statistiques Re-chantillonnage

table

modles

Connaissances

Bases de donnes

Fouille des donnes (Data mining)

Mise en forme des Connaissances

Dploiement Exploitation Dfinition : Processus non-trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 1996)
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

mergence de lECD : domaines dapplications

Domaine des assurances


analyse des risques (caractrisation des clients hauts risques, etc.) automatisation du traitement des demandes (diagnostic des dgts et dtermination automatique du montant des indemnits)

Services financiers
consentements de prts automatiss, support la dcision de crdit dtection des fraudes

Grande distribution
profils de consommateurs et modles dachats constitution des rayonnages marketing cibl

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Est-ce vraiment nouveau ? Dfinition : Processus non-trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 1996) Data Mining : Une nouvelle faon de faire de la statistique ? http://cedric.cnam.fr/~saporta/DM.pdf
Lanalyse des donnes est un outil pour dgager de la gangue des donnes le pur diamant de la vridique nature. (J.P.Benzcri1973)

The basic steps for developing an effective process model ? http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm 1. Model selection 2. Model fitting 3. Model validation
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

10

(1) Sources de donnes (2) Techniques utilises (3) Multiplicit des supports

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

11

Spcificits du Data Mining

Sources de donnes
valoriser les fichiers de lentreprise construire des entrepts modifier le schma organisationnel

Techniques utilises
Intgrer des techniques dorigines diverses

largissement des supports


Text mining Image mining Multimdia mining

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

12

Les sources de donnes

Production orientation service (ventes, comptabilit, marketing) volatiles

Stockage orientation analyse historises non-volatiles

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

13

Lorganisation du flux dinformations et les acteurs

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

14

Systmes de gestion et systmes dcisionnels

Systmes de gestion (oprationnel) ddi au mtier et la production Objectif ex: facturation, stock, personnel donnes volatiles Volatilit ex: le prix d'un proiduit volue dans le (perennit) temps pour les oprations associes ex: passage en caisse (lecture de Optimisation code barre) Granularit totale, on accde directement aux des donnes informations atomiques

Systmes dcisionnels (analyse) ddi au management de l'entreprise (pilotage et prise de dcision) donnes historises ex: garder la trace des volutions des prix, introduction d'une information dat pour l'analyse et la rcapitulation ex: quels les produits achets ensembles agrgats, niveau de synthse selon les besoins de l'analyse

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

15

Data Mining vs. Informatique Dcisionnelle (Business Intelligence)


Linformatique dcisionnelle ( BI pour Business Intelligence) dsigne les moyens, les outils et les mthodes qui permettent de collecter, consolider, modliser et restituer les donnes d'une entreprise en vue d'offrir une aide la dcision et de permettre aux responsables de la stratgie d'une entreprise davoir une vue densemble de lactivit traite.
(http://fr.wikipedia.org/wiki/Informatique_dcisionnelle)

Slectionner les donnes (par rapport un sujet et/ou une priode) Trier, regrouper ou rpartir ces donnes selon certains critres laborer des calculs rcapitulatifs simples (totaux, moyennes conditionnelles, etc.) Prsenter les rsultats de manire synthtique (graphique et/ou tableaux de bord) REPORTING

http://www.commentcamarche.net/entreprise/business-intelligence.php3

Le Data Mining est proche de ce cadre, mais elle introduit une dimension supplmentaire qui est la modlisation exploratoire (dtection des liens de cause effet, validation de leur reproductibilit)
16

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Spcificits du Data Mining

Techniques dexploration de donnes


Des techniques dorigines diverses, issues de cultures diffrentes mais qui traitent des problmes similaires et qui partent toujours dun tableau de donnes

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

17

Techniques utilises selon leur origine Statistiques


Thorie de lestimation, tests conomtrie

Analyse de donnes (Statistique exploratoire)


Description factorielle Discrimination Clustering Mthodes gomtriques, probabilits ACP, ACM, Analyse discriminante, CAH,

Maximum de vraisemblance et moindres carrs Rgression logistique,

Informatique (Intelligence artificielle)


Apprentissage symbolique Reconnaissance de formes Une tape de lintelligence artificielle Rseaux de neurones, algorithmes gntiques

Informatique (Base de donnes)


Exploration des bases de donnes Volumtrie Rgles dassociation, motifs frquents,

Trs souvent, ces mthodes reviennent optimiser les mmes critres, mais avec des approches / formulations diffrentes
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

18

Techniques issues de lIntelligence Artificielle

Les rseaux de neurones artificiels

capacit d apprentissage (universel) structuration / classement

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

19

Techniques en provenance des BD

Les rgles dassociation

If MARITAL_ST is Divorced Then SPOUSE_TIT is None Rule's probability: 0.952 The rule exists in 40 records. If MARITAL_ST is Divorced
and LOAN_LENGT = 4.00 GUARANTEE is No Rule's probability: 0.966 The rule exists in 28 records. A = B + 2.00 where: A = FAMILY_COU B = CHILDREN Accuracy level : 0.96 The rule exists in 397 records. traitement omnibus connaissance interprtable

Then

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

20

Spcificits du Data Mining

largissement des supports Text mining Image mining autres Lapprhension des sources multiples

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

21

largir les supports

Rle fondamental de la prparation des donnes Prdiction Structuration Description Association

Les applications Filtrage automatique des e-mails (spams, terrorisme,...) Reconnaissance de la langue une centrale tlphonique Dtection des images pornographiques sur le web Analyse des mammographies Etc.
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

22

(1) Ciblage de clientle : le scoring (2) tiquetage automatique de nouvelles

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

23

Ciblage de clientle par publipostage (1/2)

Banque franaise Objectif : Augmenter ladhsion un service en ligne (taux dabonnement actuel 4%) Base marketing : plusieurs centaines de milliers de clients, ~200 variables (95% sont quantitatives) Mthode : isoler des groupes dindividus se ressemblant dans lequel le taux dabonnement est lev les non-abonns dans ces groupes seront (certainement ?) sensibles une offre cible (hypothse : sils ne sont pas abonns, cest quils nont pas reu linformation) technique : arbre de dcision avec chantillonnage quilibr sur chaque noeud

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

24

Ciblage de clientle par publipostage (2/2)


valuation : dpasser le taux (cot) derreur, mesurer la qualit du ciblage meilleur ciblage : toutes les personnes contactes ont souscrit un contrat
1

Cumulative % of "rare"

0.8 Optimal 0.6 BLS-10000 BLS-500 0.4 BLS-300 BgS-10000 0.2 BgS-2000 Random 0 0 0.2 0.4 0.6 0.8 1

Individu 4 9 10 6 3 7 2 5 8 1

Probabilit de Pourc. Ind. Pourc. Cibls souscrire cumul Cumul Pourc. Cibls 0.95 10% 19% 0.19 0.9 20% 37% 0.18 0.8 30% 53% 0.16 0.65 40% 66% 0.13 0.6 50% 78% 0.12 0.5 60% 88% 0.1 0.35 70% 95% 0.07 0.25 80% 100% 0.05 0 90% 100% 0 0 100% 100% 0 5.00

Cumulative % of the population

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

25

Text Mining Catgorisation de nouvelles (1/3)

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

26

Text Mining Catgorisation de nouvelles (2/3)


Codage de texte en tableau de donnes
Les chercheurs qui cherchent, on en trouve Mais les chercheurs qui trouvent, on en cherche

Mots cls

lemmatisation stopwords

Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche 1 1 1 1 1 1 1 1 0 0 0 2 1 1 1 0 1 1 0 1 1 1

3-grams

corresp. avec les mots problme du sens

Phrase Les es s c ch che her rch 1 1 1 1 2 4 2 2 1 1 1 1 4 2

eur 2 2 1 1

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

27

Text Mining Catgorisation de nouvelles (3/3)

Exemple : appartenance au sujet crude (ptrole brut)

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

28

Quelle mthode utiliser par rapport : aux objectifs de ltude ? aux donnes disponibles ?

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

29

Tableau de donnes

Variables, caractres, attributs, Descripteurs, champs, etc.

Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed

Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow

Individus, observations, objets, enregistrements, etc.

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

30

Types de variables
donnes nominales (ex. success, job)
nombre de cas dnombrables cods pour distinguer les modalits aucune relation d ordre entre les codes oprateurs arithmtiques/mathmatiques inapplicables

donnes ordinales (ex. Refunding)


nombre de cas dnombrables cods pour distinguer les modalits il existe une relation d ordre entre les modalits les carts ne sont pas quantifiables cods sous forme de rangs, on peut appliquer des calculs donnes numriques ou continues (ex. Wages) nombre de cas thoriquement infini il existe une relation d ordre entre les valeurs les carts sont quantifiables distinction entre chelle proportionnelle et non-proportionnelle
(ex. 20C/10C = 2 et 68F/50F = 1.6 : non proportionnelle ; kg et livres : proportionnelle )

calculs autoriss, algbriques


Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

31

Distinguer les types de variables


On peut distinguer les diffrents types de donnes partir de la dfinition de l oprateur diffrence :

Nominale :

0 , si x a = x b d AB = 1, si x a x b

Ordinale :

d AB

+ 1, si x a > x b = 0 , si x a = x b 1, si x < x a b

Continue :

d AB = x a x b

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

32

Qualitatives vers continues

Donnes qualitatives (nominales, ordinales)

Donnes continues

Codage disjonctif complet


Refunding Fast Slow Fast Normal Slow

Ref_Slow 0 1 0 0 1

Ref_Normal Ref_Fast 0 0 0 1 0

1 0 1 0 0

on perd l information d ordre sur les donnes ordinales

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

33

Continues vers ordinales

Donnes continues

Donnes ordinales

Discrtisation
par expert automatique non-contextuelle automatique contextuelle

100 age

jeune

adulte

vieux age

on perd l information sur les carts on peut traiter des relations non-linaires
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

34

Continues vers continues


Donnes continues Donnes continues

Standardisation
centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne rduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne

Transformation distributionnelle
78 72 66 60 54 48 42 36 30 24 18 12
2 24 22 20 18 16

x 2 = ln( x1 )
<= 0 (0;2] (2;4] (4;6] (6;8] Var Orig. (8;10] (10;12] (12;14] > 14

14 12 10 8 6 4

6
0

<= -3

(-2.5;-2] (-1.5;-1] (-.5;0] (-3;-2.5] (-2;-1.5] (-1;-.5] (0;.5] Var Transf.

(.5;1] (1;1.5]

(1.5;2] (2;2.5]

(2.5;3] >3

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

35

Typologie des mthodes selon les objectifs


Description : trouver un rsum des donnes qui soit plus intelligible statistique descriptive analyse factorielle
Ex : moyenne dge des personnes prsentant un cancer du sein

Structuration : Faire ressurgir des groupes naturels qui reprsentent des entits particulires classification (clustering, apprentissage nonsupervis)
Ex : dcouvrir une typologie de comportement des clients dun magasin

Explication : Prdire les valeurs dun attribut (endogne) partir dautres attributs (exognes) rgression apprentissage supervis
Ex : prdire la qualit dun client (rembourse ou non son crdit) en fonction de ses caractristiques (revenus, statut marital, nombre denfants, etc.)

Association : Trouver les ensembles de descripteurs qui sont le plus corrls rgles dassocation
Ex : rayonnage de magasins, les personnes qui achtent du poivre achtent galement du sel

les mthodes sont le plus souvent complmentaires !


Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

36

Sous-typologie selon le type de donnes : la prdiction / explication

Explication

Endogne continue Exognes continues Rgression Endogne discrte Exognes quelconques Apprentissage supervis

Endogne continue Exognes discrtes Analyse de variance

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

37

(1) Logiciels (2) Ouvrages et ressources en ligne

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

38

Logiciels de DATA MINING Fonctionnalits


Accs et prparation des donnes
Accder un fichier / une BD Rassembler des sources diffrentes

Mthodes de Fouille de donnes


Lancer les calculs avec diffrents algorithmes Bibliothque de mthodes

Enchaner les traitements


Faire cooprer les mthodes sans programmer

valuer les connaissances


Validation croise, etc.

Exploiter les sorties


Rapports, visualisation interactive, etc.

Appliquer/exploiter les modles


Modles en XML, code C, DLL compiles Prdiction directe sur de nouveaux fichiers Logiciels commerciaux Prototypes de recherche

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

39

Logiciels de DATA MINING Les logiciels disponibles

Commerciaux SPAD (Decisia) SAS Enterprise miner SPSS Clementine STATISTICA Data Miner IBM Intelligent Miner
Simplicit du pilotage (filire - diagramme) Techniques varies Dploiement Outils de reporting

Universitaires TANAGRA SIPINA v2.5 & Recherche WEKA ORANGE


Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Spcifique certaines techniques Techniques rfrences - publies Outils de validation

40

Bibliographie : pratique du Data Mining

Le Data mining , R. Lefebure et G. Venturi, ed. Eyrolles, 2001.


Peu technique, point de vue gnral, trs bon recul, complet

Data Mining et Scoring , S. Tuffry, ed. Dunod, 2002.


Plutt guide pratique : repres pour les projets, opportunits, rapide et trs peu technique

Analyse discriminante Application au risque et au scoring financier , M. Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repres thoriques, tourn vers les applications

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

41

Bibliographique : comprhension des mthodes

Data Mining : Practical machine learning tools and techniques with Java implementations , I. Witten and E. Frank, Morgan Kaufman Pub., 2000.
Trs gnral et complet, logiciel libre accs, technique

The elements of statistical learning - Data Mining, Inference and Prediction , T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Trs technique, encyclopdique, indispensable pour la recherche, lire plusieurs fois

Machine Learning , T. Mitchell, Mc Graw-Hill Editions, 1997.


Trs trs technique, surtout mthodes supervises, encyclopdique

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

42

Ressources en ligne

Sites web et portails : http://chirouble.univ-lyon2.fr/~ricco/data-mining


Un portail pour la documentation : liens, supports de cours en ligne, logiciels, donnes

http://www.kdnuggets.com
Le portail du DATA MINING, avec toute lactualit du domaine

http://www.web-datamining.net
Le portail franais, surtout intressant pour les tudes de cas complets

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

43

Conclusion
La dmarche DATA MINING formalisation des objectifs acquisition des donnes prparation des donnes apprentissage application des mthodes interprtation explication valuation et validation dploiement

Pas de miracle si : Les objectifs sont mal dfinis Les donnes disponibles ne conviennent pas Les donnes sont mal prpares On nutilise pas les techniques appropries
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

44

Vous aimerez peut-être aussi