Vous êtes sur la page 1sur 47

Fouille de donnes (Data Mining)

Karine Zeitouni
ISTY - 3me anne
Universit de Versailles Saint-Quentin
Edition 2011-2012
Fouille de donnes 2
Plan Gnral du Cours
1. Introduction
2. Principales techniques
1. Motifs frquents
2. Associations
3. Classification et prdiction
4. Groupage et segmentation
5. Prparation des donnes
6. Filtrage et validation
7. Mthodologie et Standards
3. Fouille de donnes complexes
1. Motifs squentiels
2. Fouille de texte
3. Fouille de donnes spatiales et spatiotemporelles
4. Fouille de flots de donnes
4. Etude de cas
K. Zeitouni
I. Introduction
K. Zeitouni Fouille de donnes 4
I. Introduction
1. Motivation : pourquoi le data mining ?
2. Mtaphore
3. Dfinition
4. Applications
5. Fonctions du data mining
6. Lien aux autres disciplines
7. Historique
8. March du data mining et de la BI
K. Zeitouni Fouille de donnes 5
1. Motivation (1)
! De plus en plus de donnes quil faut fouiller
Accumulation de donnes due la maturit des technologies de bases de
donnes et lautomatisation de collecte de donnes
Exemples de sources de donnes :
" Celles gnres par le commerce lectronique : ex. Transactions
" Entrepts du Web : ex. Google
" Rseaux sociaux et hbergement de documents : ex. Facebook, gmail
" Gnres par des capteurs : ex. Images de tldtection
" + Surveillance, Logs de tout genre, simulations,
Motivation (2)
! Volumtrie des entrepts de donnes
K. Zeitouni Fouille de donnes
6
Rf. http://www.wintercorp.com/WhitePapers
Motivation (3)
! Pourquoi maintenant ?
Lutilisation dans lindustrie du data mining est rcente
Les donnes sont produites lectroniquement
Le contexte est ultra-concurrentiel
Les donnes sont archives
Plateformes de calculs disponibles bas prix
Des solutions et des comptences data mining disponibles
! Un nouveau march
Nouveau concept : Information as a product
Toute socit ou organisme qui collecte des donnes valorisables est
potentiellement un broker dinformation, quil peut vendre ou en exploiter
commercialement les modles pour des utilisations essentiellement
marketing.
Ex: Mots-cls pour les moteurs de recherche.
K. Zeitouni Fouille de donnes 7
K. Zeitouni Fouille de donnes 8
Trop de donnes...
Paradoxe :
! trop donnes mais pas assez dinformations
K. Zeitouni Fouille de donnes 9
Difficult daccs linformation
! Trop de donnes tue linformation
K. Zeitouni Fouille de donnes 10
Trop de pistes explorer...
K. Zeitouni Fouille de donnes 11
pas daccs facile linformation
Jane,
we need
a solution !
Oh John,
the computer doesnt
provide any !
What are we going to do ?
K. Zeitouni Fouille de donnes 12
Ce dont on a besoin.
Automatisation
K. Zeitouni Fouille de donnes 13
Gnration dhypothses
Ce dont on a besoin.
Extraction des connaissances des bases de donnes
K. Zeitouni Fouille de donnes 14
3. Quest ce que le Data Mining ?
! Objectif :
Par analogie la recherche des ppites d or dans un
gisement, le data mining vise :
1. extraire des informations caches par analyse globale ;
2. dcouvrir des modles (patterns) difficiles
percevoir car :
# le volume de donnes est trs grand
# le nombre de variables considrer est important
# ces patterns sont imprvisibles (mme titre dhypothse
vrifier)
" Gnrateur valideur dhypothses
K. Zeitouni Fouille de donnes 15
Dfinition
! La fouille de donnes est le processus visant :
Lextraction de connaissances, non triviales, implicites, pralablement
inconnues et potentiellement utiles, depuis des donnes stockes dans de
larges bases de donnes.
! Ce qui nest pas de la fouille de donnes :
Lanalyse par requtes
Les bases de donnes dductives et les systmes experts
Les mthodes dapprentissage (IA) et lanalyse statistique sur un petit
ensemble dobservations.
4. Applications par domaine
K. Zeitouni Fouille de donnes
16
Services financiers
Attrition (churn)
Dtection de fraudes
Identification opportunits de ventes
Marketing
Gestion de la relation client (CRM)
Optimisation de campagnes marketing
Ventes croises
Tlcommunications
Fidlisation (anti-churn)
Ventes croises
Incidentologie
Assurances, Secteur public
Indiquer les anomalies des comptes
Rduire le cot dinvestissement dactivit
suspecte
Dtection de la fraudes
Grande Distribution
Fidlisation
Ventes croises
Analyses de panier
Dtection de fraudes
Sciences de la vie
Trouver les facteurs de diagnostic typiques
dune maladie
Alignement gnes & protnes
Identifier les capacits dinteraction de
mdicaments
Internet
Personnalisation des pub affiches
Optimisation des sites web
Profilage et Recommendation
Autre
Rech. dinfo (web ou document)
Recherche par similarit (images)
Analyse spatiale
K. Zeitouni Fouille de donnes 17
Exemples dapplication
! Gestion et analyse commerciales
Analyse clientle ou CRM analytique (gestion de la relation client) :
# Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou
les faire revenir ?
Marketing cibl, actions commerciales, vente croise :
# O placer ce produit dans les rayons ? Comment cibler plus prcisment le
mailing concernant ce produit ?
! Analyse du risque
Prdiction, fidlisation des clients, contrle qualit, comptitivit
Dtection des fraudes, analyse des incidents
! Autres applications
Gestion, indexation et classification de documents, du web et de la
navigation sur Internet.
Moteurs de recherche intelligents.
18
Data mining pour le CRM
! Mieux connatre le client
! Pour mieux le servir
! Pour augmenter sa satisfaction
! Pour augmenter sa fidlit
(+ coteux dacqurir un client que le conserver)
! Data mining pour savoir :
# Quel client restera fidle et qui partira?
# Quels produits proposer quels clients?
# Quest-ce qui dtermine quune personne rpondra une offre
donne?
# Quel est le prochain produit ou service quun client particulier
dsirera?
K. Zeitouni Fouille de donnes
K. Zeitouni Fouille de donnes 19
Exemple 1 analyse commerciale
! Gisement de donnes
Oprations de carte de crdit, de cartes de fidlit, plaintes des clients, en plus
des sondages marketing (publics), Web logs
! CRM
Grouper les clients par classes homognes selon leurs proprits : ge, situation
familiale, CSP, revenu, type de rsidences, types de dpenses, etc.
Profilage des clients par classification : qui achte quoi ?
! Ventes croises
Associations/corrlations entre produits vendus
! Usage du web marketing et ventes sur internet
Dcouverte des prfrences des clients, optimisation du site, etc.
K. Zeitouni Fouille de donnes 20
Exemple 2 : Anti-Churn
! Application type dans le secteur des tlcom
! Bases de donnes des clients et des appels
! Fichiers des rclamations
! Qui sont les clients susceptibles de partir chez un
concurrent ?
K. Zeitouni Fouille de donnes 21
Exemple 3 Dtection de fraudes
! Sant
# Anomalies dans les prescriptions
! Assurances
dtecte les fausses dclarations daccidents
! Finance
Transactions financires suspectes
! Tlcommunications
Caractrisation des modles dappels en fonction de la destination, du
moment et de la dure et dtection de dviation par rapport la
normale
K. Zeitouni Fouille de donnes 22
Exemple 4 : Application boursire
! Portail boursier
conseil en achat / vente d'actions
! Donnes de base
historique des cours
portefeuille client
! Analyse du risque
! Analyse technique du signal
! Conseils d'achat vente
! Mise disposition sur portail
K. Zeitouni Fouille de donnes 23
5. Fonctions du Data Mining (1)
! Caractrisation et discrimination
Gnraliser, rsumer, retrouver et contraster les caractristiques des
donnes (ou dune partie)
! Association
Association traditionnelle :
PC $ Pack Office [support = 1%, confiance = 75%]
Diaper $ Beer [support = 0.5%, confiance = 75%]
Association multi-dimensionnelle :
ge(X, 20..29) ^ revenu(X, 20..29K) $ achat(X, PC) [support = 2%,
confiance = 60%]
Corrlation ou causalit ?
K. Zeitouni Fouille de donnes 24
Fonctions du Data Mining (2)
! Classification et prdiction
Apprentissage de modles permettant de dcrire et de diffrencier des
classes afin de classer les futures individus
Prsentation : rgles de classement (si ...alors), arbre de dcision, rseaux
neuronal
Ex : solvabilit des clients
! Rgression
Fonction mathmatique
y=a1*x1+a2*x2+...+an*xn + r ; r = rsidu et y = variable prdire
Ex : prdire le % de profit ou de perte des prts d'une banque
Illustration : Modle prdictif
Modle prdictif
Logiciel
de FD
Logiciel
de FD
Classes prdites
Donnes prclasses Modle prdictif
Donnes classer
K. Zeitouni Fouille de donnes
P
h
a
s
e

d

e
n
t
r
a
i
n
e
m
e
n
t

P
h
a
s
e

d
e

c
l
a
s
s
e
m
e
n
t

25
K. Zeitouni Fouille de donnes 26
Fonctions du Data Mining (3)
! Classification ou segmentation non supervise(clustering)
Dcoupage dune population en sous-ensembles homognes permettant de
dcouvrir des classes
Son principe est de maximiser la similarit intra-classe tout en minimisant la
similarit inter-classes
Ex : trouver une segmentation pertinente des clients pour guider les actions
commerciales ou les affectations des conseillers,
K. Zeitouni Fouille de donnes 27
Fonctions du Data Mining (4)
! Analyse de dviations (bruit ou anomalies ?)
Par la non conformit au comportement gnral
Peut-tre interprt comme un bruit ne pas prendre en compte
ou comme une anomalie dans la dtection de fraude
ou comme un vnement intressant par sa raret
! Tendances et volutions
Analyse de sries temporelles dans le but de prdire lvolution
Dtection de motifs squentiels frquents ou priodiques
# Ex1 : squence dachat dun client
# Ex2 : comportement collectif dachats (priodicit)
! Et la tendance et dviations sur des flots de donnes ?
K. Zeitouni Fouille de donnes 28
6. Lien aux autres disciplines
Data Mining
Bases de
donnes
Statistique
Autres
disciplines
Science de
Linformation
Intelligence
Artificielle (IA)
Visualisation
29
Data mining versus statistique
! En statistique :
Quelques centaines dindividus
Quelques variables
Fortes hypothses sur les lois statistiques
Importance accorde au calcul
chantillon alatoire.
! En Data mining
Des millions dindividus
Des centaines de variables
Donnes recueillies sans tude pralable
Ncessit de calculs rapides
Corpus dapprentissage.
K. Zeitouni Fouille de donnes
Data mining versus statistique et IA
K. Zeitouni Fouille de donnes 30
K. Zeitouni Fouille de donnes 31
Ce qui est nouveau en data mining
! Expression et rsolution des rgles d'association
analyse de la consommation depuis <Num. transaction, articles achets>
! Extension de SQL par des requtes inductives (ex. DMQL)
intro. de connaissances tq hirarchie de concepts et dfinition des seuils
! Nouveaux algorithmes :
ex. pour le clustering utilise des techniques dindexation de bases de donnes
pour l efficacit sur de GROS volumes de donnes
! Lintgration de lOLAP et du data mining
Par exemple, gnration de hirarchies de dimension par la classification
automatique hirarchique.
K. Zeitouni Fouille de donnes 32
DM versus Systmes dcisionnels (1)
! Knowledge Discovery in Databases (KDD)
Processus complet dExtraction de Connaissances des
Donnes (ECD)
! Comprend plusieurs phases dont :
Le data warehousing
LOLAP
Le data mining
Le reporting
K. Zeitouni Fouille de donnes 33
! Datawarehouse (Entrept de donnes)
Base de donnes construite dans un but dcisionnel construite depuis
des bases de production souvent multi-sources et archivant des
donnes historises
# actualises soit par interrogation des bases sources (data pull), soit par
envoie automatiques des modifications par les serveurs (data push)
# gnralement de gde taille corr. larchivage du rsultat des requtes
Datamart : magasin de donnes cibl sur qq sujets particuliers
l chelle dun dpartement de lentreprise
DM versus Systmes dcisionnels (2)
K. Zeitouni Fouille de donnes 34
! On-Line Analytical Processing (OLAP)
exploration (lecture) dun datawarehouse par analyse multi-
dimensionnelle et interactive
reprsente les donnes dans des Data Cubes donnant des
comptages, totaux, ..., pour chaque variable et pour toute
combinaison de variables avec diffrents niveaux de dtail (ex :
total annuel, sous-totaux mensuels, par semaine, ...)
DM versus Systmes dcisionnels (3)
K. Zeitouni Fouille de donnes 35
Processus de KDD
36
Business Intelligence
! La Business Intelligence (BI) est un concept
propos par IBM, Microsoft, Oracle, pour :
Consolider la quantit gigantesque de donnes atomiques que les
entreprises gnrent en information pour que les gens puissent les
accder, les comprendre et les utiliser
=> Prsenter linformation dans des formats plus utiles, en utilisant
des outils dexploration, de reporting et de visualisation avancs.
! But :
Amliorer les performances dcisionnelles de l'entreprise en
rpondant aux demandes danalyse des dcideurs non informaticiens
et non statisticiens
K. Zeitouni Fouille de donnes
37
Processus de KDD revu
K. Zeitouni Fouille de donnes
K. Zeitouni Fouille de donnes 38
Pyramide de la BI
Niveau daide
la dcision Utilisateur final
Analyste mtier
Analyste de donnes
DBA
Aide
la dcision
Prsentation
Techniques de Visualisation
Data Mining
Dcouverte des connaissances
Exploration des donnes
Intgration, OLAP
Analyse statistique, requteurs, rapports
Entrepts et magasins de donnes
Sources de donnes
Documents, fichiers, SGBD oprationnels (OLTP), fournisseurs
K. Zeitouni Fouille de donnes 39
BD Web (>90)
- BD semi-structure (XML)
- BD documents
Cration et alimentation de fichiers (60)
SGBD (70 - 80)
BD Relationnelles & OLTP
BD avances (>mi 80)
- Relationnel tendu, dductif
- Objet, objet-relationnel
- Types spatial, multimdia, tempo.
Datawarehouse/
Datamining (>fin 80)
- OLAP
- KDD
BD mondiales (> 2000)
- Rseaux sociaux normes
- Flots de donnes
=> Besoin de flexibilit et dauto-admin
BD & RI convergents (> 2000)
- Requtes flexibles (Top-K, similarit)
- BD probabilistes
- KDD essentiel !
7. Historique (1)
40
Historique (2)
! Le data mining nest pas nouveau :
1875 : Rgression linaire
1936 : Analyse discriminante
1943 : Rseaux de neurone
1944 : Rgression logistique
1984 : Arbres de dcision
1990 : Apparition du concept de data mining
K. Zeitouni Fouille de donnes
K. Zeitouni Fouille de donnes 41
Historique (3): domaine de recherche
! 1989 IJCAI Workshop on Knowledge Discovery in Databases
Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)
! 1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-
Shapiro, P. Smyth, and R. Uthurusamy, 1996)
! 1995-1998 International Conferences on Knowledge Discovery in Databases and Data
Mining (KDD95-98)
Journal of Data Mining and Knowledge Discovery (1997)
! ACM SIGKDD conferences since 1998 and SIGKDD Explorations
! Autres confrences sur le data mining
PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM
(2001), etc.
! ACM Transactions on KDD starting in 2007
42
8. March de la Business Intelligence
March daprs Estimations de Gartner (Juin 2009) :
7.2 Milliard $ en 2007 $ 8.8 Milliards $ en 2008 (+21.7%)
BI, Analytics and Performance Management Revenue (Millions of U.S. Dollars)
Company 2008 Revenue 2008 Market Share (%)
SAP 2,096.0 23.8
SAS Institute 1,286.6 14.6
Oracle 1,284.0 14.6
IBM 996.5 11.3
Microsoft 681.5 7.7
MicroStrategy 280.0 3.2
Others 2,177.1 24.7 .
Total 8,801.6 100.0
K. Zeitouni Fouille de donnes
K. Zeitouni Fouille de donnes 43
Quelques produits
! SAS Entreprise Miner de SAS
Statistiques, groupage, arbres de dcision,
rseaux de neurones, associations, ...
! SPSS Modeller (ex. Clementine)
statistiques, classification, rseaux de
neurones
! Intelligent Miner d'IBM
modlisation prdictive (stat.), groupage,
segmentation, analyse d'associations,
dtection de dviation, analyse de texte
libre
! KXEN
Utilise SVM pour le SRM (Structural Risk
Minimization)
! Oracle 10g ODM
! SQL Server DM
Logiciels libres :
! Weka
! RapidMiner (Univ. Dortmund)
! SIPINA/Tanagra (Univ. Lyon 2)
Site de rfrence :
kdnuggets.com
K. Zeitouni 44 Fouille de donnes
K. Zeitouni 45 Fouille de donnes
K. Zeitouni Fouille de donnes 46
Rfrences ouvrages
! Ren Lefbure et Gilles Venturi, Data Mining : Gestion de la relation client, personnalisations de site web,
Eyrolles, mars 2001
! Georges Gardarin, Internet/intranet et bases de donnes : data web, data media, data warehouse, data mining,
Eyrolles, avril 1999
! J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann (3ed. 2011)
! X. Wu and V. Kumar. The Top Ten Algorithms in Data Mining. Chapman & Hall/CRC, 2009.
! T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and
Prediction, 2nd ed., Springer-Verlag, 2009
! P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
! D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001
! S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
! U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and
Data Mining. AAAI/MIT Press, 1996
! G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991
! The Vertica Analytic Database Rethinking Data Warehouse Architecture WinterCorp Executive Report
2008. http://www.wintercorp.com/WhitePapers
K. Zeitouni Fouille de donnes 47
Glossaire des applications du data mining
La matrise de linformation et de la connaissance permet :
! CRM (Customer Relationship Management)
Amliorer la connaissance client, Identifier et prvoir la rentabilit client.
Accrotre lefficacit du marketing client pour le garder.
! SRM (Supplier Relationship Management)
Classifier et valuer lensemble des fournisseurs.
Planifier et piloter la stratgie Achat.
! FI (Finance Intelligence)
Mesurer et grer les risques.
! SPM (Strategic Performance Management)
Dterminer et contrler les indicateurs cl de la performance de lentreprise
Tirer parti dun avantage concurrentiel
! HCM (Human Capital Management)
Modliser la carte des RH (Ressources Humaines)
Aligner les stratgies RH, les processus et les technologies.