Vous êtes sur la page 1sur 8

Plan

Introduction à la Fouille de Données 1. Introduction à la fouille de données


! Extraction de connaissances à partir de données et fouille de données
(Data Mining) ! La fouille de données à la rencontre de plusieurs disciplines

(8) ! Un exemple de découverte dʼinformation et de connaissance


2. Types de données exploitées et de connaissances extraites
Bernard ESPINASSE ! Exemple de données disponibles exploitées
Professeur à Aix-Marseille Université (AMU)
! Connaissances extraites
Ecole Polytechnique Universitaire de Marseille
3. Exemples dʼapplications de la fouille de données
Septembre 2008 ! Principaux domaines d'application de la fouille de données
• Introduction à la fouille de données ! Ciblage dʼun mailing
! Oiseux rares et moutons noirs
• Types de données exploitées et de connaissances extraites
! Ticket de caisse
• Exemples dʼapplications de la fouille de données ! Repérer les intrus
• Quelques logiciels de fouille de données 4. Quelques logiciels de fouille de données

Introduction à la fouille de données - Bernard ESPINASSE - 1 Introduction à la fouille de données - Bernard ESPINASSE - 2

Références bibliographiques Ressources sur le Web relatives à la fouille de données


Ouvrages :
! Franco J-M., « Le Data Warehouse et le Data Mining ». Ed. Eyrolles, Paris, 1997. ! Page de Ricco Rakotomalala :
ISBN 2-212-08956-2.
! Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, Paris, 1999, ISBN ! http://chirouble.univ-lyon2.fr/~ricco/cours/index.html
2-212-09069-2.
! Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann ! cette page regroupe des liens très intéressant sur le Data Mining
Publishers, 2004. (cours, transparents, logiciels ...)
! Lefébure R., Venturi G., « Le data Mining », Ed. Eyrolles, Paris, 1998. ISBN 2-212-
08981-3.
! Tufféry S., « Data Mining et statistique décisionnelle », Ed. Technip, Paris, 2005, ISBN ! Page de Stéphane Tufféry :
2-7108-0867-6.
!… ! http://data.mining.free.fr/
Cours :
! Cours de A. Rakotomamonjy, INSA Rouen, Lab. PSI, Rouen. ! cette page regroupe aussi pleins de liens très intéressant sur le
! Cours de G. Gardarin, Univ. de Versailles Data Mining (cours, transparents, logiciels ...)
! Cours de J. Han et M. Kamber M., Simon Fraser Univ., Vancouver BC, Canada.
! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble
! Cours de R. Gilleron et M. Tommasi, Univ. Charles De Gaulle-Lille 3, Lab. LIFL, équipe !…
Grappa.
! Cours de R. Rakotomalala, Univ. Lumière Lyon 2, Lab. ERIC Lyon
!…

Introduction à la fouille de données - Bernard ESPINASSE - 3 Introduction à la fouille de données - Bernard ESPINASSE - 4
Définitions
! Extraction de connaissance à partir de données (Knowledge
Discovery in Databases – KDD) :
! cycle de découverte dʼinformation regroupant la conception de grandes
bases de données ou entrepôts de données (Data Warehouse)
! tous les traitements à effectuer pour extraire de lʼinformation des données
! lʼun de ces traitement est la Fouille de données (Data Mining)
1 – Introduction à la fouille de
données ! Fouille de données (Data Mining) :
! Extraction de connaissances à partir de données et fouille de ! Ensemble de techniques d'exploration de données permettant d'extraire
données d'une base de données des connaissances sous la forme de modèles
! La fouille de données à la rencontre de plusieurs disciplines de description afin de :
! Un exemple de découverte dʼinformation et de connaissance ! décrire le comportement actuel des données et/ou
! prédire le comportement futur des données

Introduction à la fouille de données - Bernard ESPINASSE - 5 Introduction à la fouille de données - Bernard ESPINASSE - 6

Processus dʼextraction de connaissances à partir de données La fouille de données à la rencontre de plusieurs disciplines
Processus ECD (Extraction de connaissances à partir de données) ou KDD
(Knowledge Discovery in Databases) :

Introduction à la fouille de données - Bernard ESPINASSE - 7 Introduction à la fouille de données - Bernard ESPINASSE - 8
Fouille de données = grande quantité de données + Un exemple de découverte dʼinformation et de connaissance
algorithmes efficaces Exemple issu du livre de P. Adriaans et D. Zantige [Adriaans & Zantige 96]
La fouille de données = processus qui sʼappuie sur : - Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD
! La disponibilité de grandes quantités de données : - Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés ou
vendre plus de magazines à ses clients habituels
! Si lʼensemble est trop petit, les structures peuvent ne résulter que du
Quelques questions qu'il peut se poser :
hasard
Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette
! On peut espérer quʼun gros volume de données représente bien lʼunivers
année ?
(échantillon. . .)
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que
! Des algorithmes sûrs et efficaces : l'année dernière ?
! Algorithmes sûrs : fondés théoriquement (recherche) Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ?
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines
! Efficaces en temps de voiture ?
! Efficaces en espace Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les
! Résultats interprétables diminuer ?
! Paramètres ajustables (en temps réel ou à peu près).
Questions de natures différentes mettant en jeu des processus différents

Introduction à la fouille de données - Bernard ESPINASSE - 9 Introduction à la fouille de données - Bernard ESPINASSE - 10

Un exemple de découverte dʼinformation et de connaissance Un exemple de découverte dʼinformation et de connaissance


Q1 : Combien de personnes ont pris un abonnement à un magazine de sport Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de
cette année ? sport ?
! réalisable en SQL à partir des données opérationnelles sous réserve
d'indexations suffisantes des tables concernées ! exemple simplifié de problème où l'on demande si les données vérifient une
! seule difficulté : ne pas pénaliser le serveur transactionnel par des requêtes règle
trop longues
! réponse formulée par une valeur estimant la probabilité que la règle soit vraie
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que
l'année ? ! en général des outils statistiques sont utilisés
! nécessite de conserver toutes les dates de souscription même pour les ! cette question peut être généralisée, on pourrait ainsi :
abonnements résiliés
! l'utilisateur devrait poser de nombreuses requêtes de ce type ! chercher des associations fréquentes entre acheteurs de magazine
! elles devraient être résolues par des requêtes multidimensionnelles de type pour effectuer des actions promotionnelles
OLAP. ! introduire une composante temporelle pour chercher si le fait d'être
Q1 et Q2 : lecteur d'un magazine implique d'être, plus tard, lecteur d'un autre
! Réponse par simples requêtes SQL : les données recherchées sont que le magazine
résultat d'un calcul simple sur un ou des groupes d'enregistrements
! ce qui distingue Q1 et Q2, c'est la notion de temps et la comparaison

Introduction à la fouille de données - Bernard ESPINASSE - 11 Introduction à la fouille de données - Bernard ESPINASSE - 12
Un exemple de découverte dʼinformation et de connaissance
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de
magazines de voiture ?
! question beaucoup plus ouverte : il sʼagit de trouver une règle et non plus de
la vérifier ou de l'utiliser
2 – Types de données exploitées
c'est pour ce type de question que sont mis en oeuvre des
outils de fouille de données et de connaissances extraites
! Exemple de données disponibles exploitées
Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les
! Connaissances extraites
diminuer ?
! question ouverte : Il faut disposer d'indicateurs comme : durées
d'abonnement, délais de paiement, ...
! question (classique dans le bancaire) avec une forte composante
temporelle et nécessite des données historiques

Introduction à la fouille de données - Bernard ESPINASSE - 13 Introduction à la fouille de données - Bernard ESPINASSE - 14

Exemple de données disponibles (1) Exemple de données disponibles (2)


! Transactions : ! Satellites : Espace
! Tickets de caisse : liste dʼarticles. ! Photos (différentes longueur dʼonde) de corps célestes
! Factures : produit, client. ! Les photos sont créées plus vite quʼelles ne peuvent être exploitées
! Communications téléphoniques : interlocuteurs, durée, lieux. ! Chaque photo contient un très grand nombre dʼinformations potentielles
! Connexions informatiques : fichier « log » ! Accumuler, classer et mémoriser
! Bases de données des entreprises : ! Histoire dʼun objet céleste (orbite brillance )
! Factures.
! Commandes. ! Satellites : La Terre
! Suivi. ! Militaires
! ... ! Météo
! Téléphone portable : ! Géographiques (Cartographie)
! Obligation légale de conservation des données. ! Reconnaissance automatique :
! Durée des communications. ! De forme (cartographie)
! Numéros appelés (type, localisation). ! De mouvement (militaire, météo : nuages)
! Abonnement, changements. ! Type de terrain (cartographie)
! Mobilité. ! Type de culture, état de la végétation (subvention …).
! Utilisation des services annexes.

Introduction à la fouille de données - Bernard ESPINASSE - 15 Introduction à la fouille de données - Bernard ESPINASSE - 16
Exemple de données disponibles temporelles (1) Exemple de données disponible temporelles (2)
! Données temporelles : ! Données du Web :

! On suppose quʼil existe une relation de cause à effet entre la donnée au Récupération facile de pages ou de sites (paquetage java.net) :
temps t et les données aux temps ti < t : ! Contenu des pages.
! Suivre une donnée dans le temps.
! Liens entre les pages.
! Une donnée par rapport à toutes les autres.
! Chaque donnée par rapport à toutes les autres. ! Historique des connexions (fichiers log).
! Trouver les relations entre les données.
! Exemples : ! Données textuelles :
! Cours de la bourse (valeurs des actions, contexte . . .) ! Pages Web.
! Météo : vent, température, précipitations … (en différents
! fichiers word, pdf …
points dʼobservation).
! Génomique : Démarche inverse : on produit les données explicitement pour ! Dépêches dʼagence.
appliquer des méthodes de Data Mining :
! Digitalisation de bibliothèques.
! Séquençage automatique (rapide).
! Il y a des informations, des structures à trouver.
! Recherche de structures communes.
! Localisation des gènes.

Introduction à la fouille de données - Bernard ESPINASSE - 17 Introduction à la fouille de données - Bernard ESPINASSE - 18

Types de connaissances extraites


Connaissances extraites = connaissances sous la forme de modèles de
description permettant de :
! décrire le comportement actuel des données et/ou
! prédire le comportement futur des données 3 – Exemples dʼapplications de
! des analyses :
! exemple: la distribution du trafic routier en fonction de l'heure la fouille de données
! des règles : ! Principaux domaines d'application de la fouille de données
! exemple : si un client n'a pas payé une facture > 1 000 € alors il est dans
! Ciblage dʼun mailing
70% des cas en faillite
! lʼattribution de scores de qualité : ! Oiseux rares et moutons noirs
! par exemple, score de fidélité aux clients ! Ticket de caisse
! la classification dʼentités : ! Repérer les intrus
! par exemple, les mauvais payeurs

Introduction à la fouille de données - Bernard ESPINASSE - 19 Introduction à la fouille de données - Bernard ESPINASSE - 20
Principaux domaines d'application Ciblage d’un mailing
! Domaine des assurances : ! Une entreprise veut proposer un nouveau produit :
! Envoi dʼun courrier
! analyse des risques (caractérisation des clients à hauts risques, etc.) ! Maximiser le taux de réponse
! automatisation du traitement des demandes (diagnostic des dégâts et ! Cibler un mailing
détermination automatique du montant des indemnités) ! Données disponibles :
! Le fichier client.
! Services financiers :
! Un fichier dʼadresses + historique des réponses aux mailings précédents.
! Attribution de prêts automatisés, support à la décision de crédit ! Un deuxième fichier dʼadresses + autres infos (acheté).
! Détection de fraude ! Informations connexes (données démographiques …)
! Mode opératoire :
! Marketing ciblé
! Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu,
! Grande distribution : ont acheté le produit, ont acheté un produit similaire.
! •profils de consommateurs et modèles dʼachats ! Sélectionner (dans le 1° ou 3° fichier) les clients potentiels ayant le même profil.
! Analyse des résultats :
! •constitution des rayonnages ! Comparaison avec un mailing massif précédent, avec un échantillon témoin.
! •marketing ciblé ! Calculer le gain (inclure le coût du Data Mining !)
! Médecine : ! Boucler la boucle :
! Gain augmenté
! Aide au diagnostic ! -> rendre la proposition plus attractive
! .... ! -> améliorer le taux de réponse.
! Enrichir la base avec les résultats du mailing

Introduction à la fouille de données - Bernard ESPINASSE - 21 Introduction à la fouille de données - Bernard ESPINASSE - 22

Oiseux rares et moutons noirs Tickets de caisse


! Une banque possède un fichier client : ! Ticket de caisse :
! Etat civil. ! Liste des achats.
! Historique des comptes. ! Heure de passage en caisse.
! Historique des contacts (demande dʼinfo, de prêts, de conseil). ! Car te de crédit, carte de fidélité
! Utilisation des services (e-banque, assurances . . .). ! code postal , …
! (réponse aux mailings.) ! Quels sont les articles le plus souvent achetés ensemble ?
! Lʼobjectif est de repérer : ! Si A et B alors C
! Les clients rentables. ! Promotions groupées, agencement du magasin . .
! Les clients non rentables.
! Les clients susceptibles de “poser des problèmes” Repérer les intrus
! Les clients susceptibles dʼacquérir un nouveau produit. ! Connections de pirates :
! Mode opératoire : ! Mouvements de fonds suspects.
! Comme dans le premier exemple. ! Déplacement dʼune personne dans un lieu public.
! Dégager des groupes homogènes : ! Phénomènes rares : Nuggets (pépites).
! Programme de segmentation (clustering). ! Repérer les intrus
! Un expert vérifie la pertinence de la classification. ! Enoncer des règles.
! Tester cette classification. ! Vérification de la pertinence par un expert.
! Intégrer la classe dans la description du client. ! Tester lʼhypothèse.

Introduction à la fouille de données - Bernard ESPINASSE - 23 Introduction à la fouille de données - Bernard ESPINASSE - 24
Logiciels de statistique et de fouille sur PC
! Logiciels commercialisés :
! S-PLUSTM de Insight,
! AliceTM de Isoft,
! Predict TM de Neuralware,

5 – Quelques logiciels de fouille ! R (version gratuite de S-PLUS)


! Logiciels gratuits :
! Weka
de données ! Tanagra
! Orange
! Logiciels de statistique et de fouille sur PC ! Intérêts :
! faciles à installer, utiliser, prix abordable
! Logiciels de statistique et de fouille sur gros systèmes
! adaptés aux PME car ils peuvent gérer plusieurs dizaines de milliers
voire plusieurs centaines de milliers dʼindividus
! Limites :
! ils ne permettent pas de traiter de très grandes bases de données
! ils ne mettent souvent en œuvre quʼune ou deux techniques (excepté les
produits S-PLUS, R, Tanagra et Weka)

Introduction à la fouille de données - Bernard ESPINASSE - 25 Introduction à la fouille de données - Bernard ESPINASSE - 26

Logiciels de statistique et de fouille sur gros systèmes Logiciels de fouille de données gratuits : Weka
! Ils sont conçus pour : ! Weka :
! pour exploiter de très grands volumes de données ! Weka (Waikato Environment for Knowledge Analysis) est un ensemble
! pour couvrir une large palette de techniques de classes et d'algorithmes en Java développé à lʼUniversité de Waikato
! Ils existent parfois : en Nouvelle Zélande
! Weka implémente les principaux algorithmes de la fouille, notamment :
! en version «statistique»
- les arbres de décision
! ou «data mining» (en général sur-couche du 1er)
- les réseaux de neurones
! Ils peuvent fonctionner en mode client-serveur
! il est téléchargeable (versions Unix et Windows) à l'adresse :
! Logiciels commercialisés : http://www.cs.waikato.ac.nz/ml/weka
! SPSSTM et Clementine de SPSS ! développé en complément du livre : Data Mining par I. Witten et E. Frank
! SAS/STAT et Enterprise Miner de SAS (éditions Morgan Kaufmann).
! Statistica Data Miner de StatSoft ! peut être utilisé de plusieurs façons :
- par l'intermédiaire d'une interface utilisateur (comme utilisée en TP)
! S-PLUS et Insightful Miner de Insightful
- sur la ligne de commande.
! KXEN
- par l'utilisation des classes fournies à l'intérieur de programmes Java
! … (classes documentées)

Introduction à la fouille de données - Bernard ESPINASSE - 27 Introduction à la fouille de données - Bernard ESPINASSE - 28
Logiciels de fouille de données gratuits : Tanagra
! Tanagra :
! TANAGRA est un logiciel gratuit développé à lʼUniversité de Lumiere
Lyon 2, laboratoire ERIC, par Ricco Rakotomalala
! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à
lʼadresse : http://chirouble.univ-lyon2.fr/~ricco/cours/index.html
! Il implémente diverses méthodes de fouilles de données issues du
domaine de la statistique exploratoire, de lʼapprentissage automatique et
des bases de données, …
! Orange :
! est développé par Blaz Zupan, à la Faculty of Computer and Information
Science, de lʼUniversité de Ljubljana en Slovenie
! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à
lʼadresse : http://www.ailab.si/orange
! Il implémente aussi diverses méthodes de fouilles de données issues du
domaine de la statistique exploratoire, de lʼapprentissage automatique et
des bases de données, …

Introduction à la fouille de données - Bernard ESPINASSE - 29