Introduction à la fouille de données - Bernard ESPINASSE - 1 Introduction à la fouille de données - Bernard ESPINASSE - 2
Introduction à la fouille de données - Bernard ESPINASSE - 3 Introduction à la fouille de données - Bernard ESPINASSE - 4
Définitions
! Extraction de connaissance à partir de données (Knowledge
Discovery in Databases – KDD) :
! cycle de découverte dʼinformation regroupant la conception de grandes
bases de données ou entrepôts de données (Data Warehouse)
! tous les traitements à effectuer pour extraire de lʼinformation des données
! lʼun de ces traitement est la Fouille de données (Data Mining)
1 – Introduction à la fouille de
données ! Fouille de données (Data Mining) :
! Extraction de connaissances à partir de données et fouille de ! Ensemble de techniques d'exploration de données permettant d'extraire
données d'une base de données des connaissances sous la forme de modèles
! La fouille de données à la rencontre de plusieurs disciplines de description afin de :
! Un exemple de découverte dʼinformation et de connaissance ! décrire le comportement actuel des données et/ou
! prédire le comportement futur des données
Introduction à la fouille de données - Bernard ESPINASSE - 5 Introduction à la fouille de données - Bernard ESPINASSE - 6
Processus dʼextraction de connaissances à partir de données La fouille de données à la rencontre de plusieurs disciplines
Processus ECD (Extraction de connaissances à partir de données) ou KDD
(Knowledge Discovery in Databases) :
Introduction à la fouille de données - Bernard ESPINASSE - 7 Introduction à la fouille de données - Bernard ESPINASSE - 8
Fouille de données = grande quantité de données + Un exemple de découverte dʼinformation et de connaissance
algorithmes efficaces Exemple issu du livre de P. Adriaans et D. Zantige [Adriaans & Zantige 96]
La fouille de données = processus qui sʼappuie sur : - Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD
! La disponibilité de grandes quantités de données : - Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés ou
vendre plus de magazines à ses clients habituels
! Si lʼensemble est trop petit, les structures peuvent ne résulter que du
Quelques questions qu'il peut se poser :
hasard
Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette
! On peut espérer quʼun gros volume de données représente bien lʼunivers
année ?
(échantillon. . .)
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que
! Des algorithmes sûrs et efficaces : l'année dernière ?
! Algorithmes sûrs : fondés théoriquement (recherche) Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ?
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines
! Efficaces en temps de voiture ?
! Efficaces en espace Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les
! Résultats interprétables diminuer ?
! Paramètres ajustables (en temps réel ou à peu près).
Questions de natures différentes mettant en jeu des processus différents
Introduction à la fouille de données - Bernard ESPINASSE - 9 Introduction à la fouille de données - Bernard ESPINASSE - 10
Introduction à la fouille de données - Bernard ESPINASSE - 11 Introduction à la fouille de données - Bernard ESPINASSE - 12
Un exemple de découverte dʼinformation et de connaissance
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de
magazines de voiture ?
! question beaucoup plus ouverte : il sʼagit de trouver une règle et non plus de
la vérifier ou de l'utiliser
2 – Types de données exploitées
c'est pour ce type de question que sont mis en oeuvre des
outils de fouille de données et de connaissances extraites
! Exemple de données disponibles exploitées
Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les
! Connaissances extraites
diminuer ?
! question ouverte : Il faut disposer d'indicateurs comme : durées
d'abonnement, délais de paiement, ...
! question (classique dans le bancaire) avec une forte composante
temporelle et nécessite des données historiques
Introduction à la fouille de données - Bernard ESPINASSE - 13 Introduction à la fouille de données - Bernard ESPINASSE - 14
Introduction à la fouille de données - Bernard ESPINASSE - 15 Introduction à la fouille de données - Bernard ESPINASSE - 16
Exemple de données disponibles temporelles (1) Exemple de données disponible temporelles (2)
! Données temporelles : ! Données du Web :
! On suppose quʼil existe une relation de cause à effet entre la donnée au Récupération facile de pages ou de sites (paquetage java.net) :
temps t et les données aux temps ti < t : ! Contenu des pages.
! Suivre une donnée dans le temps.
! Liens entre les pages.
! Une donnée par rapport à toutes les autres.
! Chaque donnée par rapport à toutes les autres. ! Historique des connexions (fichiers log).
! Trouver les relations entre les données.
! Exemples : ! Données textuelles :
! Cours de la bourse (valeurs des actions, contexte . . .) ! Pages Web.
! Météo : vent, température, précipitations … (en différents
! fichiers word, pdf …
points dʼobservation).
! Génomique : Démarche inverse : on produit les données explicitement pour ! Dépêches dʼagence.
appliquer des méthodes de Data Mining :
! Digitalisation de bibliothèques.
! Séquençage automatique (rapide).
! Il y a des informations, des structures à trouver.
! Recherche de structures communes.
! Localisation des gènes.
Introduction à la fouille de données - Bernard ESPINASSE - 17 Introduction à la fouille de données - Bernard ESPINASSE - 18
Introduction à la fouille de données - Bernard ESPINASSE - 19 Introduction à la fouille de données - Bernard ESPINASSE - 20
Principaux domaines d'application Ciblage d’un mailing
! Domaine des assurances : ! Une entreprise veut proposer un nouveau produit :
! Envoi dʼun courrier
! analyse des risques (caractérisation des clients à hauts risques, etc.) ! Maximiser le taux de réponse
! automatisation du traitement des demandes (diagnostic des dégâts et ! Cibler un mailing
détermination automatique du montant des indemnités) ! Données disponibles :
! Le fichier client.
! Services financiers :
! Un fichier dʼadresses + historique des réponses aux mailings précédents.
! Attribution de prêts automatisés, support à la décision de crédit ! Un deuxième fichier dʼadresses + autres infos (acheté).
! Détection de fraude ! Informations connexes (données démographiques …)
! Mode opératoire :
! Marketing ciblé
! Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu,
! Grande distribution : ont acheté le produit, ont acheté un produit similaire.
! •profils de consommateurs et modèles dʼachats ! Sélectionner (dans le 1° ou 3° fichier) les clients potentiels ayant le même profil.
! Analyse des résultats :
! •constitution des rayonnages ! Comparaison avec un mailing massif précédent, avec un échantillon témoin.
! •marketing ciblé ! Calculer le gain (inclure le coût du Data Mining !)
! Médecine : ! Boucler la boucle :
! Gain augmenté
! Aide au diagnostic ! -> rendre la proposition plus attractive
! .... ! -> améliorer le taux de réponse.
! Enrichir la base avec les résultats du mailing
Introduction à la fouille de données - Bernard ESPINASSE - 21 Introduction à la fouille de données - Bernard ESPINASSE - 22
Introduction à la fouille de données - Bernard ESPINASSE - 23 Introduction à la fouille de données - Bernard ESPINASSE - 24
Logiciels de statistique et de fouille sur PC
! Logiciels commercialisés :
! S-PLUSTM de Insight,
! AliceTM de Isoft,
! Predict TM de Neuralware,
Introduction à la fouille de données - Bernard ESPINASSE - 25 Introduction à la fouille de données - Bernard ESPINASSE - 26
Logiciels de statistique et de fouille sur gros systèmes Logiciels de fouille de données gratuits : Weka
! Ils sont conçus pour : ! Weka :
! pour exploiter de très grands volumes de données ! Weka (Waikato Environment for Knowledge Analysis) est un ensemble
! pour couvrir une large palette de techniques de classes et d'algorithmes en Java développé à lʼUniversité de Waikato
! Ils existent parfois : en Nouvelle Zélande
! Weka implémente les principaux algorithmes de la fouille, notamment :
! en version «statistique»
- les arbres de décision
! ou «data mining» (en général sur-couche du 1er)
- les réseaux de neurones
! Ils peuvent fonctionner en mode client-serveur
! il est téléchargeable (versions Unix et Windows) à l'adresse :
! Logiciels commercialisés : http://www.cs.waikato.ac.nz/ml/weka
! SPSSTM et Clementine de SPSS ! développé en complément du livre : Data Mining par I. Witten et E. Frank
! SAS/STAT et Enterprise Miner de SAS (éditions Morgan Kaufmann).
! Statistica Data Miner de StatSoft ! peut être utilisé de plusieurs façons :
- par l'intermédiaire d'une interface utilisateur (comme utilisée en TP)
! S-PLUS et Insightful Miner de Insightful
- sur la ligne de commande.
! KXEN
- par l'utilisation des classes fournies à l'intérieur de programmes Java
! … (classes documentées)
Introduction à la fouille de données - Bernard ESPINASSE - 27 Introduction à la fouille de données - Bernard ESPINASSE - 28
Logiciels de fouille de données gratuits : Tanagra
! Tanagra :
! TANAGRA est un logiciel gratuit développé à lʼUniversité de Lumiere
Lyon 2, laboratoire ERIC, par Ricco Rakotomalala
! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à
lʼadresse : http://chirouble.univ-lyon2.fr/~ricco/cours/index.html
! Il implémente diverses méthodes de fouilles de données issues du
domaine de la statistique exploratoire, de lʼapprentissage automatique et
des bases de données, …
! Orange :
! est développé par Blaz Zupan, à la Faculty of Computer and Information
Science, de lʼUniversité de Ljubljana en Slovenie
! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à
lʼadresse : http://www.ailab.si/orange
! Il implémente aussi diverses méthodes de fouilles de données issues du
domaine de la statistique exploratoire, de lʼapprentissage automatique et
des bases de données, …