Vous êtes sur la page 1sur 30

Extraction de Connaissances à partir de

Données (ECD) ou Data Mining:


Concepts et Techniques

1
Plan du Cours
I/ Introduction

II/ pratique avec Pentaho


 Présentation de l’environnement
 Installation de l’environnement
 Utilisation des outils (ETL et de l’OLAP)

2
Chapitre 1. Introduction

 Motivation: Pourquoi le Data mining?


 Ce qu’est le Data mining?
 Data Mining: Sur quels types de données?
 Fonctionnalités du Data mining
 Intérêt des motifs (patterns)
 Classification des systèmes de Data mining
 Problèmes rencontrés

3
Motivation: Le besoin crée l’invention
 Problème de l’explosion de données

 Les outils automatiques de collecte de données font que les


Bases de Données (BD’s) contiennent énormément de données
(Ex: La base de données relationnelle d’un super marché)

 Beaucoup de données mais peu de connaissances !

 Solution: Data warehousing et data mining

 Data warehousing et OLAP (On Line Analytical Processing)

 Extraction de connaissances intéressantes (règles, régularités,


patterns, contraintes) à partir de données

4
Evolution des Bases de Données

 1960s:
 Collecte des données, création des BD’s, IMS et le modèle réseau
 1970s:
 Modèle et SGBD’s relationnels, SQL, transactions, OLTP
 1980s:
 Modèles de données et SGBD’s avancés (relationnel étendu, OO,
déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
 1990s—2000s:
 Data mining et data warehousing, BD’s multimédia, BD’s sur le
WEB

5
Ce qu’est le Data Mining

 Data mining :
 Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données.

 Autres appellations:
 ECD (Extraction de Connaissances à partir de Données)

 KDD (Knowledge Discovery from Databases)

 Analyse de données/patterns, business intelligence, fouille


de données, etc … 6
Pourquoi faire ?
Applications
 Analyse de données et aide à la décision
 Analyse de marché
 Marketing ciblé, gestion des relations client,
analyse des achats des clients, ventes croisées,
segmentation du marché
 Analyse de risque
 Détection de fraudes
 Autres Applications
 Text mining : news groups, emails, documents Web.
 Optimisation des requêtes

7
Pourquoi faire ?
Applications
 L’analyse d’une BD de transactions d’un supermarché
permet d’étudier le comportement des clients :
 réorganiser les rayons
 Ajuster les promotions
 En gestion commerciale, regrouper les clients selon
certains critères :
 Cibler les « mailings »
 L’analyse de données médicales :
 Support pour la recherche
 L’analyse de données financières :
 Prédire l’évolution des actions
 Organismes de crédit (dresser des profils de clients)
8
Pourquoi faire ?
Applications
 Détection de fraudes
 en santé, services de cartes de crédit, télécommunications, etc.
 Approche
 Utiliser les données historiques pour construire des modèles
de comportements frauduleux puis utiliser les techniques de
datamining pour retrouver des instances similaires
Exemples
 Assurances auto: détecter les personnes qui collectionnent les
accidents et les remboursements
 Blanchiment d’argent: détecter les transactions suspectes (US
Treasury's Financial Crimes Enforcement Network)

9
Pourquoi faire ?
Applications
 Astronomie
 Le laboratoire JPL a découvert 22 quasars (galaxie très
énergétique avec un noyau actif) en utilisant les
techniques de datamining
 Web
 IBM a appliqué des algorithmes de data mining pour
réorganiser ses sites WEB afin de faciliter la navigation.
 Améliorer le WEB marketing

10
Datamining: Un processus dans l’ECD

Evaluation de patterns
 Data mining: étape clé
dans l’extraction de
connaissances Data Mining

Données intéressantes

Data Warehouse Sélection

Nettoyage de données

Intégration

Bases de données ou fichiers


11
Etapes du processus d’ECD

 Comprendre le domaine d’application


 Création d’un ensemble de données (sélection)
 Nettoyage et pré-traitement des données (peut prendre 60% de
l’effort)
 Choix des fonctionnalités du data mining
 classification, consolidation, régression, association, clustering.
 Choix de(s) l’algorithme(s) d’extraction
 Datamining: Recherche des motifs (patterns) intéressants
 Evaluation des Patterns et présentation
 visualisation, transformation, suppression des patterns redondants,
etc.
 Utilisation de la connaissance extraite

12
Architecture typique d’un système
de Data mining
Interface graphique

Evaluation des motifs

Module Data mining


Base de
BD ou Datawarehouse connaissances
Nettoyage & intégration Filtrage

Data
BD’s Warehouse

13
Datamining: sur quels types
de données

 BD’s relationnelles
 Data warehouses
 BD’s transactionnelles
 BD’s avancées
 BD’s objet et objet-relationnelles
 BD’s spatiales
 Séries temporelles
 BD’s Textes et multimedia
 BD’s Hétérogènes
 WWW

14
Fonctionnalités du Data Mining

 On distingue deux grandes familles de tâches


réalisées en datamining
 Description : consiste à trouver les caractéristiques
générales relatives aux données fouillées: décrire le
présent.

 Prédiction : consiste à faire de l’inférence à partir


des données actuelles pour prédire des évolutions
futures: décrire le futur
15
Quels types de motifs extraire ? (1)

 Description de concepts: Caractérisation et


discrimination
 Caractérisation : Il s’agit de trouver des descriptions
concises et précises de certains concepts.
Ex: On a une table décrivant les clients d’une entreprise.

 Contraster (régions sèches vs humides)

16
Quels types de motifs extraire ? (2)

Association (corrélation et causalité)


 Analyse de la probabilité qu’une personne d’un certain Age, avec
un revenu donné, achète un PC:
age(X, “20..29”) & revenu(X, “200..300KF”)  achète(X, “PC”) [support = 2%,
confiance = 60%]

 Probabilité qu’un fournisseur d’ordinateur, fournisse des logiciels:


Fourni (T, “ordinateur”)  fourni(T, “logiciel”) [1%, 75%]

17
Quels types de motifs extraire ? (3)
 Classification et Prédiction
 Trouver des modèles (fonctions) qui décrivent et distinguent des
concepts pour de futures prédictions
Classification: regrouper selon un critère
Ex : classifier les pays en se basant sur leurs climats, les voitures selon
leurs carburants

 Prédiction: Prédire des valeurs inconnues


Démarche:
 On prend un échantillon (jeu d’essai) dans lequel chaque objet est
associé à une classe
 Analyser chaque classe (son contenu) pour pouvoir ensuite affecter
chaque objet nouveau à une classe particulière

18
Quels types de motifs extraire ? (4)

 Analyse de groupes (clusters)


 Appelée aussi classification non supervisée
 Le regroupement est basé sur le principe: maximiser la
similarité intra-groupe et la minimiser entre groupes
distincts
 Le nom de chaque groupe est inconnu

19
Quels types de motifs extraire ? (5)

 Analyse de tendances
 Tendance et déviation: analyse de régression
 Extraction de séquences séquentiels, analyse de
périodicités

 Analyse d’exceptions
 Les objets non conformes à la tendance générale
 Une exception peut être considérée comme du bruit mais aussi
comme indice de fraude

20
Est-ce que tous les motifs découverts
sont utiles?
 Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?
 Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur
 Mesure Objective vs. Subjective :
 Objective: basée sur des mesures statistiques : support,
confiance, etc.
 Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
21
Peut-on trouver tous et que
les motifs intéressants?

 Trouver tous les patterns intéressants: Complétude


 Association vs. classification vs. Regroupement.

 Trouver que les patterns intéressants: Optimisation


 Approches
 D’abord les trouver tous puis filtrer
 Ne générer que les motifs intéressants

22
Data Mining: somme de plusieurs Disciplines

Technologie BD Statistique

Apprentissage Data Mining Visualisation

Théorie de l’information Autres


Disciplines

23
Classification des systèmes (1)

 Fonctionnalité générale
 Data mining descriptif
 Data mining prédictif

 Différentes vues, différentes classifications


 Types de BD’s à fouiller
 Types de connaissances à découvrir
 Types de techniques utilisées

 Application ciblée

24
Classification des systèmes (2)
 BD fouillée
 Relationnelle, transactionnelle, orienté-objet, object-
relationnelle, active, spatiale, séries temporelles, texte, multi-
media, hétérogènes, WWW, etc.
 Connaissance recherchée
 Association, classification, clustering, tendance, analyse de
déviation, etc.
 Multiples fonctions aux différents niveaux
 Techniques utilisées
 BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc.
 Applications
 télécommunication, banque, analyse de fraude, ADN, finance, Web, …

25
Problématiques
 Méthodologie et interaction
 Différents types de connaissances à extraire
 Prise en compte des connaissances des experts
 Langages de requête et data mining ad-hoc
 Expression et visualisation des résultats
 Prise en compte des données incomplètes ou avec bruit
 Évaluation des motifs: notion d’intérêt
 Performance et mise en échelle
 Efficacité des algorithmes
 Méthodes Parallèles, distribuées et incrémentales
 Diversité des types de données
 Relationnels, objets complexes, texte, …

26
Résumé

 Data mining: Découverte de motifs intéressants à partir de grandes


quantités de données
 Une évolution naturelle de la technologie des SGBD, très demandée
par diverses applications
 Un processus d’ECD inclut les étapes: nettoyage, intégration,
sélection, transformation, data mining, évaluation des patterns,
présentation de la connaissance
 La fouille peut se faire sur différents types d’entrepôts de données
 Fonctionnalités: discrimination, association, classification, clustering,
analyse de tendances, etc.
 Problématiques du data mining

27
Quelques systèmes (commercial)
 SAP de business Object Classification, association et divers outils
statistiques. Très puissant en terme de visualisation
 Intelligent miner d’IBM (couplé avec le SGBD DB2)
 Classification, association, régression, analyse de séquences,
regroupement
 Entreprise miner de SAS
 Multiples outils d’analyse statistique, classification, …
 Mine set de Silicon graphics.
 Classification, association et divers outils statistiques. Très puissant
en terme de visualisation
 Clémentine de SPSS
 En plus des fonctionnalités classiques, l’utilisateur peut y rajouter
ses propres algorithmes
 DBMiner de DBMiner technologie.
 Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP
 Oracle BI de Oracle: Multiples outils d’analyse statistique,
classification, …
 BI SQL Server de Microsoft : Multiples outils d’analyse
statistique, classification, …
28
Quelques systèmes (open sources)
 BIRT
 Jaspersoft Community
 Knime
 Metabase
 Report Server Community Edition
 Talend
 SpagoBI
 ClicData
 Dataiku Free Edition
 Qlik Sense Cloud Edition
 QlikView Personal Edition
 Microsoft Power BI
 RapidMiner
 Style Scope AE
 Tableau Public
 Zoho Reports
29
Bibliographie
Titre: Datamining : Concepts and techniques.

Auteurs : Jiawei Han & Micheline Kamber

Editeur : Morgan Kaufmann 2000

https://blog.capterra.com/top-8-free-and-open-

source-business-intelligence-software/

30

Vous aimerez peut-être aussi