Concepts de Base

Extraction de Connaissances à partir de
Données (ECD) ou Data Mining:

Concepts et Techniques
1
Plan du Cours
I/ Introduction
II/ pratique avec Pentaho

 Présentation de l’environnement
 Installation de l’environnement
 Utilisation des outils (ETL et de l’OLAP)
2
Chapitre 1. Introduction
 Motivation: Pourquoi le Data mining?

 Ce qu’est le Data mining?
 Data Mining: Sur quels types de données?
 Fonctionnalités du Data mining
 Intérêt des motifs (patterns)
 Classification des systèmes de Data mining
 Problèmes rencontrés
3
Motivation: Le besoin crée l’invention
 Problème de l’explosion de données
 Les outils automatiques de collecte de données font que les

Bases de Données (BD’s) contiennent énormément de données
(Ex: La base de données relationnelle d’un super marché)
 Beaucoup de données mais peu de connaissances !
 Solution: Data warehousing et data mining
 Data warehousing et OLAP (On Line Analytical Processing)
 Extraction de connaissances intéressantes (règles, régularités,

patterns, contraintes) à partir de données
4
Evolution des Bases de Données
 1960s:
 Collecte des données, création des BD’s, IMS et le modèle réseau
 1970s:
 Modèle et SGBD’s relationnels, SQL, transactions, OLTP
 1980s:
 Modèles de données et SGBD’s avancés (relationnel étendu, OO,
déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
 1990s—2000s:
 Data mining et data warehousing, BD’s multimédia, BD’s sur le
WEB
5
Ce qu’est le Data Mining
 Data mining :
 Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données.
 Autres appellations:
 ECD (Extraction de Connaissances à partir de Données)
 KDD (Knowledge Discovery from Databases)
 Analyse de données/patterns, business intelligence, fouille

de données, etc … 6
Pourquoi faire ?
Applications
 Analyse de données et aide à la décision
 Analyse de marché
 Marketing ciblé, gestion des relations client,
analyse des achats des clients, ventes croisées,
segmentation du marché
 Analyse de risque
 Détection de fraudes
 Autres Applications
 Text mining : news groups, emails, documents Web.
 Optimisation des requêtes
7
Pourquoi faire ?
Applications
 L’analyse d’une BD de transactions d’un supermarché
permet d’étudier le comportement des clients :
 réorganiser les rayons
 Ajuster les promotions
 En gestion commerciale, regrouper les clients selon
certains critères :
 Cibler les « mailings »
 L’analyse de données médicales :
 Support pour la recherche
 L’analyse de données financières :
 Prédire l’évolution des actions
 Organismes de crédit (dresser des profils de clients)
8
Pourquoi faire ?
Applications
 Détection de fraudes
 en santé, services de cartes de crédit, télécommunications, etc.
 Approche
 Utiliser les données historiques pour construire des modèles
de comportements frauduleux puis utiliser les techniques de
datamining pour retrouver des instances similaires
Exemples
 Assurances auto: détecter les personnes qui collectionnent les
accidents et les remboursements
 Blanchiment d’argent: détecter les transactions suspectes (US
Treasury's Financial Crimes Enforcement Network)
9
Pourquoi faire ?
Applications
 Astronomie
 Le laboratoire JPL a découvert 22 quasars (galaxie très
énergétique avec un noyau actif) en utilisant les
techniques de datamining
 Web
 IBM a appliqué des algorithmes de data mining pour
réorganiser ses sites WEB afin de faciliter la navigation.
 Améliorer le WEB marketing
10
Datamining: Un processus dans l’ECD
Evaluation de patterns
 Data mining: étape clé
dans l’extraction de
connaissances Data Mining
Données intéressantes
Data Warehouse Sélection
Nettoyage de données
Intégration
Bases de données ou fichiers

11
Etapes du processus d’ECD
 Comprendre le domaine d’application

 Création d’un ensemble de données (sélection)
 Nettoyage et pré-traitement des données (peut prendre 60% de
l’effort)
 Choix des fonctionnalités du data mining
 classification, consolidation, régression, association, clustering.
 Choix de(s) l’algorithme(s) d’extraction
 Datamining: Recherche des motifs (patterns) intéressants
 Evaluation des Patterns et présentation
 visualisation, transformation, suppression des patterns redondants,
etc.
 Utilisation de la connaissance extraite
12
Architecture typique d’un système
de Data mining
Interface graphique
Evaluation des motifs
Module Data mining

Base de
BD ou Datawarehouse connaissances
Nettoyage & intégration Filtrage
Data
BD’s Warehouse
13
Datamining: sur quels types
de données
 BD’s relationnelles
 Data warehouses
 BD’s transactionnelles
 BD’s avancées
 BD’s objet et objet-relationnelles
 BD’s spatiales
 Séries temporelles
 BD’s Textes et multimedia
 BD’s Hétérogènes
 WWW
14
Fonctionnalités du Data Mining
 On distingue deux grandes familles de tâches

réalisées en datamining
 Description : consiste à trouver les caractéristiques
générales relatives aux données fouillées: décrire le
présent.
 Prédiction : consiste à faire de l’inférence à partir

des données actuelles pour prédire des évolutions
futures: décrire le futur
15
Quels types de motifs extraire ? (1)
 Description de concepts: Caractérisation et

discrimination
 Caractérisation : Il s’agit de trouver des descriptions
concises et précises de certains concepts.
Ex: On a une table décrivant les clients d’une entreprise.
 Contraster (régions sèches vs humides)
16
Association (corrélation et causalité)

 Analyse de la probabilité qu’une personne d’un certain Age, avec
un revenu donné, achète un PC:
age(X, “20..29”) & revenu(X, “200..300KF”)  achète(X, “PC”) [support = 2%,
confiance = 60%]
 Probabilité qu’un fournisseur d’ordinateur, fournisse des logiciels:

Fourni (T, “ordinateur”)  fourni(T, “logiciel”) [1%, 75%]
17
 Classification et Prédiction
 Trouver des modèles (fonctions) qui décrivent et distinguent des
concepts pour de futures prédictions
Classification: regrouper selon un critère
Ex : classifier les pays en se basant sur leurs climats, les voitures selon
leurs carburants
 Prédiction: Prédire des valeurs inconnues

Démarche:
 On prend un échantillon (jeu d’essai) dans lequel chaque objet est
associé à une classe
 Analyser chaque classe (son contenu) pour pouvoir ensuite affecter
chaque objet nouveau à une classe particulière
18
 Analyse de groupes (clusters)

 Appelée aussi classification non supervisée
 Le regroupement est basé sur le principe: maximiser la
similarité intra-groupe et la minimiser entre groupes
distincts
 Le nom de chaque groupe est inconnu
19
 Analyse de tendances
 Tendance et déviation: analyse de régression
 Extraction de séquences séquentiels, analyse de
périodicités
 Analyse d’exceptions
 Les objets non conformes à la tendance générale
 Une exception peut être considérée comme du bruit mais aussi
comme indice de fraude
20
Est-ce que tous les motifs découverts
sont utiles?
 Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?
 Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur
 Mesure Objective vs. Subjective :
 Objective: basée sur des mesures statistiques : support,
confiance, etc.
 Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
21
Peut-on trouver tous et que
les motifs intéressants?
 Trouver tous les patterns intéressants: Complétude

 Association vs. classification vs. Regroupement.
 Trouver que les patterns intéressants: Optimisation

 Approches
 D’abord les trouver tous puis filtrer
 Ne générer que les motifs intéressants
22
Data Mining: somme de plusieurs Disciplines
Technologie BD Statistique
Apprentissage Data Mining Visualisation
Théorie de l’information Autres

Disciplines
23
Classification des systèmes (1)
 Fonctionnalité générale
 Data mining descriptif
 Data mining prédictif
 Différentes vues, différentes classifications

 Types de BD’s à fouiller
 Types de connaissances à découvrir
 Types de techniques utilisées
 Application ciblée
24
Classification des systèmes (2)
 BD fouillée
 Relationnelle, transactionnelle, orienté-objet, object-
relationnelle, active, spatiale, séries temporelles, texte, multi-
media, hétérogènes, WWW, etc.
 Connaissance recherchée
 Association, classification, clustering, tendance, analyse de
déviation, etc.
 Multiples fonctions aux différents niveaux
 Techniques utilisées
 BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc.
 Applications
 télécommunication, banque, analyse de fraude, ADN, finance, Web, …
25
Problématiques
 Méthodologie et interaction
 Différents types de connaissances à extraire
 Prise en compte des connaissances des experts
 Langages de requête et data mining ad-hoc
 Expression et visualisation des résultats
 Prise en compte des données incomplètes ou avec bruit
 Évaluation des motifs: notion d’intérêt
 Performance et mise en échelle
 Efficacité des algorithmes
 Méthodes Parallèles, distribuées et incrémentales
 Diversité des types de données
 Relationnels, objets complexes, texte, …
26
Résumé
 Data mining: Découverte de motifs intéressants à partir de grandes

quantités de données
 Une évolution naturelle de la technologie des SGBD, très demandée
par diverses applications
 Un processus d’ECD inclut les étapes: nettoyage, intégration,
sélection, transformation, data mining, évaluation des patterns,
présentation de la connaissance
 La fouille peut se faire sur différents types d’entrepôts de données
 Fonctionnalités: discrimination, association, classification, clustering,
analyse de tendances, etc.
 Problématiques du data mining
27
Quelques systèmes (commercial)
 SAP de business Object Classification, association et divers outils
statistiques. Très puissant en terme de visualisation
 Intelligent miner d’IBM (couplé avec le SGBD DB2)
 Classification, association, régression, analyse de séquences,
regroupement
 Entreprise miner de SAS
 Multiples outils d’analyse statistique, classification, …
 Mine set de Silicon graphics.
 Classification, association et divers outils statistiques. Très puissant
en terme de visualisation
 Clémentine de SPSS
 En plus des fonctionnalités classiques, l’utilisateur peut y rajouter
ses propres algorithmes
 DBMiner de DBMiner technologie.
 Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP
 Oracle BI de Oracle: Multiples outils d’analyse statistique,
classification, …
 BI SQL Server de Microsoft : Multiples outils d’analyse
statistique, classification, …
28
Quelques systèmes (open sources)
 BIRT
 Jaspersoft Community
 Knime
 Metabase
 Report Server Community Edition
 Talend
 SpagoBI
 ClicData
 Dataiku Free Edition
 Qlik Sense Cloud Edition
 QlikView Personal Edition
 Microsoft Power BI
 RapidMiner
 Style Scope AE
 Tableau Public
 Zoho Reports
29
Bibliographie
Titre: Datamining : Concepts and techniques.
Auteurs : Jiawei Han & Micheline Kamber
Editeur : Morgan Kaufmann 2000
https://blog.capterra.com/top-8-free-and-open-
source-business-intelligence-software/
30

Concepts de Base

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Concepts de Base

Transféré par

Droits d'auteur :

Formats disponibles

Extraction de Connaissances à partir de

Données (ECD) ou Data Mining:

II/ pratique avec Pentaho

 Motivation: Pourquoi le Data mining?

 Les outils automatiques de collecte de données font que les

 Beaucoup de données mais peu de connaissances !

 Solution: Data warehousing et data mining

 Data warehousing et OLAP (On Line Analytical Processing)

 Extraction de connaissances intéressantes (règles, régularités,

 KDD (Knowledge Discovery from Databases)

 Analyse de données/patterns, business intelligence, fouille

Data Warehouse Sélection

Bases de données ou fichiers

 Comprendre le domaine d’application

Evaluation des motifs

Module Data mining

 On distingue deux grandes familles de tâches

 Prédiction : consiste à faire de l’inférence à partir

 Description de concepts: Caractérisation et

 Contraster (régions sèches vs humides)

Association (corrélation et causalité)

 Probabilité qu’un fournisseur d’ordinateur, fournisse des logiciels:

 Prédiction: Prédire des valeurs inconnues

 Analyse de groupes (clusters)

 Trouver tous les patterns intéressants: Complétude

 Trouver que les patterns intéressants: Optimisation

Apprentissage Data Mining Visualisation

Théorie de l’information Autres

 Différentes vues, différentes classifications

 Data mining: Découverte de motifs intéressants à partir de grandes

Auteurs : Jiawei Han & Micheline Kamber

Editeur : Morgan Kaufmann 2000

Vous aimerez peut-être aussi