Académique Documents
Professionnel Documents
Culture Documents
1
Plan du Cours
I/ Introduction
2
Chapitre 1. Introduction
3
Motivation: Le besoin crée l’invention
Problème de l’explosion de données
4
Evolution des Bases de Données
1960s:
Collecte des données, création des BD’s, IMS et le modèle réseau
1970s:
Modèle et SGBD’s relationnels, SQL, transactions, OLTP
1980s:
Modèles de données et SGBD’s avancés (relationnel étendu, OO,
déductifs, etc.) et SGBD’s dédiés (spatial, génomique,
engineering, etc.)
1990s—2000s:
Data mining et data warehousing, BD’s multimédia, BD’s sur le
WEB
5
Ce qu’est le Data Mining
Data mining :
Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données.
Autres appellations:
ECD (Extraction de Connaissances à partir de Données)
7
Pourquoi faire ?
Applications
L’analyse d’une BD de transactions d’un supermarché
permet d’étudier le comportement des clients :
réorganiser les rayons
Ajuster les promotions
En gestion commerciale, regrouper les clients selon
certains critères :
Cibler les « mailings »
L’analyse de données médicales :
Support pour la recherche
L’analyse de données financières :
Prédire l’évolution des actions
Organismes de crédit (dresser des profils de clients)
8
Pourquoi faire ?
Applications
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles
de comportements frauduleux puis utiliser les techniques de
datamining pour retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les
accidents et les remboursements
Blanchiment d’argent: détecter les transactions suspectes (US
Treasury's Financial Crimes Enforcement Network)
9
Pourquoi faire ?
Applications
Astronomie
Le laboratoire JPL a découvert 22 quasars (galaxie très
énergétique avec un noyau actif) en utilisant les
techniques de datamining
Web
IBM a appliqué des algorithmes de data mining pour
réorganiser ses sites WEB afin de faciliter la navigation.
Améliorer le WEB marketing
10
Datamining: Un processus dans l’ECD
Evaluation de patterns
Data mining: étape clé
dans l’extraction de
connaissances Data Mining
Données intéressantes
Nettoyage de données
Intégration
12
Architecture typique d’un système
de Data mining
Interface graphique
Data
BD’s Warehouse
13
Datamining: sur quels types
de données
BD’s relationnelles
Data warehouses
BD’s transactionnelles
BD’s avancées
BD’s objet et objet-relationnelles
BD’s spatiales
Séries temporelles
BD’s Textes et multimedia
BD’s Hétérogènes
WWW
14
Fonctionnalités du Data Mining
16
Quels types de motifs extraire ? (2)
17
Quels types de motifs extraire ? (3)
Classification et Prédiction
Trouver des modèles (fonctions) qui décrivent et distinguent des
concepts pour de futures prédictions
Classification: regrouper selon un critère
Ex : classifier les pays en se basant sur leurs climats, les voitures selon
leurs carburants
18
Quels types de motifs extraire ? (4)
19
Quels types de motifs extraire ? (5)
Analyse de tendances
Tendance et déviation: analyse de régression
Extraction de séquences séquentiels, analyse de
périodicités
Analyse d’exceptions
Les objets non conformes à la tendance générale
Une exception peut être considérée comme du bruit mais aussi
comme indice de fraude
20
Est-ce que tous les motifs découverts
sont utiles?
Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?
Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur
Mesure Objective vs. Subjective :
Objective: basée sur des mesures statistiques : support,
confiance, etc.
Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
21
Peut-on trouver tous et que
les motifs intéressants?
22
Data Mining: somme de plusieurs Disciplines
Technologie BD Statistique
23
Classification des systèmes (1)
Fonctionnalité générale
Data mining descriptif
Data mining prédictif
Application ciblée
24
Classification des systèmes (2)
BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-
relationnelle, active, spatiale, séries temporelles, texte, multi-
media, hétérogènes, WWW, etc.
Connaissance recherchée
Association, classification, clustering, tendance, analyse de
déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc.
Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, …
25
Problématiques
Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des experts
Langages de requête et data mining ad-hoc
Expression et visualisation des résultats
Prise en compte des données incomplètes ou avec bruit
Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
Efficacité des algorithmes
Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
Relationnels, objets complexes, texte, …
26
Résumé
27
Quelques systèmes (commercial)
SAP de business Object Classification, association et divers outils
statistiques. Très puissant en terme de visualisation
Intelligent miner d’IBM (couplé avec le SGBD DB2)
Classification, association, régression, analyse de séquences,
regroupement
Entreprise miner de SAS
Multiples outils d’analyse statistique, classification, …
Mine set de Silicon graphics.
Classification, association et divers outils statistiques. Très puissant
en terme de visualisation
Clémentine de SPSS
En plus des fonctionnalités classiques, l’utilisateur peut y rajouter
ses propres algorithmes
DBMiner de DBMiner technologie.
Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP
Oracle BI de Oracle: Multiples outils d’analyse statistique,
classification, …
BI SQL Server de Microsoft : Multiples outils d’analyse
statistique, classification, …
28
Quelques systèmes (open sources)
BIRT
Jaspersoft Community
Knime
Metabase
Report Server Community Edition
Talend
SpagoBI
ClicData
Dataiku Free Edition
Qlik Sense Cloud Edition
QlikView Personal Edition
Microsoft Power BI
RapidMiner
Style Scope AE
Tableau Public
Zoho Reports
29
Bibliographie
Titre: Datamining : Concepts and techniques.
https://blog.capterra.com/top-8-free-and-open-
source-business-intelligence-software/
30