Académique Documents
Professionnel Documents
Culture Documents
Chapitre 1 :
Introduction Data
Mining
Données Informations
Information présentée Une information est
sous forme une donnée à laquelle
conventionnelle, un sens et une
en vue d'être traitée interprétation ont été
donnés
Connaissances
Règles utilisant les
informations et
les données pour
en déduire
d'autres 2
Introduction
Introduction
3
Plan Plan
5
Motivation
6
Motivation
Motivation
Data mining :
Extraction d’informations intéressantes (non triviales, implicites,
préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données.
Autres appellations:
• ECD (Extraction de Connaissances à partir de Données)
• KDD (Knowledge Discovery from Databases)
• Analyse de données/patterns, business intelligence,
fouille de données, etc …
9
Qu’est-ce quequelele data
Qu’est-ce Datamining?
mining ?
10
Qu’est-ce quequelele data
Qu’est-ce Datamining?
mining ?
Comment ?
Autres Applications
• Text mining : news groups, emails, documents Web.
• Optimisation des requêtes
13
Exemple Datamining
Exemple Data mining
Marketing ciblé
Trouver un « modèle » pour regrouper les clients partageant les
mêmes caractéristiques. Pour chaque groupe, adopter une démarche
marketing particulière
Analyse croisée
Associations/co-relations entre ventes de produits
Prédiction basée sur ces associations
14
Exemple Datamining
Exemple Data mining
Applications
L’analyse d’une BD de transactions d’un supermarché permet
d’étudier le comportement des clients :
réorganiser les rayons
Ajuster les promotions
L’analyse de données
médicales :
Support pour la
recherche
L’analyse de données
financières :
Prédire l’évolution des
actions 15
Organismes de crédit
Exemple Datamining
Exemple Data mining
Applications
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de datamining
pour retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les accidents et les
remboursements
Blanchiment d’argent: détecter les transactions suspectes (US Treasury's
Financial Crimes Enforcement Network)
16
Exemple Datamining
Exemple Data mining
Applications
Demande de crédit bancaire:
• Célibataire ou marié?
• En retraite?
• Intervalle de salaire?
17
Exemple Datamining
Exemple Data mining
118
6
19
Processus général
Processus duECDKDD
général du
20
Processus Processus
du KDD du ECD
Données intéressantes
Nettoyage de données
Intégration
En statistique :
o Quelques centaines d’individus
o Quelques variables
o Fortes hypothèses sur les lois statistiques
o Importance accordée au calcul
o Échantillon aléatoire.
En Data mining :
o Des millions d’individus
o Des centaines de variables
o Données recueillies sans étude préalable
o Nécessité de calculs rapides 23
o Corpus d’apprentissage.
DataData
Mining
Mining:vs
surData Warehouse
quels types de données
• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
o BD’s objet et objet-relationnelles
o BD’s spatiales
o Séries temporelles
o BD’s Textes et multimedia
o BD’s Hétérogènes
o WWW 27
Data Mining: Confluence de
Data Mining: Confluence
plusieurs Disciplines de plusieurs
Disciplines
Technologie BD Statistique/
Informatique
Mathématique
28
Classification des systèmes
Classification des systèmes
• Fonctionnalité générale
Data mining descriptif
Data mining prédictif
• Différentes vues,
différentes
classifications
Types de BD’s à
fouiller
Types de connaissances à découvrir
Types de techniques utilisées
• Application ciblée
29
Classification des systèmes
Classification des systèmes
BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active,
spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW,
etc.
Connaissance recherchée
Association, classification, clustering, tendance, analyse de déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, clustering, statistiques,
visualisation, réseaux de neurones, arbre de décision, SVM etc.
Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, … 30
Problématiques
Problématiques
Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des
experts Langages de requête et data mining
ad-hoc Expression et visualisation des
résultats
Prise en compte des données incomplètes ou avec
bruit Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
Efficacité des algorithmes
Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
Relationnels, objets complexes, texte, …
31
Résumé Résumé
https://
v-assets.cdnsw.com/fs/Root/e24a1-Chap_1_Introduction_au_DM.
pdf
https://
perso.univ-rennes1.fr/valerie.monbet/doc/cours/IntroDM/Chapitre
1.pdf
file:///C:/
Users/GLOBAL%20TECH/Downloads/cours_chapitre_1.pdf
https://
www.uv.es/nemiche/cursos/polycopies/1%20Data%20Mining.p
df
http://
fahmi-benrejab.e-monsite.com/medias/files/01-introduction-dm.pd
f
https://ageelink.com/metiers-du-web/big-data-vs-data-mining/#:
33
~: