Vous êtes sur la page 1sur 33

Module : DataMining

Chapitre 1 :
Introduction Data
Mining

Mme Houneida HADDAJI


RSI31 1
Année universitaire 2023/2024
Introduction
Introduction

Données Informations
Information présentée Une information est
sous forme une donnée à laquelle
conventionnelle, un sens et une
en vue d'être traitée interprétation ont été
donnés

Connaissances
Règles utilisant les
informations et
les données pour
en déduire
d'autres 2
Introduction
Introduction

3
Plan Plan

• Motivation: Pourquoi le Data mining?


• Ce qu’est le Data mining?
• Exemple Datamining
• Processus du KDD
• Statistique vs Data mining
• Data Mining vs Data Warehouse
• Data Mining vs Machine Learning
• Data Mining: Sur quels types de données?
• Data Mining: Confluence de plusieurs Disciplines
• Classification des systèmes de Data mining
• Problèmes rencontrés
4
Motivation
Motivation

Problème de l’explosion de données


Les outils automatiques de collecte de données font que les Bases de
Données (BD’s) contiennent énormément de données (Ex: La base de
données des transactions d’un super marché).
« Les volumes de données vont augmenter d’un facteur trente d’ici à 2025
pour

atteindre 35 zettaoctets (1021) au niveau mondial », affirme Sébastien Verger

5
Motivation

6
Motivation
Motivation

Motivation: Le besoin crée l’invention

Beaucoup de données mais peu de


connaissances !
Solution: Data warehousing et data mining
Data warehousing et OLAP (On Line Analytical
Processing) Extraction de connaissancesintéressantes
(règles, régularités, patterns, contraintes) à partir de
données. 7
8
Qu’est-ce quequelele data
Qu’est-ce Datamining?
mining ?

Data mining :
Extraction d’informations intéressantes (non triviales, implicites,
préalablement inconnues et potentiellement utiles) à partir de
grandes bases de données.

Autres appellations:
• ECD (Extraction de Connaissances à partir de Données)
• KDD (Knowledge Discovery from Databases)
• Analyse de données/patterns, business intelligence,
fouille de données, etc …

9
Qu’est-ce quequelele data
Qu’est-ce Datamining?
mining ?

Le data mining est


• l’ensemble des méthodes scientifiques
• destinées à l’exploration et l’analyse
• de (souvent) grandes bases de données informatiques
• en vue de détecter dans ces données des profils-type, des
comportements récurrents, des règles, des liens, des tendances
inconnues (non fixées a priori), des structures particulières
restituant de façon concise l’essentiel de l’information utile
• pour l’aide a la décision

Selon le MIT, le data mining est l’une des 10 technologies


emergentes qui changeront le monde au XXIe siecle

10
Qu’est-ce quequelele data
Qu’est-ce Datamining?
mining ?

Le data mining est l’extraction des informations


cachées dans des bases de données volumineuses.

Comment ?

Utilisant des techniques d’analyse et d’apprentissage


automatique et des logiciels spécialisés.
11
Qu’est-ce quequelele data
Qu’est-ce Datamining?
mining ?

Les 2 types de méthodes de data mining


o Les méthodes descriptives (recherche de « patterns ») :
o visent a mettre en évidence des informations présentes mais cachées par
le volume des données (c’est le cas des segmentations de clientèle et des
recherches d’associations de produits sur les tickets de caisse)
o réduisent, résument, synthétisent les données.
o il n’y a pas de variable a expliquer.
o Les méthodes prédictives (modélisation) :
o visent a extrapoler de nouvelles informations a partir des
informations présentes.
o expliquent les données
o il y a une variable a expliquer
12
Pourquoi faire?
Pourquoi faire ?

 Analyse de données et aide à la décision


• Analyse de marché
• Marketing ciblé, gestion des relations client,
analyse des achats des clients, ventes croisées,
segmentation du marché
• Analyse de risque
• Détection de fraudes

 Autres Applications
• Text mining : news groups, emails, documents Web.
• Optimisation des requêtes
13
Exemple Datamining
Exemple Data mining

Analyse de marché et management


Les sources de données à analyser ?
Transactions avec carte de crédit, carte de fidélité, sondages

Marketing ciblé
Trouver un « modèle » pour regrouper les clients partageant les
mêmes caractéristiques. Pour chaque groupe, adopter une démarche
marketing particulière

Analyse croisée
Associations/co-relations entre ventes de produits
Prédiction basée sur ces associations
14
Exemple Datamining
Exemple Data mining

Applications
L’analyse d’une BD de transactions d’un supermarché permet
d’étudier le comportement des clients :
réorganiser les rayons
Ajuster les promotions
L’analyse de données
médicales :
Support pour la
recherche
L’analyse de données
financières :
Prédire l’évolution des
actions 15

Organismes de crédit
Exemple Datamining
Exemple Data mining

Applications
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de datamining
pour retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les accidents et les
remboursements
Blanchiment d’argent: détecter les transactions suspectes (US Treasury's
Financial Crimes Enforcement Network)

16
Exemple Datamining
Exemple Data mining

Applications
Demande de crédit bancaire:
• Célibataire ou marié?
• En retraite?
• Intervalle de salaire?

17
Exemple Datamining
Exemple Data mining

118
6
19
Processus général
Processus duECDKDD
général du

Le processus ECD (Extraction de connaissances à partir de données)


KDD – Knowledge discovery in Databases
• Graphes d'Induction
• Echantillonnage • Réseaux de neurones • Tests statistiques
• Préparation des données • Analyse discriminante • Re-échantillonnage
• Visualisation des données • Régression logistique

20
Processus Processus
du KDD du ECD

Data mining: étape clé dans Evaluation de patterns


l’extraction de
connaissances
Data Mining

Données intéressantes

Data Warehouse Sélection

Nettoyage de données

Intégration

Bases de données ou fichiers 21


Etapes du Processus
Etapes KDD
du Processus ECD

1. Comprendre le domaine d’application


2. Création d’un ensemble de données (sélection)
3. Nettoyage et pré-traitement des données (peut prendre 60% de
l’effort)
4. Choix des fonctionnalités du data mining
• classification, consolidation, régression, association, clustering.

5. Choix de(s) l’algorithme(s) d’extraction


6. Datamining: Recherche des motifs (patterns) intéressants
7. Evaluation des Patterns et présentation
• visualisation, transformation, suppression des patterns redondants, etc.

8. Utilisation de la connaissance extraite


22
Statistique vs sur
Data Mining: Data
quelsmining
types de données

 En statistique :
o Quelques centaines d’individus
o Quelques variables
o Fortes hypothèses sur les lois statistiques
o Importance accordée au calcul
o Échantillon aléatoire.
 En Data mining :
o Des millions d’individus
o Des centaines de variables
o Données recueillies sans étude préalable
o Nécessité de calculs rapides 23

o Corpus d’apprentissage.
DataData
Mining
Mining:vs
surData Warehouse
quels types de données

 Data warehouse est un entrepôt de données d’une entreprise qui


contient quelques données opérationnelles, données agrégées
(agrégations), données historiques, données évolutives et possiblement
des données externe à l’entreprise qui ont une relation avec l’activité de
l’entreprise.
 Ces données sont stockées dans une ou plusieurs base de données
relationnelle et sont accessibles par toutes les applications orientées aide
à la décision.
 Évidemment Data Warehouse et Data Mining sont deux choses très
différentes.
 Data Warehouse est usuellement le point le départ de Data Mining.
Data Warehouse et Data Mining sont des parties du processus
24 KDD.
DataData
Mining
Mining:vs
surMachine Learning
quels types de données

 Machine Learning: C’est un sujet de l’intelligence


artificielle (IA) qui s’occupe de la façon d'écrire des
programmes qui peuvent apprendre.
 Dans Data Mining machine learning est habituellement
utilisés pour la prédiction et classification.
 Machine learning se divise en trois familles :
Apprentissage supervisé (learn by example)
 Apprentissage non supervisé
Et Apprentissage par renforcement.
25
Data Mining vs Big Data

 Big Data et Data mining sont deux concepts


différents.
 Le big Data fait référence à une grande quantité de
données,
 tandis que le Data mining traduit une technique
d’analyse approfondie des données pour en extraire :
 des connaissances
 des modèles
 des informations clés
d’une petite ou grande quantité de données.
26
DataData
Mining:
Mining: sur quels
sur quels types
types de données
de données

• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
o BD’s objet et objet-relationnelles
o BD’s spatiales
o Séries temporelles
o BD’s Textes et multimedia
o BD’s Hétérogènes
o WWW 27
Data Mining: Confluence de
Data Mining: Confluence
plusieurs Disciplines de plusieurs
Disciplines
Technologie BD Statistique/
Informatique
Mathématique

Apprentissage Data Mining Visualisation

Théorie de l’information Autres


Disciplines

28
Classification des systèmes
Classification des systèmes

• Fonctionnalité générale
Data mining descriptif
Data mining prédictif
• Différentes vues,
différentes
classifications
Types de BD’s à
fouiller
Types de connaissances à découvrir
Types de techniques utilisées
• Application ciblée
29
Classification des systèmes
Classification des systèmes

BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active,
spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW,
etc.
Connaissance recherchée
Association, classification, clustering, tendance, analyse de déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, clustering, statistiques,
visualisation, réseaux de neurones, arbre de décision, SVM etc.
Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, … 30
Problématiques
Problématiques

Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des
experts Langages de requête et data mining
ad-hoc Expression et visualisation des
résultats
Prise en compte des données incomplètes ou avec
bruit Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
Efficacité des algorithmes
Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
Relationnels, objets complexes, texte, …

31
Résumé Résumé

• Data Mining: Découverte de motifs intéressants à partir de


grandes quantités de données
• Une évolution naturelle de la technologie des SGBD, très
demandée par diverses applications
• Un processus d’ECD inclut les étapes: nettoyage, intégration,
sélection, transformation, data mining, évaluation des patterns,
présentation de la connaissance
• La fouille peut se faire sur différents types d’entrepôts de
données
• Fonctionnalités: discrimination, association,
classification, Clustering, analyse de tendances, etc.
• Classification de SDM
• Problématiques du data Mining
Références

 https://
v-assets.cdnsw.com/fs/Root/e24a1-Chap_1_Introduction_au_DM.
pdf
 https://
perso.univ-rennes1.fr/valerie.monbet/doc/cours/IntroDM/Chapitre
1.pdf
file:///C:/
Users/GLOBAL%20TECH/Downloads/cours_chapitre_1.pdf
https://
www.uv.es/nemiche/cursos/polycopies/1%20Data%20Mining.p
df
http://
fahmi-benrejab.e-monsite.com/medias/files/01-introduction-dm.pd
f
https://ageelink.com/metiers-du-web/big-data-vs-data-mining/#:
33
~:

Vous aimerez peut-être aussi