Académique Documents
Professionnel Documents
Culture Documents
universitaire
2017 / 2018
realiser par:
Mohamed karim haffar
Ahmed Zouaghi
Mohamed Stambouli
Mahdi Hammami
Introduction
Règles d’association
Classification et prédiction
Regroupement
Extraction de types complexes
Applications du Datamining et tendances actuelles
2
Motivation: Le besoin crée l’invention
Problèmes rencontrés
3
Problème de l’explosion de données
Les outils automatiques de collecte de données font que les Bases
4
1960:
Collecte des données, création des BD’s, IMS et le modèle réseau
1970:
Modèle et SGBD’s relationnels, transactions
1980:
Modèles de données et SGBD’s avancés (relationnel étendu,
déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering,
etc.)
1990—2000:
Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB
5
Data mining :
Extraction d’informations à partir de grandes bases de
données.
Autres appellations:
ECD (Extraction de Connaissances à partir de Données)
KDD (Knowledge Discovery from Databases)
Analyse de données/patterns, business intelligence,, etc …
fouille de données
6
Analyse de données et aide à la décision
Analyse de marché
Marketing ciblé, gestion des relations client, analyse des
achats des clients, ventes croisées, segmentation du
marché
Analyse de risque
Détection de fraudes
Autres Applications
Text mining : news groups, emails, documents Web.
Optimisation des requêtes
7
Les sources de données à analyser ?
Transactions avec carte de crédit, carte de fidélité, sondages
Marketing ciblé
Trouver un « modèle » pour regrouper les clients partageant les
mêmes caractéristiques. Pour chaque groupe, adopter une
démarche marketing particulière
Analyse croisée
Associations/co-relations entre ventes de produits
Prédiction basée sur ces associations
8
L’analyse d’une BD de transactions d’un supermarché
9
Détection de fraudes
en santé, services de cartes de crédit, télécommunications, etc.
Approche
Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de
datamining pour retrouver des instances similaires
Exemples
Assurances auto: détecter les personnes qui collectionnent les
accidents et les remboursements
Blanchiment d’argent: détecter les transactions suspectes (US
Treasury's Financial Crimes Enforcement Network)
10
Astronomie
Le laboratoire JPL a découvert 22 quasars en utilisant les
techniques de datamining
Web
IBM a appliqué des algorithmes de data mining pour
réorganiser leurs sites WEB afin de faciliter la navigation.
Améliorer le WEB marketing
11
Evaluation de patterns
Data mining: étape clé dans
l’extraction de connaissances
Data Mining
Données intéressantes
Nettoyage de données
Intégration
13
On distingue deux grandes familles de tâches réalisées
en datamining
Description : consiste à trouver les caractéristiques
14
Description de concepts: Caractérisation et
discrimination
Caractérisation : Il s’agit de trouver des descriptions
15
Quels types de motifs extraire ?
Classification et Prédiction
Trouver des modèles (fonctions) qui décrivent et distinguent des
concepts pour de futures prédictions
Ex : classifier les pays en se basant sur leurs climats, les voitures
selon leurs carburants
Présentation: Arbres de décision, règles de classification, réseaux
neuronaux
Prédiction: Prédire des valeurs inconnues
Démarche:
On prend un échantillon (jeu d’essai) dans lequel chaque objet
est associé à une classe
Analyser chaque classe (son contenu) pour pouvoir ensuite
affecter chaque objet nouveau à une classe particulière
16
Analyse de groupes (clusters)
Appelée aussi classification non supervisée
Le regroupement est basé sur le principe: maximiser la
similarité intra-groupe et la minimiser entre groupes
distincts
Le nom de chaque groupe est inconnu
17
Quels types de motifs extraire ?
Analyse d’exceptions
Les objets non conformes à la tendance générale
Analyse de tendances
Tendance et déviation: analyse de régression
Extraction de séquences séquentiels, analyse de
périodicités
18
Un système de data mining peut générer des milliers de motifs pas
etc.
Subjective: basée sur le point de vue de l’utilisateur sur les
20
Technologie BD Statistique
Application ciblée
22
BD fouillée
Relationnelle, transactionnelle, active, spatiale, séries temporelles,
texte, multi-media, hétérogènes, etc.
Connaissance recherchée
Association, classification, tendance, analyse de déviation, etc.
Multiples fonctions aux différents niveaux
Techniques utilisées
BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc.
Applications
télécommunication, banque, analyse de fraude, finance, Web, …
23
Méthodologie et interaction
Différents types de connaissances à extraire
Prise en compte des connaissances des experts
Expression et visualisation des résultats
Prise en compte des données incomplètes ou avec bruit
Évaluation des motifs: notion d’intérêt
24
25
À titre d’exemple, une chaîne d’épiceries du
Midwest s’est servie des logiciels de Data Mining
d’Oracle pour analyser les modèles d’achats
locaux. L’enseigne à découvert que, lorsque les
hommes achètent des couches le jeudi et le
samedi, ils ont également tendance à s’acheter.
26
Une analyse approfondie a également démontré
que ces clients font habituellement leurs courses
hebdomadaires le samedi. Le jeudi, ils se
contentent d’acheter quelques articles
seulement. La chaîne en a conclu que les clients
achètent pour qu’elles soient prêtes pour le
weekend.
27
Data mining: Découverte de motifs intéressants à partir de grandes
quantités de données
Une évolution naturelle de la technologie des SGBD, très demandée par
diverses applications
Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection,
transformation, data mining, évaluation des patterns, présentation de
la connaissance
La fouille peut se faire sur différents types d’entrepôts de données
Fonctionnalités: discrimination, association, classification, analyse de
tendances, etc.
28
Fin
29