Vous êtes sur la page 1sur 29

Année

universitaire
2017 / 2018

realiser par:
Mohamed karim haffar
Ahmed Zouaghi
Mohamed Stambouli
Mahdi Hammami
 Introduction
 Règles d’association
 Classification et prédiction
 Regroupement
 Extraction de types complexes
 Applications du Datamining et tendances actuelles

2
 Motivation: Le besoin crée l’invention

 Ce qu’est le Data mining?

 Data Mining: Sur quels types de données?

 Fonctionnalités du Data mining

 Intérêt des motifs (patterns)

 Classification des systèmes de Data mining

 Problèmes rencontrés
3
 Problème de l’explosion de données
 Les outils automatiques de collecte de données font que les Bases

de Données (BD’s) contiennent énormément de données (Ex: La


base de données des transactions d’un super marché)

 Beaucoup de données mais peu de connaissances !

 Solution: Data warehousing et data mining


 Data warehousing et OLAP (On Line Analytical Processing)

 Extraction de connaissances intéressantes (règles, régularités,

patterns, contraintes) à partir de données

4
 1960:
 Collecte des données, création des BD’s, IMS et le modèle réseau

 1970:
 Modèle et SGBD’s relationnels, transactions

 1980:
 Modèles de données et SGBD’s avancés (relationnel étendu,
 déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering,
etc.)
 1990—2000:
 Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB

5
Data mining :
 Extraction d’informations à partir de grandes bases de
données.

Autres appellations:
 ECD (Extraction de Connaissances à partir de Données)
 KDD (Knowledge Discovery from Databases)
 Analyse de données/patterns, business intelligence,, etc …
fouille de données

6
 Analyse de données et aide à la décision
 Analyse de marché
Marketing ciblé, gestion des relations client, analyse des
achats des clients, ventes croisées, segmentation du
marché
 Analyse de risque
 Détection de fraudes

 Autres Applications
 Text mining : news groups, emails, documents Web.
 Optimisation des requêtes

7
 Les sources de données à analyser ?
 Transactions avec carte de crédit, carte de fidélité, sondages

 Marketing ciblé
 Trouver un « modèle » pour regrouper les clients partageant les
mêmes caractéristiques. Pour chaque groupe, adopter une
démarche marketing particulière
 Analyse croisée
 Associations/co-relations entre ventes de produits
 Prédiction basée sur ces associations

8
 L’analyse d’une BD de transactions d’un supermarché

permet d’étudier le comportement des clients :


 réorganiser les rayons
 Ajuster les promotions

 En VPC, regrouper les clients selon certains critères :


 Cibler les « mailings »

 L’analyse de données médicales


 L’analyse de données financières :
 Prédire l’évolution des actions
 Organismes de crédit (dresser des profils de clients)

9
 Détection de fraudes
 en santé, services de cartes de crédit, télécommunications, etc.
 Approche
 Utiliser les données historiques pour construire des modèles de
comportements frauduleux puis utiliser les techniques de
datamining pour retrouver des instances similaires
 Exemples
 Assurances auto: détecter les personnes qui collectionnent les
accidents et les remboursements
 Blanchiment d’argent: détecter les transactions suspectes (US
Treasury's Financial Crimes Enforcement Network)

10
Astronomie
 Le laboratoire JPL a découvert 22 quasars en utilisant les
techniques de datamining
Web
 IBM a appliqué des algorithmes de data mining pour
réorganiser leurs sites WEB afin de faciliter la navigation.
 Améliorer le WEB marketing

11
Evaluation de patterns
 Data mining: étape clé dans
l’extraction de connaissances
Data Mining

Données intéressantes

Data Warehouse Sélection

Nettoyage de données

Intégration

Bases de données ou fichiers 12


 Comprendre le domaine d’application

 Création d’un ensemble de données (sélection)

 Nettoyage et pré-traitement des données


 Choix des fonctionnalités du data mining
 classification, consolidation, régression, association, clustering.

 Choix de(s) l’algorithme(s) d’extraction

 Datamining: Recherche des motifs (patterns) intéressants


 Evaluation des Patterns et présentation
 visualisation, transformation, suppression des patterns redondants,
etc.
 Utilisation de la connaissance extraite

13
On distingue deux grandes familles de tâches réalisées

en datamining
 Description : consiste à trouver les caractéristiques

générales relatives aux données fouillées


 Prédiction : consiste à faire de l’inférence à partir des

données actuelles pour prédire des évolutions futures

14
Description de concepts: Caractérisation et

discrimination
 Caractérisation : Il s’agit de trouver des descriptions

concises et précises de certains concepts. Ex: On a une


table décrivant les clients d’une entreprise.

15
Quels types de motifs extraire ?
 Classification et Prédiction
 Trouver des modèles (fonctions) qui décrivent et distinguent des
concepts pour de futures prédictions
 Ex : classifier les pays en se basant sur leurs climats, les voitures
selon leurs carburants
 Présentation: Arbres de décision, règles de classification, réseaux
neuronaux
 Prédiction: Prédire des valeurs inconnues
 Démarche:
 On prend un échantillon (jeu d’essai) dans lequel chaque objet
est associé à une classe
 Analyser chaque classe (son contenu) pour pouvoir ensuite
affecter chaque objet nouveau à une classe particulière
16
 Analyse de groupes (clusters)
 Appelée aussi classification non supervisée
 Le regroupement est basé sur le principe: maximiser la
similarité intra-groupe et la minimiser entre groupes
distincts
 Le nom de chaque groupe est inconnu

17
Quels types de motifs extraire ?

Analyse d’exceptions
 Les objets non conformes à la tendance générale

 Une exception peut être considérée comme du bruit mais aussi

comme indice de fraude

Analyse de tendances
 Tendance et déviation: analyse de régression
 Extraction de séquences séquentiels, analyse de

périodicités

18
 Un système de data mining peut générer des milliers de motifs pas

tous intéressants. C’est quoi un motif intéressant ?


 Mesure d’intérêt : Un motif est intéressant s’il est facilement

compréhensible, a un degré de certitude, nouveau, peut servir à


valider (ou invalider) une hypothèse utilisateur
 Mesure Objective vs. Subjective :

 Objective: basée sur des mesures statistiques : support, confiance,

etc.
 Subjective: basée sur le point de vue de l’utilisateur sur les

données, ex: le fait que cela soit inattendu, nouveauté,


actionnabilité, etc.
19
 Trouver tous les patterns intéressants:
intéressants Complétude
 Association vs. classification vs. regroupement

 Trouver que les patterns intéressants: Optimisation


 Approches
 D’abord les trouver tous puis filtrer
 Ne générer que les motifs intéressants

20
Technologie BD Statistique

Apprentissage Data Mining Visualisation

Théorie de l’information Autres


Disciplines
21
 Fonctionnalité générale
 Data mining descriptif

 Data mining prédictif

 Différentes vues, différentes classifications


 Types de BD’s à fouiller

 Types de connaissances à découvrir

 Types de techniques utilisées

 Application ciblée

22
 BD fouillée
 Relationnelle, transactionnelle, active, spatiale, séries temporelles,
texte, multi-media, hétérogènes, etc.
 Connaissance recherchée
 Association, classification, tendance, analyse de déviation, etc.
 Multiples fonctions aux différents niveaux
 Techniques utilisées
 BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc.
 Applications
 télécommunication, banque, analyse de fraude, finance, Web, …

23
 Méthodologie et interaction
 Différents types de connaissances à extraire
 Prise en compte des connaissances des experts
 Expression et visualisation des résultats
 Prise en compte des données incomplètes ou avec bruit
 Évaluation des motifs: notion d’intérêt

 Performance et mise en échelle


 Efficacité des algorithmes
 Méthodes Parallèles, distribuées et incrémentales
 Diversité des types de données
 Relationnels, objets complexes, texte, …

24
25
À titre d’exemple, une chaîne d’épiceries du
Midwest s’est servie des logiciels de Data Mining
d’Oracle pour analyser les modèles d’achats
locaux. L’enseigne à découvert que, lorsque les
hommes achètent des couches le jeudi et le
samedi, ils ont également tendance à s’acheter.

26
Une analyse approfondie a également démontré
que ces clients font habituellement leurs courses
hebdomadaires le samedi. Le jeudi, ils se
contentent d’acheter quelques articles
seulement. La chaîne en a conclu que les clients
achètent pour qu’elles soient prêtes pour le
weekend.

27
 Data mining: Découverte de motifs intéressants à partir de grandes
quantités de données
 Une évolution naturelle de la technologie des SGBD, très demandée par
diverses applications
 Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection,
transformation, data mining, évaluation des patterns, présentation de
la connaissance
 La fouille peut se faire sur différents types d’entrepôts de données
 Fonctionnalités: discrimination, association, classification, analyse de
tendances, etc.

28

 Fin

29

Vous aimerez peut-être aussi