Vous êtes sur la page 1sur 15
Data Mining Année scolaire 2017 / 2018 réaliser Par : Mohamed Karim Haffar Mohamed stambouli Mahdi
Data Mining
Data Mining

Année scolaire 2017 / 2018

réaliser Par :

Mohamed Karim Haffar

Mohamed stambouli

Mahdi Hammami Ahmed zouaghi

1

Plan du projet  Definition  Processus  fonctionalité  Problematique
Plan du projet
Plan du projet
  • Definition

  • Processus

  • fonctionalité

  • Problematique

Ce qu’est le Data Mining  Data mining :
Ce qu’est le Data Mining
Data mining :
Ce qu’est le Data Mining  Data mining : ◦ Extraction d’informations intéressantes ( non triviales,

Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données.

  • Autres appellations:

ECD (Extraction de Connaissances à partir de Données)

KDD (Knowledge Discovery from Databases)

Analyse de données/patterns, business intelligence , fouille de données ,etc …

4
Processus Data Mining Le Datamining est une suite ordonnée d'opérations qui permettent d'aboutir par la suite
Processus Data Mining
Le Datamining est une suite ordonnée d'opérations qui permettent
d'aboutir par la suite à un résultat. Pour cela il faut :
  • 1-Comprendre le métier :

 1-Comprendre le métier : définir clairement les objectif du projet et les contraintes que l’on

définir clairement les objectif du projet et les

contraintes que l’on peut rencontrer.

  • 2-Comprendre les données : recueillir, évaluer et sélectionner les données.

  • 3-Préparation des données : préparer à partir des données brutes celles qui seront utilisés.



4-Modélisation:

sélectionner et paramétrer les techniques de

modélisation à utiliser.

5-Études des résultats :

évaluer la qualité et la pertinence des résultats, en fonction de l'objectif défini.

6-Prise de décision

Méthodes de modélisation

Le Datamining met en œuvre un ensemble de technique issues des méthodes statistiques, des analyses de
Le Datamining met en œuvre un ensemble de technique issues des
méthodes statistiques, des analyses de données, et de l'informatique. Il
existe trois sortes de modélisation :
Méthodes de modélisation Le Datamining met en œuvre un ensemble de technique issues des méthodes statistiques,
Les modélisations supervisées
Les modélisations supervisées
Les modélisations supervisées C'est-à-dire l'extrapolation de nouvelles données à partir d'une base brute :  Les

C'est-à-dire l'extrapolation de nouvelles données à partir d'une base brute :

  • Les réseaux de neurones, notamment les réseaux à apprentissage et les réseaux de type SOM (Self Organizing Maps).

  • Les arbres de décision pour illustrer une succession de choix et ainsi de déterminer les meilleurs attributs .

Les modélisations non- supervisées C'est-à-dire la mise en évidence de donnée existante mais cachée par le
Les modélisations non- supervisées C'est-à-dire la mise en évidence de donnée existante mais cachée par le

Les modélisations non- supervisées

Les modélisations non- supervisées C'est-à-dire la mise en évidence de donnée existante mais cachée par le

C'est-à-dire la mise en évidence de donnée

existante mais cachée par le volume de

données :

  • Les recherches d'associations qui consistent à identifier quelles valeurs de

variables vont ensemble.

  • Les statistiques , dont les statistiques descriptives, probabilité et statistiques inférentielle.

  • Les réseaux de neurones.

Les modélisations de réduction des données  Les analyses factorielles pour représenter graphiquement (en 2 ou

Les modélisations de réduction des données

Les modélisations de réduction des données  Les analyses factorielles pour représenter graphiquement (en 2 ou
  • Les analyses factorielles pour représenter graphiquement (en 2 ou 3 dimensions) les individus d'une population, de détecter les liaisons entre les variables et sélectionner les variables qui séparent le mieux les individus.

Fonctionnalités du Data Mining
Fonctionnalités du Data Mining
  • On distingue deux grandes familles de

Fonctionnalités du Data Mining  On distingue deux grandes familles de tâches réalisées en datamining ◦

tâches réalisées en datamining

Description : consiste à trouver les caractéristiques générales relatives aux

données fouillées

Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des

évolutions futures

Est-ce que tous les motifs découverts sont utiles? 
Est-ce que tous les motifs
découverts sont utiles?
Est-ce que tous les motifs découverts sont utiles?  tous intéressants. C’est quoi un motif intéressant

tous intéressants. C’est quoi un motif intéressant ?

Un système de data mining peut générer des milliers de motifs pas

Mesure d’intérêt : Un motif est intéressant s’il est facilement compréhensible, a un degré de certitude, nouveau, peut servir à valider (ou invalider) une hypothèse utilisateur

Mesure Objective vs. Subjective :

Objective: basée sur des mesures statistiques : support, confiance, etc.

Subjective: basée sur le point de vue de l’utilisateur sur les données, ex: le fait que cela soit inattendu, nouveauté, actionnabilité, etc.

Problématiques  Méthodologie et interaction ◦ Différents types de connaissances à extraire ◦ Prise en compte
Problématiques
Problématiques
  • Méthodologie et interaction

Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt

  • Performance et mise en échelle

Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales

  • Diversité des types de données

Relationnels, objets complexes

Fin merci 15

Fin

merci