Vous êtes sur la page 1sur 43

DATA MINING

Partie 1

1
DATA MINING

Plan du cours
1. introduction
2. problématique
3. Données, informations et connaissances
4. Data mining: définitions
5. Data mining et les autres sciences
6. Méthodes et techniques
7. Logiciels de data mining

2
Introduction

3
Introduction

4
Introduction

5
Introduction

6
Introduction

Les NTICs ont contribué à


l’explosion des données!
7
Problématique

Nous nous sommes noyés dans


les données,
mais affamés
de connaissances
8
Problématique

Déterminer les produits qui sont souvent


associés dans un chariot…

détecter les opérations suspectes


Lister les clients dont les comptes ne sont
jamais débiteur , et chercher à comprendre
ce qui les distingue intrinsèquement des
autres clients…

Exploiter la richesse des données web sociale


pour découvrir les tendances, les préférences, les
relations….
9
Problématique

Chercher les données


utiles

1
Problématique

Apparition du concept du Data mining


1
Définition formelle du Data mining

Extraction automatique ou semi-automatique de connaissances


cachées, potentiellement utiles, à partir de données stockées
dans des grandes bases de données.

Fouille de données = Extraction de Connaissances à partir des


Données (ECD)
Data Mining = Knowledge Data Discovery (KDD)

• KDD:
• générer et valider automatiquement de nouvelles
hypothèses à partir de données existantes
• transformer les données enfouies dans des bases de
données en information utile
1
Données, Informations et connaissances

les descriptions les plus élémentaires des choses,


des événements, des activités et des opérations.
Elle représente un « fait » qui n’a reçu aucun
traitement.

Donnée organisée et communiquée d’une


manière cohérente et significative. Une donnée
devient information lorsqu’elle est interprétée.
Elle est indispensable dans le processus de
décision d’une entreprise.

Ensemble d’informations interprétées par un


individu et lui permettant de prendre des
décisions.
1
Système d’information

Système: ensemble d'éléments en interaction


dynamique, dont les éléments sont organisés et
coordonnés en vue d'atteindre un objectif, qui évolue
dans un environnement.

Entrées Système Sorties

Sortie: ne permet pas seulement de communiquer, de


contrôler ou de coordonner,
mais aussi, de prendre la décision
1
Les données dans les SI

• Un tableau de données
– N lignes : les individus, les objets d’étude
– P colonnes : les variables, les caractéristiques des objets
• Une base de données relationnelle
– des tables des tableaux
– des liens entre les tables : un client (dans la table des clients) a acheté
des produits (dans la table des produits)
• Un entrepôt de données (data warehouse)
– Un entrepôt de données (data warehouse) : mise en commun de bases
de données
– agrégation de valeurs : nombre de commandes par enseigne et par
mois d’un produit
• Difficultés
– Données complexes, hétérogènes, évolutives et volumineuses

1
Les données dans les SI

• Collection d’objets et leurs attributs ou/et


caractéristiques.
• Type d’attribut :
– Qualitatif
• Nominal
• Ordinal
–Quantitatif
• Discret
• Continu

1
Les données dans les SI
• Attribut qualitatif ordinal : un attribut
qui contient un ordre. Exemple: Degré de
satisfaction
Exemple: très satisfait, satisfait, insatisfait,
très insatisfait.
• Attribut qualitatif nominal: un attribut
qui correspond à des noms, il n’y a aucun
ordre précis.
Exemple: Sexe(F,M)
1
Les données dans les SI

• Attribut quantitatif discrète: ayant une


valeur numériques précise
Exemple: Nombre d'enfants(4)
• attribut quantitatif continu: ayant une
valeur numérique sur un intervalle
continu
Exemple: Température (23..40)

1
Les données dans les SI
• Textes
Corpus documentaires, bases de connaissances,
sites web (blogs, forums), etc.
Exemple: PageRank de Google
• Transactions
Liste d'achats, visites de sites web, mouvements
de fonds, etc.
Exemple: Amazon, cartes de fidélité
• Multimédia:
Exemples: images, sons, vidéos
1
L’informatique décisionnelle

L’informatique décisionnelle désigne les moyens, les


outils et les méthodes qui permettent de collecter,
consolider, modéliser et restituer les données
immatérielles d’une entreprise en vue d’offrir une aide à
la décision et de permettre aux responsables de la
stratégie d’entreprise d’avoir une vue d’ensemble de
l’activité traitée.

2
Processus de décision

2
Data mining et les autres sciences
Base de données

Data
IA mining Statistiques

Autres

2
Data mining et les autres sciences

De la société d’informations vers la


société de connaissances
2
Data mining vs Statistiques

2
Les étapes à suivre pour l’extraction des
connaissances

2
Les étapes à suivre pour l’extraction des
connaissances (2)
1. Compréhension du domaine d’application
2. Création du sous-ensemble cible de données
3. Nettoyage des données (erreurs, données manquantes, valeurs atypiques)
4. Transformation des données (normalisation, linéarisation, découpage en classes,
compression)
5. Explicitation de l’objectif et de la stratégie d’analyse
6. Choix des méthodes
7. Test, en précisant les critères
8. Exploitation
9. Diffusion

Extraire de l’information utiles à partir des


données existantes

2
Data mining et le KDD

2
Data mining et le KDD (Exemple)

Décision stratégique
-Promouvoir le produit P dans la
région R
connaissances/ Data mining - Réaliser un mailing sur le produit P
pour les famille de profile F
-Une quantité Q du produit P est
vendu dans la région R
-Les familles de profile F utilise
M% du produit p durant la
période N

Information / requêtes
-X habite la région R
-Y à A ans
-Z dépense son argent dans la
ville V de la région R

Données
Clients
Magasins
Ventes
Démographies
2 Géographie
Data mining: Exemple de problème

•Le nombre de départ (désabonnement) des clients est trop élevé


•Chiffre d'affaires est de 40%
(après six mois la période de lancement se termine)
Les clients reçoivent des incitations (coût moyen: 100 DH)

•Donner de nouvelles incitations à tous ceux qui peuvent


abandonner est très cher (gaspillage)
•Ramener un client après leur départ est à la fois difficile et
coûteuse

2
Data mining: Exemple de problème (suite)

Un mois avant la fin de la période de lancement est terminée,


prédire quels sont les clients qui vont quitter ?
Si vous voulez garder un client qui est prévu de faire un
désabonnement, lui offrir quelque chose en fonction de la valeur
prédite.
Ceux qui ne sont pas prévisibles à abandonner n’ont pas besoin
d’attention
Si vous ne voulez pas garder le client, ne rien faire
- Comment pouvez-vous prédire le comportement futur?

3
Data Mining ou non?

OUI NON

Rechercher la moyenne d’un étudiant X


Les clients achètent TV puis un récepteur au X
début de la coupe du monde
Regrouper ensemble des documents retournés
par un moteur de recherche en fonction de leur X
contenu
Interroger un moteur de recherche Web pour
avoir des informations sur le coupe du monde
X

3
Tester vos connaissances

3
Méthodes de fouilles de données

Ensemble de techniques pour:


• Explorer les données
• Extraire les connaissances
• Trouver des modèles
Afin de
• décrire le comportement actuel des
données et/ou
• prédire le comportement futur des
données
3
Méthodes de fouilles de données

Méthodes descriptives (ou non supervisées) :


objectif : trouver des « formes » interprétables qui
permettent de décrire les données sans référence à une base
d’exemples.
Il s’agit de la construction d’un modèle et la découverte de
relations entre les données.
Clustering (K-means, Classification Ascendante Hiérarchique),
règles d’associations, …
Méthodes prédictives (ou supervisées) :
objectif : à partir d’exemples, inférer sur les données pour
réaliser des prédictions. En se basant sur un ensemble
d’exemples, on infère par exemple les classes d’appartenance
d’autres individus. Les classes sont donc ici connues.
classification, régression, k-ppv
3
Les types de techniques

Les plus usuelles sont:


1. La description
2. La classification Descriptifs
3. L’association
4. L’estimation
5. La segmentation Prédictifs
6. La prévision

3
Les algorithmes

Classification supervisée:
• Méthode de Bayes naïf
• k plus proches voisins
• Arbres de décision
• Réseaux de neurones
Classification non supervisée :
• K means

3
Data mining: Techniques

3
Exemple

Nouvel exemple: ex8 (Temps=?; Humidité=?; Vent=?)


quelle décision faut-il prendre ?

3
Exemple

Nouvel exemple
EX8: (Temps=Soleil; Humidité=Haute; Vent=Non)
Jouer: Oui ou Non?

3
Exemple

Utiliser la méthode bais natif

4
Exemple

Utiliser la méthode bais natif

4
Logiciels de Data mining

• Logiciels commerciaux
• Logiciels libres
• TANAGRA
• ORANGE
• WEKA

4
DATA MINING

Fin de la première partie

Vous aimerez peut-être aussi