Académique Documents
Professionnel Documents
Culture Documents
1
1. Introduction Références
Partie III
Data Mining • Berry, M. J., & Linoff, G. S. (2004). Data mining techniques: for marketing,
sales, and customer relationship management. John Wiley & Sons.
(Fouille de • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical
Données) learning: data mining, inference, and prediction. Springer Science & Business
Media.
• Zighed & Rakotomalala, « Extraction des Connaissances à partir des Données
(ECD) », in Techniques de l’Ingénieur, 2002.
2
1. Introduction
Partie III Définition du Data Mining
3
1. Introduction
Partie III
4
1. Introduction KDD et Data Mining
Partie III
KDD: knowledge discovery in data bases
Data Mining ECD: extraction des connaissances à partir des données
Etape 3 – Validation
5
1. Introduction
Etape 1
Partie III
Pré-traitement des données
Data Mining
Le prétraitement des données représente 80% du temps total dans un
1. Introduction
projet de découverte d’information
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
1. Préparation des données
2. Nettoyage des données
3. Transformations
6
1. Introduction
Partie III 1. Préparation des données
7
1. Introduction
Partie III 1. Préparation des données
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation - Lignes: les enregistrements (clients)
- Colonnes: champs ou attributs
8
1. Introduction
2. Nettoyage des données
▪ Doublons, erreurs de saisie
▪ Valeurs aberrantes
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
La date d’abonnement des client 23130 et 31435 (11/11/1111)
une erreur de saisie ou encore à une valeur de remplacement par défaut
d'une valeur manquante
10
1. Introduction
Partie III 2. Nettoyage des données
▪ Informations manquantes
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
11
2. Nettoyage des données
Partie III
Informations manquantes
profession).
12
1. Introduction
Erichissement
Ajout de nouveaux champs en conservant en général le même nombre
Data Mining d'enregistrements.
▪ Le même identifiant afin de fusionner des bases différentes
▪ Sources hétérogènes (problèmes de format de données apparaissent, des
1. Introduction conversions sont souvent nécessaires).
2. Etape 1- Prétraitement ▪ L'introduction de nouvelles valeurs manquantes ou aberrantes et une nouvelle
3. Etape 2 – Fouille de phase de nettoyage peut être nécessaire
données
4. Etape 3 - Validation
13
1. Introduction
Transformer un attribut A en une autre variable A’ qui soit plus approprié (selon les
Data Mining objectifs de l’étude)
Regroupements :
1. Introduction
2. Etape 1- Prétraitement • Certains attributs prennent un très grand nombre de valeurs discrètes
3. Etape 2 – Fouille de regrouper et ainsi obtenir un nombre de valeurs réduit
données
4. Etape 3 - Validation Dans l'exemple, nous regroupons les adresses par le code postal
14
1. Introduction
15
1. Introduction
3. Transformation
Partie III
Représentation horizontale ou éclatée :
Data Mining
1. Introduction
Représentation horizontale
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
16
1. Introduction
3. Transformation
Partie III
Changements de type :
Pour certaines manipulations, comme des calculs de distance, des calculs de
Data Mining moyenne, il est préférable de modifier les types de certains attributs.
date de naissance et date d'abonnement ne permettent pas d'effectuer des
comparaisons, des différences => on peut les convertir en âge ou en durée.
1. Introduction
Uniformisation d'échelle :
2. Etape 1- Prétraitement
Certains algorithmes, comme la méthode des plus proches voisins, sont basés sur des
3. Etape 2 – Fouille de calculs de distance entre enregistrements :
données
▪ Des variations d'échelle selon les attributs sont autant de perturbations possibles
4. Etape 3 - Validation pour ces algorithmes.
• Pour le champ « Revenus » : centaines d'euros => convertir les revenus en les
divisant par mille.
=> L'intervalle de valeurs est alors dans la même échelle que les dates de
naissance et les durées d'abonnement.
17
1. Introduction
3. Transformation
Partie III
Mise à l'échelle
Data Mining 𝑥𝑖 − min(𝑥𝑖 )
• 𝑍𝑖 = entre 0 et 1
max(𝑥𝑖 )− min(𝑥𝑖 )
1. Introduction 𝑥𝑖
2. Etape 1- Prétraitement
• 𝑍𝑖 = « indexation d'une variable ».
𝑚
3. Etape 2 – Fouille de
𝑥𝑖 −𝑚
données • 𝑍𝑖 = standardisation ou « conversion en z-scores ».
𝜎
4. Etape 3 - Validation
18
1. Introduction
3. Transformation
Partie III
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
19
3. Transformation
Partie III
La pondération
Data Mining ▪ En pratique, on utilise souvent une pondération des attributs
▪ Le but de la pondération est de coder l'information selon laquelle une variable est
1. Introduction
2. Etape 1- Prétraitement plus (ou moins) importante que d'autres
3. Etape 2 – Fouille de ▪ Si nous pensons par exemple que deux familles avec le même revenu ont plus en
données
4. Etape 3 - Validation commun que deux familles qui ont des maisons de même superficie, et que nous
voulons que cela soit pris en compte lors du regroupement; nous pouvons biaiser
volontairement le résultat du regroupement en multipliant le champ revenu par un
poids plus élevé que celui de la superficie.
20
3. Transformation
Partie III
Construction de nouveaux agrégats
Data Mining ▪ Dans certains cas des agrégats d’attributs sont très importants pour la tâche
d’analyse.
▪ Un agrégat d’attribut est un nouvel attribut obtenu selon une transformation
1. Introduction précise.
2. Etape 1- Prétraitement Exemples
3. Etape 2 – Fouille de ▪ Le prix au mètre-carré d’un appartement, défini par le rapport entre le prix de
données l’appartement et la surface totale de l’appartement,
4. Etape 3 - Validation ▪ Si on dispose des dépenses de chaque client sur des intervalles de temps
consécutifs.
nouvelles variables capables de capter les tendances des données à travers
des différences
des ratios entre les montants de dépenses de périodes contiguës.
21
Fouille de données
Partie III
Data Mining
1. Introduction
2. Etape 1- Prétraitement
1. Les méthodes de visualisation et de description
3. Etape 2 – Fouille de
données
2. Les méthodes de segmentation et d’association
4. Etape 3 - Validation
3. Les méthodes de classification et de prédiction
22
Visualisation et de Description
Partie III
▪ L’objectif de ces méthodes est de permettre à l’analyste d’avoir une compréhension
synthétique de l’ensemble de ses données.
Data Mining ▪ Il s’agit donc principalement d’outils de synthèse d’information.
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation
23
Visualisation et de Description
Partie III
▪ Box-plot
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation
24
Visualisation et de Description
Partie III
▪ Nuage de points
• Il s’agit là d’une description bidimensionnelle.
Data Mining
• Elle permet de visualiser, entre autre, si un lien existe ou pas entre ces deux
facteurs.
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation
Activité humaine
nécessaire pour extraire
de la connaissance à partir
des données Data Data Data Data
Science Analysis Analytics Mining
Méthodes d’exploitation de
Le ML est multidisciplinaire:
données par des algorithmes
▪ Analyse statistique;
▪ Intelligence Artificielle (AI)
▪Business Intelligence (BI)
▪ Technologies de l’Information (IT)
Data Mining
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation
Régression, Classification, Clustering et Règles d’association ?
Partie III
Prédire la valeur future d’un
Régression attribut en fonction d’autres
attributs
Data Mining Apprentissage
supervisé
1. Introduction Examiner les caractéristiques
Classification d’un élément et lui attribuer
2. Etape 1- une classe.
Prétraitement
3. Etape 2 – Fouille de
données Règles Analyser les relations entre
- Visualisation et d’association les variables ou détecter des
description Apprentissage associations
- Clustering et association non supervisé
- Classification er prédiction Constituer des groupes
Clustering homogènes de la population
1. Etape 3 - Validation
étudiée
Partie III Apprentissage Supervisé
Prévision
Data Mining - Prédire la valeur future d’un attribut en fonction d’autres attributs.
32
Apprentissage Non-Supervisé
Apprentissage Automatique
Partie III
Clustering
• constituer des groupes homogènes de la population étudiée.
Data Mining
• Exemple : la segmentation client -> identifier des groupes homogènes de
clients afin de les fidéliser.
1. Introduction
2. Etape 1- Prétraitement Règles d’association
3. Etape 2 – Fouille de
données • Analyser les relations entre les variables ou détecter des associations.
- Visualisation et description • « Panier de la ménagère »
- Clustering et association
- Classification er prédiction • Vont au-delà l'analyse des transactions dans les points de vente
1. Etape 3 - Validation • Trouver des relations entre d'autres types de «paniers».
• Exemple: Les articles achetés avec une carte de crédit donnent un aperçu
du prochain produit que les clients sont susceptibles d'acheter.
33 33
Algorithmes de ML
Partie III - Régression linéaire,
- Arbres de décision
Régression - Forêt aléatoire (Random Forest)
- Les réseaux de neurones
Data Mining - SVR
- KNN
35
Partie III Clustering
36
Partie III Similarité, distance et types de variables
1. Introduction d’attribut.
2. Etape 1- Prétraitement
• Les variables se répartissent en 2 classes :
3. Etape 2 – Fouille de
données • Variables qualitatives (catégorielles, Ordinale)
- Visualisation et description
- Clustering et association • Variables quantitatives
- Classification er prédiction
1. Etape 3 - Validation
37
Règles d’association
Partie III
Populaire en raison de leur structure simple et intuitive, qui les rend facilement
Data Mining compréhensibles et similaires aux schémas logiques typiques du raisonnement
humain.
1. Introduction Dans plusieurs domaines d'application:
2. Etape 1- Prétraitement
▪ Analyse du panier de marché (panier de la ménagère)
3. Etape 2 – Fouille de
données ▪ Exploration Web (web mining).
- Visualisation et description
▪ Achats avec une carte de crédit.
- Clustering et association
- Classification er prédiction ▪ Détection de fraude
1. Etape 3 - Validation
38
Règles d’association
Partie III
Analyse du panier de marché (panier de la ménagère)
Data Mining ▪ Lorsqu'un client effectue un achat la transaction est enregistrée par le système
d'information du commerçant.
1. Introduction ▪ Pour chaque transaction enregistrée, une liste des articles achetés est stockée avec
le prix, l'heure et le lieu de la transaction.
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de ▪ Identifier les règles récurrentes qui relient l'achat d'un produit, ou d'un groupe de
données produits, à l'achat d'un autre produit, ou groupe de produits.
- Visualisation et description «un client qui achète des céréales pour petit-déjeuner achètera également du lait
- Clustering et association avec une probabilité de 0,68».
- Classification er prédiction Très utiles pour les responsables marketing dans la planification des initiatives
1. Etape 3 - Validation promotionnelles ou la définition de l'assortiment et de l'emplacement des produits
sur les rayons.
39
Règles d’association
Partie III
Exploration Web (web mining)
Data Mining ▪ la liste des pages visitées au cours d'une session est enregistrée comme une
transaction, éventuellement assortie d'un numéro de séquence et de l'heure de la
visite.
1. Introduction ▪ d'identifier des motifs réguliers éventuellement cachés dans les données qui
2. Etape 1- Prétraitement permettent d'associer une ou plusieurs pages en cours de visualisation à des visites
3. Etape 2 – Fouille de sur d'autres pages.
données
«si une personne visite le site « X », elle visitera également le « Y » dans un délai
- Visualisation et description
d’une semaine avec une probabilité de 0,87».
- Clustering et association
▪ Des règles d'association de ce type peuvent influencer la structure des liens entre
- Classification er prédiction
les pages, afin de faciliter la navigation et de recommander des chemins de
1. Etape 3 - Validation
navigation spécifiques, ou de placer des bannières publicitaires et autres messages
promotionnels.
40
Règles d’association
Partie III
Achats avec une carte de crédit.
Data Mining ▪ Analyser les achats effectués par les titulaires de carte de crédit afin d'orienter les
promotions futures.
Infinité de produits et services
1. Introduction
▪ Chaque transaction comprend les achats et les paiements effectués par un titulaire
2. Etape 1- Prétraitement
de carte de crédit.
3. Etape 2 – Fouille de
données Détection de fraude.
- Visualisation et description ▪ Dans le cas des compagnies d'assurance les transactions consistent en des rapports
- Clustering et association d'incidents et des demandes d'indemnisation pour les dommages subis.
- Classification er prédiction ▪ L'existence de combinaisons particulières peut révéler des comportements
1. Etape 3 - Validation potentiellement frauduleux et donc justifier une enquête approfondie
41
Plan Etape 3
Partie III
Data Mining
• Types de validations : statistique et par expertise
1. Introduction
• Validation en fouille non supervisée
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
• Validation en fouille supervisée
- Visualisation et description
- Clustering et association
- Classification et prédiction
4. Etape 3 – Validation
42
Types de validation
Partie III
• Par un expert
1. Introduction
2. Etape 1- Prétraitement • Statistique
3. Etape 2 – Fouille de
données Pour certains domaines d'application (le diagnostic médical, par
- Visualisation et description exemple), le modèle produit doit être validé selon les 2 modes :
- Clustering et association
- Classification et prédiction • première validation du modèle produit par l'expert
4. Etape 3 – Validation
• seconde validation statistique sur des bases de cas existants
43
Validation en fouille non
Partie III supervisée
• Validation essentiellement par l'expert, éventuellement complétée
par une validation statistique :
Data Mining
• Pour la segmentation :
1. Introduction
• le programme construit des groupes homogènes, un expert
2. Etape 1- Prétraitement peut juger de la pertinence des groupes constitués
3. Etape 2 – Fouille de • on peut combiner avec une validation statistique sur un
données
problème précis utilisant cette segmentation.
- Visualisation et description
- Clustering et association
• Pour la recherche des règles d'association :
- Classification et prédiction
c'est l'expert du domaine qui jugera de la pertinence des règles,
4. Etape 3 – Validation
(si l'algorithme fournit des règles porteuses d'information, des
règles triviales ou sans intérêt)
44
Validation en fouille non
Partie III supervisée
45
Validation en fouille supervisée
Partie III
Validation principalement statistique (2 tâches)
Data Mining
46
Validation en fouille supervisée
Partie III
• Tâche 2 : décomposer les données en plusieurs ensembles disjoints,
Data Mining afin de garder des données pour estimer les erreurs des modèles ou
de les comparer, en constituant :
1. Introduction
2. Etape 1- Prétraitement • un ensemble d'apprentissage : permettant de générer le modèle
3. Etape 2 – Fouille de • un ensemble de test : permettant d'évaluer l'erreur réelle du
données modèle sur un ensemble indépendant évitant ainsi un biais
- Visualisation et description d'apprentissage
- Clustering et association • un ensemble de validation : utile quand il faut tester et comparer
- Classification et prédiction plusieurs modèles : le modèle est choisi selon ses performances
4. Etape 3 – Validation sur l'ensemble test, puis son erreur réelle est évaluée sur
l'ensemble de validation
47