Partie 3-Data Mining - DRC - 2021-2022

Big Data & Data Mining
Partie III- Data Mining
Mme Karima Ben Slimane

IHEC de Sousse
2021-2022
1
1. Introduction Références
Partie III
Data Mining • Berry, M. J., & Linoff, G. S. (2004). Data mining techniques: for marketing,
sales, and customer relationship management. John Wiley & Sons.
(Fouille de • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical
Données) learning: data mining, inference, and prediction. Springer Science & Business
Media.
• Zighed & Rakotomalala, « Extraction des Connaissances à partir des Données
(ECD) », in Techniques de l’Ingénieur, 2002.
2
1. Introduction
Partie III Définition du Data Mining
Data Mining « Le data mining est un procédé d’exploration et d’analyse de grandes

quantités de données dans le but de découvrir des phénomènes et des
règles significatives. »
1. Introduction « Le data mining est un outil qui permet de produire de la
2. Etape 1- Prétraitement connaissance, soit dans un but informatif, soit dans un but d’aide à la
3. Etape 2 – Fouille de décision »
données
▪ Le Data Mining est l’un des maillons de la chaîne de traitement pour
4. Etape 3 - Validation la découverte des connaissances à partir des données.
▪ Connaissance sous forme de modèles:
• décrire le comportement actuel des données et/ou
• prédire le comportement futur des données
3
1. Introduction
Partie III
Data Mining ▪ Le data mining ne se limite pas au traitement des données

structurées;
1. Introduction
2. Etape 1- Prétraitement ▪ aborder les corpus en langage naturel => text mining,
3. Etape 2 – Fouille de
données ▪ les images => image mining
4. Etape 3 - Validation
▪ le son => sound mining
▪ la vidéo => on parle alors plus généralement de multimedia mining.
4
1. Introduction KDD et Data Mining
Partie III
KDD: knowledge discovery in data bases
Data Mining ECD: extraction des connaissances à partir des données
Etape 1 – Pré-traitement des données

1. Introduction
Nettoyage, Intégration, Sélection et Transformation
2. Etape 1- Prétraitement
Etape 2 – Fouille des données
données
4. Etape 3 - Validation Approches traditionnelles d’exploration, Classification,
Estimation, prédiction et segmentation, association
Etape 3 – Validation
Type et méthodes de validation
5
1. Introduction
Etape 1
Partie III
Pré-traitement des données
Data Mining
Le prétraitement des données représente 80% du temps total dans un
1. Introduction
projet de découverte d’information
données
1. Préparation des données
2. Nettoyage des données
3. Transformations
6
1. Introduction
Partie III 1. Préparation des données
- Les données issues des entrepôts ne sont pas nécessairement toutes

Data Mining exploitables par des techniques de fouille de données.
- La plus part des techniques que nous utilisons ne traitent que des tableaux
1. Introduction de données numériques rangées sous forme lignes/colonnes.
2. Etape 1- Prétraitement - Les données acquises depuis l’entrepôt peuvent être de types différents
3. Etape 2 – Fouille de (textes de longueur variables, des images, des enregistrements quantitatifs
données ou des séquences vidéo.)
4. Etape 3 - Validation - La préparation consiste à homogénéiser les données et à les disposer en
tableau lignes/colonne.
 il s’agit presque toujours de la structure la mieux adaptée à l’exploitation
des données.
7
1. Introduction
Partie III 1. Préparation des données
Data Mining
1. Introduction
données
4. Etape 3 - Validation - Lignes: les enregistrements (clients)
- Colonnes: champs ou attributs
8
1. Introduction
▪ Doublons, erreurs de saisie
▪ Doublons: donner plus d’importance aux valeurs répétées.

▪ Erreurs de saisie: peuvent être à l’origine d’un doublon non détecté.
• Doublon absolu : Plusieurs lignes qui ont les mêmes valeurs pour chaque colonne.
• Doublon relatif : Le cas le plus typique ce sont les lignes identiques sauf pour la colonne “id”.
• Quasi doublon : concerne les lignes qui sont presque identiques. La différence entre les lignes peut être une simple faute
de frappe (double espace au lieu d’un seul) ou des différences entre majuscule et minuscule.
=> Bémol et Bémolle

9
1. Introduction
Partie III 2. Nettoyage des données
▪ Valeurs aberrantes
Data Mining
1. Introduction
données
La date d’abonnement des client 23130 et 31435 (11/11/1111)
 une erreur de saisie ou encore à une valeur de remplacement par défaut
d'une valeur manquante
10
1. Introduction
▪ Informations manquantes
Data Mining
1. Introduction
données
11
Partie III
Informations manquantes
Data Mining ▪ Ignorer la valeur en question ou la ligne entière
on perd de l’information lorsque le pourcentage de valeurs manquantes est élevé

1. Introduction
2. Etape 1- Prétraitement ▪ Remplacer la valeur manquante par la moyenne, la médiane ou le mode
données ▪ Utiliser la moyenne pour la même classe (une meilleure approche)
▪ Utiliser la valeur la plus probable (déduire le salaire à partir de l’âge et de la
profession).
▪ Utiliser des méthodes d’induction comme la régression ou les réseaux de neurones
12
1. Introduction
Erichissement
Ajout de nouveaux champs en conservant en général le même nombre
Data Mining d'enregistrements.
▪ Le même identifiant afin de fusionner des bases différentes
▪ Sources hétérogènes (problèmes de format de données apparaissent, des
1. Introduction conversions sont souvent nécessaires).
2. Etape 1- Prétraitement ▪ L'introduction de nouvelles valeurs manquantes ou aberrantes et une nouvelle
3. Etape 2 – Fouille de phase de nettoyage peut être nécessaire
données
13
1. Introduction
Partie III 3. Transformation
Transformer un attribut A en une autre variable A’ qui soit plus approprié (selon les
Data Mining objectifs de l’étude)
Regroupements :
1. Introduction
2. Etape 1- Prétraitement • Certains attributs prennent un très grand nombre de valeurs discrètes
3. Etape 2 – Fouille de regrouper et ainsi obtenir un nombre de valeurs réduit
données
4. Etape 3 - Validation Dans l'exemple, nous regroupons les adresses par le code postal
14
1. Introduction
Partie III 3. Transformation
Transformation des attributs catégoriels :

Data Mining ▪ Les attributs catégoriels prennent leurs valeurs (souvent textuelles) dans un
ensemble fini donné :
1. Introduction
2. Etape 1- Prétraitement C'est le cas de la colonne magazine qui peut prendre les valeurs :
3. Etape 2 – Fouille de Sport, BD, Voiture, Maison, Musique.
données
4. Etape 3 - Validation ▪ 2 représentations sont possibles pour ces données :
• une représentation verticale
• une représentation horizontale ou éclatée.
15
1. Introduction
3. Transformation
Partie III
Représentation horizontale ou éclatée :
Data Mining
1. Introduction
Représentation horizontale
données
La représentation horizontale est plus adaptée à la fouille de données
16
1. Introduction
3. Transformation
Partie III
Changements de type :
Pour certaines manipulations, comme des calculs de distance, des calculs de
Data Mining moyenne, il est préférable de modifier les types de certains attributs.
date de naissance et date d'abonnement ne permettent pas d'effectuer des
comparaisons, des différences => on peut les convertir en âge ou en durée.
1. Introduction
Uniformisation d'échelle :
Certains algorithmes, comme la méthode des plus proches voisins, sont basés sur des
3. Etape 2 – Fouille de calculs de distance entre enregistrements :
données
▪ Des variations d'échelle selon les attributs sont autant de perturbations possibles
4. Etape 3 - Validation pour ces algorithmes.
• Pour le champ « Revenus » : centaines d'euros => convertir les revenus en les
divisant par mille.
=> L'intervalle de valeurs est alors dans la même échelle que les dates de
naissance et les durées d'abonnement.
17
1. Introduction
3. Transformation
Partie III
Mise à l'échelle
Data Mining 𝑥𝑖 − min(𝑥𝑖 )
• 𝑍𝑖 = entre 0 et 1
max(𝑥𝑖 )− min(𝑥𝑖 )
1. Introduction 𝑥𝑖
• 𝑍𝑖 = « indexation d'une variable ».
𝑚
𝑥𝑖 −𝑚
données • 𝑍𝑖 = standardisation ou « conversion en z-scores ».
𝜎
18
1. Introduction
3. Transformation
Partie III
Data Mining
1. Introduction
données
19
3. Transformation
Partie III
La pondération
Data Mining ▪ En pratique, on utilise souvent une pondération des attributs
▪ Le but de la pondération est de coder l'information selon laquelle une variable est
1. Introduction
2. Etape 1- Prétraitement plus (ou moins) importante que d'autres
3. Etape 2 – Fouille de ▪ Si nous pensons par exemple que deux familles avec le même revenu ont plus en
données
4. Etape 3 - Validation commun que deux familles qui ont des maisons de même superficie, et que nous
voulons que cela soit pris en compte lors du regroupement; nous pouvons biaiser
volontairement le résultat du regroupement en multipliant le champ revenu par un
poids plus élevé que celui de la superficie.
20
3. Transformation
Partie III
Construction de nouveaux agrégats
Data Mining ▪ Dans certains cas des agrégats d’attributs sont très importants pour la tâche
d’analyse.
▪ Un agrégat d’attribut est un nouvel attribut obtenu selon une transformation
1. Introduction précise.
2. Etape 1- Prétraitement Exemples
3. Etape 2 – Fouille de ▪ Le prix au mètre-carré d’un appartement, défini par le rapport entre le prix de
données l’appartement et la surface totale de l’appartement,
4. Etape 3 - Validation ▪ Si on dispose des dépenses de chaque client sur des intervalles de temps
consécutifs.
 nouvelles variables capables de capter les tendances des données à travers
des différences
 des ratios entre les montants de dépenses de périodes contiguës.
21
Fouille de données
Partie III
Data Mining
1. Introduction
1. Les méthodes de visualisation et de description
données
2. Les méthodes de segmentation et d’association
3. Les méthodes de classification et de prédiction
22
Visualisation et de Description
Partie III
▪ L’objectif de ces méthodes est de permettre à l’analyste d’avoir une compréhension
synthétique de l’ensemble de ses données.
Data Mining ▪ Il s’agit donc principalement d’outils de synthèse d’information.
1. Introduction
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
23
Partie III
▪ Box-plot
Data Mining
1. Introduction
données
24
Partie III
▪ Nuage de points
• Il s’agit là d’une description bidimensionnelle.
Data Mining
• Elle permet de visualiser, entre autre, si un lien existe ou pas entre ces deux
facteurs.
1. Introduction
données
Source: Zighed & Rokatomalala (2002) 25

Partie III
▪ L’analyse des données multidimensionnelles
Data Mining
1. Introduction
données
Source: Zighed & Rokatomalala (2002)

26
Automatiser les informations sur un ensemble de données Processus de calcul consistant à découvrir
- Représenter des relation entre les variables d'entrée des modèles à partir des Big Data.
- Data mining pour découvrir des modèles cachés Utilise différents algorithme de Machine
Learning
Activité humaine
nécessaire pour extraire
de la connaissance à partir
des données Data Data Data Data
Science Analysis Analytics Mining
Traite des données

structurées et non structurée
Nettoyage, préparation et analyse des données
Qu’est ce que le Machine Learning (ML)? Apprentissage Automatique
Méthodes d’exploitation de
Le ML est multidisciplinaire:
données par des algorithmes
▪ Analyse statistique;
▪ Intelligence Artificielle (AI)
▪Business Intelligence (BI)
▪ Technologies de l’Information (IT)
Les algorithmes de ML vont apprendre sur

un jeu de données qu’on appelle
« ensemble d’apprentissage » ou
« collection d’enregistrements ».
Objectif : Prédire ou classifier
Apprentissage Supervisé vs Apprentissage Non Supervisé
Partie III
Data Mining Les données sont étiquetées

Apprentissage on connaît
supervisé les variables cibles
1. Introduction
données
- Clustering et association Pas d’étiquetage
Apprentissage préalable
non supervisé des données
Apprentissage Supervisé vs Apprentissage Non Supervisé
Partie III
Data Mining
1. Introduction
données
Régression, Classification, Clustering et Règles d’association ?
Partie III
Prédire la valeur future d’un
Régression attribut en fonction d’autres
attributs
Data Mining Apprentissage
supervisé
1. Introduction Examiner les caractéristiques
Classification d’un élément et lui attribuer
2. Etape 1- une classe.
Prétraitement
données Règles Analyser les relations entre
- Visualisation et d’association les variables ou détecter des
description Apprentissage associations
- Clustering et association non supervisé
- Classification er prédiction Constituer des groupes
Clustering homogènes de la population
étudiée
Partie III Apprentissage Supervisé
Prévision
Data Mining - Prédire la valeur future d’un attribut en fonction d’autres attributs.
- Exemple : l’impacte d’une campagne publicitaire en fonction des frais

1. Introduction engendrés.
2. Etape 1- Prétraitement - Ou établir la relation entre l’augmentation du prix d’un produit et sa
3. Etape 2 – Fouille de demande.
données
Classification
- Clustering et association -Examiner les caractéristiques d’un élément et lui attribuer une
classe.
1. Etape 3 - Validation - Exemple : diagnostiquer si un client va acheter ou pas le produit
32
Apprentissage Non-Supervisé
Apprentissage Automatique
Partie III
Clustering
• constituer des groupes homogènes de la population étudiée.
Data Mining
• Exemple : la segmentation client -> identifier des groupes homogènes de
clients afin de les fidéliser.
1. Introduction
2. Etape 1- Prétraitement Règles d’association
données • Analyser les relations entre les variables ou détecter des associations.
- Visualisation et description • « Panier de la ménagère »
- Classification er prédiction • Vont au-delà l'analyse des transactions dans les points de vente
1. Etape 3 - Validation • Trouver des relations entre d'autres types de «paniers».
• Exemple: Les articles achetés avec une carte de crédit donnent un aperçu
du prochain produit que les clients sont susceptibles d'acheter.
33 33
Algorithmes de ML
Partie III - Régression linéaire,
- Arbres de décision
Régression - Forêt aléatoire (Random Forest)
- Les réseaux de neurones
Data Mining - SVR
- KNN
1. Introduction - Arbres de décisions

Classification - Régression logistique
2. Etape 1- - Analyse discriminante
Prétraitement - Les plus porches voisins (KNN)
3. Etape 2 – Fouille de - Naïve Bayes
données - SVM
Règles
- Visualisation et d’association
description
- K-moyenne, k-médoïdes
Clustering - Hiérarchique
1. Etape 3 - Validation - Les réseaux de neurones
Les Arbres de Décision
Partie III
Data Mining • Utilisables aussi bien en classification qu’en régression.
1. Introduction • Présentent des règles facilement interprétables.

• Les arbres de décision sont également utiles pour explorer les
données données afin de mieux comprendre les relations d'un grand nombre
de variables candidates avec une variable cible.
- Classification et prédiction
4. Etape 3 – Validation
35
Partie III Clustering
Data Mining • Le clustering permet de découvrir une structure dans le cas de

données complexes.
1. Introduction • Il devient possible de segmenter des clients en fonction de leurs
2. Etape 1- Prétraitement caractéristiques et comportements.
données • Il existe plusieurs algorithmes de clustering :
- Clustering et association - Les méthodes de partitionnement
- Les méthodes hiérarchiques.
36
Partie III Similarité, distance et types de variables
• La qualité d’un clustering dépend de la mesure de similarité.

Data Mining
• Les définitions de distance sont très différentes selon le type
1. Introduction d’attribut.
• Les variables se répartissent en 2 classes :
données • Variables qualitatives (catégorielles, Ordinale)
- Clustering et association • Variables quantitatives
37
Règles d’association
Partie III
Populaire en raison de leur structure simple et intuitive, qui les rend facilement
Data Mining compréhensibles et similaires aux schémas logiques typiques du raisonnement
humain.
1. Introduction Dans plusieurs domaines d'application:
▪ Analyse du panier de marché (panier de la ménagère)
données ▪ Exploration Web (web mining).
▪ Achats avec une carte de crédit.
- Classification er prédiction ▪ Détection de fraude
38
Partie III
Analyse du panier de marché (panier de la ménagère)
Data Mining ▪ Lorsqu'un client effectue un achat la transaction est enregistrée par le système
d'information du commerçant.
1. Introduction ▪ Pour chaque transaction enregistrée, une liste des articles achetés est stockée avec
le prix, l'heure et le lieu de la transaction.
3. Etape 2 – Fouille de ▪ Identifier les règles récurrentes qui relient l'achat d'un produit, ou d'un groupe de
données produits, à l'achat d'un autre produit, ou groupe de produits.
- Visualisation et description «un client qui achète des céréales pour petit-déjeuner achètera également du lait
- Clustering et association avec une probabilité de 0,68».
- Classification er prédiction Très utiles pour les responsables marketing dans la planification des initiatives
1. Etape 3 - Validation promotionnelles ou la définition de l'assortiment et de l'emplacement des produits
sur les rayons.
39
Partie III
Exploration Web (web mining)
Data Mining ▪ la liste des pages visitées au cours d'une session est enregistrée comme une
transaction, éventuellement assortie d'un numéro de séquence et de l'heure de la
visite.
1. Introduction ▪ d'identifier des motifs réguliers éventuellement cachés dans les données qui
2. Etape 1- Prétraitement permettent d'associer une ou plusieurs pages en cours de visualisation à des visites
3. Etape 2 – Fouille de sur d'autres pages.
données
«si une personne visite le site « X », elle visitera également le « Y » dans un délai
d’une semaine avec une probabilité de 0,87».
▪ Des règles d'association de ce type peuvent influencer la structure des liens entre
les pages, afin de faciliter la navigation et de recommander des chemins de
navigation spécifiques, ou de placer des bannières publicitaires et autres messages
promotionnels.
40
Partie III
Achats avec une carte de crédit.
Data Mining ▪ Analyser les achats effectués par les titulaires de carte de crédit afin d'orienter les
promotions futures.
Infinité de produits et services
1. Introduction
▪ Chaque transaction comprend les achats et les paiements effectués par un titulaire
de carte de crédit.
données Détection de fraude.
- Visualisation et description ▪ Dans le cas des compagnies d'assurance les transactions consistent en des rapports
- Clustering et association d'incidents et des demandes d'indemnisation pour les dommages subis.
- Classification er prédiction ▪ L'existence de combinaisons particulières peut révéler des comportements
1. Etape 3 - Validation potentiellement frauduleux et donc justifier une enquête approfondie
41
Plan Etape 3
Partie III
Data Mining
• Types de validations : statistique et par expertise
1. Introduction
• Validation en fouille non supervisée
données
• Validation en fouille supervisée
42
Types de validation
Partie III
Data Mining Dans cette étape, on distingue 2 modes de validation :
• Par un expert
1. Introduction
2. Etape 1- Prétraitement • Statistique
données Pour certains domaines d'application (le diagnostic médical, par
- Visualisation et description exemple), le modèle produit doit être validé selon les 2 modes :
- Classification et prédiction • première validation du modèle produit par l'expert
• seconde validation statistique sur des bases de cas existants
43
Validation en fouille non
Partie III supervisée
• Validation essentiellement par l'expert, éventuellement complétée
par une validation statistique :
Data Mining
• Pour la segmentation :
1. Introduction
• le programme construit des groupes homogènes, un expert
2. Etape 1- Prétraitement peut juger de la pertinence des groupes constitués
3. Etape 2 – Fouille de • on peut combiner avec une validation statistique sur un
données
problème précis utilisant cette segmentation.
• Pour la recherche des règles d'association :
c'est l'expert du domaine qui jugera de la pertinence des règles,
(si l'algorithme fournit des règles porteuses d'information, des
règles triviales ou sans intérêt)
44
Validation en fouille non
Partie III supervisée
Data Mining • Validation statistique : utilisation de méthodes de statistique

descriptive pour juger le résultat obtenu :
1. Introduction
1. Calculer les moyennes et variances des attributs
3. Etape 2 – Fouille de 2. Si possible, calculer la corrélation entre certains champs
données
- Visualisation et description 3. Déterminer la classe majoritaire en classification.
45
Validation en fouille supervisée
Partie III
Validation principalement statistique (2 tâches)
Data Mining
1. Introduction • Tâche 1 : utilisation de méthodes de statistique descriptive pour juger

2. Etape 1- Prétraitement le résultat obtenu, estimer la qualité ou les biais des données
données d'apprentissage :
1. Calculer les moyennes et variances des attributs
- Classification et prédiction 2. Si possible, calculer la corrélation entre certains champs
3. Déterminer la classe majoritaire en classification.
46
Validation en fouille supervisée
Partie III
• Tâche 2 : décomposer les données en plusieurs ensembles disjoints,
Data Mining afin de garder des données pour estimer les erreurs des modèles ou
de les comparer, en constituant :
1. Introduction
2. Etape 1- Prétraitement • un ensemble d'apprentissage : permettant de générer le modèle
3. Etape 2 – Fouille de • un ensemble de test : permettant d'évaluer l'erreur réelle du
données modèle sur un ensemble indépendant évitant ainsi un biais
- Visualisation et description d'apprentissage
- Clustering et association • un ensemble de validation : utile quand il faut tester et comparer
- Classification et prédiction plusieurs modèles : le modèle est choisi selon ses performances
4. Etape 3 – Validation sur l'ensemble test, puis son erreur réelle est évaluée sur
l'ensemble de validation
47

Partie 3-Data Mining - DRC - 2021-2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Partie 3-Data Mining - DRC - 2021-2022

Transféré par

Droits d'auteur :

Formats disponibles

Big Data & Data Mining

Partie III- Data Mining

Mme Karima Ben Slimane

Data Mining « Le data mining est un procédé d’exploration et d’analyse de grandes

Data Mining ▪ Le data mining ne se limite pas au traitement des données

▪ la vidéo => on parle alors plus généralement de multimedia mining.

Etape 1 – Pré-traitement des données

Type et méthodes de validation

- Les données issues des entrepôts ne sont pas nécessairement toutes

▪ Doublons: donner plus d’importance aux valeurs répétées.

=> Bémol et Bémolle

Data Mining ▪ Ignorer la valeur en question ou la ligne entière

on perd de l’information lorsque le pourcentage de valeurs manquantes est élevé

▪ Utiliser des méthodes d’induction comme la régression ou les réseaux de neurones

Partie III 2. Nettoyage des données

Partie III 3. Transformation

Partie III 3. Transformation

Transformation des attributs catégoriels :

• une représentation verticale

• une représentation horizontale ou éclatée.

La représentation horizontale est plus adaptée à la fouille de données

Source: Zighed & Rokatomalala (2002) 25

Source: Zighed & Rokatomalala (2002)

Traite des données

Les algorithmes de ML vont apprendre sur

Data Mining Les données sont étiquetées

- Exemple : l’impacte d’une campagne publicitaire en fonction des frais

1. Introduction - Arbres de décisions

Data Mining • Utilisables aussi bien en classification qu’en régression.

1. Introduction • Présentent des règles facilement interprétables.

Data Mining • Le clustering permet de découvrir une structure dans le cas de

• La qualité d’un clustering dépend de la mesure de similarité.

Data Mining Dans cette étape, on distingue 2 modes de validation :

Data Mining • Validation statistique : utilisation de méthodes de statistique

1. Introduction • Tâche 1 : utilisation de méthodes de statistique descriptive pour juger

Vous aimerez peut-être aussi