Vous êtes sur la page 1sur 88

DATA MINING

Explorer le potentiel de
vos données

Dr MORIE Wielfrid
OBJECTIFS

Comprendre les notions et les tâches du Data Mining

 Comprendre les principales tâches de Data Mining ;


 Comprendre le fonctionnement des algorithmes de Data
Mining ;
 Apprendre à construire des workflows de Data Mining.

Cours de Data Mining Dr MORIE


PLAN DU
COURS

Introduction
1. Data Preprocessing
2. Data Mining Techniques
3. Data Mining Tools
Conclusion
BIBLIOGRAPHIE

1. Data Mining et Statistiques (2020) Stephane Tuffery


2. Data Mining, Concepts and Techniques (2020) Morgan Kaufmann
3. Nettoyez et analysez votre jeu de données (Openclassroom)
INTRODUCTION
DEFINITION

Processus d’exploration de données massifs pour


déceler des modèles de données utiles

 Données = Faits bruts sans contexte ou objet ;


 Exploration = Fouiller en profondeur pour trouver des choses
utiles ;
Le Data Mining est un processus indissociable de l’analyse Big Data, de
l'analyse prédictive et l’exploitation des données.

Cours de Data Mining Dr MORIE


DEFINITION

• 30°
• Paris • Il fait 30° à Paris • La ville la plus chaude de France
• 1500FCFA • Le Kg de Lait cout • Le prix du lait a augmenté de
• Licence 1500FCFA 10%
• 25 étudiants en Licence • Peu d'inscrit par rapport à 2022

CONNAISSANCE
DONNEES INFORMATIONS
S

Faits Bruts Données + Informations +


Contexte Analyse

Cours de Data Mining Dr MORIE


MOTIVATION

1- Données
 Volume : Masse importante de données ;
 Variété : Données multi-dimensionnelles (milliers d’attributs)
;
 Vélocité : Traitement en temps réel des données ;
 Véracité : Confiance aux données traitées ;
 Valeur : Découverte d'informations utiles à partir des
données.
Cours de Data Mining Dr MORIE
MOTIVATION

2- Entreprises
Répondre à de nombreux objectifs business et
commerciaux
 Augmenter ses revenus ;
 Comprendre mieux les clients et leurs
préférences ;
 Fidéliser les clients ;
 Détecter une fraude ;
 Identifier les risques.
Cours de Data Mining Dr MORIE
MOTIVATION

Exemple 1
E-commerce : 50% des clients particuliers d’un confectionneur de matelas
achètent à travers le web. Mais seulement 0,5% des visiteurs du site
deviennent clients.

Stocker les séquences de click des visiteurs, le temps passé sur le site, la
fréquence de visite, pour analyser les caractéristiques des acheteurs afin
d'adapter le contenu du site à chaque visite.

Cours de Data Mining Dr MORIE


MOTIVATION

Exemple 2
La SGCI mesure des scores d’appétence et de solvabilité des clients pour
mieux cibler les propositions de produits et le niveau de prêt à accorder.
L’objectif des banques est de réduire le risque des prêts bancaires.

Client : Age, genre, classe, lieu d'habitation, type de salarié,…


Finance : Salaire, revenu additionnel, bien, patrimoine,…
Comportement : Consommation, prêt en cours, solvabilité antérieure,
épargne,…

Cours de Data Mining Dr MORIE


MOTIVATION

Exemple 3

Le fisc français, utilise des images de Google Maps à jour pour déceler les
fraudes à la déclaration fiscale surtout sur les biens immobiliers.
Comment font-ils.

Cours de Data Mining Dr MORIE


Pratique

TAF
Trouver un exemple d'entreprise (réelle ou fictive) qui peut faire du Data
Mining. Pour cela il faut proposer les informations suivantes :
 Le Secteur d'activités ;
 L'analyse à effectuer (qu'est qu'ils mesurent?) ;
 L'intérêt de l'analyse (Pourquoi ils veulent faire du Data Mining ?) ;
 Les données à collecter (les données qu'ils doivent collecter et
enregistrer).

Cours de Data Mining Dr MORIE


DOMAINE DU DATA
MINING
Processus KDD Interprétation

Data Mining

Préparation
Connaissance

Sélection
Informations
extraites
Données
préparées
Données
ciblées
Bases ou
entrepôt de
données
Cours de Data Mining Dr MORIE
DOMAINE DU DATA
MINING
Statistique vs Data Mining

Statistique Data Mining

 Quelques centaines  Des millions d’individus


d’individus  Des centaines de variables
 Quelques variables  Données recueillies sans
 Fortes hypothèses sur les lois étude préalable
statistiques  Nécessité de calculs rapides
 Importance accordée au  Corpus d’apprentissage
calcul
 Échantillon aléatoire.
Cours de Data Mining Dr MORIE
DOMAINE DU DATA
MINING Disciplines du Data
Mining

Cours de Data Mining Dr MORIE


METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Préparation des données

Modélisation

Interprétation

Cours de Data Mining Dr MORIE


METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Préparation des données

Modélisation

Interprétation

Cours de Data Mining Dr MORIE


METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Préparation des données

Modélisation

Interprétation

Cours de Data Mining Dr MORIE


METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Préparation des données


Data Mining
Modélisation

Interprétation

Cours de Data Mining Dr MORIE


METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Préparation des données


Data Mining
Modélisation

Interprétation

Cours de Data Mining Dr MORIE


DATA PREPROCESSING
PRE-TRAITEMENT DES
DONNEES
Définition

Data Preprocessing est une stratégie de gestion des données bruts pour
arriver à des données exploitables et qui nous donneront un modèle plus
performant. Il vient généralement avant d'appliquer les algorithmes de Data
Mining.

Données
Bases de
préparées
données
Data Preprocessing

Cours de Data Mining Dr MORIE


PRE-TRAITEMENT DES
DONNEES
Définition
Réduction de
dimensionnalité
La réduction de dimensionnalité consiste en une diminution du nombre de
colonnes. Si notre jeu de données (dataset) est composé de plus de 3
variables, plus la dimension augmente, plus il est difficile de le visualiser.

Nettoyage de données
Le nettoyage de données est l'opération de détection et de correction
d'erreurs présentes sur des jeux de données stockées afin de fournir des
données propres à l'analyse.

Cours de Data Mining Dr MORIE


REDUCTION DE
DIMENSIONNALITE
Réduire la dimensionalité des données, c'est-à-dire le nombre de variables
utilisées pour les représenter, permet :
• Faciliter la visualisation des données ;
• Eliminer les variables non pertinentes qui pourraient fausser les
prédictions ;
• Améliorer l'apprentissage en construisant des modèles moins complexes
;
ACP LDA … Analyse contextuelle
• Réduire le problème du fléau de la dimensionalité.

Cours de Data Mining Dr MORIE


REDUCTION DE
DIMENSIONNALITE
Variables
Nom, Prénoms, Mail, Genre, Taille, Poids, Profession,
Habitation, Religion, Ethnie, Téléphone, Matrimoniale,
Véhicule, Age, Lieu de naissance, Couleur de peau,
Date d'abonnement, Nombre d'enfant.
Un restaurant veut faire des offres promotionnelles sur ses plats aux clients.
TAF : Effectuez une réduction de dimensionnalité dans ce contexte.

Cours de Data Mining Dr MORIE


REDUCTION DE
DIMENSIONNALITE
Variables
Nom, Prénoms, Mail, Genre, Taille, Poids, Profession,
Habitation, Religion, Ethnie, Téléphone, Matrimoniale,
Véhicule, Age, Lieu de naissance, Couleur de peau,
Date d'abonnement, Nombre d'enfant.
Un restaurant veut faire des compositions de plats personnalisées à certains
clients.
TAF : Effectuez une réduction de dimensionnalité dans ce contexte
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES

Nettoyer les données consiste à les corriger afin d’en faciliter l’analyse et
l’exploitation pour :
• Augmenter l'efficacité de ses données
• Réduire les possibles erreurs d'interprétation
• Eviter le Overfitting
Les sources d'erreurs peuvent être humaines ou matériel (capteur).

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
sources
d'erreurs
Humain

Saisie clavier
Reproduction de données manuscrites
Formulaires mal remplis

Capteur
Mauvais calibrage
Capteur défectueux
Capteur non fonctionnel

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Nom Age
Erreurs d'irrégularité Wielfrid MORIE 50
Jean, KONE 15
Erreurs de formatage Kouassi Marshall 18
Coulibaly, Oumar Patrick 23
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15 2006
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 23 2000

Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15 2006
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 23 15/01/2000

Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 15/01/2000

Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Nom Taux de succès
Erreurs d'irrégularité Wielfrid MORIE 0.5
Jean, KONE 1.7
Erreurs de formatage Kouassi Marshall 1
Coulibaly, Oumar Patrick 0.000000000009
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs

Données manquantes
Erreurs lexicales
Nom Salaire € /mois
Erreurs d'irrégularité Wielfrid MORIE 100000
Jean, KONE 1700
Erreurs de formatage Kouassi Marshall 3800
Coulibaly, Oumar Patrick 5500
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Approches

On distingue deux types d'approches :


• Celles des entreprises, qui utilisent généralement des nettoyeurs de type
ETL.
• Celles des scientifiques, qui se basent sur les contraintes d'intégrité, les
statistiques, l'apprentissage automatique ou encore le
crowdsourcing.

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Etapes du
nettoyage

Analyser les données afin de détecter les


potentiels problèmes ;

Choisir le type de transformations à effectuer ;

Appliquer ces informations aux données.

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Techniques

1. Le parsing
Le parsing, ou analyse syntaxique en français, désigne
l'utilisation de la syntaxe d’une chaîne de caractères pour en
extraire des informations. On utilise pour cela les expressions
régulières.

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Techniques

2. Transformation de données
Cette méthode consiste à appliquer un format optimal
aux données. Par exemple, à partir d’un champ de
données qui contient des dates, on extrait uniquement les
années si le reste nous est inutile.

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Techniques

3. Renforcement des contraintes d’intégrité


Les contraintes d’intégrités déterminées précédemment
ne sont parfois pas optimales. En fonction de l’évolution
des données collectées, pour améliorer la qualité globale
des données, il faut modifier les contraintes d’intégrité.

Cours de Data Mining Dr MORIE


NETTOYAGE DE DONNEES
Techniques

4. Méthode statistique
L’utilisation des méthodes statistiques dans le contexte
du Data Cleaning permet de corriger des erreurs en
étudiant la répartition des données, notamment les paires
de données les plus similaires. Ces méthodes sont aussi
utiles dans le remplissage des valeurs manquantes.
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Techniques

5. Crowdsourcing
Le crowdsourcing permet d’utiliser des données externes
pour améliorer la qualité des données que l’on doit
nettoyer. Cela permet de corriger des erreurs
automatiquement dans les données collectées.

Cours de Data Mining Dr MORIE


DATA MINING TECHNIQUES
DATA MINING MODELS
Techniques

1. Classification
2. La segmentation (Clustering)
3. L'association *
4. La régression

Cours de Data Mining Dr MORIE


CLASSIFICATION
Définition

La classification est une technique permettant de


rassembler divers éléments en catégories définies, que
vous pouvez par la suite exploiter pour tirer d’autres
conclusions ou remplir une fonction.

Risque de crédit Faible

CLIEN
T
Risque de crédit élevé
Cours de Data Mining Dr MORIE
CLASSIFICATION
Méthodes

Classification Supervisée
1. Machine à vecteurs de support (SVM)
2. Arbres de décision
3. K plus proche voisin (KNN)
4. …

Cours de Data Mining Dr MORIE


CLASSIFICATION
SVM

Le SVM est un classifieur binaire qui sépare les données à


travers des lignes (appelés hyperplans).

Cours de Data Mining Dr MORIE


CLASSIFICATION
SVM
Ces méthodes reposent sur deux idées clés : La marge maximale
et la fonction noyau.

Cours de Data Mining Dr MORIE


CLASSIFICATION
SVM
Comment les SVM séparent les données non linéairement
séparables ? 𝟐 𝟐
On crée un fonction Z de plan 3D.𝒁 = 𝒙 + 𝒚

Cours de Data Mining Dr MORIE


CLASSIFICATION
SVM

Comment faire avec un nombre N de classe non binaire, soit


N>2.

One Vs All

Cours de Data Mining Dr MORIE


CLASSIFICATION
SVM

• Robuste au bruit
• Mémoire efficace
• Efficace dans les espaces de grande dimension
• Versatilité

Cours de Data Mining Dr MORIE


CLASSIFICATION
Arbre de décision

Un arbre de décision permet de construire des règles


explicites et métiers à partir de vos données en fonction
d’une variable cible que vous cherchez à expliquer. En
théorie des graphes, un arbre est un graphe non orienté,
acyclique et connexe.

Cours de Data Mining Dr MORIE


CLASSIFICATION
Arbre de décision

Cours de Data Mining Dr MORIE


CLASSIFICATION
Arbre de décision

Algorithme ID3(Iterative Dichotomiser 3) :


Il se base sur le concept d’attributs et de classe de
l’apprentissage automatique (sur classification discrète).
Cet algorithme recherche l’attribut le plus pertinent à tester
pour que l’arbre soit le plus court et optimisé possible.
Entropie H(s)

Cours de Data Mining Dr MORIE


CLASSIFICATION Arbre de décision

Cours de Data Mining Dr MORIE


CLASSIFICATION
Arbre de décision

• Simples à comprendre et à visualiser.


• Préparation des données non nécessaire
(normalisation).
• Le coût d’utilisation des arbres est logarithmique.
• Données catégorielles et numériques possibles.
• Traitement des problèmes multi-classe.

× Sur-apprentissage
× Déséquilibres des arbres générés
Cours de Data Mining Dr MORIE
CLASSIFICATION
KNN

L’algorithme des k plus proches voisins est un algorithme


d’apprentissage supervisé qui classe les éléments en
fonction de la majorité de ses voisins déterminés par le
nombre K.

"Qui s'assemble se ressemble"

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

• l’OCR (Optical Character Recognizer), qui tente de


détecter l’écriture manuscrite, les images et même les
vidéos.
• Les notations de crédit. Evaluer la performance des
Etats ou des entreprises en termes de solvabilité.
• L'octroi de prêt à un particulier. Evaluer la catégorie d'un
client pour voir son niveau de prêt possible.

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

Calculer les Distances

Manhattan

Euclidienne
Cours de Data Mining Dr MORIE
CLASSIFICATION
KNN

Calculer les Distances

Trier les distances Ordre Croissant


des distances

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

Calculer les Distances ∗


𝑘∈𝑵
Trier les distances
𝑘>𝑐
Choisir K
le nombre de voisins
𝑘<𝑛
𝑛 : la taille de l'échantillon de données
𝑐 : le nombre de classe

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

Calculer les Distances

Trier les distances

Choisir K
le nombre de voisins
=3 =
Choisir l'étiquette majoritaire =2
parmi les voisins
Cours de Data Mining Dr MORIE
CLASSIFICATION
KNN

Cours de Data Mining Dr MORIE


CLASSIFICATION
KNN

 L’algorithme est simple et facile à mettre en œuvre. Il


n’est pas nécessaire de créer un modèle, de régler
plusieurs paramètres ou de formuler des hypothèses
supplémentaires. Il est polyvalent en classification ou en
régression.
× L’algorithme devient beaucoup plus lent à mesure que le
nombre d’observation et de variables indépendantes
augmente.

Cours de Data Mining Dr MORIE


SEGMENTATION
Définition

Le clustering ou partitionnement est une technique


d'apprentissage automatique non supervisé permettant de
créer des sous-groupes de données. Les données
regroupées partagent généralement les mêmes
caractéristiques.
• Les méthodes hiérarchiques
• Les méthodes centroïdes
• Les méthodes à densité

Cours de Data Mining Dr MORIE


SEGMENTATION
Centroïdes

K-means permet d’analyser un jeu de données (X1,


X2,…Xn), afin de regrouper les données “similaires” en K
clusters.

où μi est le barycentre des points dans Si.

Cours de Data Mining Dr MORIE


SEGMENTATION
K-means
Donner K (nombre de
clusters)

Trouver K centroïdes

Regrouper les points avec le


centroïde le + proche

Changement
?
Fin

Cours de Data Mining Dr MORIE


SEGMENTATION
K-means

 Avantages
 Rapidité, peut être appliqué à des bases données
relativement grandes
 Economique de point de vue stockage de données
(stoker les K centres)
× Inconvénients
× Suppose la connaissance de K (en réalité jamais
connu)
× Sensible à la présence des observations extrêmes
Cours de Data Mining Dr MORIE
ASSOCIATION
Définition

Une règle d’association est une expression qui identifie


des éléments qui apparaissent fréquemment ensemble
dans des transactions.
Par exemple, dans un supermarché, la règle “Si un client
achète du pain et de la moutarde, il est probable qu’il
achète aussi des oignons” révèle une relation entre la
vente de ces trois produits.

Cours de Data Mining Dr MORIE


ASSOCIATION
Problème

Cours de Data Mining Dr MORIE


ASSOCIATION
Représentation

Cours de Data Mining Dr MORIE


ASSOCIATION
Définition

Soit I = {i1, i2, ..., im} un ensemble d'indices (items)


et T = {t1, t2, ..., tn} un ensemble de transactions,
telles que ti contient un sous-ensemble de I (i.e. ti ⊆ I).
Une règle d'association, s'exprime sous la forme :
X → Y, où X ∈ T, Y ∈ T, et X ∩ Y = ∅

Cours de Data Mining Dr MORIE


ASSOCIATION
Définition

Support : Fréquence relative d’une combinaison d’items dans


l’ensemble de données.

Support = 2/5

Cours de Data Mining Dr MORIE


ASSOCIATION
Définition

Confiance : La confiance est une mesure de la fiabilité de la règle.


Elle est définie comme la fréquence à laquelle les items du côté droit
Y de la règle apparaissent dans les transactions qui contiennent les
items du côté gauche X

X Y

Confiance = 2/3
Cours de Data Mining Dr MORIE

Vous aimerez peut-être aussi