Cours Data Mining - MORIE

DATA MINING
Explorer le potentiel de
vos données
Dr MORIE Wielfrid
OBJECTIFS
Comprendre les notions et les tâches du Data Mining
 Comprendre les principales tâches de Data Mining ;

 Comprendre le fonctionnement des algorithmes de Data
Mining ;
 Apprendre à construire des workflows de Data Mining.
Cours de Data Mining Dr MORIE

PLAN DU
COURS
Introduction
1. Data Preprocessing
2. Data Mining Techniques
3. Data Mining Tools
Conclusion
BIBLIOGRAPHIE
1. Data Mining et Statistiques (2020) Stephane Tuffery

2. Data Mining, Concepts and Techniques (2020) Morgan Kaufmann
3. Nettoyez et analysez votre jeu de données (Openclassroom)
INTRODUCTION
DEFINITION
Processus d’exploration de données massifs pour

déceler des modèles de données utiles
 Données = Faits bruts sans contexte ou objet ;

 Exploration = Fouiller en profondeur pour trouver des choses
utiles ;
Le Data Mining est un processus indissociable de l’analyse Big Data, de
l'analyse prédictive et l’exploitation des données.

DEFINITION
• 30°
• Paris • Il fait 30° à Paris • La ville la plus chaude de France
• 1500FCFA • Le Kg de Lait cout • Le prix du lait a augmenté de
• Licence 1500FCFA 10%
• 25 étudiants en Licence • Peu d'inscrit par rapport à 2022
CONNAISSANCE
DONNEES INFORMATIONS
S
Faits Bruts Données + Informations +

Contexte Analyse

MOTIVATION
1- Données
 Volume : Masse importante de données ;
 Variété : Données multi-dimensionnelles (milliers d’attributs)
;
 Vélocité : Traitement en temps réel des données ;
 Véracité : Confiance aux données traitées ;
 Valeur : Découverte d'informations utiles à partir des
données.
MOTIVATION
2- Entreprises
Répondre à de nombreux objectifs business et
commerciaux
 Augmenter ses revenus ;
 Comprendre mieux les clients et leurs
préférences ;
 Fidéliser les clients ;
 Détecter une fraude ;
 Identifier les risques.
MOTIVATION
Exemple 1
E-commerce : 50% des clients particuliers d’un confectionneur de matelas
achètent à travers le web. Mais seulement 0,5% des visiteurs du site
deviennent clients.
Stocker les séquences de click des visiteurs, le temps passé sur le site, la
fréquence de visite, pour analyser les caractéristiques des acheteurs afin
d'adapter le contenu du site à chaque visite.

MOTIVATION
Exemple 2
La SGCI mesure des scores d’appétence et de solvabilité des clients pour
mieux cibler les propositions de produits et le niveau de prêt à accorder.
L’objectif des banques est de réduire le risque des prêts bancaires.
Client : Age, genre, classe, lieu d'habitation, type de salarié,…

Finance : Salaire, revenu additionnel, bien, patrimoine,…
Comportement : Consommation, prêt en cours, solvabilité antérieure,
épargne,…

MOTIVATION
Exemple 3
Le fisc français, utilise des images de Google Maps à jour pour déceler les
fraudes à la déclaration fiscale surtout sur les biens immobiliers.
Comment font-ils.

Pratique
TAF
Trouver un exemple d'entreprise (réelle ou fictive) qui peut faire du Data
Mining. Pour cela il faut proposer les informations suivantes :
 Le Secteur d'activités ;
 L'analyse à effectuer (qu'est qu'ils mesurent?) ;
 L'intérêt de l'analyse (Pourquoi ils veulent faire du Data Mining ?) ;
 Les données à collecter (les données qu'ils doivent collecter et
enregistrer).

DOMAINE DU DATA
MINING
Processus KDD Interprétation
Data Mining
Préparation
Connaissance
Sélection
Informations
extraites
Données
préparées
Données
ciblées
Bases ou
entrepôt de
données
DOMAINE DU DATA
MINING
Statistique vs Data Mining
Statistique Data Mining
 Quelques centaines  Des millions d’individus

d’individus  Des centaines de variables
 Quelques variables  Données recueillies sans
 Fortes hypothèses sur les lois étude préalable
statistiques  Nécessité de calculs rapides
 Importance accordée au  Corpus d’apprentissage
calcul
 Échantillon aléatoire.
DOMAINE DU DATA
MINING Disciplines du Data
Mining

METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données
Préparation des données
Modélisation
Interprétation

METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données
Modélisation
Interprétation

METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données
Modélisation
Interprétation

METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Data Mining
Modélisation
Interprétation

METHODOLOGI
E
Compréhension
commerciale
Compréhension des
données

Data Mining
Modélisation
Interprétation

DATA PREPROCESSING
PRE-TRAITEMENT DES
DONNEES
Définition
Data Preprocessing est une stratégie de gestion des données bruts pour
arriver à des données exploitables et qui nous donneront un modèle plus
performant. Il vient généralement avant d'appliquer les algorithmes de Data
Mining.
Données
Bases de
préparées
données
Data Preprocessing

PRE-TRAITEMENT DES
DONNEES
Définition
Réduction de
dimensionnalité
La réduction de dimensionnalité consiste en une diminution du nombre de
colonnes. Si notre jeu de données (dataset) est composé de plus de 3
variables, plus la dimension augmente, plus il est difficile de le visualiser.
Nettoyage de données
Le nettoyage de données est l'opération de détection et de correction
d'erreurs présentes sur des jeux de données stockées afin de fournir des
données propres à l'analyse.

REDUCTION DE
DIMENSIONNALITE
Réduire la dimensionalité des données, c'est-à-dire le nombre de variables
utilisées pour les représenter, permet :
• Faciliter la visualisation des données ;
• Eliminer les variables non pertinentes qui pourraient fausser les
prédictions ;
• Améliorer l'apprentissage en construisant des modèles moins complexes
;
ACP LDA … Analyse contextuelle
• Réduire le problème du fléau de la dimensionalité.

REDUCTION DE
DIMENSIONNALITE
Variables
Nom, Prénoms, Mail, Genre, Taille, Poids, Profession,
Habitation, Religion, Ethnie, Téléphone, Matrimoniale,
Véhicule, Age, Lieu de naissance, Couleur de peau,
Date d'abonnement, Nombre d'enfant.
Un restaurant veut faire des offres promotionnelles sur ses plats aux clients.
TAF : Effectuez une réduction de dimensionnalité dans ce contexte.

REDUCTION DE
DIMENSIONNALITE
Variables
Nom, Prénoms, Mail, Genre, Taille, Poids, Profession,
Habitation, Religion, Ethnie, Téléphone, Matrimoniale,
Véhicule, Age, Lieu de naissance, Couleur de peau,
Date d'abonnement, Nombre d'enfant.
Un restaurant veut faire des compositions de plats personnalisées à certains
clients.
TAF : Effectuez une réduction de dimensionnalité dans ce contexte
NETTOYAGE DE DONNEES
Nettoyer les données consiste à les corriger afin d’en faciliter l’analyse et
l’exploitation pour :
• Augmenter l'efficacité de ses données
• Réduire les possibles erreurs d'interprétation
• Eviter le Overfitting
Les sources d'erreurs peuvent être humaines ou matériel (capteur).

sources
d'erreurs
Humain
Saisie clavier
Reproduction de données manuscrites
Formulaires mal remplis
Capteur
Mauvais calibrage
Capteur défectueux
Capteur non fonctionnel

Types d'erreurs

Types d'erreurs
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double

Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age
Erreurs d'irrégularité Wielfrid MORIE 50
Jean, KONE 15
Erreurs de formatage Kouassi Marshall 18
Coulibaly, Oumar Patrick 23
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15 2006
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 23 2000
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs de formatage Jean, KONE 15 2006
Erreurs de contradiction Coulibaly, Oumar Patrick 23 15/01/2000
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs de formatage Jean, KONE 15
Erreurs de contradiction Coulibaly, Oumar Patrick 15/01/2000
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Taux de succès
Erreurs d'irrégularité Wielfrid MORIE 0.5
Jean, KONE 1.7
Coulibaly, Oumar Patrick 0.000000000009
Données en double
Données aberrantes
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Salaire € /mois
Erreurs d'irrégularité Wielfrid MORIE 100000
Jean, KONE 1700
Coulibaly, Oumar Patrick 5500
Données en double
Données aberrantes
Approches
On distingue deux types d'approches :

• Celles des entreprises, qui utilisent généralement des nettoyeurs de type
ETL.
• Celles des scientifiques, qui se basent sur les contraintes d'intégrité, les
statistiques, l'apprentissage automatique ou encore le
crowdsourcing.

Etapes du
nettoyage
Analyser les données afin de détecter les

potentiels problèmes ;
Choisir le type de transformations à effectuer ;
Appliquer ces informations aux données.

Techniques
1. Le parsing
Le parsing, ou analyse syntaxique en français, désigne
l'utilisation de la syntaxe d’une chaîne de caractères pour en
extraire des informations. On utilise pour cela les expressions
régulières.

Techniques
2. Transformation de données
Cette méthode consiste à appliquer un format optimal
aux données. Par exemple, à partir d’un champ de
données qui contient des dates, on extrait uniquement les
années si le reste nous est inutile.

Techniques
3. Renforcement des contraintes d’intégrité

Les contraintes d’intégrités déterminées précédemment
ne sont parfois pas optimales. En fonction de l’évolution
des données collectées, pour améliorer la qualité globale
des données, il faut modifier les contraintes d’intégrité.

Techniques
4. Méthode statistique
L’utilisation des méthodes statistiques dans le contexte
du Data Cleaning permet de corriger des erreurs en
étudiant la répartition des données, notamment les paires
de données les plus similaires. Ces méthodes sont aussi
utiles dans le remplissage des valeurs manquantes.
Techniques
5. Crowdsourcing
Le crowdsourcing permet d’utiliser des données externes
pour améliorer la qualité des données que l’on doit
nettoyer. Cela permet de corriger des erreurs
automatiquement dans les données collectées.

DATA MINING TECHNIQUES
DATA MINING MODELS
Techniques
1. Classification
2. La segmentation (Clustering)
3. L'association *
4. La régression

CLASSIFICATION
Définition
La classification est une technique permettant de

rassembler divers éléments en catégories définies, que
vous pouvez par la suite exploiter pour tirer d’autres
conclusions ou remplir une fonction.
Risque de crédit Faible
CLIEN
T
Risque de crédit élevé
CLASSIFICATION
Méthodes
Classification Supervisée
1. Machine à vecteurs de support (SVM)
2. Arbres de décision
3. K plus proche voisin (KNN)
4. …

CLASSIFICATION
SVM
Le SVM est un classifieur binaire qui sépare les données à

travers des lignes (appelés hyperplans).

CLASSIFICATION
SVM
Ces méthodes reposent sur deux idées clés : La marge maximale
et la fonction noyau.

CLASSIFICATION
SVM
Comment les SVM séparent les données non linéairement
séparables ? 𝟐 𝟐
On crée un fonction Z de plan 3D.𝒁 = 𝒙 + 𝒚

CLASSIFICATION
SVM
Comment faire avec un nombre N de classe non binaire, soit

N>2.
One Vs All

CLASSIFICATION
SVM
• Robuste au bruit
• Mémoire efficace
• Efficace dans les espaces de grande dimension
• Versatilité

CLASSIFICATION
Arbre de décision
Un arbre de décision permet de construire des règles

explicites et métiers à partir de vos données en fonction
d’une variable cible que vous cherchez à expliquer. En
théorie des graphes, un arbre est un graphe non orienté,
acyclique et connexe.

CLASSIFICATION
Arbre de décision

CLASSIFICATION
Arbre de décision
Algorithme ID3(Iterative Dichotomiser 3) :

Il se base sur le concept d’attributs et de classe de
l’apprentissage automatique (sur classification discrète).
Cet algorithme recherche l’attribut le plus pertinent à tester
pour que l’arbre soit le plus court et optimisé possible.
Entropie H(s)

CLASSIFICATION Arbre de décision

CLASSIFICATION
Arbre de décision
• Simples à comprendre et à visualiser.

• Préparation des données non nécessaire
(normalisation).
• Le coût d’utilisation des arbres est logarithmique.
• Données catégorielles et numériques possibles.
• Traitement des problèmes multi-classe.
× Sur-apprentissage
× Déséquilibres des arbres générés
CLASSIFICATION
KNN
L’algorithme des k plus proches voisins est un algorithme

d’apprentissage supervisé qui classe les éléments en
fonction de la majorité de ses voisins déterminés par le
nombre K.
"Qui s'assemble se ressemble"

CLASSIFICATION
KNN
• l’OCR (Optical Character Recognizer), qui tente de

détecter l’écriture manuscrite, les images et même les
vidéos.
• Les notations de crédit. Evaluer la performance des
Etats ou des entreprises en termes de solvabilité.
• L'octroi de prêt à un particulier. Evaluer la catégorie d'un
client pour voir son niveau de prêt possible.

CLASSIFICATION
KNN

CLASSIFICATION
KNN

CLASSIFICATION
KNN

CLASSIFICATION
KNN
Calculer les Distances
Manhattan
Euclidienne
CLASSIFICATION
KNN
Trier les distances Ordre Croissant

des distances

CLASSIFICATION
KNN
Calculer les Distances ∗

𝑘∈𝑵
Trier les distances
𝑘>𝑐
Choisir K
le nombre de voisins
𝑘<𝑛
𝑛 : la taille de l'échantillon de données
𝑐 : le nombre de classe

CLASSIFICATION
KNN
Trier les distances
Choisir K
le nombre de voisins
=3 =
Choisir l'étiquette majoritaire =2
parmi les voisins
CLASSIFICATION
KNN

CLASSIFICATION
KNN
 L’algorithme est simple et facile à mettre en œuvre. Il

n’est pas nécessaire de créer un modèle, de régler
plusieurs paramètres ou de formuler des hypothèses
supplémentaires. Il est polyvalent en classification ou en
régression.
× L’algorithme devient beaucoup plus lent à mesure que le
nombre d’observation et de variables indépendantes
augmente.

SEGMENTATION
Définition
Le clustering ou partitionnement est une technique

d'apprentissage automatique non supervisé permettant de
créer des sous-groupes de données. Les données
regroupées partagent généralement les mêmes
caractéristiques.
• Les méthodes hiérarchiques
• Les méthodes centroïdes
• Les méthodes à densité

SEGMENTATION
Centroïdes
K-means permet d’analyser un jeu de données (X1,

X2,…Xn), afin de regrouper les données “similaires” en K
clusters.
où μi est le barycentre des points dans Si.

SEGMENTATION
K-means
Donner K (nombre de
clusters)
Trouver K centroïdes
Regrouper les points avec le

centroïde le + proche
Changement
?
Fin

SEGMENTATION
K-means
 Avantages
 Rapidité, peut être appliqué à des bases données
relativement grandes
 Economique de point de vue stockage de données
(stoker les K centres)
× Inconvénients
× Suppose la connaissance de K (en réalité jamais
connu)
× Sensible à la présence des observations extrêmes
ASSOCIATION
Définition
Une règle d’association est une expression qui identifie

des éléments qui apparaissent fréquemment ensemble
dans des transactions.
Par exemple, dans un supermarché, la règle “Si un client
achète du pain et de la moutarde, il est probable qu’il
achète aussi des oignons” révèle une relation entre la
vente de ces trois produits.

ASSOCIATION
Problème

ASSOCIATION
Représentation

ASSOCIATION
Définition
Soit I = {i1, i2, ..., im} un ensemble d'indices (items)

et T = {t1, t2, ..., tn} un ensemble de transactions,
telles que ti contient un sous-ensemble de I (i.e. ti ⊆ I).
Une règle d'association, s'exprime sous la forme :
X → Y, où X ∈ T, Y ∈ T, et X ∩ Y = ∅

ASSOCIATION
Définition
Support : Fréquence relative d’une combinaison d’items dans

l’ensemble de données.
Support = 2/5

ASSOCIATION
Définition
Confiance : La confiance est une mesure de la fiabilité de la règle.

Elle est définie comme la fréquence à laquelle les items du côté droit
Y de la règle apparaissent dans les transactions qui contiennent les
items du côté gauche X
X Y
Confiance = 2/3

Cours Data Mining - MORIE

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Data Mining - MORIE

Transféré par

Droits d'auteur :

Formats disponibles

DATA MINING

Comprendre les notions et les tâches du Data Mining

 Comprendre les principales tâches de Data Mining ;

Cours de Data Mining Dr MORIE

1. Data Mining et Statistiques (2020) Stephane Tuffery

Processus d’exploration de données massifs pour

 Données = Faits bruts sans contexte ou objet ;

Cours de Data Mining Dr MORIE

Faits Bruts Données + Informations +

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Client : Age, genre, classe, lieu d'habitation, type de salarié,…

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Statistique Data Mining

 Quelques centaines  Des millions d’individus

Cours de Data Mining Dr MORIE

Préparation des données

Cours de Data Mining Dr MORIE

Préparation des données

Cours de Data Mining Dr MORIE

Préparation des données

Cours de Data Mining Dr MORIE

Préparation des données

Cours de Data Mining Dr MORIE

Préparation des données

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

On distingue deux types d'approches :

Cours de Data Mining Dr MORIE

Analyser les données afin de détecter les

Choisir le type de transformations à effectuer ;

Appliquer ces informations aux données.

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

3. Renforcement des contraintes d’intégrité

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

La classification est une technique permettant de

Risque de crédit Faible

Cours de Data Mining Dr MORIE

Le SVM est un classifieur binaire qui sépare les données à

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Cours de Data Mining Dr MORIE

Comment faire avec un nombre N de classe non binaire, soit