Académique Documents
Professionnel Documents
Culture Documents
Explorer le potentiel de
vos données
Dr MORIE Wielfrid
OBJECTIFS
Introduction
1. Data Preprocessing
2. Data Mining Techniques
3. Data Mining Tools
Conclusion
BIBLIOGRAPHIE
• 30°
• Paris • Il fait 30° à Paris • La ville la plus chaude de France
• 1500FCFA • Le Kg de Lait cout • Le prix du lait a augmenté de
• Licence 1500FCFA 10%
• 25 étudiants en Licence • Peu d'inscrit par rapport à 2022
CONNAISSANCE
DONNEES INFORMATIONS
S
1- Données
Volume : Masse importante de données ;
Variété : Données multi-dimensionnelles (milliers d’attributs)
;
Vélocité : Traitement en temps réel des données ;
Véracité : Confiance aux données traitées ;
Valeur : Découverte d'informations utiles à partir des
données.
Cours de Data Mining Dr MORIE
MOTIVATION
2- Entreprises
Répondre à de nombreux objectifs business et
commerciaux
Augmenter ses revenus ;
Comprendre mieux les clients et leurs
préférences ;
Fidéliser les clients ;
Détecter une fraude ;
Identifier les risques.
Cours de Data Mining Dr MORIE
MOTIVATION
Exemple 1
E-commerce : 50% des clients particuliers d’un confectionneur de matelas
achètent à travers le web. Mais seulement 0,5% des visiteurs du site
deviennent clients.
Stocker les séquences de click des visiteurs, le temps passé sur le site, la
fréquence de visite, pour analyser les caractéristiques des acheteurs afin
d'adapter le contenu du site à chaque visite.
Exemple 2
La SGCI mesure des scores d’appétence et de solvabilité des clients pour
mieux cibler les propositions de produits et le niveau de prêt à accorder.
L’objectif des banques est de réduire le risque des prêts bancaires.
Exemple 3
Le fisc français, utilise des images de Google Maps à jour pour déceler les
fraudes à la déclaration fiscale surtout sur les biens immobiliers.
Comment font-ils.
TAF
Trouver un exemple d'entreprise (réelle ou fictive) qui peut faire du Data
Mining. Pour cela il faut proposer les informations suivantes :
Le Secteur d'activités ;
L'analyse à effectuer (qu'est qu'ils mesurent?) ;
L'intérêt de l'analyse (Pourquoi ils veulent faire du Data Mining ?) ;
Les données à collecter (les données qu'ils doivent collecter et
enregistrer).
Data Mining
Préparation
Connaissance
Sélection
Informations
extraites
Données
préparées
Données
ciblées
Bases ou
entrepôt de
données
Cours de Data Mining Dr MORIE
DOMAINE DU DATA
MINING
Statistique vs Data Mining
Modélisation
Interprétation
Modélisation
Interprétation
Modélisation
Interprétation
Interprétation
Interprétation
Data Preprocessing est une stratégie de gestion des données bruts pour
arriver à des données exploitables et qui nous donneront un modèle plus
performant. Il vient généralement avant d'appliquer les algorithmes de Data
Mining.
Données
Bases de
préparées
données
Data Preprocessing
Nettoyage de données
Le nettoyage de données est l'opération de détection et de correction
d'erreurs présentes sur des jeux de données stockées afin de fournir des
données propres à l'analyse.
Nettoyer les données consiste à les corriger afin d’en faciliter l’analyse et
l’exploitation pour :
• Augmenter l'efficacité de ses données
• Réduire les possibles erreurs d'interprétation
• Eviter le Overfitting
Les sources d'erreurs peuvent être humaines ou matériel (capteur).
Saisie clavier
Reproduction de données manuscrites
Formulaires mal remplis
Capteur
Mauvais calibrage
Capteur défectueux
Capteur non fonctionnel
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Erreurs d'irrégularité
Erreurs de formatage
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age
Erreurs d'irrégularité Wielfrid MORIE 50
Jean, KONE 15
Erreurs de formatage Kouassi Marshall 18
Coulibaly, Oumar Patrick 23
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15 2006
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 23 2000
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15 2006
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 23 15/01/2000
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Age Année
Erreurs d'irrégularité naissance
Wielfrid MORIE 50 1973
Erreurs de formatage Jean, KONE 15
Kouassi Marshall 18 2005
Erreurs de contradiction Coulibaly, Oumar Patrick 15/01/2000
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Taux de succès
Erreurs d'irrégularité Wielfrid MORIE 0.5
Jean, KONE 1.7
Erreurs de formatage Kouassi Marshall 1
Coulibaly, Oumar Patrick 0.000000000009
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Types d'erreurs
Données manquantes
Erreurs lexicales
Nom Salaire € /mois
Erreurs d'irrégularité Wielfrid MORIE 100000
Jean, KONE 1700
Erreurs de formatage Kouassi Marshall 3800
Coulibaly, Oumar Patrick 5500
Erreurs de contradiction
Données en double
Données aberrantes
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Approches
1. Le parsing
Le parsing, ou analyse syntaxique en français, désigne
l'utilisation de la syntaxe d’une chaîne de caractères pour en
extraire des informations. On utilise pour cela les expressions
régulières.
2. Transformation de données
Cette méthode consiste à appliquer un format optimal
aux données. Par exemple, à partir d’un champ de
données qui contient des dates, on extrait uniquement les
années si le reste nous est inutile.
4. Méthode statistique
L’utilisation des méthodes statistiques dans le contexte
du Data Cleaning permet de corriger des erreurs en
étudiant la répartition des données, notamment les paires
de données les plus similaires. Ces méthodes sont aussi
utiles dans le remplissage des valeurs manquantes.
Cours de Data Mining Dr MORIE
NETTOYAGE DE DONNEES
Techniques
5. Crowdsourcing
Le crowdsourcing permet d’utiliser des données externes
pour améliorer la qualité des données que l’on doit
nettoyer. Cela permet de corriger des erreurs
automatiquement dans les données collectées.
1. Classification
2. La segmentation (Clustering)
3. L'association *
4. La régression
CLIEN
T
Risque de crédit élevé
Cours de Data Mining Dr MORIE
CLASSIFICATION
Méthodes
Classification Supervisée
1. Machine à vecteurs de support (SVM)
2. Arbres de décision
3. K plus proche voisin (KNN)
4. …
One Vs All
• Robuste au bruit
• Mémoire efficace
• Efficace dans les espaces de grande dimension
• Versatilité
× Sur-apprentissage
× Déséquilibres des arbres générés
Cours de Data Mining Dr MORIE
CLASSIFICATION
KNN
Manhattan
Euclidienne
Cours de Data Mining Dr MORIE
CLASSIFICATION
KNN
Choisir K
le nombre de voisins
=3 =
Choisir l'étiquette majoritaire =2
parmi les voisins
Cours de Data Mining Dr MORIE
CLASSIFICATION
KNN
Trouver K centroïdes
Changement
?
Fin
Avantages
Rapidité, peut être appliqué à des bases données
relativement grandes
Economique de point de vue stockage de données
(stoker les K centres)
× Inconvénients
× Suppose la connaissance de K (en réalité jamais
connu)
× Sensible à la présence des observations extrêmes
Cours de Data Mining Dr MORIE
ASSOCIATION
Définition
Support = 2/5
X Y
Confiance = 2/3
Cours de Data Mining Dr MORIE