Vous êtes sur la page 1sur 46

Chapitre4

Analyse prédictive I :Fouille de


données,Traitement,Méthodes, et
Algorithmes
Objectifs (1 sur2)

4.1 Définir la fouille de données comme une technologie


habilitante pour le BI
4.2 Comprendre les objectifs et les avantages de
l'exploration de données
4.3 Se familiariser avec le large éventail d'applications de
fouille de données
4.4 Apprendre les processus standardisés de fouille de
données
4.5 Apprendre différentes méthodes et algorithmes de
fouille de données
Objectifs (2 sur 2)

4.6 Faire connaître les outils logiciels de fouille de


données existants
4.7 Comprendre les problèmes de confidentialité, les
pièges et les mythes de fouille de données.
Concepts de fouille de données et
Définitions :Pourquoi l’Exploration de
données ?
• Concurrence plus intense à l'échelle mondiale.
• Reconnaissance de la valeur des sources de données.
• Disponibilité de données de qualité sur les clients, les
fournisseurs, les transactions, le Web, etc..
• Consolidation et intégration des référentiels de données dans
les entrepôts de données.
• L'augmentation exponentielle des capacités de traitement et
de stockage des données ; et diminution des coûts.
• Mouvement vers la conversion des ressources d'information
en une forme non physique.
Définition de la fouille de données
)data Mining)
• Le processus non trivial d'identification de modèles
valides, nouveaux, potentiellement utiles et finalement
compréhensibles dans les données stockées dans des
fichiers structurés.bases de données.
–Fayyad et al., (1996)

• Mots-clés dans cette définition : processus, non trivial,


valide, nouveau, potentiellement utile, compréhensible.
• fouille de données : un abus de langage ?
• Autres noms : extraction de connaissances, analyse de
modèles, découverte de connaissances, collecte
d'informations, recherche de modèles, dragage de
données,…
DataMining est un mélange de plusieurs
disciplines
Caractéristiques et objectifs de la fouille de
données
• Source de données pour DM est souvent un entrepôt de
données consolidé (pas toujours !).
• DM environnement est généralement une architecture de
systèmes d'information client-serveur ou basée sur le
Web.
• Les données sont l'ingrédient le plus critique pour DM qui
peuvent inclure des données logicielles/non structurées.
• Le mineur est souvent un utilisateur final.
• Pour devenir riche, il faut une pensée créative.
• Les capacités et la facilité d'utilisation des outils de data
mining sont essentielles (Web, traitement parallèle, etc.).
Comment fonctionne la fouille de données

• DM extrait des modèles à partir de données


– Modèle? Une relation mathématique (numérique et/ou
symbolique) entre les éléments de données
• Types de modèles
– Association
– Prédiction
– Cluster (segmentation)
– Relations séquentielles (ou séries chronologiques)
Une taxonomie pour la fouilles de données
Data Mining Tasks & Methods Data Mining Algorithms Learning Type

Prediction

Decision Trees, Neural Networks, Support


Classification Supervised
Vector Machines, kNN, Naïve Bayes, GA

Linear/Nonlinear Regression, ANN,


Regression Supervised
Regression Trees, SVM, kNN, GA

Autoregressive Methods, Averaging


Time Series Supervised
Methods, Exponential Smoothing, ARIMA

Association

Market-basket Apriory, OneR, ZeroR, Eclat, GA Unsupervised

Expectation Maximization, Apriory


Link analysis Unsupervised
Algorithm, Graph-based Matching

Apriory Algorithm, FP-Growth, Graph-


Sequence analysis Unsupervised
based Matching

Segmentation

Clustering K-means, Expectation Maximization (EM) Unsupervised

Outlier analysis K-means, Expectation Maximization (EM) Unsupervised


Applications (1 sur 4)

• Gestion de la relation client


– Maximiser le retour sur les campagnes marketing
– Améliorer la fidélisation de la clientèle (analyse du
taux de désabonnement)
– Maximiser la valeur client (cross-, up-selling)
– Identifier et traiter les clients les plus précieux
• Services bancaires et autres Financier
– Automatisez la demande de prêt traiter
– Détecter les transactions frauduleuses
– Maximiser la valeur client (cross-, up-selling)
– Optimiser les réserves de trésorerie grâce aux
prévisions
Applications de fouille de données(2 sur4)
• Distribution et Logistique
– Optimiser les niveaux d'inventaire à différents endroits
– Améliorer l'agencement du magasin et les promotions
des ventes
– Optimiser la logistique en anticipant les effets saisonniers
– Minimiser les pertes dues à la durée de conservation
limitée
• Fabrication et entretien
– Prévoir/prévenir les machines des échecs
– Identifier les anomalies dans les systèmes de production
pour optimiser l'utilisation de la capacité de fabrication
– Découvrir de nouveaux modèles pour améliorer la qualité
des produits
Applications(3 sur 4)
• Courtage et négociation de titres
– Prédire les changements sur certaines obligations des prix
– Prévoir la direction des fluctuations des stocks
– Évaluer l'effet des événements sur les mouvements du marché
– Identifier et prévenir les activités frauduleuses dans le commerce

• Assurance
– Prévoir les coûts des réclamations pour une meilleure
planification des activités
– Déterminer le taux optimal des plans
– Optimiser le marketing à des clients
– Identifier et prévenir les activités de réclamation
frauduleuses
Applications(4 sur 4)

• Matériel informatique et logiciels


• Sciences et ingénierie
• Gouvernement et défense
• Sécurité intérieure et application de la loi
• Voyages, loisirs, sports
• Santé et médecine
• Sport,… pratiquement partout…
Processus de fouille de données
• Une manifestation des meilleures pratiques
• Une conduite systématique de projet DM
• Tout le monde a une version différente
• Processus standard les plus courants :
– CRISP-DM (Processus standard interprofessionnel pour
l'exploration de données)
– SEMMA (Échantillonner, Explorer, Modifier, Modéliser et
Évaluer)
– KDD (Découverte des connaissances dans les bases de
données)
Processus de fouille de donnes :CRISP-D ISP-

M(1 sur 2)
• Proposé dans les années 1990 par un consortium
européen
• Composé de six consécutifs phases

– Étape 1: Compréhension du contexte


– Étape 2:Compréhension des Représente
données ~85% du temps
total du projet
– Étape 3: Préparation de Données

– Étape 4: Modélisation
– Étape 5 :Test et évaluation
– Étape 6 : Déploiement
Processus de fouille de donnes :CRISP-D ISP-

M2 sur 2)
• Les six étapes CRISP DM Exploration de donnéesTraiter→

• Le processus est très répétitif et expérimental

1 2
Business Data
Understanding Understanding

3
Data
Preparation
6
4
Deployment
Model
Data
Building

5
Testing and
Evaluation
Processus d'exploration de données : SEM
MA A

• SEMMA Exploration de donnéesTraiter

• Développé par SAS Institut

Sample
(Generate a representative
sample of the data)

Assess Explore
(Evaluate the accuracy and (Visualization and basic
usefulness of the models) description of the data)

Feedback

Model Modify
(Use variety of statistical and (Select variables, transform
machine learning models ) variable representations)
Processus d'exploration de données :KDD DD

KDD (Découverte des connaissances dans les bases de données) Processus

Internalization

Data Mining
DEPLOYMENT CHART
Knowledge
“Actionable
PHASE 1 PHASE 2 PHASE 3 PHASE 4 PHASE 5

DEPT 1

DEPT 2

DEPT 3

Insight”
DEPT 4

3 4 5
Data 1 2
Transformation
Extracted
Patterns

Data
Cleaning Transformed
Data

Data
Selection Preprocessed
Data

Target
Data

Feedback

Sources for
Raw Data
Quel processus d'exploration de données
est le meilleur ?
Classement des méthodologies/processus d'exploration de
données.

CRISP-DM

My own

SEMMA

KDD Process

My organization's

Domain-specific methodology

None

Other methodology (not domain specific)

0 10 20 30 40 50 60 70
Méthodes de fouille de données :
classification

• Le plus fréquemment utilisé dans une méthode DM


• Une partie de la famille d'apprentissage automatique
(ML)
• Utiliser l'apprentissage supervisé
• Apprendre des données passées, classer les nouvelles
données
• La variable de sortie est de nature catégorielle (nominale
ou ordinale)
• Classification versus régression ?
• Classification versus clustering ?
Méthodes d'évaluation pour la
classification

• Précision prédictive
– taux
• Vitesse
– Création de modèles versus prédiction/vitesse
d'utilisation
• Robustesse
• Évolutivité
• Interprétabilité
– Transparence, explicabilité
Précision des modèles de classification
• Dans les problèmes de classification, la principale source
d'estimation de la précision est la matrice de confusion

TP + TN
Accuracy = True/Observed Class
TP + TN + FP + FN
Positive Negative
TP
True PositiveRate =

Positive
True False
TP + FN

Predicted Class
Positive Positive
Count (TP) Count (FP)
TN
True NegativeRate =
TN + FP

Negative
False True
TP TP Negative Negative
Precision = Recall = Count (FN) Count (TN)
TP + FP TP + FN
Méthodologies d'estimation pour
Classement : Simple/ Fractionnement
Simple
• Fractionnement simple (ou retenue ou estimation de
l'échantillon de test)
– Divisez les données en 2 ensembles mutuellement
exclusifs : formation (~70 %) et test (30 %)
Model
Training Data Development
2/3

Trained Prediction
Preprocessed Classifier Accuracy
Data
1/3 Model TP FP
Assessment
Testing Data (scoring) FN TN

– Pour les réseaux de neurones, les données sont


divisées en trois sous-ensembles (formation [~60 %],
validation [~20 %], test [~20%])
Méthodologies d'estimation pour la
classification: k-FoldValidation croisée
(estimation par rotation)
• Les données sont divisées enk sous-ensembles mutuels
et k nombre d'expériences de formation/test sont menée

Une représentation graphique de k-Fold Validation croisée


Méthodologies d'estimation
supplémentaires pour la classification

• Laissez-un-dehors
– Semblable à k-Fold où k= nombre d'échantillons
• Amorçage
– Échantillonnage aléatoire avec remise
• Mise en portefeuille
– Semblable à laisser un de côté
• Zone sous le ROC Courbe (AUC)
– ROC: caractéristiques de fonctionnement du
récepteur (terme emprunté au traitement des images
radar)
Zone sous le ROC Courbe (AUC)(1 sur 2)
• Fonctionne avec la classification binaire
• Figure : Un échantillon de Courbe ROC
Zone sous le ROC Courbe (AU C)(2sur2) U

• Produit des valeurs de 0 1

à 1,0 0.9

0.8

• La chance aléatoire est 0.7


A

de 0,5 et la classification 0.6

0.5

parfaite est de 1,0 0.4


Area Under the
ROC Curve
(AUC) A = 0.84

• Produit une bonne


0.3

0.2

évaluation pour les 0.1

distributions de classe 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

False Alarms (1 - Specificity)


asymétriques aussi !
Techniques de classification

• Analyse par arbre de décision


• analyses statistiques
• Les réseaux de neurones
• machines vectorielles (SVM)
• Raisonnement par cas
• Classificateurs bayésiens
• Algorithmes génétiques
• Ensembles bruts
Arbres de Décision (1 sur 2)
• Utilise une méthode de division pour mieux régner
• Divise récursivement un ensemble d'apprentissage jusqu'à ce que
chaque division se compose d'exemples d'une classe:
1. Créez un nœud racine et attribuez-lui toutes
les données d'entraînement.

Un 2. Sélectionnez le meilleur attribut de


algorithme fractionnement.
général
3. Ajoutez une branche au nœud racine pour
(étapes)
chaque valeur du fractionnement. Divisez les
pour
données en sous-ensembles mutuellement
construire
exclusifs selon les lignes de la division
un arbre de
spécifique.
décision
4. Répétez les étapes 2 et 3 pour chaque nœud
feuille jusqu'à ce que le critère d'arrêt soit
atteint.
Arbres de Décision (2 sur 2)

• DT algorithmes diffèrent principalement sur


1. Critères de Scission
▪ Quelle variable, quelle valeur, etc.
2. Critères d’ Arrêt
▪ Quand arrêter de construire l’arbre
3.Taille( méthode de généralisation)
▪ Pré-taille contre post-taille
• Le plus populaireré DT algorithmes incluent
– ID3,C4.5,C5;CART;CHAID;M5
Modèles d'ensemble pour l'analyse
prédictive
• Produit une prédiction plus robuste et fiabledes modèles
• Figure: Illustration graphique d'un ensemble hétérogène
Analyse de cluster pour DM(1 sur 4)

• Utilisé pour l'identification automatique des groupements


naturels de choses
• Une partie de la famille Machine Learning
• Utilise l'apprentissage non supervisé
• Apprend les groupes de cluster à partir des données
passées, puis attribue de nouvelles instances
• Il n'y a pas de variable de sortie/cible
• En marketing, on parle aussi de segmentation
Analyse de cluster pour le DM(2 sur 4)

• Les résultats du regroupement peuvent être utilisés pour


– Identifier les regroupements naturels de clients
– Identifier les règles d'attribution des nouveaux cas
aux classes à des fins de ciblage/diagnostic
– Fournir la caractérisation, la définition, l'étiquetage
des populations
– Diminuer la taille et la complexité des problèmes pour
d'autres méthodes data mining
– Identifier les valeurs aberrantes dans un domaine
spécifique (par exemple, détection d'événements
rares)
Analyse de cluster pour DM(3 sur 4)

• Méthodes d'analyse
– Méthodes statistiques (y compris hiérarchiques et non
hiérarchiques), telles que k-means, k-modes, etc.
– Réseaux de neurones (théorie de la résonance
adaptative [ART], carte auto-organisée )
– Logique floue (par exemple, algorithme flou c-means)
– Algorithmes Génétique
• Combien de clusters ?
Analyse de cluster pour le DM(4 sur 4)

• Algorithme de clustering k-means


– k : nombre prédéterminé de clusters
– Algorithme (Étape 0 :déterminer la valeur de k)
Étape 1: Générer au hazard k points aléatoires comme
centres de cluster initiaux.
Étape 2: Attribuez chaque point au centre de cluster le
plus proche.
Étape 3: Recalculer les nouveaux centres de cluster.
Étape de répétition : Répétez les étapes 3 et 4 jusqu'à
ce qu'un certain critère de convergence soit satisfait
(généralement que l'attribution des points aux clusters
devienne stable).
Analyse de cluster pour DM : Algorithme
K-Means

• Figure Un graphique d’llustration des étapes de l’ Algorithme k-


Means

Step 1 Step 2 Step 3


Règle d'association : DM(1 sur 6)
• Une méthode très Populaire en entreprise
• Trouve des relations intéressantes (affinités) entre des
variables (items ou événements)
• Fait partie de la famille de l'apprentissage automatique
• Utilise un apprentissage non supervisé
• Il n'y a pas de variable de sortie
• Aussi connu sous le nom analyse du panier de
consommation
• Souvent utilisé comme exemple pour décrire DM aux gens
ordinaires,
Règle d'association(2 sur 6)
• Contribution: les simples données de transaction en point de
vente
• Sortir: Les affinités les plus fréquentes entre éléments
• Exemple: selon les données de transaction…
"Le client qui a acheté un ordinateur portable et un logiciel de
protection antivirus, a également acheté un plan de service
étendu 70 % du temps.”
• Comment utilisez-vous un tel modèle/connaissance ?
– Mettez les éléments les uns à côté des autres
– Promouvoir les articles en tant que “package”
– Placez les objets éloignés les uns des autres !
Règle d'association(3 sur 6)

• Une application représentative de l'extraction de règles


d'association comprend
– Dans les affaires: marketing croisé, vente croisée,
conception de magasins, conception de catalogues,
conception de sites de commerce électronique,
optimisation de la publicité en ligne, tarification des
produits et configuration des ventes/promotions
– En médecine: relations entre symptômes et maladies;
diagnostic et caractéristiques et traitements du patient
(à utiliser en médecine DSS); et les gènes et leurs
fonctions (à utiliser dans les projets de génomique)
–…
Règle d'association(4 sur 6)

• Toutes les règles d'association sont-elles intéressantes


et utiles?
Une règle générique: X  Y [S%, C% ]
X, Y :produits et/ou prestations de service
X:Côté gauche (LHS)
Y :Côté droite (RHS)
S : Prise en charge :combien de fois X et Y vont ensemble
C : Confiance :combien de fois Y va de pair avec le X

Exemple:{Ordinateur portable, logiciel antivirus} 


{Plan de service étendu} [30 %, 70%]
Règle d'association(5 sur 6)

• Plusieurs algorithmes sont développés pour découvrir


(identifier) ​des règles d'association
– A priori
– Éclat
– FP-Croissance
– + Dérivés et hybrides des trois
• Les algorithmes aident à identifier les ensembles
d'éléments fréquents, qui sont ensuite converties en
règles d'association
Règle d'association(6 sur 6)
• Algorithme a priori
– Recherche des sous-ensembles communs à au
moins un nombre minimum d'éléments
– Utilise une approche ascendante
▪ les sous-ensembles fréquents sont étendus un
élément à la fois (la taille des sous-ensembles
fréquents passe de sous-ensembles à un élément
à des sous-ensembles à deux éléments, puis à
des sous-ensembles à trois éléments, etc.),et
▪ des groupes de candidats à chaque niveau sont
testés par rapport aux données pour un minimum
Support
(voir la figure) →--
Règle d'association : Algorithme a priori
• Figure: Une illustration graphique des étapes de la k-Means Algorithme

Raw Transaction Data One-item Itemsets Two-item Itemsets Three-item Itemsets

Transaction SKUs Itemset Itemset Itemset


Support Support Support
No (Item No) (SKUs) (SKUs) (SKUs)

1001234 1, 2, 3, 4 1 3 1, 2 3 1, 2, 4 3
1001235 2, 3, 4 2 6 1, 3 2 2, 3, 4 3
1001236 2, 3 3 4 1, 4 3
1001237 1, 2, 4 4 5 2, 3 4
1001238 1, 2, 3, 4 2, 4 5
1001239 2, 4 3, 4 3
Outils logiciels d'exploration de données
• Commercial R 1,419
Python 1,325

– IBM SPSS Modeler SQL


Excel
RapidMiner
972
944
1,029

Hadoop 641

(anciennement Spark
Tableau
KNIME
536
521
624

Clémentine) SciKit-Learn
Java
Anaconda
497
487
462
Hive 359

– SA S Entreprise Miner
Mllib 337
Weka 315
Microsoft SQL Server 314
A

Unix shell/awk/gawk 301

– Statistiques -
MATLAB 263
IBM SPSS Statistics 242
Dataiku 227
SAS base 225

Dell/Statsoft IBM SPSS Modeler


SQL on Hadoop tools
C/C++
222
211
210
Other free analytics/data mining tools 198

– … beaucoup plus
Other programming and data languages 197
H2O 193
Scala 180
SAS Enterprise Miner 162
Microsoft Power BI 161

• Gratuit et/ou Open Source


Hbase 158
QlikView 153 Legend:
Microsoft Azure Machine Learning 147 [Orange] Free/Open Source tools
Other Hadoop/HDFS-based tools 141
[Green] Commercial tools


Apache Pig 132

KNIME IBM Watson

Salford SPM/CART/RF/MARS/TreeNet
Rattle
121
103
100
[Blue] Hadoop/Big Data tools

Gnu Octave 89

– RapidMiner Orange
0
89
200 400 600 800 1000 1200 1400 1600

– Weka
– R, …
Tableau 4.6 Mythes Du DM

Mythe Réalité
L'exploration de données fournit instantanément, L'exploration de données est un processus en
comme une boule de cristal plusieurs étapes qui nécessite
prédictions. conception et utilisation délibérées et proactives.
L'exploration de données n'est pas encore viable L'état actuel de l'art est prêt à l'emploi pour
pour les applications commerciales courantes. presque tous les types et/ou tailles d'entreprises.

L'exploration de données nécessite une base de En raison des progrès de la technologie des bases
données distincte et dédiée. de données, une base de données dédiée n'est
pas nécessaire.
Seuls ceux qui ont des diplômes avancés peuvent De nouveaux outils Web permettent aux
faire de l'exploration de données. gestionnaires de tous
niveaux d'éducation pour faire de l'exploration de
données.
L'exploration de données n'est réservée qu'aux Si les données reflètent fidèlement l'entreprise ou
grandes entreprises qui ont beaucoup de ses
données client. clients, n'importe quelle entreprise peut utiliser
l'exploration de données.
Erreurs d'exploration de données

1. Choisir le mauvais problème pour l'exploration de


données
2. Ignorer ce que votre sponsor pense qu'est l'exploration
de données et ce qu'il peut/ne peut pas faire
3. Commencer sans penser à la fin
4. Ne pas laisser suffisamment de temps pour l'acquisition,
la sélection et la préparation des données
5. En regardant uniquement les résultats agrégés et non
les enregistrements/prédictions individuels

Vous aimerez peut-être aussi