Académique Documents
Professionnel Documents
Culture Documents
Prediction
Association
Segmentation
• Assurance
– Prévoir les coûts des réclamations pour une meilleure
planification des activités
– Déterminer le taux optimal des plans
– Optimiser le marketing à des clients
– Identifier et prévenir les activités de réclamation
frauduleuses
Applications(4 sur 4)
M(1 sur 2)
• Proposé dans les années 1990 par un consortium
européen
• Composé de six consécutifs phases
– Étape 4: Modélisation
– Étape 5 :Test et évaluation
– Étape 6 : Déploiement
Processus de fouille de donnes :CRISP-D ISP-
M2 sur 2)
• Les six étapes CRISP DM Exploration de donnéesTraiter→
1 2
Business Data
Understanding Understanding
3
Data
Preparation
6
4
Deployment
Model
Data
Building
5
Testing and
Evaluation
Processus d'exploration de données : SEM
MA A
Sample
(Generate a representative
sample of the data)
Assess Explore
(Evaluate the accuracy and (Visualization and basic
usefulness of the models) description of the data)
Feedback
Model Modify
(Use variety of statistical and (Select variables, transform
machine learning models ) variable representations)
Processus d'exploration de données :KDD DD
Internalization
Data Mining
DEPLOYMENT CHART
Knowledge
“Actionable
PHASE 1 PHASE 2 PHASE 3 PHASE 4 PHASE 5
DEPT 1
DEPT 2
DEPT 3
Insight”
DEPT 4
3 4 5
Data 1 2
Transformation
Extracted
Patterns
Data
Cleaning Transformed
Data
Data
Selection Preprocessed
Data
Target
Data
Feedback
Sources for
Raw Data
Quel processus d'exploration de données
est le meilleur ?
Classement des méthodologies/processus d'exploration de
données.
CRISP-DM
My own
SEMMA
KDD Process
My organization's
Domain-specific methodology
None
0 10 20 30 40 50 60 70
Méthodes de fouille de données :
classification
• Précision prédictive
– taux
• Vitesse
– Création de modèles versus prédiction/vitesse
d'utilisation
• Robustesse
• Évolutivité
• Interprétabilité
– Transparence, explicabilité
Précision des modèles de classification
• Dans les problèmes de classification, la principale source
d'estimation de la précision est la matrice de confusion
TP + TN
Accuracy = True/Observed Class
TP + TN + FP + FN
Positive Negative
TP
True PositiveRate =
Positive
True False
TP + FN
Predicted Class
Positive Positive
Count (TP) Count (FP)
TN
True NegativeRate =
TN + FP
Negative
False True
TP TP Negative Negative
Precision = Recall = Count (FN) Count (TN)
TP + FP TP + FN
Méthodologies d'estimation pour
Classement : Simple/ Fractionnement
Simple
• Fractionnement simple (ou retenue ou estimation de
l'échantillon de test)
– Divisez les données en 2 ensembles mutuellement
exclusifs : formation (~70 %) et test (30 %)
Model
Training Data Development
2/3
Trained Prediction
Preprocessed Classifier Accuracy
Data
1/3 Model TP FP
Assessment
Testing Data (scoring) FN TN
• Laissez-un-dehors
– Semblable à k-Fold où k= nombre d'échantillons
• Amorçage
– Échantillonnage aléatoire avec remise
• Mise en portefeuille
– Semblable à laisser un de côté
• Zone sous le ROC Courbe (AUC)
– ROC: caractéristiques de fonctionnement du
récepteur (terme emprunté au traitement des images
radar)
Zone sous le ROC Courbe (AUC)(1 sur 2)
• Fonctionne avec la classification binaire
• Figure : Un échantillon de Courbe ROC
Zone sous le ROC Courbe (AU C)(2sur2) U
à 1,0 0.9
0.8
0.5
0.2
distributions de classe 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
• Méthodes d'analyse
– Méthodes statistiques (y compris hiérarchiques et non
hiérarchiques), telles que k-means, k-modes, etc.
– Réseaux de neurones (théorie de la résonance
adaptative [ART], carte auto-organisée )
– Logique floue (par exemple, algorithme flou c-means)
– Algorithmes Génétique
• Combien de clusters ?
Analyse de cluster pour le DM(4 sur 4)
1001234 1, 2, 3, 4 1 3 1, 2 3 1, 2, 4 3
1001235 2, 3, 4 2 6 1, 3 2 2, 3, 4 3
1001236 2, 3 3 4 1, 4 3
1001237 1, 2, 4 4 5 2, 3 4
1001238 1, 2, 3, 4 2, 4 5
1001239 2, 4 3, 4 3
Outils logiciels d'exploration de données
• Commercial R 1,419
Python 1,325
Hadoop 641
(anciennement Spark
Tableau
KNIME
536
521
624
Clémentine) SciKit-Learn
Java
Anaconda
497
487
462
Hive 359
– SA S Entreprise Miner
Mllib 337
Weka 315
Microsoft SQL Server 314
A
– Statistiques -
MATLAB 263
IBM SPSS Statistics 242
Dataiku 227
SAS base 225
– … beaucoup plus
Other programming and data languages 197
H2O 193
Scala 180
SAS Enterprise Miner 162
Microsoft Power BI 161
–
Apache Pig 132
Salford SPM/CART/RF/MARS/TreeNet
Rattle
121
103
100
[Blue] Hadoop/Big Data tools
Gnu Octave 89
– RapidMiner Orange
0
89
200 400 600 800 1000 1200 1400 1600
– Weka
– R, …
Tableau 4.6 Mythes Du DM
Mythe Réalité
L'exploration de données fournit instantanément, L'exploration de données est un processus en
comme une boule de cristal plusieurs étapes qui nécessite
prédictions. conception et utilisation délibérées et proactives.
L'exploration de données n'est pas encore viable L'état actuel de l'art est prêt à l'emploi pour
pour les applications commerciales courantes. presque tous les types et/ou tailles d'entreprises.
L'exploration de données nécessite une base de En raison des progrès de la technologie des bases
données distincte et dédiée. de données, une base de données dédiée n'est
pas nécessaire.
Seuls ceux qui ont des diplômes avancés peuvent De nouveaux outils Web permettent aux
faire de l'exploration de données. gestionnaires de tous
niveaux d'éducation pour faire de l'exploration de
données.
L'exploration de données n'est réservée qu'aux Si les données reflètent fidèlement l'entreprise ou
grandes entreprises qui ont beaucoup de ses
données client. clients, n'importe quelle entreprise peut utiliser
l'exploration de données.
Erreurs d'exploration de données