Académique Documents
Professionnel Documents
Culture Documents
Le processus de la science
de données
1
Data science: Processus
2
Data science: Processus
3
Data science: Processus
Comment éviter cet échec
4
Data science: Processus
5
Data science: Processus
Evaluation du
modèle
Visualisation
des résultats
Un Processus itératif
6
Data science: Processus
Evaluation du
modèle
Visualisation
des résultats
7
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
8
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Déterminer
Comprendre
Cartographier
9
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
10
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Déterminer
• Identifier les objectifs secondaires et
complémentaires du client
Comprendre • Lister les hypothèses, contraintes, et les facteurs
importants
• Comprendre les critères du succès
Cartographier • Spécifiques, mesurables, temporelles (délais)
• Étudier les solutions existantes
11
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
12
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
… … … 13
Data science: Processus - exemple
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
• Contraintes: éviter de cibler les clients qui sont proches de l’expiration de leur contrat
• Objectif en science de données: construire un classificateur binaire pour identifier les clients qui ne
sont pas susceptibles de renouveler leurs contrats avant trois mois de leurs expiration
• Scénario de succès: le modèle identifie 80% des clients qui envisagent de quitter, et la compagne
promotionnelle cible ces clients et convertit 19% en des clients fidèles.
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Identifier
Collecter
Évaluer
Vectoriser
15
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Identifier
• Accéder aux données utiles
• Tester et contrôler la qualité des données
Collecter • Formats des fichiers, délimiteurs
• Nombre d’enregistrements, colonnes
• Clés primaires
Évaluer
Vectoriser
17
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
18
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Collecter
Évaluer
Vectoriser
Sortie Entrées
Cible Caractéristiques (features)
Variables indépendantes Variables dépendantes
19
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Fuite d’informations
Identifier
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Agrégation de données
1. Nombre de transactions (fréquence)
2. Jours depuis la dernière transaction
Identifier 3. Jours depuis le première transaction
4. La moyenne des jours entre les transactions
5. # de transactions pendant les week-ends
Collecter 6. % de transactions pendant les week-ends
7. # de transactions pendant les parties du jour (petit
déjeuner, déjeuner, etc)
Évaluer 8. % de transactions pendant les parties du jour
(petit déjeuner, déjeuner, etc)
9. Jours depuis la dernière transaction/La moyenne
Vectoriser des jours entre les transactions
10. …
21
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Temps
passé
22
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
• Statistiques descriptive
• Examiner avec le chef métier
• Analyse de la corrélation
• Examiner avec le chef métier
• Prendre en considération le distribution De données
• Régler les valeurs manquante
• Retrancher les valeurs extrêmes
• Traiter les attributs catégoriques
• Transformations (log,carré, etc.)
• Réduire la redondance
• Créer des attributs additionnels
• Normalisation ( scaling )
24
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Uni-varié Multi-varié
• Catégoriques: fréquences tabulaires • Tabulation croisée
• Quantitatives: • Statistique uni-varié par catégorie
• Tendance centrale: moyenne, • Matrice de corrélation
médiane, mode
Non Graphique • Propagation: déviation standard,
le rang interquartile
• Asymétrie
25
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
26
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
27
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
28
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
29
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
30
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Examiner le modèle
• Area Under the ROC Curve (AUC), Confision Matrix, Precion, Recall, Log-loss
• Model lift, model gains, etc. 31
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
32
Data science: Processus
Apprentissage et Evaluation du modèle – exemple
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
33
Source: real-world machine learning, Manning
Data science: Processus
Apprentissage et Evaluation du modèle – exemple
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Le dilemme biais-variance
35
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
Le dilemme biais-variance
Overfitting
underfitting
Correcte
36
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
• AUC
• Les gains cumulatifs
• L’importance des prédicteurs (features)
• La relation entre chaque prédicteur et la cible
• Interpréter les résultats en considérant les spécifications métiers
37
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
38
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
• La production du modèle
• La documentation
• La reproductibilité ( docker container)
• La persistance du modèle
39
Data science: Processus
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
40
Data science: Mise en place de l’environnement de travail (1)
1. Télécharger Git pour windows: https://gitforwindows.org/
41
Data science: Mise en place de l’environnement de travail (1)
4. Cliquer sur « Next »
42
Data science: Mise en place de l’environnement de travail (1)
6. Garder « Use Windows' default console window » puis cliquer sur « Next »
43
Data science: Mise en place de l’environnement de travail (1)
7. cliquer sur « install»
8. Cliquer sur « finish »
1. Ouvrir https://www.anaconda.com/distribution/
3. Installer python 3 en utilisant l’installation par défaut SAUF que vous devez cocher
“Make Anaconda the default Python ("Register Anaconda as my default Python
3.x")”
45
Data science: Mise en place de l’environnement de travail (2)
Pour démarrer python, vous devez ouvrir « Anaconda Prompt » à partir du menu de
démarrage
46
Data science: Mise en place de l’environnement de travail (2)
Pour démarrer python, vous devez ouvrir « Anaconda Prompt » à partir du menu de
démarrage
1. Taper python
47