Vous êtes sur la page 1sur 47

Fouille et Visualisation des Big Data

Le processus de la science
de données

1
Data science: Processus

2
Data science: Processus

3
Data science: Processus
Comment éviter cet échec

Construire avec ralliement de l’entreprise

Construire avec un objectif planifié

Construire avec une approche structurée

4
Data science: Processus

5
Data science: Processus

Spécifications Transformation Déploiement du


Métiers de données modèle

Préparation des Apprentissage Le suivie du


données du modèle modèle

Evaluation du
modèle

Visualisation
des résultats

Un Processus itératif
6
Data science: Processus

Métier Statistiques Informatique

Compréhension Transformation Déploiement du


du Métier de données modèle

Préparation des Apprentissage Le suivie du


données du modèle modèle

Evaluation du
modèle

Visualisation
des résultats

7
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

8
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Déterminer

Comprendre

Cartographier

9
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Quel est l’objectif final du client ?


Déterminer
• Objectifs primaires
Comprendre • Éviter les fraudes
• Recommander des produits
• Planifier les futures dépenses médiatiques
Cartographier • Mesurer la satisfaction des clients
• Personnaliser le ciblage

10
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Déterminer
• Identifier les objectifs secondaires et
complémentaires du client
Comprendre • Lister les hypothèses, contraintes, et les facteurs
importants
• Comprendre les critères du succès
Cartographier • Spécifiques, mesurables, temporelles (délais)
• Étudier les solutions existantes

11
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Objectif Métier Objectif Technique


Déterminer

Comprendre • Formuler les objectifs du projet en terme


d’objectifs techniques
• Décrire comment le projet en question
Cartographier
contribuera à la résolution du problème
métier
• Explorer des scénarios de succès

12
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Objectif Technique Exemples

Déterminer Prédire une valeur Régression -Régression linéaire


- Régression bayésienne
- arbres de décision

Prédire une catégorie Classification -Régression logistique


Comprendre - SVM
- Arbres de décision

Prédire une préférence Système de -Filtrage collaboratif


- content-based RS
recommandation - démographique RS
Cartographier
Découvrir des groupes Clustering -K-means
-Clustering hiérarchique
(regroupement)
Découvrir des points non Détection -K-NN
- SVM (one class)
usuels d’anomalie

… … … 13
Data science: Processus - exemple

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• Objectif primaire: éviter le départ augmenter le taux de réinscription

• Objectif complémentaire: les principaux clients sont également ciblés

• Contraintes: éviter de cibler les clients qui sont proches de l’expiration de leur contrat

• Critères de succès: le taux de renouvellement actuel = 65% améliorer de 8%

• Solution existante: Business-rule-based targeting

• Objectif en science de données: construire un classificateur binaire pour identifier les clients qui ne
sont pas susceptibles de renouveler leurs contrats avant trois mois de leurs expiration

• Scénario de succès: le modèle identifie 80% des clients qui envisagent de quitter, et la compagne
promotionnelle cible ces clients et convertit 19% en des clients fidèles.
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Identifier

Collecter

Évaluer

Vectoriser

15
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• Sources de données, formats


Identifier
• Base de données, Streaming API, Logs, fichiers excel,
sites web

Collecter • Diagramme: entité-relation


• Identifier d’autres sources de données
• Données démographiques
Évaluer • Données géographiques
• Données de recensement, etc

Vectoriser • Identifier les données utiles


• Enregistrer les données non disponibles
16
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Identifier
• Accéder aux données utiles
• Tester et contrôler la qualité des données
Collecter • Formats des fichiers, délimiteurs
• Nombre d’enregistrements, colonnes
• Clés primaires
Évaluer

Vectoriser

17
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Vue d’ensemble des données


Identifier
• Se familiariser avec les données
• Etudier la saisonnalité
• Modèle ( mois/semaines/jours)
Collecter
• Lacunes inexpliquées ou des pics dans les
données
• Détecter les erreurs
Évaluer • Valeurs extrêmes
• Valeurs non usuelles
• Valeurs manquantes
Vectoriser • Vérifier les hypothèses
• Examiner les distributions

18
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Objectif: Créer un dataset d’analyse


Identifier

Collecter

Évaluer

Vectoriser

Sortie Entrées
Cible Caractéristiques (features)
Variables indépendantes Variables dépendantes
19
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Fuite d’informations

Identifier

Collecter Utiliser toutes les informations Pour prédire si le client va


disponibles ( les principaux indicateurs) [faire quelque chose]
jusqu’à la fin du mois de Janvier

Évaluer Fenêtre d’observation Fenêtre de prédiction

• Les indicateurs principaux doivent être calculés à partir de la plage de


Vectoriser temps menant à l’évènement
• Elle ne doit pas chevaucher avec la fenêtre de prédiction
• Il faut se méfier des événements proxy (e.g. réservation future)
20
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Agrégation de données
1. Nombre de transactions (fréquence)
2. Jours depuis la dernière transaction
Identifier 3. Jours depuis le première transaction
4. La moyenne des jours entre les transactions
5. # de transactions pendant les week-ends
Collecter 6. % de transactions pendant les week-ends
7. # de transactions pendant les parties du jour (petit
déjeuner, déjeuner, etc)
Évaluer 8. % de transactions pendant les parties du jour
(petit déjeuner, déjeuner, etc)
9. Jours depuis la dernière transaction/La moyenne
Vectoriser des jours entre les transactions
10. …

21
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Temps
passé

Transformation des Construction


données du modèle

22
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

« donnez-moi six heures pour abattre un


arbre et je vais passer les quatre premières
à affûter la hache » -Abraham Lincoln 23
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• Statistiques descriptive
• Examiner avec le chef métier
• Analyse de la corrélation
• Examiner avec le chef métier
• Prendre en considération le distribution De données
• Régler les valeurs manquante
• Retrancher les valeurs extrêmes
• Traiter les attributs catégoriques
• Transformations (log,carré, etc.)
• Réduire la redondance
• Créer des attributs additionnels
• Normalisation ( scaling )
24
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Uni-varié Multi-varié
• Catégoriques: fréquences tabulaires • Tabulation croisée
• Quantitatives: • Statistique uni-varié par catégorie
• Tendance centrale: moyenne, • Matrice de corrélation
médiane, mode
Non Graphique • Propagation: déviation standard,
le rang interquartile
• Asymétrie

• Histogrammes • Diagramme uni-varié par catégorie


• Diagramme en boxes, diagramme • Diagramme de dispersion
branche et feuille • Diagramme de la matrice de corrélation
• Diagramme normal-quantile
Graphique

25
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• La réduction des caractéristiques (features reduction): c’est un processus qui


consiste à choisir un sous ensemble de caractéristiques pour la construction du
modèle
• Utile pour les approches supervisées et non supervisées

26
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• La réduction des caractéristiques: Pourquoi


• La dimensionnalité vraie < < < la dimensionnalité observée
- l’abandance des caractéristiques redondantes et inutiles
• La malédiction de la dimensionnalité
- Avec un nombre fixe d’exemples d’apprentissage, la prédiction diminue avec
l’augmentation de la dimensionnalité
- Avec d variables binaires, le nombre de combinaisons possible est O(2d )
• Valeur de l’analyse
• La loi de parcimonie [rasoir d'Occam]
- Les hypothèses suffisantes les plus simples doivent être préférées
• Le sur apprentissage
• La temps d’exécution (algorithme et données)

27
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• La réduction des caractéristiques: Techniques


• Pourcentage de valeurs manquantes
• Le taux de variation
• La corrélation par paire
• La multi-colonnarité
• Analyse des composantes principales (PCA)
• sélection en avant (forward selection)
• sélection en arrière (backward selection)
• Sélection par étapes
• LASSO
• La sélection basée sur les arbres

28
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

La réduction des caractéristiques

Tout ce que tu peux manger Manger d’une façon saine

29
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• Essayer plusieurs techniques d’apprentissage


• Affiner les paramètres
• Évaluer la performance du modèle
• Éviter le sur-apprentissage (over-fitting)

30
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Examiner le modèle

• Area Under the ROC Curve (AUC), Confision Matrix, Precion, Recall, Log-loss
• Model lift, model gains, etc. 31
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Choisir le modèle et examiner la performance


• Hold-out validation
• Tri-fold partitionning, k-fold cross-validation
• Valeur de l’analyse
• La loi de parcimonie [rasoir d'Occam]
• Le temps d’exécution
• La complexité de déploiement
• Comparer avec les modèles existants
• Le contrôle de la qualité

32
Data science: Processus
Apprentissage et Evaluation du modèle – exemple

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

33
Source: real-world machine learning, Manning
Data science: Processus
Apprentissage et Evaluation du modèle – exemple

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Source: real-world machine learning, Manning 34


Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Le dilemme biais-variance

• Le biais est la différence entre la prédiction attendu par le


modèle et les valeurs correctes que nous voulons prédire
• La variance traduit le degré de propagation des données

35
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Le dilemme biais-variance

Une bonne balance

Overfitting
underfitting

Correcte
36
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Visualisation des résultats de modélisation

• AUC
• Les gains cumulatifs
• L’importance des prédicteurs (features)
• La relation entre chaque prédicteur et la cible
• Interpréter les résultats en considérant les spécifications métiers

37
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

Visualisation des résultats de modélisation

38
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• La production du modèle
• La documentation
• La reproductibilité ( docker container)
• La persistance du modèle

39
Data science: Processus

Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier

• Le plan à suivre pour le suivie


• Le plan de la maintenance du modèle
• Le contrôle de versions
• …

40
Data science: Mise en place de l’environnement de travail (1)
1. Télécharger Git pour windows: https://gitforwindows.org/

2. Démarrer l’installation en suivant les étapes ci-dessous:


1. Cliquer sur « Next »
2. Cliquer su « Next »
3. Garder « Use Git from the Windows Command Prompt » et cliquer sur « Next »

41
Data science: Mise en place de l’environnement de travail (1)
4. Cliquer sur « Next »

5. Garder « Checkout Windows-style, commit Unix-style line endings »


cliquer sur « Next »

42
Data science: Mise en place de l’environnement de travail (1)
6. Garder « Use Windows' default console window » puis cliquer sur « Next »

43
Data science: Mise en place de l’environnement de travail (1)
7. cliquer sur « install»
8. Cliquer sur « finish »

3. Si votre variable d’environnement HOME n’est pas spécifier


1. ouvrir l’invité de commande
2. taper la ligne ci-dessous:
setx HOME "%USERPROFILE%"
3. cliquer sur [entrer] et vous devez voir : SUCCESS: Specified value was saved.

4. quitter l’invité de commande en écrivant exit puis [entrer] 44


Data science: Mise en place de l’environnement de travail (2)

1. Ouvrir https://www.anaconda.com/distribution/

2. Télécharger Python 3 pour windows

3. Installer python 3 en utilisant l’installation par défaut SAUF que vous devez cocher
“Make Anaconda the default Python ("Register Anaconda as my default Python
3.x")”

45
Data science: Mise en place de l’environnement de travail (2)

Pour démarrer python, vous devez ouvrir « Anaconda Prompt » à partir du menu de
démarrage

46
Data science: Mise en place de l’environnement de travail (2)
Pour démarrer python, vous devez ouvrir « Anaconda Prompt » à partir du menu de
démarrage

1. Taper python

1. Pour démarrer jupyter, taper “jupyter notebook”

47

Vous aimerez peut-être aussi