Fouille Des Big Data Et Visualisation - Week 2

Fouille et Visualisation des Big Data
Le processus de la science
de données
1
Data science: Processus
2
3
Comment éviter cet échec
Construire avec ralliement de l’entreprise
Construire avec un objectif planifié
Construire avec une approche structurée
4
5
Spécifications Transformation Déploiement du

Métiers de données modèle
Préparation des Apprentissage Le suivie du

données du modèle modèle
Evaluation du
modèle
Visualisation
des résultats
Un Processus itératif
6
Métier Statistiques Informatique
Compréhension Transformation Déploiement du

du Métier de données modèle
Préparation des Apprentissage Le suivie du

données du modèle modèle
Evaluation du
modèle
Visualisation
des résultats
7
Compréhension du
Préparation des données Transformation des données Apprentissage du modèle Evaluation du modèle Déploiement du modèle Suivie du modèle
Métier
8
Compréhension du
Métier
Déterminer
Comprendre
Cartographier
9
Compréhension du
Métier
Quel est l’objectif final du client ?

Déterminer
• Objectifs primaires
Comprendre • Éviter les fraudes
• Recommander des produits
• Planifier les futures dépenses médiatiques
Cartographier • Mesurer la satisfaction des clients
• Personnaliser le ciblage
10
Compréhension du
Métier
Déterminer
• Identifier les objectifs secondaires et
complémentaires du client
Comprendre • Lister les hypothèses, contraintes, et les facteurs
importants
• Comprendre les critères du succès
Cartographier • Spécifiques, mesurables, temporelles (délais)
• Étudier les solutions existantes
11
Compréhension du
Métier
Objectif Métier Objectif Technique

Déterminer
Comprendre • Formuler les objectifs du projet en terme

d’objectifs techniques
• Décrire comment le projet en question
Cartographier
contribuera à la résolution du problème
métier
• Explorer des scénarios de succès
12
Compréhension du
Métier
Objectif Technique Exemples
Déterminer Prédire une valeur Régression -Régression linéaire

- Régression bayésienne
- arbres de décision
Prédire une catégorie Classification -Régression logistique

Comprendre - SVM
- Arbres de décision
Prédire une préférence Système de -Filtrage collaboratif

- content-based RS
recommandation - démographique RS
Cartographier
Découvrir des groupes Clustering -K-means
-Clustering hiérarchique
(regroupement)
Découvrir des points non Détection -K-NN
- SVM (one class)
usuels d’anomalie
… … … 13
Data science: Processus - exemple
Compréhension du
Métier
• Objectif primaire: éviter le départ augmenter le taux de réinscription
• Objectif complémentaire: les principaux clients sont également ciblés
• Contraintes: éviter de cibler les clients qui sont proches de l’expiration de leur contrat
• Critères de succès: le taux de renouvellement actuel = 65% améliorer de 8%
• Solution existante: Business-rule-based targeting
• Objectif en science de données: construire un classificateur binaire pour identifier les clients qui ne
sont pas susceptibles de renouveler leurs contrats avant trois mois de leurs expiration
• Scénario de succès: le modèle identifie 80% des clients qui envisagent de quitter, et la compagne
promotionnelle cible ces clients et convertit 19% en des clients fidèles.
Compréhension du
Métier
Identifier
Collecter
Évaluer
Vectoriser
15
Compréhension du
Métier
• Sources de données, formats

Identifier
• Base de données, Streaming API, Logs, fichiers excel,
sites web
Collecter • Diagramme: entité-relation

• Identifier d’autres sources de données
• Données démographiques
Évaluer • Données géographiques
• Données de recensement, etc
Vectoriser • Identifier les données utiles

• Enregistrer les données non disponibles
16
Compréhension du
Métier
Identifier
• Accéder aux données utiles
• Tester et contrôler la qualité des données
Collecter • Formats des fichiers, délimiteurs
• Nombre d’enregistrements, colonnes
• Clés primaires
Évaluer
Vectoriser
17
Compréhension du
Métier
Vue d’ensemble des données

Identifier
• Se familiariser avec les données
• Etudier la saisonnalité
• Modèle ( mois/semaines/jours)
Collecter
• Lacunes inexpliquées ou des pics dans les
données
• Détecter les erreurs
Évaluer • Valeurs extrêmes
• Valeurs non usuelles
• Valeurs manquantes
Vectoriser • Vérifier les hypothèses
• Examiner les distributions
18
Compréhension du
Métier
Objectif: Créer un dataset d’analyse

Identifier
Collecter
Évaluer
Vectoriser
Sortie Entrées
Cible Caractéristiques (features)
Variables indépendantes Variables dépendantes
19
Compréhension du
Métier
Fuite d’informations
Identifier
Collecter Utiliser toutes les informations Pour prédire si le client va

disponibles ( les principaux indicateurs) [faire quelque chose]
jusqu’à la fin du mois de Janvier
Évaluer Fenêtre d’observation Fenêtre de prédiction
• Les indicateurs principaux doivent être calculés à partir de la plage de

Vectoriser temps menant à l’évènement
• Elle ne doit pas chevaucher avec la fenêtre de prédiction
• Il faut se méfier des événements proxy (e.g. réservation future)
20
Compréhension du
Métier
Agrégation de données
1. Nombre de transactions (fréquence)
2. Jours depuis la dernière transaction
Identifier 3. Jours depuis le première transaction
4. La moyenne des jours entre les transactions
5. # de transactions pendant les week-ends
Collecter 6. % de transactions pendant les week-ends
7. # de transactions pendant les parties du jour (petit
déjeuner, déjeuner, etc)
Évaluer 8. % de transactions pendant les parties du jour
(petit déjeuner, déjeuner, etc)
9. Jours depuis la dernière transaction/La moyenne
Vectoriser des jours entre les transactions
10. …
21
Compréhension du
Métier
Temps
passé
Transformation des Construction

données du modèle
22
Compréhension du
Métier
« donnez-moi six heures pour abattre un

arbre et je vais passer les quatre premières
à affûter la hache » -Abraham Lincoln 23
Compréhension du
Métier
• Statistiques descriptive
• Examiner avec le chef métier
• Analyse de la corrélation
• Examiner avec le chef métier
• Prendre en considération le distribution De données
• Régler les valeurs manquante
• Retrancher les valeurs extrêmes
• Traiter les attributs catégoriques
• Transformations (log,carré, etc.)
• Réduire la redondance
• Créer des attributs additionnels
• Normalisation ( scaling )
24
Compréhension du
Métier
Uni-varié Multi-varié
• Catégoriques: fréquences tabulaires • Tabulation croisée
• Quantitatives: • Statistique uni-varié par catégorie
• Tendance centrale: moyenne, • Matrice de corrélation
médiane, mode
Non Graphique • Propagation: déviation standard,
le rang interquartile
• Asymétrie
• Histogrammes • Diagramme uni-varié par catégorie

• Diagramme en boxes, diagramme • Diagramme de dispersion
branche et feuille • Diagramme de la matrice de corrélation
• Diagramme normal-quantile
Graphique
25
Compréhension du
Métier
• La réduction des caractéristiques (features reduction): c’est un processus qui

consiste à choisir un sous ensemble de caractéristiques pour la construction du
modèle
• Utile pour les approches supervisées et non supervisées
26
Compréhension du
Métier
• La réduction des caractéristiques: Pourquoi

• La dimensionnalité vraie < < < la dimensionnalité observée
- l’abandance des caractéristiques redondantes et inutiles
• La malédiction de la dimensionnalité
- Avec un nombre fixe d’exemples d’apprentissage, la prédiction diminue avec
l’augmentation de la dimensionnalité
- Avec d variables binaires, le nombre de combinaisons possible est O(2d )
• Valeur de l’analyse
• La loi de parcimonie [rasoir d'Occam]
- Les hypothèses suffisantes les plus simples doivent être préférées
• Le sur apprentissage
• La temps d’exécution (algorithme et données)
27
Compréhension du
Métier
• La réduction des caractéristiques: Techniques

• Pourcentage de valeurs manquantes
• Le taux de variation
• La corrélation par paire
• La multi-colonnarité
• Analyse des composantes principales (PCA)
• sélection en avant (forward selection)
• sélection en arrière (backward selection)
• Sélection par étapes
• LASSO
• La sélection basée sur les arbres
28
Compréhension du
Métier
La réduction des caractéristiques
Tout ce que tu peux manger Manger d’une façon saine
29
Compréhension du
Métier
• Essayer plusieurs techniques d’apprentissage

• Affiner les paramètres
• Évaluer la performance du modèle
• Éviter le sur-apprentissage (over-fitting)
30
Compréhension du
Métier
Examiner le modèle
• Area Under the ROC Curve (AUC), Confision Matrix, Precion, Recall, Log-loss
• Model lift, model gains, etc. 31
Compréhension du
Métier
Choisir le modèle et examiner la performance

• Hold-out validation
• Tri-fold partitionning, k-fold cross-validation
• Valeur de l’analyse
• La loi de parcimonie [rasoir d'Occam]
• Le temps d’exécution
• La complexité de déploiement
• Comparer avec les modèles existants
• Le contrôle de la qualité
32
Apprentissage et Evaluation du modèle – exemple
Compréhension du
Métier
33
Source: real-world machine learning, Manning
Apprentissage et Evaluation du modèle – exemple
Compréhension du
Métier
Source: real-world machine learning, Manning 34

Compréhension du
Métier
Le dilemme biais-variance
• Le biais est la différence entre la prédiction attendu par le

modèle et les valeurs correctes que nous voulons prédire
• La variance traduit le degré de propagation des données
35
Compréhension du
Métier
Le dilemme biais-variance
Une bonne balance
Overfitting
underfitting
Correcte
36
Compréhension du
Métier
Visualisation des résultats de modélisation
• AUC
• Les gains cumulatifs
• L’importance des prédicteurs (features)
• La relation entre chaque prédicteur et la cible
• Interpréter les résultats en considérant les spécifications métiers
37
Compréhension du
Métier
Visualisation des résultats de modélisation
38
Compréhension du
Métier
• La production du modèle
• La documentation
• La reproductibilité ( docker container)
• La persistance du modèle
39
Compréhension du
Métier
• Le plan à suivre pour le suivie

• Le plan de la maintenance du modèle
• Le contrôle de versions
• …
40
Data science: Mise en place de l’environnement de travail (1)
1. Télécharger Git pour windows: https://gitforwindows.org/
2. Démarrer l’installation en suivant les étapes ci-dessous:

1. Cliquer sur « Next »
2. Cliquer su « Next »
3. Garder « Use Git from the Windows Command Prompt » et cliquer sur « Next »
41
4. Cliquer sur « Next »
5. Garder « Checkout Windows-style, commit Unix-style line endings »

cliquer sur « Next »
42
6. Garder « Use Windows' default console window » puis cliquer sur « Next »
43
7. cliquer sur « install»
8. Cliquer sur « finish »
3. Si votre variable d’environnement HOME n’est pas spécifier

1. ouvrir l’invité de commande
2. taper la ligne ci-dessous:
setx HOME "%USERPROFILE%"
3. cliquer sur [entrer] et vous devez voir : SUCCESS: Specified value was saved.
4. quitter l’invité de commande en écrivant exit puis [entrer] 44

1. Ouvrir https://www.anaconda.com/distribution/
2. Télécharger Python 3 pour windows
3. Installer python 3 en utilisant l’installation par défaut SAUF que vous devez cocher
“Make Anaconda the default Python ("Register Anaconda as my default Python
3.x")”
45
Pour démarrer python, vous devez ouvrir « Anaconda Prompt » à partir du menu de
démarrage
46
Pour démarrer python, vous devez ouvrir « Anaconda Prompt » à partir du menu de
démarrage
1. Taper python
1. Pour démarrer jupyter, taper “jupyter notebook”
47

Fouille Des Big Data Et Visualisation - Week 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fouille Des Big Data Et Visualisation - Week 2

Transféré par

Droits d'auteur :

Formats disponibles

Fouille et Visualisation des Big Data

Construire avec ralliement de l’entreprise

Construire avec un objectif planifié

Construire avec une approche structurée

Spécifications Transformation Déploiement du

Préparation des Apprentissage Le suivie du

Métier Statistiques Informatique

Compréhension Transformation Déploiement du

Préparation des Apprentissage Le suivie du

Quel est l’objectif final du client ?

Objectif Métier Objectif Technique

Comprendre • Formuler les objectifs du projet en terme

Objectif Technique Exemples

Déterminer Prédire une valeur Régression -Régression linéaire

Prédire une catégorie Classification -Régression logistique

Prédire une préférence Système de -Filtrage collaboratif

• Objectif primaire: éviter le départ augmenter le taux de réinscription

• Objectif complémentaire: les principaux clients sont également ciblés

• Critères de succès: le taux de renouvellement actuel = 65% améliorer de 8%

• Solution existante: Business-rule-based targeting

• Sources de données, formats

Collecter • Diagramme: entité-relation

Vectoriser • Identifier les données utiles

Vue d’ensemble des données

Objectif: Créer un dataset d’analyse

Collecter Utiliser toutes les informations Pour prédire si le client va

Évaluer Fenêtre d’observation Fenêtre de prédiction

• Les indicateurs principaux doivent être calculés à partir de la plage de

Transformation des Construction

« donnez-moi six heures pour abattre un

• Histogrammes • Diagramme uni-varié par catégorie

• La réduction des caractéristiques (features reduction): c’est un processus qui

• La réduction des caractéristiques: Pourquoi

• La réduction des caractéristiques: Techniques

La réduction des caractéristiques

Tout ce que tu peux manger Manger d’une façon saine

• Essayer plusieurs techniques d’apprentissage

Choisir le modèle et examiner la performance

Source: real-world machine learning, Manning 34

• Le biais est la différence entre la prédiction attendu par le

Une bonne balance

Visualisation des résultats de modélisation

Visualisation des résultats de modélisation

• Le plan à suivre pour le suivie

2. Démarrer l’installation en suivant les étapes ci-dessous:

5. Garder « Checkout Windows-style, commit Unix-style line endings »

3. Si votre variable d’environnement HOME n’est pas spécifier

4. quitter l’invité de commande en écrivant exit puis [entrer] 44

2. Télécharger Python 3 pour windows

1. Pour démarrer jupyter, taper “jupyter notebook”

Vous aimerez peut-être aussi