3-Data Science Process - Copie PDF

Data Science
Lotfi NAJDI
Année Universitaire 2022 / 2023
Finance et Ingénierie Décisionnelle
ENSA Agadir
Processus de la data science
• L'apprentissage automatique est un élément essentiel pour le « data scientist »
afin de traiter un problème métier spécifique.
• La data science en tant que terme plus large se concentre non seulement sur les
algorithmes de ML et les statistiques appliquées, mais prend également en
charge l'ensemble de la méthodologie de traitement des données.

Problème métier Formulation

(Business Problem) du problème
Collecte et intégration Prétraitement et nettoyage Exploration et visualisation

des données des données (Preprocessing) (Exploratory data analysis )
Modélisation
Communication des résultats Déploiement
(Model building)


Modélisation
(Model building)
Formulation du problème
Chaque projet commence par la compréhension de l’activité ou du métier en question.
• Objectif du projet?
• Dirigeants et autres partenaires concernés?
• Problème métier à résoudre ?
• Comment traduire les demandes ambiguës en un problème de data science concret

et bien défini ?
• Métriques convenables pour mesurer la réalisation des objectifs .



Modélisation
(Model building)
Collecte et intégration des données
Objectif : Identifier et acquérir toutes les données appropriées pour répondre aux
questions définissant les objectifs du projet.
 Identifier les sources de données
 Collecter les données brutes
 Ingérer les données
Dans le cas ou les résultats de la modélisation ne sont pas satisfaisantes, ces
données doivent être enrichies

• Ces données sont-elles déjà disponibles?
• Si oui, quelles parties des données sont utiles? Sinon, de quelles autres données
avez-vous besoin?
• Quels types de ressources (temps, argent, infrastructure) faudrait-il pour
collecter ces données sous un format exploitable ?

Données internes
• Enterprise Resource Planning (ERP)

• Données sur les clients
• Customer Relationship Management (CRM)

• Transaction financières
• Supplier Relationship Management (SRM)

• Données sur la logistique
• Supply Chain Management (SCM)

• Données sur la production
• Human Capital Management (HCM)

• Application de gestion
Données internes
• Data warehouse
• Data lake
• Fichiers de logs (serveurs, application web)
• Email et autres documents numériques
• Objets connectés
Données provenant du Web
Données ouverte (open data)
APIs
Web Scraping
Open data
«La notion de données ouvertes, et en particulier de données gouvernementales

auxquelles toute personne peut accéder librement et réutiliser à n'importe quelle
fin, existe depuis quelques années. En 2009, les données ouvertes ont commencé à
devenir accessible par le grand public, et divers gouvernements (tels que les
États-Unis, le Royaume-Uni, le Canada et la Nouvelle-Zélande) ont annoncé de
nouvelles initiatives Open data. »
Open data handbook

Open data
• Transparence et contrôle démocratique
• Création et amélioration des Produits et services L'innovation
• Amélioration de l'efficacité des services gouvernementaux
• Nouvelles connaissances provenant de sources de données combinées et de
modèles dans de gros volumes de données
Open data handbook

Open data
European Union Open Data Portal
U.S. Census Bureau
Data.gov
World Bank Open Data

UNICEF Dataset
World Health Organization) — Open data repository
Google Public Data Explorer

Registry of Open Data on AWS (RODA)
Kaggle
Data APIs (Application Programming Interface )
Une API est une interface de programmation qui permet de se « brancher » sur une
application pour échanger des données. Une API est ouverte et proposée par le
propriétaire du programme.
Data APIs (Application Programming Interface )
• Twitter • Alpha Vantage
• Bloomberg
• Wikipédia
• Quandl
• Google Maps
• Yahoo Finance
Web Scraping
Extraire des données directement à partir d’un site Web pour les utiliser dans un
contexte différent.
• Parcourir le contenu d’une page web pour le rendre exploitable par un langage
donnée (Déterminer URL et structure )
• récupérer les informations clefs moyennant l’HTML



Modélisation
(Model building)
Prétraitement des données(data Preprocessing)
Prétraitement des données
Objectif : Préparer les données pour l’analyse et la modélisation
• Nettoyage des données (data cleaning )
• Data wrangling (Manipulation des données) et data remodeling
• Feature Engineering : transformation des données en une représentation
adaptée à l’algorithme de M.L

 Existence de plusieurs sources de données avec différents formats

• Filtrage des données
• Combinaison de données provenant de plusieurs sources de données
• Consolidation des données
 Besoin de nettoyer les données :

• Suppression des Données redondantes
• Traitement des données incohérentes
• Traitement des données manquantes( Missing values )
• Traitement d'éventuelles exceptions, erreurs ou valeurs atypiques ou aberrantes
(Outliers )
• les données brutes sont souvent désorganisées :
• Plusieurs variables sont dans une seule colonne
• Variables sont en lignes et en colonnes
• Besoin en manipulation et remaniement des données pour que :
• chaque colonne représente une variable
• chaque ligne correspond à une observation

Feature Engineering
Après le prétraitement de données : Besoin en transformation des données en une
représentation adaptée au modèle d'apprentissage automatique.
• Feature Creation and Transformation
• Feature extraction
• Feature Selection
Feature Engineering
Feature Creation and Transformation : La construction manuelle de nouvelles features à

partir de données brutes.
• Pour la classification, les variables catégorielles peuvent être encodées sous forme
d'une représentation numérique par en variables indicatrices (dummy variables)
• Les données numériques peuvent être discrétisées afin de réduire un large nombre de
valeurs de données en un ensemble fini d'intervalles (âge en tranche d'âge ).
• La transformation logarithmique peut être utilisée pour modifier la forme de la

distribution et réduire l'asymétrie.
• Normalisation ou mise à l’échelle (scaling) afin de garantir les mêmes plages de

valeurs pour les variables d'entrée , réduire le bruit et améliorer la précision du
modèle.
Feature Engineering
Feature Creation and Transformation
• Combiner des features existantes pour en créer de nouvelles.
• Décomposer des features existantes pour en créer de nouvelles.
• Décomposer une date en plusieurs features (jour, mois, année, heure ) pour avoir le
contexte de l'événement (relation entre l'heure ou le jour de la semaine avec la cible )
• Créer des features en agrégeant les données brutes

Feature Engineering
Feature extraction : La construction automatique de nouvelles features (
caractéristiques) à partir de données brutes
• Pour les données tabulaires, il peut s'agir de méthodes Réduction de
dimensionnalité telles PCA afin de simplifier les attributs des données
• Pour les données comprenant du texte, les mots sont convertis en un vecteur
de mots (bag of words, TF-IDF , Word2Vec ..)

Feature Engineering
Feature Selection : Sélection automatiquement d’un sous-ensemble de features les plus
pertinentes pour le problème traité .En général, un ensemble de données comporte de
nombreuses caractéristiques, dont certaines peuvent être redondantes ou sans intérêt pour
la valeur à prédire.
La sélection des caractéristiques se révèle nécessaire dans les cas suivants :
• Simplifier les modèles afin qu'ils soient faciles à interpréter
• Réduire le temps nécessaire à la phase d'apprentissage
• Améliorer la précision et la généralisation des modèles construits

Feature Engineering
Feature Selection
• Filter Methods : En évaluant la corrélation entre chaque feature et la cible, ces méthodes
utilisent une mesure statistique pour attribuer un score à chaque feature. Les features sont triées
selon ce score, ce qui permet de prendre en considération ou éliminer certaines de ces features.
• Wrapper Methods : Différentes combinaisons sont évaluées et comparées. Un modèle prédictif

est utilisé pour évaluer une combinaison de features et attribuer un score basé sur la précision
du modèle (Recursive feature elimination)
• Embedded Methods : la sélection fait partie intégrante de la construction du modèle. Cette

méthode détermine les features qui contribuent le mieux à la précision du modèle lors de la
création de ce dernier (exemple lasso et random forest)
Feature Engineering
“Feature selection is different from dimensionality reduction. Both methods seek to reduce
the number of attributes in the dataset, but a dimensionality reduction method do so by
creating new combinations of attributes, where as feature selection methods include and
exclude attributes present in the data without changing them.”
An-introduction-to-feature-selection


Modélisation
(Model building)
Exploratory Data Analysis (EDA)
Objectif : Développer une compréhension profonde des données.
Inspectez les données et leurs propriétés afin de :
• dégager les principales caractéristiques des données
• Auditer la qualité des données afin de repérer des anomalies ((valeur manquantes et outlier )
• Utiliser la visualisation et la synthèse des données pour :
• découvrir des motifs et tendances , vérifier des hypothèses:
• identifier des relations entre variables
• identifier les tendances générales.
• Production des représentations graphiques/visuelles (histogrammes, graphiques)

Statistiques descriptives
• Statistiques générales
• Nombre d'instances ou observations (nombre de lignes)
• Nombre de features (nombre de colonnes)
• Statistiques univariées (une seule variable )
• Statistiques pour les variables numériques (moyenne, médiane , IQR , histogramme)
• Statistiques pour les variables catégorielles (barplot, valeurs les plus/les moins fréquentes,
pourcentage, nombre de valeurs uniques)
• Statistiques relatives à la cible (distribution )
• Statistiques multivariées (plusieurs variables ) : Correlations entre les paires de variables.

Exploration des valeurs manquantes

Exemple de la visualisation des distributions pour les variables catégorielles

Exploration de la relation entre la cible Status et la variable Records.

Exploration de la relation entre la cible Status et la variable Job.

Distribution des variables continues selon les valeurs prises par la cible Status
Analyse de corrélation entre Status_bad et le reste des variables.

Correlations
• Les variables fortement corrélées (positives ou négatives) peuvent dégrader les performances de
certains algorithmes de ML, comme la régression linéaire et logistique.
• Sélectionnez l'une des caractéristiques corrélées et écartez les autres.
• D'autres algorithmes comme les arbres de décision, sont généralement moins sensibles à ce
problème.
• En revanche, les variables fortement corrélées avec la cible peuvent améliorer les performances des
algorithmes de machines Learning comme la régression linéaire et logistique.

• Etudier et comprendre de manière avancée les données
• Attirer l’attention des décideur en préparant des visualisation qui expliquent le
problème en question ( le coût du désabonnement par catégorie de produit ou
service)
• Soulever de nouvelles questions sur vos données.
• Produire des graphes élégants et informatifs pour mieux comprendre les données
• Explorer des patterns inattendues à l’aide des visualisations avancées .

• Mettre en lumière les caractéristiques de chaque variables
• Découvrir les relations entre les différentes variables
• Identifier les relations entre la cible (désabonnement) et diverses variables du
jeu de données.
• Rechercher des réponses en utilisant les techniques de visualisation
• Affiner vos questions initiales ou générer de nouvelles questions



Modélisation
(Model building)
Modélisation
Objectifs : Développement des modèles prédictifs ou descriptifs
• Sélection les techniques de modélisation à utiliser selon l’objectif
• Entrainement et optimisation du modèle de machine Learning (model training and
tuning)
• Évaluation des résultats (Model Evaluation)
• Sélection du modèle le plus approprié

Modélisation
• Les modèles sont des outils qui viennent compléter les visualisations.
• Effectuer une analyse approfondie (apprentissage automatique )
• Découvrir des patterns (insights )
• Permettre de faire des prédictions précises

Modélisation
• Développement des modèles prédictifs ou descriptifs
• Intérêt à essayer d'utiliser plusieurs algorithmes
• Processus hautement itératif (préparation de données et évaluation)

Modélisation
L'évaluation du modèle est effectuée pendant le développement du modèle et avant le
déploiement du modèle:
• Apprécier la qualité et les performance du modèle construit
• S'assurer qu'il répond correctement au problème en question
Critères d’évaluation
• Dépendent du type d’apprentissage
• Training/Testing set


Modélisation
(Model building)
Communication des résultats
Objectif : Communiquer les résultats et les actions recommandées

à un public non technique
• Expliquer , simplifier et résumer les résultats de tous les modèles construits
• Résumer et partager vos analyses sous forme de rapports et des présentations
• Permettre aux utilisateurs finaux d'avoir une expérience interactive

• Permettre à d'autres personnes de reproduire et vérifier le travail réalisé.
• Générer des rapports de synthèse pour appuyer la capacité à influencer les
décideurs et transmettre les idées et conclusions tirées.

• Décrire l'algorithme utilisé et les caractéristiques prises en compte (une vue de haut niveau)
• Décrire la logique générale du modèle en termes d'impact des features , règles ou d'arbres
de décision.
• Décrire l’ordre d’importance des features dans la prédiction faite par le modèle à un
niveau global.
• Expliquer le comportement du modèle dans son ensemble afin de :
• Validation de la part des managers avant déploiement
• Comparaison du modèle avec les connaissance d’un expert métier
• Conformité à la réglementation en vigueur.

Décrire la logique générale du modèle :
• Les modèles qui sont directement interprétables comprennent les arbres de décision, les
ensembles de règles booléennes et les modèles additifs généralisés, qui sont facilement
compréhensibles par les gens.
• Parfois besoin d'expliquer avec un modèle simple de substitution en s’appuyant sur les
modèles de type black box « boîte noire » afin de fournir une compréhension globale
aux décideurs.
• Expliquer les décisions individuelles faite par le modèle
• Pour une instance (enregistrement donnée ) , pourquoi le modèle a-t-il pris cette décision?
• Illustrer l'importance des features derrière la prédiction faite par le modèle pour un
enregistrement spécifique.
• Cette capacité d’interprétation et explication locale constitue un outil puissant permettant de
suggérer des actions afin d'agir pour changer la décision du modèle.

• Utiliser des techniques comme LIME pour expliquer la probabilité du churn pour chaque
client.
• Trier les features en fonction de leur contribution à une probabilité de churn (désabonnement
) pour chaque client.
• Développer une intuition sur la manière avec laquelle le modèle fait ses prédictions.
• Cette intuition peut contribuer à mieux comprendre, à faire confiance et à ajuster le modèle en
question.
• Analyser et recommander les possibilités de réduire la probabilité de désabonnement d'un

fastforwardlabs
“It doesn’t matter how great your analysis is unless you can explain it to others:
you need to communicate your results.” Hadley Wickham
• Présenter vos approches et vos recommandations à un public non technique est

une compétence cruciale pour un data scientist
• Savoir expliquer efficacement comment vous êtes arrivé à une conclusion

spécifique est essentiel, au même titre que le savoir-faire technique pour
analyser les données, créer des modèles prédictifs


Modélisation
(Model building)
Déploiement
Objectif : mettre les modèles dans un environnement de production
• Une fois le modèle fonctionne correctement il devrait être déployé pour qu’il soit à
disposition des autres utilisateurs métiers et des autres application
• Le déploiement peut prendre les formes suivantes : rapport, Dashboard, API,
application web.
• les utilisateurs et autres applications peuvent envoyer des données à votre modèle
et obtenir des prédictions.



Feature Engineering
Modélisation
(Model building)
Programmation
• Outil générique, utilisé à toutes les étapes du projet data science
• Programmer pour :
• Concevoir les opérations de manipulation de données comme un flux de
traitement organisé
• Automatiser des tâches courantes depuis la collecte des données , la
Préparation des données, la modélisation et la communication des résultats .

3-Data Science Process - Copie PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

3-Data Science Process - Copie PDF

Transféré par

Droits d'auteur :

Formats disponibles

Data Science

• L'apprentissage automatique est un élément essentiel pour le « data scientist »

afin de traiter un problème métier spécifique.

algorithmes de ML et les statistiques appliquées, mais prend également en

charge l'ensemble de la méthodologie de traitement des données.

Problème métier Formulation

Collecte et intégration Prétraitement et nettoyage Exploration et visualisation

Problème métier Formulation

Collecte et intégration Prétraitement et nettoyage Exploration et visualisation

Chaque projet commence par la compréhension de l’activité ou du métier en question.

• Dirigeants et autres partenaires concernés?

• Problème métier à résoudre ?

• Comment traduire les demandes ambiguës en un problème de data science concret

• Métriques convenables pour mesurer la réalisation des objectifs .

Problème métier Formulation

Collecte et intégration Prétraitement et nettoyage Exploration et visualisation

questions définissant les objectifs du projet.

 Identifier les sources de données

 Collecter les données brutes

 Ingérer les données

Dans le cas ou les résultats de la modélisation ne sont pas satisfaisantes, ces

données doivent être enrichies

• Ces données sont-elles déjà disponibles?

• Quels types de ressources (temps, argent, infrastructure) faudrait-il pour

collecter ces données sous un format exploitable ?

• Enterprise Resource Planning (ERP)

• Customer Relationship Management (CRM)

• Supplier Relationship Management (SRM)

• Supply Chain Management (SCM)

• Human Capital Management (HCM)

• Fichiers de logs (serveurs, application web)

• Email et autres documents numériques

Données provenant du Web

Données ouverte (open data)

«La notion de données ouvertes, et en particulier de données gouvernementales

Open data handbook

• Transparence et contrôle démocratique

• Création et amélioration des Produits et services L'innovation

• Amélioration de l'efficacité des services gouvernementaux

• Nouvelles connaissances provenant de sources de données combinées et de

modèles dans de gros volumes de données

Open data handbook

World Bank Open Data

Google Public Data Explorer

Data APIs (Application Programming Interface )

Data APIs (Application Programming Interface )

• Twitter • Alpha Vantage

donnée (Déterminer URL et structure )

• récupérer les informations clefs moyennant l’HTML

Problème métier Formulation

Collecte et intégration Prétraitement et nettoyage Exploration et visualisation

Objectif : Préparer les données pour l’analyse et la modélisation

• Nettoyage des données (data cleaning )

• Data wrangling (Manipulation des données) et data remodeling

• Feature Engineering : transformation des données en une représentation

adaptée à l’algorithme de M.L

 Existence de plusieurs sources de données avec différents formats

 Besoin de nettoyer les données :

• les données brutes sont souvent désorganisées :

• Plusieurs variables sont dans une seule colonne

• Variables sont en lignes et en colonnes

• Besoin en manipulation et remaniement des données pour que :

• chaque colonne représente une variable