Académique Documents
Professionnel Documents
Culture Documents
Lotfi NAJDI
Année Universitaire 2022 / 2023
Finance et Ingénierie Décisionnelle
ENSA Agadir
Processus de la data science
• La data science en tant que terme plus large se concentre non seulement sur les
Modélisation
Communication des résultats Déploiement
(Model building)
Processus de la data science
Modélisation
Communication des résultats Déploiement
(Model building)
Formulation du problème
• Objectif du projet?
Modélisation
Communication des résultats Déploiement
(Model building)
Collecte et intégration des données
Objectif : Identifier et acquérir toutes les données appropriées pour répondre aux
• Si oui, quelles parties des données sont utiles? Sinon, de quelles autres données
avez-vous besoin?
Données internes
Données internes
• Data warehouse
• Data lake
• Objets connectés
Collecte et intégration des données
APIs
Web Scraping
Collecte et intégration des données
Open data
Open data
Open data
European Union Open Data Portal
U.S. Census Bureau
Data.gov
Une API est une interface de programmation qui permet de se « brancher » sur une
application pour échanger des données. Une API est ouverte et proposée par le
propriétaire du programme.
Collecte et intégration des données
• Bloomberg
• Wikipédia
• Quandl
• Google Maps
• Yahoo Finance
Collecte et intégration des données
Web Scraping
Extraire des données directement à partir d’un site Web pour les utiliser dans un
contexte différent.
• Parcourir le contenu d’une page web pour le rendre exploitable par un langage
Modélisation
Communication des résultats Déploiement
(Model building)
Prétraitement des données(data Preprocessing)
Prétraitement des données
• Feature extraction
• Feature Selection
Feature Engineering
• Pour la classification, les variables catégorielles peuvent être encodées sous forme
• Les données numériques peuvent être discrétisées afin de réduire un large nombre de
valeurs de données en un ensemble fini d'intervalles (âge en tranche d'âge ).
• Décomposer une date en plusieurs features (jour, mois, année, heure ) pour avoir le
• Pour les données comprenant du texte, les mots sont convertis en un vecteur
nombreuses caractéristiques, dont certaines peuvent être redondantes ou sans intérêt pour
la valeur à prédire.
Feature Selection
• Filter Methods : En évaluant la corrélation entre chaque feature et la cible, ces méthodes
utilisent une mesure statistique pour attribuer un score à chaque feature. Les features sont triées
selon ce score, ce qui permet de prendre en considération ou éliminer certaines de ces features.
“Feature selection is different from dimensionality reduction. Both methods seek to reduce
creating new combinations of attributes, where as feature selection methods include and
An-introduction-to-feature-selection
Processus de la data science
Modélisation
Communication des résultats Déploiement
(Model building)
Exploratory Data Analysis (EDA)
• Auditer la qualité des données afin de repérer des anomalies ((valeur manquantes et outlier )
Statistiques descriptives
• Statistiques générales
• Statistiques pour les variables catégorielles (barplot, valeurs les plus/les moins fréquentes,
Distribution des variables continues selon les valeurs prises par la cible Status
Exploratory Data Analysis (EDA)
• D'autres algorithmes comme les arbres de décision, sont généralement moins sensibles à ce
problème.
• En revanche, les variables fortement corrélées avec la cible peuvent améliorer les performances des
service)
• Produire des graphes élégants et informatifs pour mieux comprendre les données
jeu de données.
Modélisation
Communication des résultats Déploiement
(Model building)
Modélisation
tuning)
• Les modèles sont des outils qui viennent compléter les visualisations.
déploiement du modèle:
Critères d’évaluation
• Training/Testing set
Processus de la data science
Modélisation
Communication des résultats Déploiement
(Model building)
Communication des résultats
Communication des résultats
• Décrire l'algorithme utilisé et les caractéristiques prises en compte (une vue de haut niveau)
• Décrire la logique générale du modèle en termes d'impact des features , règles ou d'arbres
de décision.
• Décrire l’ordre d’importance des features dans la prédiction faite par le modèle à un
niveau global.
• Les modèles qui sont directement interprétables comprennent les arbres de décision, les
ensembles de règles booléennes et les modèles additifs généralisés, qui sont facilement
• Parfois besoin d'expliquer avec un modèle simple de substitution en s’appuyant sur les
modèles de type black box « boîte noire » afin de fournir une compréhension globale
aux décideurs.
Communication des résultats
Communication des résultats
• Pour une instance (enregistrement donnée ) , pourquoi le modèle a-t-il pris cette décision?
• Illustrer l'importance des features derrière la prédiction faite par le modèle pour un
enregistrement spécifique.
• Utiliser des techniques comme LIME pour expliquer la probabilité du churn pour chaque
client.
• Trier les features en fonction de leur contribution à une probabilité de churn (désabonnement
• Développer une intuition sur la manière avec laquelle le modèle fait ses prédictions.
• Cette intuition peut contribuer à mieux comprendre, à faire confiance et à ajuster le modèle en
question.
fastforwardlabs
Communication des résultats
Communication des résultats
“It doesn’t matter how great your analysis is unless you can explain it to others:
you need to communicate your results.” Hadley Wickham
Modélisation
Communication des résultats Déploiement
(Model building)
Déploiement
• Une fois le modèle fonctionne correctement il devrait être déployé pour qu’il soit à
application web.
• les utilisateurs et autres applications peuvent envoyer des données à votre modèle
Modélisation
Communication des résultats Déploiement
(Model building)
Programmation
• Programmer pour :
traitement organisé