Vous êtes sur la page 1sur 33

DESCRIPTION DES PROJETS

Projet final: présentation


Une description détaillée de chaque projet vous sera présentée dans les sessions à venir !

Description Comments

Créer un projet de visualisation de données sur Tableau ou Power BI sur le thème de l'accès à l'eau potable
1 Réalsez un dashboard avec Tableau ou Power BI
ou en vous appuyant sur le thème de votre choix.

Prêt à dépenser décide donc de développer un dashboard interactif pour que les chargés de relation client
2 Réalisez un dashboard de "scoring credit" puissent expliquer de façon la plus transparente possible les décisions d’octroi de crédit, lors de rendez-
vous avec eux.

Mise en place d'un système pour suivre les prix sur Mettre en place un programme (un scraper) développé en Python, capable d'extraire les informations
3
un site concurrent tarifaires de la libraire en ligne Book To Scrape, un revendeur de livres.

Extraire des données d'un site Web et explorer les


4 flipkart (TP), Amazon, indeed, gov.uk, fake-python-jobs, remote-jobs
données via Tableau Software

Etudier la faisabilité d'un moteur de classification des articles en différentes catégories à partir de l’image
5 Classifiez des biens de consommation
ou du texte

6 classification des déchets Etudier la faisabilité d'un moteur de classification des articles en différentes catégories à partir du texte

Mettre en place un algorithme capable de classer les images en fonction de la race du chien présent sur
7 Détection de la race du chien sur une photo l'image et proposer un interface permettant de charger une image et d'avoir la race correspondante. Les
données sont disponibles ici.
Réalisez un dashboard avec Tableau ou Power BI
Option A: réaliser un projet de visualisation pour l'ONG DWFA

Vous êtes consultant Data Analyst en mission dans l’ONG DWFA (Drinking Water For All) ; elle a pour ambition
de donner accès à l’eau potable à tout le monde.

DWFA présente 3 domaines d’expertises :


1. Création de services d’accès à l’eau potable ;
2. Modernisation de services d’accès à l’eau déjà existants ;
3. Consulting auprès d’administrations/gouvernements à propos des politiques d’accès à l’eau.

L’association a effectué une demande de financement auprès d’un bailleur de fonds en présentant ces 3
domaines d’expertise.
Ces nouveaux financements, s’ils sont accordés par le bailleur, pourront permettre d’investir dans un des
domaines d’expertise dans un pays qui n’est pas encore déterminé.
Dans ce cadre, vous êtes missionné pour réaliser un tableau de bord présentant une vue globale de l’accès à
l’eau potable dans le monde. Celui-ci permettra de choisir le pays à cibler dès que le bailleur de fonds aura
donné sa réponse sur le domaine d’expertise qu’il souhaite financer.

Objectif: Le tableau de bord pour identifier les pays qui rencontrent des difficultés d’accès à l’eau potable.
Il faudra représenter des indicateurs relatifs à nos 3 domaines d'expertise.
Option A: réaliser un projet de visualisation pour l'ONG DWFA

Besoins pour l’histoire Tableau


3 vues sont demandées sur l’histoire Tableau (également appelées “dashboards”), ou 3 “pages” sur Power BI,
à créer avec tous les indicateurs choisis sur chaque vue :
1. une vue mondiale avec une agrégation des indicateurs au niveau mondiale ;
2. une vue continentale avec les indicateurs agrégés pour le continent sélectionné par l’utilisateur ;
3. une vue nationale avec les indicateurs pour le pays sélectionné par l’utilisateur. Indicateurs à utiliser

Quelques indicateurs à suivre ont été mentionnés durant la réunion. Ce ne sont que des exemples
d’indicateurs utilisés par le passé, d’autres indicateurs pourront être utilisés :
1. le taux de mortalité dû à de l’eau insalubre ;
2. la population / densité de population ;
3. la part d’habitants ayant accès à l’eau potable ;
4. la stabilité politique du pays.
5. l’évolution de ces facteurs dans le temps.
Option B: réaliser un projet de visualisation de données en vous
appuyant sur les données de votre choix.

Vous avez la possibilité de réaliser un tableau de bord portant sur des données différentes de celles présentées
dans l'option A.
Prenez toutefois le temps de lire l’option A afin de vous inspirer le plus possible du contexte et du cadre de ce
projet.
Concernant les données, choisissez un sujet qui vous intéresse, qui vous parle ou qui est lié à un secteur dans
lequel vous aimeriez travailler. Vous devez faire valider le choix de dataset par le professeur. Vous devrez :
définir clairement un sujet et une problématique.
cadrer les différentes visualisations que vous souhaitez proposer, leurs intérêts respectifs et le niveau
d’information qu’elles permettront de lire.

Voici quelques pistes de sources de données :


plateforme opendata du gouvernement francais : data.gouv
plateforme opendata de la marie de Paris : opendata.paris
site de l’INSEE : insee.fr
site de la banque mondiale : datacatalog.worldbank
site de l’OCDE : data.ocde
base de données de films : imdb
une liste de données mises en avant par Tableau : data
Précisions techniques

Le choix entre Tableau / PowerBI est libre.


Au moins une représentation de données
Pour pouvoir exclure les pays dont l’instabilité
temporelles est présente.
politique est trop forte, il faudrait que le tableau
Au moins une représentation de données
de bord inclut un filtre (modifiable par
géographiques a été utilisée (option A
l’utilisateur) pour exclure les pays trop instables.
uniquement)
Pour les indicateurs combinant 2 variables, il
Au moins 4 filtres sont utilisés sur les variables,
faudrait afficher un nuage de points.
dont au moins
Il est important de voir l’évolution de certains
un pour une variable quantitatives,
indicateurs dans le temps.
un pour une variable qualitatives,
La palette « Bleu », en cohérence avec la couleur
un pour des données temporelles,
de l’eau, devra être utilisée.
un pour des données géographiques (option A
Au moins 3 vues sont livrées.
uniquement).
Les feuilles doivent avoir un scope différent et
Au moins une agréation a été réalisée (un champ
comporter une cohérence dans les données
calculé est utilisé, par exemple, multiplier par 1
qu’elles présentent.
000 une valeur ou calculer une moyenne).
Chacun de ces graphiques est utilisé au moins une
Au moins une jointure a été réalisée sur les
fois: Line plot, Scatter plot, Grouped Barplot,
fichiers.
Stacked Barplot ou Percent Stacked Barplot.
Livrables

1. Votre blueprint (format Word ou équivalent): détaillant le besoin des utilisateurs, mesures
spécifiques utilisées, type de visualisation utilisé
2. Votre mockup de tableau de bord (format libre)
3. Une présentation (25 slides maximum) de votre projet. Cette présentation contiendra :
des éléments sur le contexte, notamment des extraits de votre blueprint,
le prétraitement éventuel des données,
la pertinence de l’outil de visualisation retenu etc.
4. Votre dashboard, soit :
Le lien vers votre histoire Tableau sur Tableau Public, ainsi que l'exportation au format PDF
ou image ;
La version PowerBI de votre projet (fichier .pbix) ;

PJ: la synthèse des demandes via un document en présentant les indicateurs que vous avez choisi
de visualiser pour chaque vue, et ensuite que vous réalisez une version basse fidélité du résultat
final. On appelle ces documents “blueprint”, et “mockup”. Si besoin, je peux vous partager des
exemples.
Soutenance

La soutenance est structurée de la manière suivante :


1. Présentation des livrables (15 minutes)
a. Présentez votre projet en vous basant sur les différents livrables
produits.
i. La présentation de votre projet (5 minutes)
ii. Le tableau de bord, qui inclut une démonstration d’utilisation de
fonctionnalités de celui-ci. (10 minutes)
2. Discussion (10 minutes): questions sur le travail réalisé.
3. Débriefing (5 minutes)
Réalisez un dashboard de "scoring credit"
Missions et objectifs

Vous êtes Data Scientist au sein d'une société financière, nommée "Prêt à dépenser", qui propose des crédits
à la consommation pour des personnes ayant peu ou pas du tout d'historique de prêt.

Vous venez de mettre en œuvre un outil de “scoring crédit” pour calculer la probabilité qu’un client
rembourse son crédit, et classifier la demande en crédit accordé ou refusé.

Les chargés de relation client ont fait remonter le fait que les clients sont de plus en plus demandeurs de
transparence vis-à-vis des décisions d’octroi de crédit.

Prêt à dépenser décide donc de développer un dashboard interactif pour que les chargés de relation client
puissent expliquer de façon la plus transparente possible les décisions d’octroi de crédit, lors de rendez-vous
avec eux. Cette volonté de transparence va tout à fait dans le sens des valeurs que l’entreprise veut incarner.

Objectifs:
1. Mettre en production le modèle de scoring de prédiction à l’aide d’une API
2. Elaborer un dashboard interactif avec streamlit, dash, bokeh et le déployer dans le cloud pour le rendre
accessible pour d'autres utilisateurs sur leurs postes de travail.
Spécifications pour l'API

Le choix de l'outil pour créer l'API est libre (flask, fastapi, ...)
L'API doit retourné le score ainsi que la décision d'octroi ou non du crédit en fonction de l'id du client
L’API appelée doit être déployée sur le Cloud
Vous avez le choix de la solution Cloud pour le déploiement de l’API, idéalement gratuite :
Azure webapp (App Service)
Choisir l’option de l’App Service Plan avec « Sku and size » égal idéalement à « Free F1 » gratuit
(code + packages < 1 Go)
Création sur le portail Azure d’une webapp, avec mise à jour du code automatiquement via une
source Github
PythonAnywhere
Heroku, gratuit uniquement en mode “github student”
Autres solutions au choix
Spécifications pour le Dashboard

Voici les spécifications pour le dashboard interactif :


Permettre de visualiser le score, sa probabilité (est-il loin du seuil ?) et l’interprétation de ce score pour
chaque client de façon intelligible pour une personne non experte en data science.
Permettre de visualiser les principales informations descriptives relatives à un client.
Permettre de comparer, à l’aide de graphiques, les principales informations descriptives relatives à un
client à l’ensemble des clients ou à un groupe de clients similaires (via un système de filtre : par exemple
liste déroulante des principales variables).
Prendre en compte le besoin des personnes en situation de handicap dans la réalisation des graphiques,
en couvrant des critères d'accessibilité du WCAG.
Déployer le dashboard sur une plateforme Cloud, afin qu'il soit accessible pour d'autres utilisateurs sur
leurs postes de travail.
Livrables

Envoi par mail le lien vers le repository GitHub public qui doit contenir les éléments suivants:
L’API de prédiction du score, déployée sur le cloud (lien vers l’API).
Le code permettant de déployer le modèle sous forme d'API
Pour l’API, un fichier introductif permettant de comprendre l'objectif du projet et le
découpage des dossiers (README.md), et un fichier listant les packages utilisés seront
présents dans le dossier (requirements.txt, requirements.yaml, ...)
Le code et le lien vers l’application de dashboard interactif répondant aux spécifications
et déployée sur le Cloud
Un support de présentation pour la soutenance, détaillant le travail réalisé, autant sur l'API
que le dashboard (25 slides maximum)
Soutenance

Présentation (15 minutes)


Rappel de la problématique
Présentation du dashboard déployé sur le Cloud
Exemple d’un scoring client via appel à l’API sur le Coud
Discussion (10 minutes)
Débriefing (5 minutes)
Mise en place d'un système pour suivre les prix sur
un site concurrent
Missions et objectifs

Vous êtes analyste marketing chez Books Online, une importante librairie en ligne spécialisée dans les livres
d'occasion. Dans le cadre de vos fonctions, vous essayez de suivre manuellement les prix des livres d'occasion sur
les sites web de vos concurrents, mais cela représente trop de travail et vous n'arrivez pas à y faire face : il y a
trop de livres et trop de librairies en ligne ! Vous et votre équipe avez décidé d'automatiser cette tâche laborieuse
via un programme (un scraper) développé en Python, capable d'extraire les informations tarifaires d'autres
librairies en ligne.

Vous êtes chargé de développer une version bêta de ce système pour suivre les prix des livres chez Books to
Scrape, un revendeur de livres en ligne. En pratique, dans cette version bêta, votre programme n'effectuera pas
une véritable surveillance en temps réel des prix sur la durée. Il s'agira simplement d'une application exécutable
à la demande visant à récupérer les prix au moment de son exécution.

Objectifs :
Récupérer les prix des livrables
Elaborer un dashboard de suivi de l'évolution des informations tarifaires (Tableau, streamlit, ...)
Missions et objectifs

Recommandations générales:
Pendant que vous travaillez, stockez votre code dans un repository GitHub et faites des commits fréquents.
N'oubliez pas de faire un commit d’un fichier requirements.txt, mais ne stockez pas l'environnement virtuel
dans le repository.
Assurez-vous que les fichiers d’output (par exemple, les fichiers CSV ou d'image) ne sont pas stockés dans le
repository.
Livrables

Lien vers le repository GitHub public qui doit contenir les éléments suivants:
l'ensemble de votre code d'application ;
le fichier requirements.txt, mais pas l'environnement virtuel lui-même ;
un fichier README.md expliquant comment créer et activer l'environnement virtuel, puis exécuter le
code d'application et contenant le lien vers l'application déployé dans le cloud (Tableau ou Streamlit)
Un dossier contenant toute la data : les données extraites et les images associées dans un format ou
une structure facile à suivre.
Un guide utilisateur décrivant comment l’application permet d’établir un pipeline ETL
Support de présentation (25 slides maximum)
Soutenance

La soutenance est structurée de la manière suivante :


Présentation des livrables (15 minutes)
Présentez l'application en décrivant le processus utilisé pour
l'écrire et en mettant en évidence les sections extraction,
transformation et chargement du code.
Une démonstration de l'application en l'exécutant « en direct ».
Présentez le dashboard pour le suivi des prix de nos
concurrents
Discussion (10 minutes)
Debrief (5 minutes)
Classifiez des biens de consommation
Missions et objectifs

Vous êtes Data Scientist au sein de l’entreprise "Place de marché”, qui souhaite lancer une marketplace e-commerce.

Sur cette place de marché anglophone, des vendeurs proposent des articles à des acheteurs en postant une photo
et une description.

Pour l'instant, l'attribution de la catégorie d'un article est effectuée manuellement par les vendeurs, et est donc
peu fiable. De plus, le volume des articles est pour l’instant très petit.

Pour optimiser l’expérience utilisateur des vendeurs (faciliter la mise en ligne de nouveaux articles) et des
acheteurs (faciliter la recherche de produits), et dans l'optique d'un passage à l'échelle, il devient nécessaire
d'automatiser cette tâche.

Objectifs:
étudier la faisabilité d'un moteur de classification des articles en différentes catégories, à partir du texte (en
anglais) ou de l’image, avec un niveau de précision suffisant.
Mettre en place un interface déployé sur le cloud pour tester la catégorisation des articles (streamlit, etc...) à
partir d'une image ou d'un texte descriptif
Livrables

Un repository GITHUB contenant les éléments suivants:


Un ou des notebooks (ou des fichiers .py) contenant les fonctions permettant le prétraitement et la
feature extraction des données textes ou images ainsi que les résultats de l’étude de faisabilité
Un dossier Python contenant le code de l’API
Un fichier README.md décrivant la structure du repository Github
Un support de présentation pour la soutenance, détaillant le travail réalisé (25 slides maximum)
Soutenance

La soutenance se déroulera comme suit:


Présentation (15 minutes)
Rappel de la problématique et présentation du jeu de données
Explication des prétraitements, des extractions de features et
des résultats de l’étude de faisabilité
Résultats de la classification supervisée
Présentation du test de l’API
Discussion (10 minutes)
Débriefing (5 minutes)
Classification des ordures
Missions et objectifs

Vous êtes Data Scientist au sein de l’entreprise "WasteNet”, pionnière dans le domaine du recyclage des ordures.

WasteNet souhaite proposé un objet de tri intelligent afin de recycler certains objets et de diminuer les impacts
néfastes sur l'environnement.
L'objectif de ce projet est de proposer un modèle prédictif capable de détecter le type d'ordure à partir d'une
image.

Les données sont disponibles ici


Voici quelques exemples de types d'ordures: électronique, carton, plastique, verre, métal, organique ...
Livrables

Un repository GITHUB contenant les éléments suivants:


Un ou des notebooks (ou des fichiers .py) contenant les fonctions permettant le prétraitement et la
feature extraction des images ainsi que les résultats de la modélisation
Un dossier Python contenant le code de l’API (interface pour tester le modèle accessible à tous les
utilisateurs)
Un fichier README.md décrivant la structure du repository Github
Un support de présentation pour la soutenance, détaillant le travail réalisé (25 slides maximum)
Soutenance

La soutenance se déroulera comme suit:


Présentation (15 minutes)
Rappel de la problématique et présentation du jeu de données
Explication des prétraitements, des extractions de features et
des résultats de l’étude
Présentation du test de l’API
Discussion (10 minutes)
Débriefing (5 minutes)
Détection de la race du chien sur une photo
Missions et objectifs

Vous êtes bénévole pour l'association de protection des animaux, Agir pour les animaux, de votre quartier.
Vous vous demandez donc ce que vous pouvez faire en retour pour aider l'association.

Vous apprenez, en discutant avec un bénévole, que leur base de données de pensionnaires commence à s'agrandir et
qu'ils n'ont pas toujours le temps de référencer les images des animaux qu'ils ont accumulées depuis plusieurs
années. Ils aimeraient donc obtenir un algorithme capable de classer les images en fonction de la race du chien
présent sur l'image.

Les données sont disponibles ici

Votre mission:
L'association vous demande de réaliser un algorithme de détection de la race du chien sur une photo, afin
d'accélérer leur travail d’indexation.
Recommandations

Attention sur le fait que l'entraînement (même partiel) d'un réseau de neurones convolutionnels est
très gourmand en ressources. Si le processeur de votre ordinateur ne suffit pas, voici plusieurs
solutions :
Limitez le jeu de données, en ne sélectionnant que quelques classes (races de chiens), ce qui
permettra déjà de tester la démarche et la conception des modèles, avant une éventuelle
généralisation.
Utilisez la carte graphique de l’ordinateur en tant que GPU (l'installation est un peu fastidieuse,
et l'ordinateur est inutilisable le temps du calcul).
cloud computing, qui permet d'avoir temporairement accès à des machines très puissantes, en
étant facturé seulement durant le temps d'utilisation. Le plus connu est AWS, mais d'autres
existent (Google, Microsoft...). Vous pouvez tester également Google Colaboratory ou Kaggle qui
permet de mettre en œuvre gratuitement des réseaux CNN utilisant de la GPU.
Livrables

Un notebook Python
Un programme Python qui prend une image en entrée et retourne la race la plus probable du chien
présent sur l'image via un interface.
Votre support de présentation à destination du bénévole qui gère la base de données, qui devra
déployer en production la solution que vous préconisez (25 slides maximum).
Soutenance

La soutenance se déroulera comme suit:


Présentation (15 minutes)
Rappel de la problématique et présentation du jeu de données
Présentation des différentes pistes de modélisations
effectuées et le choix du modèle final
Présentation du test de l’API
Discussion (10 minutes)
Débriefing (5 minutes)

Vous aimerez peut-être aussi