Académique Documents
Professionnel Documents
Culture Documents
Description Comments
Créer un projet de visualisation de données sur Tableau ou Power BI sur le thème de l'accès à l'eau potable
1 Réalsez un dashboard avec Tableau ou Power BI
ou en vous appuyant sur le thème de votre choix.
Prêt à dépenser décide donc de développer un dashboard interactif pour que les chargés de relation client
2 Réalisez un dashboard de "scoring credit" puissent expliquer de façon la plus transparente possible les décisions d’octroi de crédit, lors de rendez-
vous avec eux.
Mise en place d'un système pour suivre les prix sur Mettre en place un programme (un scraper) développé en Python, capable d'extraire les informations
3
un site concurrent tarifaires de la libraire en ligne Book To Scrape, un revendeur de livres.
Etudier la faisabilité d'un moteur de classification des articles en différentes catégories à partir de l’image
5 Classifiez des biens de consommation
ou du texte
6 classification des déchets Etudier la faisabilité d'un moteur de classification des articles en différentes catégories à partir du texte
Mettre en place un algorithme capable de classer les images en fonction de la race du chien présent sur
7 Détection de la race du chien sur une photo l'image et proposer un interface permettant de charger une image et d'avoir la race correspondante. Les
données sont disponibles ici.
Réalisez un dashboard avec Tableau ou Power BI
Option A: réaliser un projet de visualisation pour l'ONG DWFA
Vous êtes consultant Data Analyst en mission dans l’ONG DWFA (Drinking Water For All) ; elle a pour ambition
de donner accès à l’eau potable à tout le monde.
L’association a effectué une demande de financement auprès d’un bailleur de fonds en présentant ces 3
domaines d’expertise.
Ces nouveaux financements, s’ils sont accordés par le bailleur, pourront permettre d’investir dans un des
domaines d’expertise dans un pays qui n’est pas encore déterminé.
Dans ce cadre, vous êtes missionné pour réaliser un tableau de bord présentant une vue globale de l’accès à
l’eau potable dans le monde. Celui-ci permettra de choisir le pays à cibler dès que le bailleur de fonds aura
donné sa réponse sur le domaine d’expertise qu’il souhaite financer.
Objectif: Le tableau de bord pour identifier les pays qui rencontrent des difficultés d’accès à l’eau potable.
Il faudra représenter des indicateurs relatifs à nos 3 domaines d'expertise.
Option A: réaliser un projet de visualisation pour l'ONG DWFA
Quelques indicateurs à suivre ont été mentionnés durant la réunion. Ce ne sont que des exemples
d’indicateurs utilisés par le passé, d’autres indicateurs pourront être utilisés :
1. le taux de mortalité dû à de l’eau insalubre ;
2. la population / densité de population ;
3. la part d’habitants ayant accès à l’eau potable ;
4. la stabilité politique du pays.
5. l’évolution de ces facteurs dans le temps.
Option B: réaliser un projet de visualisation de données en vous
appuyant sur les données de votre choix.
Vous avez la possibilité de réaliser un tableau de bord portant sur des données différentes de celles présentées
dans l'option A.
Prenez toutefois le temps de lire l’option A afin de vous inspirer le plus possible du contexte et du cadre de ce
projet.
Concernant les données, choisissez un sujet qui vous intéresse, qui vous parle ou qui est lié à un secteur dans
lequel vous aimeriez travailler. Vous devez faire valider le choix de dataset par le professeur. Vous devrez :
définir clairement un sujet et une problématique.
cadrer les différentes visualisations que vous souhaitez proposer, leurs intérêts respectifs et le niveau
d’information qu’elles permettront de lire.
1. Votre blueprint (format Word ou équivalent): détaillant le besoin des utilisateurs, mesures
spécifiques utilisées, type de visualisation utilisé
2. Votre mockup de tableau de bord (format libre)
3. Une présentation (25 slides maximum) de votre projet. Cette présentation contiendra :
des éléments sur le contexte, notamment des extraits de votre blueprint,
le prétraitement éventuel des données,
la pertinence de l’outil de visualisation retenu etc.
4. Votre dashboard, soit :
Le lien vers votre histoire Tableau sur Tableau Public, ainsi que l'exportation au format PDF
ou image ;
La version PowerBI de votre projet (fichier .pbix) ;
PJ: la synthèse des demandes via un document en présentant les indicateurs que vous avez choisi
de visualiser pour chaque vue, et ensuite que vous réalisez une version basse fidélité du résultat
final. On appelle ces documents “blueprint”, et “mockup”. Si besoin, je peux vous partager des
exemples.
Soutenance
Vous êtes Data Scientist au sein d'une société financière, nommée "Prêt à dépenser", qui propose des crédits
à la consommation pour des personnes ayant peu ou pas du tout d'historique de prêt.
Vous venez de mettre en œuvre un outil de “scoring crédit” pour calculer la probabilité qu’un client
rembourse son crédit, et classifier la demande en crédit accordé ou refusé.
Les chargés de relation client ont fait remonter le fait que les clients sont de plus en plus demandeurs de
transparence vis-à-vis des décisions d’octroi de crédit.
Prêt à dépenser décide donc de développer un dashboard interactif pour que les chargés de relation client
puissent expliquer de façon la plus transparente possible les décisions d’octroi de crédit, lors de rendez-vous
avec eux. Cette volonté de transparence va tout à fait dans le sens des valeurs que l’entreprise veut incarner.
Objectifs:
1. Mettre en production le modèle de scoring de prédiction à l’aide d’une API
2. Elaborer un dashboard interactif avec streamlit, dash, bokeh et le déployer dans le cloud pour le rendre
accessible pour d'autres utilisateurs sur leurs postes de travail.
Spécifications pour l'API
Le choix de l'outil pour créer l'API est libre (flask, fastapi, ...)
L'API doit retourné le score ainsi que la décision d'octroi ou non du crédit en fonction de l'id du client
L’API appelée doit être déployée sur le Cloud
Vous avez le choix de la solution Cloud pour le déploiement de l’API, idéalement gratuite :
Azure webapp (App Service)
Choisir l’option de l’App Service Plan avec « Sku and size » égal idéalement à « Free F1 » gratuit
(code + packages < 1 Go)
Création sur le portail Azure d’une webapp, avec mise à jour du code automatiquement via une
source Github
PythonAnywhere
Heroku, gratuit uniquement en mode “github student”
Autres solutions au choix
Spécifications pour le Dashboard
Envoi par mail le lien vers le repository GitHub public qui doit contenir les éléments suivants:
L’API de prédiction du score, déployée sur le cloud (lien vers l’API).
Le code permettant de déployer le modèle sous forme d'API
Pour l’API, un fichier introductif permettant de comprendre l'objectif du projet et le
découpage des dossiers (README.md), et un fichier listant les packages utilisés seront
présents dans le dossier (requirements.txt, requirements.yaml, ...)
Le code et le lien vers l’application de dashboard interactif répondant aux spécifications
et déployée sur le Cloud
Un support de présentation pour la soutenance, détaillant le travail réalisé, autant sur l'API
que le dashboard (25 slides maximum)
Soutenance
Vous êtes analyste marketing chez Books Online, une importante librairie en ligne spécialisée dans les livres
d'occasion. Dans le cadre de vos fonctions, vous essayez de suivre manuellement les prix des livres d'occasion sur
les sites web de vos concurrents, mais cela représente trop de travail et vous n'arrivez pas à y faire face : il y a
trop de livres et trop de librairies en ligne ! Vous et votre équipe avez décidé d'automatiser cette tâche laborieuse
via un programme (un scraper) développé en Python, capable d'extraire les informations tarifaires d'autres
librairies en ligne.
Vous êtes chargé de développer une version bêta de ce système pour suivre les prix des livres chez Books to
Scrape, un revendeur de livres en ligne. En pratique, dans cette version bêta, votre programme n'effectuera pas
une véritable surveillance en temps réel des prix sur la durée. Il s'agira simplement d'une application exécutable
à la demande visant à récupérer les prix au moment de son exécution.
Objectifs :
Récupérer les prix des livrables
Elaborer un dashboard de suivi de l'évolution des informations tarifaires (Tableau, streamlit, ...)
Missions et objectifs
Recommandations générales:
Pendant que vous travaillez, stockez votre code dans un repository GitHub et faites des commits fréquents.
N'oubliez pas de faire un commit d’un fichier requirements.txt, mais ne stockez pas l'environnement virtuel
dans le repository.
Assurez-vous que les fichiers d’output (par exemple, les fichiers CSV ou d'image) ne sont pas stockés dans le
repository.
Livrables
Lien vers le repository GitHub public qui doit contenir les éléments suivants:
l'ensemble de votre code d'application ;
le fichier requirements.txt, mais pas l'environnement virtuel lui-même ;
un fichier README.md expliquant comment créer et activer l'environnement virtuel, puis exécuter le
code d'application et contenant le lien vers l'application déployé dans le cloud (Tableau ou Streamlit)
Un dossier contenant toute la data : les données extraites et les images associées dans un format ou
une structure facile à suivre.
Un guide utilisateur décrivant comment l’application permet d’établir un pipeline ETL
Support de présentation (25 slides maximum)
Soutenance
Vous êtes Data Scientist au sein de l’entreprise "Place de marché”, qui souhaite lancer une marketplace e-commerce.
Sur cette place de marché anglophone, des vendeurs proposent des articles à des acheteurs en postant une photo
et une description.
Pour l'instant, l'attribution de la catégorie d'un article est effectuée manuellement par les vendeurs, et est donc
peu fiable. De plus, le volume des articles est pour l’instant très petit.
Pour optimiser l’expérience utilisateur des vendeurs (faciliter la mise en ligne de nouveaux articles) et des
acheteurs (faciliter la recherche de produits), et dans l'optique d'un passage à l'échelle, il devient nécessaire
d'automatiser cette tâche.
Objectifs:
étudier la faisabilité d'un moteur de classification des articles en différentes catégories, à partir du texte (en
anglais) ou de l’image, avec un niveau de précision suffisant.
Mettre en place un interface déployé sur le cloud pour tester la catégorisation des articles (streamlit, etc...) à
partir d'une image ou d'un texte descriptif
Livrables
Vous êtes Data Scientist au sein de l’entreprise "WasteNet”, pionnière dans le domaine du recyclage des ordures.
WasteNet souhaite proposé un objet de tri intelligent afin de recycler certains objets et de diminuer les impacts
néfastes sur l'environnement.
L'objectif de ce projet est de proposer un modèle prédictif capable de détecter le type d'ordure à partir d'une
image.
Vous êtes bénévole pour l'association de protection des animaux, Agir pour les animaux, de votre quartier.
Vous vous demandez donc ce que vous pouvez faire en retour pour aider l'association.
Vous apprenez, en discutant avec un bénévole, que leur base de données de pensionnaires commence à s'agrandir et
qu'ils n'ont pas toujours le temps de référencer les images des animaux qu'ils ont accumulées depuis plusieurs
années. Ils aimeraient donc obtenir un algorithme capable de classer les images en fonction de la race du chien
présent sur l'image.
Votre mission:
L'association vous demande de réaliser un algorithme de détection de la race du chien sur une photo, afin
d'accélérer leur travail d’indexation.
Recommandations
Attention sur le fait que l'entraînement (même partiel) d'un réseau de neurones convolutionnels est
très gourmand en ressources. Si le processeur de votre ordinateur ne suffit pas, voici plusieurs
solutions :
Limitez le jeu de données, en ne sélectionnant que quelques classes (races de chiens), ce qui
permettra déjà de tester la démarche et la conception des modèles, avant une éventuelle
généralisation.
Utilisez la carte graphique de l’ordinateur en tant que GPU (l'installation est un peu fastidieuse,
et l'ordinateur est inutilisable le temps du calcul).
cloud computing, qui permet d'avoir temporairement accès à des machines très puissantes, en
étant facturé seulement durant le temps d'utilisation. Le plus connu est AWS, mais d'autres
existent (Google, Microsoft...). Vous pouvez tester également Google Colaboratory ou Kaggle qui
permet de mettre en œuvre gratuitement des réseaux CNN utilisant de la GPU.
Livrables
Un notebook Python
Un programme Python qui prend une image en entrée et retourne la race la plus probable du chien
présent sur l'image via un interface.
Votre support de présentation à destination du bénévole qui gère la base de données, qui devra
déployer en production la solution que vous préconisez (25 slides maximum).
Soutenance