Vous êtes sur la page 1sur 2

Consigne Projet - Cours Python

A partir de l’un des ensembles de données décrit ci-dessous, le but de


projet sera de démontrer des capacités en développement Python en
répondant au mieux à l’une des problématiques proposées.

Ensembles de données
2 ensembles de données sont disponibles. Il ne faut en choisir qu’un seul.

• Données sur les vins et la consommation d'alcool


Cet ensemble de données contient les fichiers suivants :

• Un jeu de données par type de vin, par pays avec leurs notes associées
• Un mapping des pays
• Un jeu de données de la consommation d'alcool par pays depuis les années 1960

• Données de santé publique France : Grippe


Cet ensemble de données contient les fichiers suivants :

• Données météorologiques
• Données de recherche Google
• Données de contamination de grippe
• Données socio-démographiques

Axes d’études possibles


Les axes d’études possibles sont les suivants. Il ne faut en choisir qu’un seul.

• Prévisions

Démontrer d’une capacité à utiliser Python pour manipuler, nettoyer, préparer et enrichir les
données en vue d’une modélisation statistique. Le projet évaluera la capacité à appliquer des
méthodes connues de modélisation statistique (classification, régression, clusterisation), ainsi
que l’évaluation du modèle et la méthode de validation. Le rendu devra se rapprocher du travail
préparatoire d’un Data Scientist au sein d’une entreprise et les choix devront être expliqués à
chaque étape. Celui ayant répondu à plusieurs problématiques, par exemple :

• Développement d'un modèle de classification du type de vin


• Clusterisation des vins ou des vignobles selon leurs rapports qualitée / prix
• Tout autre axe d’étude que vous jugerez pertinent.

• Analyse
Démontrer d’une capacité à utiliser Python pour manipuler les données et faire une présentation
chiffrée de l'agrégation de ces données à partir de différents axes d’études (exemples : par
magasin, rayon, événements, département, socio-démographie ...etc.). Le rendu devra se
rapprocher du travail d’un Data Analyst au sein d’une entreprise, celui-ci ayant répondu à
plusieurs problématiques, par exemple :

• Facteurs déterminants quant à la propagation de la Grippe en France


• Analyse croisée de l'évolution du prix du vin par année par pays avec la consommation
d'alcool
• Tout autre axe d’étude que vous jugerez pertinent.

• Visualisation de données
Cet axe de travail se rapproche du précédent. Démontrer d’une capacité à utiliser Python pour
manipuler les données et faire une présentation illustrée de l'agrégation de ces données à partir
de différents axes d’études (exemples : par magasin, rayon, événements, département,
sociodémographique ...etc.). Le rendu devra se rapprocher du travail d’un Data Analyst orienté
“Visualisation” au sein d’une entreprise, celui-ci ayant répondu à des problématiques identiques
à l’axe précédant.

Rapport
Il n’y a pas de support de livrable imposé. Il est conseillé de travailler sur un Jupyter Notebook
qui pourra faire office, une fois commenté (commentaire de code + cellule de texte d’explication
de la démarche) , de support de rendu final.

Compléments
Seront principalement évalués les approches de programmation permettant d’arriver au but. La
pertinence de l’analyse sera évaluée dans un second temps. L’idée étant de ne pas “faire du
beau code qui ne sert à rien” ou de “faire du code très laid pour répondre à une problématique”.
Ainsi, pour l’axe de prévision, les résultats des modèles seront évalués dans un second temps,
le but premier étant la pertinence et la qualité du code.

Vous aimerez peut-être aussi