Académique Documents
Professionnel Documents
Culture Documents
Ensembles de données
2 ensembles de données sont disponibles. Il ne faut en choisir qu’un seul.
• Un jeu de données par type de vin, par pays avec leurs notes associées
• Un mapping des pays
• Un jeu de données de la consommation d'alcool par pays depuis les années 1960
• Données météorologiques
• Données de recherche Google
• Données de contamination de grippe
• Données socio-démographiques
• Prévisions
Démontrer d’une capacité à utiliser Python pour manipuler, nettoyer, préparer et enrichir les
données en vue d’une modélisation statistique. Le projet évaluera la capacité à appliquer des
méthodes connues de modélisation statistique (classification, régression, clusterisation), ainsi
que l’évaluation du modèle et la méthode de validation. Le rendu devra se rapprocher du travail
préparatoire d’un Data Scientist au sein d’une entreprise et les choix devront être expliqués à
chaque étape. Celui ayant répondu à plusieurs problématiques, par exemple :
• Analyse
Démontrer d’une capacité à utiliser Python pour manipuler les données et faire une présentation
chiffrée de l'agrégation de ces données à partir de différents axes d’études (exemples : par
magasin, rayon, événements, département, socio-démographie ...etc.). Le rendu devra se
rapprocher du travail d’un Data Analyst au sein d’une entreprise, celui-ci ayant répondu à
plusieurs problématiques, par exemple :
• Visualisation de données
Cet axe de travail se rapproche du précédent. Démontrer d’une capacité à utiliser Python pour
manipuler les données et faire une présentation illustrée de l'agrégation de ces données à partir
de différents axes d’études (exemples : par magasin, rayon, événements, département,
sociodémographique ...etc.). Le rendu devra se rapprocher du travail d’un Data Analyst orienté
“Visualisation” au sein d’une entreprise, celui-ci ayant répondu à des problématiques identiques
à l’axe précédant.
Rapport
Il n’y a pas de support de livrable imposé. Il est conseillé de travailler sur un Jupyter Notebook
qui pourra faire office, une fois commenté (commentaire de code + cellule de texte d’explication
de la démarche) , de support de rendu final.
Compléments
Seront principalement évalués les approches de programmation permettant d’arriver au but. La
pertinence de l’analyse sera évaluée dans un second temps. L’idée étant de ne pas “faire du
beau code qui ne sert à rien” ou de “faire du code très laid pour répondre à une problématique”.
Ainsi, pour l’axe de prévision, les résultats des modèles seront évalués dans un second temps,
le but premier étant la pertinence et la qualité du code.