Vous êtes sur la page 1sur 6

Stages Data Engineer

et Data Scientist 2022


Christophe Parageaud
Thibault Brégal
Mohamed Kouyate
Hadrien Willemot
Contexte

 L’objectif du stage 1 (Self-Service) est d’étudier les possibilités de rendre complètement autonomes les
équipes en charge de l’analyse des données et de limiter les frontières qui existent entre les domaines de
Data Engineering, Data Ops et Data Science.

 L’objectif du stage 2 (Architecte) est d'étudier des systèmes d'écoute, de détection et d'échange
d'évènements, qui sont primordiaux sur les problématiques de données en temps réel, ou de données
présentant de très grands volumes.

Self-Service Architecture
Gouvernance de la donnée (sécurité, lineage, …) Alimentation de données
Automatisation Génération/traitement des données
Optimisation coûts (humain et materiel).
Environnement/planning
Self-service Architecture
Cloud AWS Cloud AWS
DataWareHouse : Snowflake DataWare House : Snowflake
Transformation des données : dbt Kafka / AWS MSK
ETL : Matillion
Streaming : Spark (Python) Streaming : Spark (Python) EMR/Databriks
Notebook : AWS Sagemaker (Jupyter)
Déploiement : Terraform, AWS Cloud Formation Déploiement : Terraform, AWS Cloud Formation
BI/Reporting : MS Power BI
Modélisation : relationelle, dénormalisée, modèle en
étoile, …
Planning
Stage self-service / Architecture

 Durée stage : 6 mois entre mars 2022 – septembre 2022

 Charge : 120 jours

 Durée sprints : 3 semaines

 Nombre de sprints : 8
Avancée du travail
Tâche Statut Description
Objectif final d'autonomie dans les tâches de récolte / analyse /
traitement / et modélisation / … / des données.
Découverte du sujet Fait 
=> Opérer de manière transversale entre Data Analyst / Scientist /
Engineer / Ops
Formation environnement
En cours Compte AWS reste à créer, formation et compréhension S3 effectuée.
AWS + création zone S3
Découverte et Intégralité des sprints détaillés et attribués à chacun d'entre-nous.
Fait 
implémentation JIRA Quelques modifications à apporter.
- Téléchargement + création des comptes GitLab effectués ;
- Configuration initiale (user.name/email) faite ;
Dévouverte et implémentation Fait  - Clés SSH générées ;
GitLab
- Repo "Projet Stage" + branches [stage 1] et [stage 2] créées ;
+
- Données bancaires recueillies ;
Création Wiki
En cours - Fichier Markdown reste à créer pour le Wiki

Découverte Kafka et AWS En cours Formation Kafka effectuée, formation EMR à faire, création des topics
EMR
Avancée du travail
Tâche Statut Description
Rédaction amorcée à partir des tâches déjà effectuées, et des
Rapport de stage En cours
documents d'entreprise mis à disposition. 

Vous aimerez peut-être aussi