Académique Documents
Professionnel Documents
Culture Documents
Mots-clés : Big Data, Microsoft Azure Cloud, Scoring, Scikit-learn, Data Viz
Ce document résume les principaux résultats et étapes qui ont abouti à nos
différentes conclusions, dans le cadre du mémoire / rapport de stage de
validation de Master 2 d’Économétrie & Statistiques Appliquées de l’IAE de
Nantes.
Les dernières décennies ont été marquées par une explosion du nombre de
sources de données, et des volumes dont elles font l’objet. La mise à l’échelle
nécessaire aux solutions et machines sur site vis-à-vis de cet essor est très difficile
à atteindre pour la plupart des entreprises.
C’est pour cette raison que nous avons décidé d’étudier la problématique de
la mise en place d’une architecture de valorisation de la donnée dans le
cloud, et par extension de l’optimisation de ses coûts engrangés.
Page 1 sur 4
Résumé quatre-pages, rapport de stage - BRÉGAL Thibault
1. Extraction & stockage
Dans un premier temps, nos données bancaires nous ont été transmises
par la partie Data ingénierie de notre pôle, qui a rempli un lac de données
Azure Blob Storage. Les données sont stockées en format parquet afin
d’optimiser leur taille, et plusieurs vues métiers sont créées selon les demandes
des scientifiques des données. Nous nous sommes chargés de récupérer,
nettoyer, puis transformer ces données, avant de les charger dans un entrepôt
analytique.
La poussée des données vers l’entrepôt Snowflake s’est effectué via un outil dit
« ETL » : Matillion. C’est grâce à ce dernier que nous avons pu extraire les
données du Data Lake, alors compressées en format colonnes parquet, pour
les aplatir puis les héberger et les exploiter au sein de Snowflake.
Tâche
d’orchestration
Tâche de
transformation
Dans Snowflake, l’aspect T, pour Transformation, du processus ETL est assuré par
dbt. C’est cet outil qui nous a permis de modéliser différentes tables
relationnelles à partir de notre base de données. Nous avons ainsi pu nous
Page 2 sur 4
Résumé quatre-pages, rapport de stage - BRÉGAL Thibault
adapter à un besoin métier fictif et mettre en place les tables de
dimension et le linéage suivant :
À l’image de l’intégration assurée entre les outils détaillés jusqu’à présent, nous
avons connecté une instance de calcul Jupyter Notebook du service Azure ML
à notre entrepôt de données. Les 21 variables obtenues suivant l’étape de
création ont pour objectif de prédire au mieux l’appartenance à la classe
fraude des transactions du jeu de validation.
Page 3 sur 4
Résumé quatre-pages, rapport de stage - BRÉGAL Thibault
Les types de transaction les plus récurrents sont les paiements, les cash out
et les cash in ; et les transactions frauduleuses appartiennent uniquement
aux classes cash out et transfer.
Min
Modèle Criterion Max F1-score Matrice de
samples
depth confusion
split
Arbre de Entropie 2 0,1 0,979654
décision
Page 4 sur 4
Résumé quatre-pages, rapport de stage - BRÉGAL Thibault