Vous êtes sur la page 1sur 17

PRESENTATION

PROJET DATA LAKE

Le projet est né d’un besoin :


La D.S.I souhaite mettre en place au sein de la CPAM, un environnement d’analyse et de visualisation des données.
Le système devra permettre l’ étude et la restitution des données quelques soit le canal d’entrée ou le format de celle –ci .
Le besoin des différents acteurs de la CPAM n’est pas clairement , ni précisément établis, aussi la solution retenues devra être flexible,
modulable( pouvoir répondre a des besoins non encore manifesté)
LE BIG DATA
De nos jours, les différentes entreprises mondiales répondent a leurs problématiques
d’analyse et de visualisation de leurs données par des solutions du monde du BIG DATA.
Les Data Lake et Data Warehouse permettent de stocker des données et de les traiter.

Les différences essentielles entre les deux concepts , réside dans le fait que d’une part le DATA WAREHOUSE héberge des données
uniquement et obligatoirement sous forme structurées.
D’autre part, Une Data Warehouse ne conserve que les données pouvant être utilisées pour répondre à des questions spécifiques ou pour
un rapport

Le DATA LAKE quand à lui conserve toutes les données même si elles ne sont pas utiles dans l’immédiat. Cette approche est rendue
possible par le hardware utilisé, généralement très différent de celui sur lequel repose la Data Warehouse et plus économique.
Une autre différence est que le Data Lake prend en charge tous les types de données sans exception, peu importe leur source et leur
structure. Elles sont conservées sous leur forme brute et transformées au moment d’être utilisées.

Une expérimentation d’un DATA LAKE a donc été retenu car répondant à tous les critères de nos besoins

17/11/2023
UN SHEMA SIMPLIFIE
RAPPORT
Sources ANALYSE

DATA LAKE

17/11/2023
LES SOURCES DE DONNEES

Les spécificités des données sur un Lac de Donnée :

- Tous les formats sont admis : texte, audio , images , Excel, csv, Base de donnée
- Structurés ou non structures : les données ne sont pas attendus dans un ordre, ni un
type précis
- Les données contenues dans un data lake ne sont pas définies tant qu'elles n'ont pas fait l'objet d'une demande.
- Toutes les données sont conservées brutes, elles ne seront jamais modifiées , ni supprimées
- Les analystes peuvent venir examiner ce lac, se plonger dedans, ou en extraire des échantillons
- Les données stockées dans un data lake ne sont pas transformées jusqu'à ce qu'on ait besoin de les analyser. Un
schéma est alors appliqué pour qu'elles puissent être analysées. Cette opération est appelée « schema on read »
(schéma à la lecture), car les données restent brutes

17/11/2023
UN SHEMA SIMPLIFIE
RAPPORT
Sources ANALYSE

DATA LAKE

17/11/2023
LE SCHÉMA TECHNIQUE DU DATALAKE

17/11/2023
L’ARCHICTURE HDFS : HADOOP

Un cluster, où les données et les services sont stockées sur plusieurs machines différentes, HDFS fonctionne selon un principe maître/esclaves classique :
les données y sont stockées sur les datanodes (esclaves) tandis que les localisations des blocs de données sont répertoriées par le namenode (maître).

17/11/2023
MapReduce
C’est un modèle de programmation présent au sein d’Hadoop qui permet d’effectuer des calculs en
parallèle. L’idée derrière MapReduce est de pouvoir diviser tous les traitements en deux parties (Map et
Reduce) *pour faire simple *. Les opérations de Map consistent à filtrer, trier et regrouper les données
sous forme de clé-valeur (tuple). Ensuite, les opérations de Reduce auront pour but de combiner ces
tuples afin d’obtenir le résultat souhaité.
Un exemple concret :
Imaginons qu’on aimerait compter l’occurrence de chaque mot dans un texte de façon distribuée.
L’objectif sera de découper le texte en petit morceau et compter l’occurrence des mots de chaque
morceau du texte et en faire la somme. C’est le rôle de MapReduce.

17/11/2023
Les données sources seront intégrées a notre serveur HDFS soit manuellement, par des tâches programmées, et ou par des outils comme Kafka

! Important !
Pour assurer la disponibilité et l'accessibilité des données, tout data lake doit bénéficier d'une stratégie de gouvernance et de maintenance continue.
Sans cela, vous risquez de rendre vos données inutiles, inaccessibles, encombrantes, coûteuses et inutilisables. Ces data lakes, auxquels les
utilisateurs ne peuvent plus accéder, sont qualifiés de « data swamps » (marécages de données).

17/11/2023
Apache Hive – L’entrepôt de données sur Hadoop
Apache Hive est une infrastructure d’entrepôt de données intégrée sur Hadoop permettant l’analyse, le
requétage via un langage proche syntaxiquement de SQL (appelé HiveQL ou HQL) ainsi que la synthèse
de données. Hive traduit automatiquement les requêtes en tâches MapReduce qui s’exécuteront sur
Hadoop.

17/11/2023
UN SHEMA SIMPLIFIE
RAPPORT
Sources ANALYSE

DATA LAKE

17/11/2023
L’ANALYSE DES DONNÉES

Apres , l’étape « insertion « des données brutes sur notre serveur HDFS viens l’étape de l’analyse de la données

En effet, il va falloir afin de mettre a disposition des données exploitable pour nos clients ( statisticien, reporting pour les service ou les manageurs,
service de communication, API , applications, machine Learning)
- nettoyer la donnée : les données brutes ne sont pas toujours exploitable dans l’ état, des caractères parasites, absents, troncature de chaines (string)
- préparer la données : identifier les données utile , les localiser, leurs données un format, créer un schéma de métadonnée
- construire un jeu de donnée exploitable et adaptée au besoin formulé par le demandeur, a partir de langage de programmation (scala, python)

Le but est ici de réaliser un jeu de donnée exploitable appelé : dataset

17/11/2023
Apache Spark
Apache Spark est un moteur d’analyses unifiées ultra-rapide pour le big data et le machine learning. En
d’autres termes Spark est une suite d’outils permettant d’effectuer différents traitements sur des données. La
grande particularité de Spark est qu’il permet de traiter les données plus rapidement (vraiment plus
rapidement).
Spark propose une grande variété de fonctionnalités allant de l’accès aux données via des requêtes SQL
(Spark SQL) au Machine learning grâce à MLlib.

17/11/2023
UN SHEMA SIMPLIFIE
RAPPORT
Sources ANALYSE

DATA LAKE

17/11/2023
MISE A DISPOSITION DES DATASET

Pour POWER BI :

17/11/2023
A des fin prospective : exemple trouver et
prévoir les taux de faux positif d’un test covid
au sein de la population du département 93

17/11/2023
Pour répondre a une problématique marketing, managériale, technique
Par exemple : Pourquoi mes équipements du raincy
tombent plus en panne que ceux des autres sites
et comment y remédier (logs serveurs, analyses des données switch etc …)

17/11/2023

Vous aimerez peut-être aussi