Vous êtes sur la page 1sur 22

Le BIG DATA :

Son importance & son architecture de


référence

Salon MED IT le 29 Novembre 2017


33

1- La donnée est plus chère que le pétrole


55

12,3 milliards de dollars

Une transformation
impressionnante !!!
1,5 milliards de dollars
1 milliards de dollars
77

L’exploitation du pétrole
88

Existe-t-il d’autres richesses qui peuvent nous rendre aussi


riches ?
Selon LESECHOS.fr :
Les GAFA, valent plus que Total, Sanofi, BNP Paribas et les 37 autres entreprises du CAC 40

Facebook vaut 4 fois la valeur de TOTAL en bourse.


Plus de 400 milliards $ en bourse aujourd’hui VS 92 Milliards $ pour
TOTAL
Année de création : Facebook : 2004 VS 1927 pour TOTAL

Facebook vend des données et Total vend du pétrole


99

La valeur de la donnée vaut plus chère que celle du pétrole

« La connaissance vaut davantage que


les matières premières »

L’économie de la connaissance vous


permet d’avoir une croissance infinie
car elle est basée sur une matière 1ère
infinie, à savoir, « la donnée ».
 
Dr. Idriss Aberkane
1010

Comment exploiter cette richesse ?


1111

La solution est trouvée chez la plus grosse référence BIGDATA en


Europe

JEMS-Datafactory
Présent à
PARIS
LONDRES
NEW YORK

Fondé 30 M€
en 2002 de CA
*prévisions 2017
1212
1414

2- La donnée possède sa propre raffinerie


DATALAKE
DE PRODUCTION
L’ARCHITECTURE DATALAKE 1616

DONNÉES
RÉFÉRENTIELLES

BESOINS
------------------------- DATALAKE EXPOSITION UTILISATEURS
SOURCES DES
EXTERNES DATATABL DONNÉES
------------------------- RAWDATA
E Requêtage
ALGORITHME Requêtage
API
ad’hoc

PORTAIL SÉCURISÉ
& CALCUL Rest
INTÉGRATION

VUES
MÉTIE
RS
------------------------- NETTOYAGE /
SOURCES CONSOLIDATION / REQUETAGE Reporting
INTERNES SÉMANTISATION / REJETS / DE DONNEES API
------------------------- ENRICHISSEMENT META Rest
DONNÉES AGRÉGATS +
STOCKAGE CALCULS
HISTORISATION ENRICHISSEMENT ODBC
RÉFÉRENTIELS CROISEMEN
TS
Data Discovery
ALIMENTATION EN BATCH ET/OU EN TEMPS RÉEL
DATAMANAGEMENT (QUALITÉ, TRAÇABILITÉ, GOUVERNANCE)
L’ARCHITECTURE DATALAKE 1717

DONNÉES
RÉFÉRENTIELLES

BESOINS
------------------------- DATALAKE EXPOSITION UTILISATEURS
SOURCES DES
EXTERNES DATATABL DONNÉES
------------------------- RAWDATA
E Requêtage
ALGORITHME Requêtage
API
ad’hoc

PORTAIL SÉCURISÉ
& CALCUL Rest
INTÉGRATION

VUES
MÉTIE
RS
------------------------- NETTOYAGE /
SOURCES CONSOLIDATION / REQUETAGE Reporting
INTERNES SÉMANTISATION / REJETS / DE DONNEES API
------------------------- ENRICHISSEMENT META Rest
DONNÉES AGRÉGATS +
STOCKAGE CALCULS
HISTORISATION ENRICHISSEMENT ODBC
RÉFÉRENTIELS CROISEMEN
TS
Data Discovery
ALIMENTATION EN BATCH ET/OU EN TEMPS RÉEL
DATAMANAGEMENT (QUALITÉ, TRAÇABILITÉ, GOUVERNANCE)
1818

ZOOM SUR L’INGESTION DES DONNEES

HUB OMNICHANNEL
1 PRODUCER INIT

Broker INCR récurrent


OGC e-CO
INCR
%LJ ' DW
D3 ODW
IRUP
Consumer JMS /
Publisher Topic JMS Publisher MAPR-
stream Real Time
Source en temps réel HUB
( 6%
DMP

JMS Output JMS Input Big Data Platform


HUB OMNICHANNEL (JSON) (JSON)

Dépôt manuel
INIT
(JSON)

3 Consumer MAPR-stream

CONSUMER
Sources en mode batch (TXT)
DM CRM

Real Time
Big Data Platform
(TXT)
Autres sources Data Lake récurrent

Enterprise Storage Database Event Streaming
INIT MapR-FS MapR-DB JSON MapR-Streams
(JSON)
INCR (JSON)
(TXT)
Zone de (JSON)

6 noeuds
Vision des flux entrants dans le Data Transfert
4 2
Lake
STREAM
- Vision INIT batch RAWDATA

- Vision RUN batch ou temps réel


LES ACTEURS
2020

Les différents acteurs BIGDATA


Identification du socle technique ( le choix des technologies)
Architect BIG DATA Etudier et gérer le dimensionnement de la plateforme
Assurer le maintient applicatif de toutes les applications

La mise en place des flux d’ingestions et de traitements des données


Data Engineer Optimisation et industrialisation des algorithmes
Déploiement en production

L’exploitation des données


Data Scientist La création du modèle de référence applicatif sur les données (algorithme) avec les descriptions
Spécification des règles d’implémentation des données

La gestion d’exploitation de toutes les applications liées à DLK en


Représentant DLK en PROD
production.
Les bonnes pratiques à
adopter
2222

Les
Les 55 facteurs
facteurs clés
clés pour
pour réussir
réussir un
un projet
projet BIGDATA
BIGDATA

• Etudier et choisir le socle technique de votre plateforme Penser à la stabilité la


1 plateforme

• Construire et définir le périmètre de responsabilité des acteurs en fonction Penser à l’exploitation de vos
2 de leurs compétences projets en production

• Oublier la modélisation classique des données et dénormaliser au


3 Penser aux performances
maximum vos Datasets.

4 • Mettre en place un outil de data management Penser à la Data Gouvernance

5 • Innover Créer de la valeur


QUELQUES
REFERENCES
GESTION DE LA FRAUDE
2424

Projet :
Lutte anti-Fraude ciblée.

Taille : 5 ETP // 700 jours (en cours)

Description :
Notre client ferroviaire souhaite optimiser son système anti-Fraude aux resquilleurs
CONFIDENTIEL (248 millions d’euros de perte annuelle), en mettant en œuvre une architecture
permettant de collecter l’ensemble des indicateurs (Capteurs machine + les Flux des
passages par station + Les paiements effectués) en temps réel et obtenir une
puissance de calcul afin de cibler les stations victimes.
Mise à jour des systèmes sources en instaurant le temps réel, mise en place du
datalake, implémentation des algorithmes développés par les datascientists, mise en
œuvre d’une console de monitoring et système d’alerte pour les agents dédies au
contrôle afin d’intervenir à la minute qui suit.

Technologies : Talend, MapR, Qlik, Spark Streaming,Python

ROI : Limitation de la fraude, 190 Millions d’euros d’économie par an.


CONNAISSANCE CLIENT
2525

Projet :
Mise en place d’un DataLake Marketing – Vision 360°

Taille : 11 ETP // 900 jours (en cours)

Description & Objectifs :


Notre client, leader de la vente de cosmétique, est actuellement en train de revoir
son programme d’animation client pour l’ensemble des pays d’Europe et du Moyen
CONFIDENTIEL Orient, l’objectif de cette réécriture des parcours clients est d’offrir une expérience
unique et sur mesure en se basant sur une connaissance approfondie des clients et
surtout en uniformisant l’ensemble des canaux de communication.
Uses cases : optimisation parcours client, conseils aux clients multi-canaux, nouveaux
services commercialisés auprès des créateurs, …

Technologies : Talend, MapR, Qlik, Java, Spark, Scala, Dataiku, R, Python

ROI : Croissance prévisionnelle de 20% niveau monde


MERCI POUR VOTRE
ATTENTION

Hicham BOUR-RHA
hbour-rha@jems-group.com

RDV AU STAND 76

Vous aimerez peut-être aussi