Vous êtes sur la page 1sur 137

BIG DATA et l’Ecosystème Data de

l’entreprise
Anass EL HADDADI
SDIC/ENSAH/UAE, Al-Hoceima, Maroc
@AnassELHADDADI
Formateur 2

• BIG DATA INTERNATIONAL TRAINER/CONSULTANT

• ARCHITECT BIG DATA

• PhD Business Intelligence & Competitive Intelligence


Tour de table 3
Introduction
.
5

Problématique
Le contexte économique actuel

 Nouvelle concurrence féroce et parfois déloyale

 Élargissement des marchés

 Obsolescence rapide des technologies

 Croissance soutenue des innovations

 Diminution des délais de la R & D (Recherche et Développement)

 Clientèle plus informée et plus exigeante

 Les technologies de l’information catalysent ces changements


6

Problématique
Le contexte économique actuel

 Tirer parti de toutes les informations disponibles (Web, Open Data,


métier, SI, Big Data).

 Extraire des connaissances nouvelles de ces données.

 Valoriser ces connaissances déduites et les intégrer à la stratégie.

 Garder un coup d’avance.


7

Problématique
Le contexte économique actuel
8

Big Data
de l’extraction des données massives à leurs visualisation

omprendre les concepts et les


enjeux du Big Data

Les technologies du Big Data


9

Data Visualisation

Retours d’expérience et
bonnes pratiques
10

Objectifs
Big Data

Atteindre une connaissance générale des


aspects méthodologiques, technologiques du Big
Data: intérêts, difficultés, solutions actuelles et
futures.

Collecte ETL Analyse Visualisation


Partie I

COMPRENDRE
L’ÉCOSYSTÈME DATA
BIG DATA
Les concepts et les enjeux

Il n’y a pas des projets data, mais une vision data des projets
13

Qu’est-ce qu’une donnée ?


Définition de la donnée

 Un élément brut.

 Une description élémentaire d’une réalité.

Exemple : une observation ou une mesure.

 température = 35°
 âge = 2 mois
14

Qu’est-ce qu’une donnée ?


Définition de la donnée

Connaissances

Informations

Données
15

Qu’est-ce qu’une donnée ?


La notion de l’information

 Une information est un renseignement qui accroît la connaissance concernant une personne,
un objet ou un événement déterminé.

L’information peut être:

Objective, quand elle reflète un ensemble de données porteur de sens;


Subjective, quand elle résulte de l’interprétation d’un ensemble de données.

 Une donnée ne devient une information que quand elle trouve son sens par rapport à un
référentiel (un contexte, un système de valeurs, un problème à résoudre … )

• (température = 35°) : temps chaud


• (âge = 2 mois) : nourrisson
16

Qu’est-ce qu’une donnée ?


La notion de la connaissance

 La connaissance est une information


comprise, c’est-à-dire assimilée et
utilisée, qui permet d’aboutir à une
action.

Exemples :
• temps chaud et enfant
nourrisson alors risque de
déshydratation
17

Qu’est-ce qu’une donnée ?


Le système d’information

 Dans les systèmes informatiques, la donnée est la traduction codée d’une information.

Les termes « donnée » et « information » sont donc souvent synonymes dans ce contexte.

 Le rôle du système d’information (SI) peut se définir par son objectif, qui est d’assurer la saisie,
la conversation, le traitement et la circulation des informations, de façon à ce que chacun, dans
l’organisation, puisse disposer au bon moment des données dont il a besoin pour remplir sa
tâche.
18

Quelles données ?
Les différents types de données

Structurées

Semi-Structurées

Non-Structurées
19

Quelles données ?
Les données structurées

 On l'appelle structurée car sa nature et sa fonction sont identifiées par des métadonnées.

Exemple:
ventes,
commandes,
expéditions,
transactions sur les points de vente,
statistiques d’appel ou transactions par carte de crédit
20

Quelles données ?
Les données semi-structurées

 Les données semi-structurées sont des informations encadrées par des balises spécifiques,
respectant des métadonnées.
Exemple:
HTML,
XML,
les fichiers log des serveurs Web,
les donnée des capteurs,
GPS,
Télémétrie.
21

Quelles données ?
Les données non-structurées

 Les données non structurées sont des données représentées ou stockées sans format prédéfini

Exemple:
champs de texte,
commentaires de clients,
documents,
journaux de maintenance.
22

L’ère de la data
Historique

SGF OLAP Data Science

Les principes de Document XML BD 3V


Bases des BD/SGBD HTML (W3C, 1986) (W3C, 1998) Parellèles
NoSQL Fast Data
Partage SQL2, Warehouse
Modèle Prototype SGBDR TempSQL Spatial Cloud Open Data
relationnel (1975) (1985) (1994)

1960-1969 1970 1980 2010 BIG DATA

COBOL Oracle (1977) SGBDR Multimédia


NF, SQL, Commercialisés Texte, image, Data visualisation
QUEL, QBE
Audio, Vidéo (1995)
23

L’or noir du XXIème siècle ?...


24

L’écosystème digital de l’entreprise


L’environnement inforamtionnel

Lois et règlements Marchés

Forces externes Technologie

Environnement Concurrence

Secteur Industriel
25

L’écosystème digital de l’entreprise


L’environnement inforamtionnel
Face à cette situation, que faire ?

- Les entreprises doivent améliorer:

• La qualité des produits & services


la maîtrise de l’information
• La connaissance des marchés et leur dynamique par un processus
d’intelligence tel que …
• Leur position face à la concurrence

• Les coûts de production La Business Intelligence


La veille Stratégique
• La connaissance des technologies pour en tirer Le Data Mining
profit Machine learning
……
Big Data ?
L’écosystème Data Interne
27

L’écosystème digital de l’entreprise


L’écosystème interne – Du transactionnel au décisionnel
• Les années 60 : les premières bases de données

• 1970 : E. F. Codd, chercheur au sein d’IBM, énonce huit formes normales pour concevoir un système transactionnel
robuste.

• Inventer le SGBDR , RDBMS en anglais.

• Devenir le socle indispensable de l’OLTP ( OnLine Transaction Processing, soit en français: processus de transaction en
ligne).

• OLTP : toutes les opérations de gestion de l’entreprise peuvent être modélisées comme des transactions.

• Une transaction est cohérente : elle modifie les objets de la base de données de telle manière qu’ils soient
28

L’écosystème digital de l’entreprise


L’écosystème interne – Du transactionnel au décisionnel
• Les systèmes OLTP et les SGBDR ont littéralement envahi l’entreprise moderne.

• ERP ( Enterprise Resource Planning ou progiciel de gestion intégré ) , CRM (


Customer Relationship Management ou la Gestion de la Relation Client (GRC)),
gestions de stocks, comptabilité, caisses électronique …

• Remplissage des BdD transactionnelles :


• des millions d’enregistrements,
• des milliards de transactions,
• dans des milliers de tables liées les unes aux autres par un schéma complexe
• Normalisation
• Répond parfaitement au besoin de gestion de l’activité.

Reste opaque pour les gestionnaires de l’entreprise


29

L’écosystème digital de l’entreprise


L’écosystème interne – Du transactionnel au décisionnel
• À partir de cette mine d’informations
• Augmenter la connaissance sur le fonctionnement de l’entreprise ?
• Sur les actions qui ont été profitables ?
• Sur les produits en forte croissance ?
• Sur les goûts des clients ?
• Sur la qualité de production ?
• Sur les niveaux de stock ?
Augmenter la connaissance pour améliorer
le processus de prise de décision : Décider
mieux et plus vite.
30

L’écosystème digital de l’entreprise


L’écosystème interne – Du transactionnel au décisionnel
• Les services informatiques :
• Des algorithmes ;
• Des requêtes sur des bases transactionnelles.

• MAIS :
• Parcourir de nombreuses tables en suivant des relations complexes ;
• Les données sont volatiles ;
• Elles ne sont pas conservées en ligne mais sur des systèmes de sauvegarde ;
• Chaque logiciel possède son schéma de données ….

Comment rapprocher toutes ces informations ?


31

L’écosystème digital de l’entreprise


L’écosystème interne – Du transactionnel au décisionnel
L’informatique décisionnelle, est l’ensemble des réponses à ce besoin. Il concentre les
différentes techniques qui permettent à une organisation de disposer de l’information
juste et à temps pour prendre des décisions et mesurer leurs résultats

Principe de base 2ème principe 3ème principe

OLAP (OnLine Analytical Processing)


– E. F. Codd (1993) La distribution ou la mise à Conserver les données produites
Une remise à plat du schéma disposition de l’information qui doit par les transactions dans une BdD
normalisé, la dénormalisation, être accessible facilement à un isolée des systèmes de production :
création d’axes d’analyse simples et utilisateur non initié. DW
orientés métier : les dimensions.
32

L’écosystème digital de l’entreprise


De l’ETL à l’EIM
L’EIM ou Enterprise Information Management est une solution permettant de :

Exemples : PowerCenter Informatica, SQL Server Integration Services

Exemples : Oracle MDM, SQL Server Master Data Services

Exemples : Caisse d’Epargne, Galerie Lafayette, regroupement de données applicatives

Exemples : Machine learning, Big Data, Internet des objets


33

L’écosystème digital de l’entreprise


De l’ETL à l’EIM

Action globale des EIM :


34

L’écosystème digital de l’entreprise


De l’ETL à l’EIM
Pour ce faire les EIM embarques des outils additionnels à la BI :

EII (Enterprise Information Integration)


35

L’écosystème digital de l’entreprise


De l’ETL à l’EIM
EAI (Enterprise Application Integration)
36

L’écosystème digital de l’entreprise


De l’ETL à l’EIM
37

L’écosystème digital de l’entreprise


De l’ETL à l’EIM
L’écosystème Data Externe
39

L’écosystème digital de l’entreprise


L’écosystème externe – La veille stratégique

H. Lesca , (Equipe certifiée ISO 9001 en 1998 en : Recherche, Intervention et Formation en Veille Stratégique)

« La veille stratégique est le radar de l’entreprise, une composante fondamentale de l’intelligence de


l’entreprise. Par veille stratégique, nous désignons le processus informationnel par lequel l’entreprise se met à
l’écoute anticipative de son environnement socio-économique dans le but créatif d’ouvrir des fenêtres
d’opportunités et de réduire les risques liés à l’incertitude.»

L'AFNOR (norme XP X 50-053, avril 1998) donne une définition concise de la veille :

« Activité continue et en grande partie itérative visant à une surveillance active de l’environnement
technologique, commercial, concurrentiel,…, pour en anticiper les évolutions. »
40

L’écosystème digital de l’entreprise


L’écosystème externe – La veille stratégique
La veille stratégique est le processus par lequel l’entreprise :

Observe Recherche Localise Traite Analyse Diffuse

L’information stratégique à des buts: Décisionnels & Compétitifs

La veille est donc « un Système d’Information » ouvert sur l’extérieur ayant pour objet l’écoute de
l’environnement de l’entreprise pour capter et anticiper les grandes tendances à venir, et ainsi de conforter le
processus de décision interne.
41

L’écosystème digital de l’entreprise


La transformation numérique a submergé les entreprise …
42

L’écosystème digital de l’entreprise


La transformation numérique a submergé les entreprise …

Exploration
Extraction
Extraction des
Tirer parti de toutes les informations connaissances
disponibles (web, Open Data, métier,
SI, Big Data)

Valorisation
Exploitation
Valoriser les connaissances
La maîtrise de flux
déduites et les intégrer à la
d’information
stratégie
43

L’écosystème digital de l’entreprise


La transformation numérique a submergé les entreprise …

Management de la data
L’écosystème digital 44

de l’entreprise
Management de la data – Cycle
de vie de la donnée
45

L’écosystème digital de l’entreprise


Management de la data – Cycle de vie de la donnée

Organise Conditionne

• Gestion des • Management


connaissances • Intelligence stratégique de • Gouvernance des
Collective l’information systèmes Entreprise 4.0
d’information

Facilite Pilote
Le flux d’information 46

Problème
décisionnel
Analyse stratégique

Protection de l’information
Scénarios
Stratégie

Cibles
Veille Stratégique

Veille

Informations Informations
élaborées utiles Sources

Système d’information
47

L’écosystème digital de l’entreprise


Management de la data – Cycle de vie de la donnée

Data Data Data


Sourcing
Warehousing Analytics Visualisation

Big Data Mining : de l’extraction de données à leur visualisation


48

Big Data
de l’extraction des données massives à leurs visualisation

Les 3V
Analyse concurrentielle Outils d’analyse
(Michael Porter) de données
Big Data (ACM)

1967 1980 1985 1987 1989 1994 1997 2001 2009 2013

BDD et sources Rapport Martre


1ère définition La BI devient
d’informations (Henri Martre)
moderne (Harold une priorité
(Leonard Fuld) Des questions critiques
Wilensky)
pour le Big Data
La structure des SIE
(Ben Gilard, John E. Prescott)
BIG DATA, c’est quoi ?
Les concepts et les enjeux
50

Big Data
Pourquoi ?
 Explosion des volumes des données générées sur le web, web mobile...
 Réseaux sociaux: Facebook,T witter,..
 Moteurs de recherche : Google, Yahoo, Bing
 Internet des objets
 Sites commerciaux
 Appareils mobiles
 Capteurs
 Systèmes d’information des entreprises
 + Disponibilité, ouverture des données
 Open data: données ouvertes au grand public
 Gouvernement
 Industries
 Services : transports, météo, ...
 ...
51

Big Data
Pourquoi ?

 ..+ Limites des SGBD

 Capacités de stockage / traitement des SGBD


 1980 : Teradata database machine
 2010 : Oracle Exadata Database machine
 Nature/type des données
 Structurée ou semi-structurées
 Vitesse de stockage
 Temps de stockage ne suit pas le progrès en termes de vitesse des réseaux

 ...Passage à l’échelle des SGBD à quel coût ?


52

Big Data
Pourquoi ?
Exercice : Quel est le
coût de stockage de 48
heures de vidéo
extraites de Youtube
dans une base ORACLE
Exadata vs. système Big
Data dédié
53

Big Data
À quoi ça sert ?
 Prédire les conflits mondiaux
L’outil GDELT, développé par l’université de Georgetown et accessible de manière open source, compile toutes les
actualités (communiqués de presse, articles, discours...) parues depuis 1979. Il applique ensuite des techniques
d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension des événements récents et
des principes de cause à effet pour arriver à prédire les conflits mondiaux

 Gérer les catastrophes naturelles


En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la
Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en
optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013

 Faire de la veille sanitaire


Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but
d’aider à contrôler la propagation d’épidémies. De la même manière, la police de Chicago utilise le Big Data et la
visualisation de données pour contrôler les populations de rats dans la ville.
54

Big Data
À quoi ça sert ?
 Cibler les clients sur le web
Dans le marketing web par exemple, le phénomène d’enchères en temps réel (Real-Time-Bidding – RTB), s’appuie sur de
la data en mouvement pour proposer une publicité spécifique en fonction de l’utilisateur qui se connecte au site.
L’entreprise Turn par exemple, classe l’utilisateur dans un segment lorsqu’il se connecte au site, en fonction de son
historique de navigation et des informations issues de réseaux sociaux et lui affiche la publicité de l’annonceur ayant
fait la meilleure enchère pour ce segment...en moins de
10 millisecondes - http://www.data-business.fr/big-data-definition-enjeux- etudes-cas/#sthash.kRSvs3hq.dpuf

 Bien d’autres...
 Secteur des Télecom. : analyse de la qualité de service en temps réel
 Secteur des banques : prévention des fraudes et gestion du risque
 Secteur des transports : optimisation de trafics et des taux de
 remplissage
 Secteur de l’éducation : au travers des Massive Open Online Courses : pour comprendre les comportements des
apprenants, et adapter les programmes
 ...
55

Big Data, c’est quoi ?


Quelques Définitions
Définition 1 :

« data of a very large size, typically to the extent that its


manipulation and management present significant logistical
challenges » Oxford English Dictionary, « données de très grande
taille, dont la manipulation et gestion présentent des enjeux du point
de vue logistiques »
56

Big Data, c’est quoi ?


Quelques Définitions
Définition 2 :

« datasets whose size is beyond the ability of typical database


software tools to capture, store, manage, and analyze » McKinsey,
2011, « collections de données dont la taille dépasse la capacité de
capture, stockage, gestion et analyse des systèmes de
gestion de bases de données classiques»
57

Big Data, c’est quoi ?


Quelques Définitions
Définition 3 :

avantage concurrentiel au travers de


« Le Big Data vise à tirer un
méthodes de collecte, d’analyse et d’exploitation des données qu’on ne
pouvait utiliser jusqu’à présent du fait des contraintes économiques,
fonctionnelles et techniques liées aux volumétries, à la vitesse de
traitement et à la variété des données à considérer. »
Source “The 451 Group” & Gartner
58

Big Data, c’est quoi ?


Quelques Définitions

Megadonnées « données structurées ou non dont le très grand volume requiert


des outils d’analyse adaptés »
59

Big Data, c’est quoi ?


Données provenant de plusieurs sources
60

C’est quoi la Big data?


Qu’est ce qui se passe chaque minute sur Internet ?
61

C’est quoi la Big data?


Qu’est ce qui se passe chaque minute sur Internet ?
62

C’est quoi la Big data?


Qu’est ce qui se passe chaque minute sur Internet ?

https://www.bondhighplus.com/2022/01/08/what-happen-in-
an-internet-minute/

https://www.domo.com/data-never-sleeps#
63

C’est quoi la Big data?


Big Data : Statistiques et Chiffres Clés en 2023
 Il y a 2,80 milliards d'utilisateurs
mensuels de Facebook lorsqu'il s'agit de
comptes actifs. Chaque jour, WhatsApp,
Messenger, Instagram et Facebook
reçoivent la visite de pas moins de 1,8
milliard d'utilisateurs.

 Chaque minute, plus de 500 000 tweets


sont publiés sur Twitter.

 Chaque jour, Google reçoit plus de 3,5


milliards de recherches. Parmi celles-ci,
pas moins de 15 % des nouvelles
requêtes n'ont jamais été effectuées
auparavant.
64

C’est quoi la Big data?


Big Data : Statistiques et Chiffres Clés en 2023
 Jusqu'à 65 milliards de messages sont
envoyés via WhatsApp chaque jour.

 Netflix économise 1 milliard de dollars


chaque année en utilisant le Big Data.

 Volume de données non structurées :


Chaque personne ajoutera 1,7
mégaoctet par seconde à l'Internet en
2020.
65

C’est quoi la Big data?


Big Data : Statistiques et Chiffres Clés en 2023
 L'incapacité à traiter les données non structurées est une préoccupation importante pour 95 % des
entreprises.

 Les données non structurées représentent désormais 80 à 90 % de tout ce que les internautes créent.
66

Big Data et la règle des 3V


Les 3V?

 La définition communément acceptée par les principaux “acteurs” se


résume à la création de valeur par la combinaison de ces 3V.
67

Big Data et la règle des 3V


V comme Volume
• 150 millions de tweets par jour
• 60 millions de mises à jour sur Facebook
• 180 millions de blogs
• 135 millions de comptes linkedin
• 63,6 Millions de tablettes vendues en dans la monde en 2011
• En France
 19 millions de tweets par jour
 20 millions de mises à jour sur Facebook
 20 millions de blogs
 3 millions de comptes linkedin
 5 millions de comptes Viadeo, ….
68

Big Data et la règle des 3V


V comme Variété
• Données relationnelles classiques (Tables, Transaction, relations, …)

• Les données de types texte (issues des réseaux sociaux, du web, ….)

• Les données Semi-structurées (XML)

• Les données graphiques

• Les données vidéo, ….

• Les données publiques (infos en ligne, météo, finances, …)


69

Big Data et la règle des 3V


V comme Vitesse
• Il est ici question de la vitesse à laquelle les données sont créées et doivent être stockées, analysées et
visualisées.

• On dénombre environ :
• 100 heures de vidéo sur Youtube téléchargé / minute
• 200 millions de mails / minute
• 20 millions de photos visualisées 30.000 téléchargé sur Flickr par minute
• 2,5 millions de requêtes sur Google sont effectuées
• …

• Le défi à ce niveau pour les entreprises réside donc dans la capacité à capter, stocker et analyser ces
données pour une utilisation optimale.
70

Big Data et la règle des V


Des 3V au 4V
71

Big Data et la règle des V


V comme Véracité

• Le modèle des 3V, toujours d’actualité, est complété par IBM qui ajouta
un 4ème V

• Avoir un grand nombre de données dans différents volumes entrant à


grande vitesse est sans valeur si les données sont incorrectes.

• Cette dimension est essentielle car elle apporte aux données, bientôt
transformées en information :
• De la fiabilité,
• De la qualité
• De la pertinence des données

• Elle élimine ainsi, les risques d’incertitudes avant les prise de décisions
72

Big Data et la règle des V


Au delà des 4V: les 6V
Les Big Data ne se résument pas aux 4V, très descriptifs. Il devient
en effet fréquent de voir la définition des 4 V complétée par un Volume
5ème, voire un 6ème V

• V comme Valeur : la valeur représentée par ces données Visibilité Variété


apporte de nouvelles connaissances

• V comme Visibilité : pour la visibilité des données à travers les Big Data
TDB récapitulatifs ou Dashboard
Valeur Vitesse

Véracité
73

Big Data et la règle des V


Et c’est pas fini …
• Data Visualisation : Pour la représentation intelligentes,
pratiques et interactives des données.
74

Big Data et la règle des V


Et c’est pas fini …

Le Volume (Volume) La Véracité (Veracity)

La Vitesse (velocity) La Validité (Validity)


Les V de
Big Data
La Variété (Variety) La Vulnirabilité (Vulnirability)

La Variabilité (Variability) La Volatilité (Volatility)

La Valeur (Value) La Visualisation (Visualization)


75

Big Data
L’analyse de Big Data, c’est…

 Une stratégie technologique facilitant l’avantage


concurrentiel
 Travailler avec des données diverses et variées
 Le traitement en temps réel d’un flux continu de
données
 Des ressources décentralisées
 Un nouveau paradigme dans lequel l’informatique
collabore avec les acteurs commerciaux et les “Data
Scientists”
 Déplacer la prise de décision vers la base de l’entreprise
Modèles économique de Big Data et l’open data
77

Big Data
Les usages: les 3 p

 identifier un risque,
Prévention  identifier un danger
 et si possible, le prévenir.

Personnalisa- BIG
tion
DATA

 Connaissance client approfondie  pour mieux anticiper


 Personnalisation des offres  prévoir la demande, les problèmes,
 Offre sur mesure Prévision les comportements, les goûts
 des recommandations pertinentes
et personnalisées
78

Big Data
Pour qui ? Pourquoi ?
 Cibler et mieux comprendre les clients
 Engins de recommandations
 Modèles prédictifs pour la publicité et les offres de produits ciblés
 Rétention de la clientèle
 Influenceurs dans les réseaux sociaux
 Optimiser et mieux comprendre les processus d’affaires
 Gestion de la chaîne d’approvisionnement
 Gestion des risques
 Science et recherche
 Astrophysique
 Physique et chimie
 Sciences de la vie
 Science des matériaux
 Environnement
79

Big Data
Pour qui ? Pourquoi ?
 Monitoring des signes vitaux et améliorations de la performance physique personnelle
 Senseurs personnels (« wearables »)
 Soins de santé, médecine publique
 Génomique
 Médecine personnalisée
 Épidémiologie
 Diagnostic
 Études cliniques
 Performance sportive
 Programme d’entraînement
 Performance individuelle et d’équipe
80

Big Data
Pour qui ? Pourquoi ?
 Maintenance et optimisation de la performance de machines
 Diagnostic
 Maintenance préventive
 Ajustement des conditions d’opération
 Autonomie accrue
 La loi, l’ordre et la sécurité publique
 Contre-terrorisme
 Activités criminelles
 Détection de fraude
 Cyber-attaques
81

"Une donnée ouverte


(en anglais open data) Open Data
Site Web
est une information Définition
Web invisible
publique brute, qui a
Internet Newsgroups
vocation à être
Mailing-lists
librement accessible et
Newsletters
réutilisable. La
philosophie pratique des
données ouvertes 5000 Brevets
préconise une libre Banques
Info. Scientifiques - techniques
de données
disponibilité pour tous et professionnelles Données économiques
chacun, sans restriction
de copyright, brevets ou
Experts
d'autres mécanismes de Réseaux de
contacts
contrôle Organismes
Data Pipline
83

Data Pipeline
“Why are you using data and pipeline in the
same sentence?”

For those who don’t know it, a data pipeline is


a set of actions that extract data (or directly
analytics and visualization) from various
sources.

It is an automated process: take these columns


from this database, merge them with these
columns from this API, subset rows according
to a value, substitute NAs with the median and
load them in this other database. This is known
as a “job”, and pipelines are made of many
jobs.
84

Data Pipeline
85

Data Pipeline
86
87
Modèle logique NoSQL orienté documents
Agent de collecte XEW Agent de reformatage XEW
DATA LAKE

P2:RE P3:TR

P1:AQ
Vue réelle Vue conceptuelle

STRUCTURES P1:AQ – Acquisition des données


P2:RE – Reformatage des données
P3:TR – Transformation et génération des schémas logique
Les impacts du Big Data sur l’organisation
Étre sans Big Data, c’est comme être aveugle et sourd au milieu
d’une autoroute. Geoffry Moore
89

L’intérêt du Big Data pour les entreprises


Ouverture de nouvelles perspectives
De plus en plus de données sont disponibles en temps réel (interactions clients online, données de
géolocalisation et de capteurs)

Ces données peuvent être utilisées pour interagir en temps réel aux situations :
 Personnalisation des interactions clients
 Diagnostic temps réel des situations

Mais les systèmes actuels de traitements analytiques des données sont généralement asynchrones...
90

L’intérêt du Big Data pour les entreprises


Si on sait les analyser, la valeur tirée du Big Data peut s’avérer extrêmement stratégique

Connaissance
clients

Smart Marketing
alarming relationnel

Nouveaux
Services

Marketing Maintenance
produit prédictive

Détection de
fraude
91

L’intérêt du Big Data pour les entreprises


Les points à retenir

 Le volume des données collectées explose


 Les technologies ont convergé vers la disponibilité, l’accessibilité et la personnalisation
des données
 De nouvelles possibilités d’innovation et de création de valeur à partir des Big Data
émergent
 Il y a des implications fortes sur les résultats des entreprises et un effet d’une grande
portée sur l’économie
 Il y a des défis majeurs à prendre en considération pour tirer profit de cette
« révolution data »
92

L’intérêt du Big Data pour les entreprises


Les principaux défis à relever

Politique des données Accès aux données

• « Privacy » - Accès aux données externes


• Sécurité des données - Intégration avec les données
• Propriété intellectuelle internes

Technologie Conduite du changement

• Déploiement des technologies • Manque de ressources


• Intégration avec les systèmes • Un management qui comprend
« historiques » les « Big Data »
• Innovation continue
93

Les impacts du Big Data sur l’organisation


L’impact économique du Big Data

 Le business des données pour les entreprises.

 Opportunité de monétisation des données.

 Valorisation et commercialisation des données.

 Le marketing.

 CRM.
94

Les impacts du Big Data sur l’organisation


L’impact économique du Big Data

• Ventes et marketing

• Acquérir plus de clients


• Retenir les clients existants
• Vente croisée / vente incitative
• Augmenter le panier d’achat
• Augmenter le trafic en magasin
• Optimiser la tarification et le rendement
• Augmenter le taux de conversion
• Améliorer l’efficacité et la publicité
95

Les impacts du Big Data sur l’organisation


L’impact économique du Big Data

• Opérations

• Optimiser la performance du réseau


• Prévoir les problèmes de maintenance
• Éliminer les abus
• Prévoir l’utilisation / capacité
• Augmenter les taux de service
• Réduire les ruptures de stock
• Consolider les fournisseurs
96

Les impacts du Big Data sur l’organisation


L’impact économique du Big Data

• Opérations

• Optimiser la performance du réseau


• Prévoir les problèmes de maintenance
• Éliminer les abus
• Prévoir l’utilisation / capacité
• Augmenter les taux de service
• Réduire les ruptures de stock
• Consolider les fournisseurs
97

Les impacts du Big Data sur l’organisation


Leviers de valeur économique du Big Data
Leviers du Big Data Impacts sur le monétisation des données
Données transactionnelles (sombres) : plus de Décisions plus granulaires et détaillées (localisation,
données transactionnelles détaillées (ex.: cartes de saisonnalité, multidimensionnelle )
crédit, RFID)
Données non structurées: divers données internes Décisions plus complètes et précises (nouvelles
(courriel, commentaires) et externes (réseaux métriques, dimensions et attributs dimensionnels)
sociaux, applications mobiles)
Vitesse des données : accès à faible latence (en Décisions plus fréquentes et opportunes (par heure
temps réel) et non par semaine : actualisations du modèle
analytique à la demande)
Analytiques prédictives : causalité, indicateurs, Décisions plus exploitables et prédictives (optimiser,
instrumentation, expérimentation recommander, prédire, évaluer et prévoir)
98

Les impacts du Big Data sur l’organisation


L’impact organisationnal du Big Data

• Supervision de l’activité

• Identification des perspectives

• Optimisation de l’activité

• Monétisation des données

• Métamorphose de l’entreprise
99

Chiffres Big Data : les nombres du présent


Le Big Data, c’est l’avenir, mais c’est aussi le présent.

• Data Scientist est le job numéro 1 du classement Glassdoor 2017: le


salaire médian est de 91 000 dollars.

• L’adoption des outils Cloud BI a augmenté de 50% en trois ans (2013-


2016)

• Le volume de données mondiales double tous les trois ans: Selon IBM,
90% des données mondiales ont été créées au cours des deux dernières
années. Chaque jour, 2,5 quintillions de bytes de données sont générés.
100

Chiffres Big Data : les nombres du présent


Le Big Data, c’est l’avenir, mais c’est aussi le présent.

• Selon Evans Data, en 2017, 6 millions de développeurs travaillent sur des


outils Big Data.

• Selon SNS Research, les dépenses effectuées dans le Big Data ont atteint
57 milliards de dollars en 2017.

• Le marché de la Business Intelligence et des analyses de données a atteint


une valeur de 18,3 milliards de dollars en 2017. Ceci représente une
hausse de 7,3% par rapport à 2016. D’ici 2020, les analystes estiment que
le marché représentera 22,8 milliards de dollars.
101

Chiffres Big Data : les nombres du présent


Le Big Data, c’est l’avenir, mais c’est aussi le présent.

• Selon Dell, 72% des employés américains ont déjà partagé des données
sensibles ou confidentielles de leur entreprise.

• 1,2 billion de dollars de plus pour les entreprises qui se servent du Big
Data

• 75% des entreprises comptent implémenter l’IA et le Big Data à leur


activité d’ici 2020.

• 203 milliards de dollars générés par le Big Data en 2020 (générer 130,1
milliards de dollars en 2016).
102

Chiffres Big Data : les nombres du présent


Le Big Data, c’est l’avenir, mais c’est aussi le présent.

• Intel prédit 200 milliards d’objets connectés en 2020.

• Selon Gartner, 50% des requêtes BI sont effectuées vocalement en 2020.

• 1,7 megabyte de données créé chaque seconde par chaque personne en


2020.

• Chaque jour, les utilisateurs du monde entier génèrent environ


2,5 quintillions d'octets de données.
103

Chiffres Big Data : les nombres du présent


Le Big Data, c’est l’avenir, mais c’est aussi le présent.

• Avec un débit internet moyen, il faudrait à une personne environ


181 millions d'années pour télécharger toutes les données
présentes sur l'internet en ce moment.

• Les gens passent 33 % de leur temps total sur Internet à utiliser


les réseaux sociaux.

• Chaque jour, les consommateurs passent près de 7 heures sur


Internet.
104

Chiffres Big Data : les nombres du présent


Le Big Data, c’est l’avenir, mais c’est aussi le présent.
Le Big Data dans les affaires
• La plupart des entreprises consacrent beaucoup d'efforts au
Big Data et à l'IA, plus de 97 % des répondants à l'enquête
déclarant y investir.

• Le nuage héberge actuellement 67 % de l'infrastructure des entreprises.

• L'incapacité à exploiter le Big Data peut entraîner la faillite de près de 80


% des organisations.

• Les clients sont 23 fois plus susceptibles d'acheter à une entreprise qui
105

Chiffres Big Data : les nombres du futur


Les prédictions pour le futur

• Le marché de l'analyse du Big Data dans le secteur bancaire devrait


atteindre 62,10 milliards de dollars d'ici 2025.

• Le marché du Big Data pour l'analyse des soins de santé devrait atteindre
67,82 milliards de dollars d'ici 2025.

• Le marché mondial du Big Data et de l'analytique est évalué à 49 milliards


de dollars.

• Les clients sont 23 fois plus susceptibles d'acheter à une


entreprise qui utilise des données.
106

Chiffres Big Data : les nombres du futur


Inconvénients du Big Data

• Les cyber-escroqueries ont augmenté de 400 % depuis le début de la


pandémie.
Concepts architecturaux
Big Data
108

Architecture fonctionnelle
Vue d’ensemble

Processing

Data
Exchange Consume
Management

Storage
109

Concepts architecturaux
Limitations & Besoin

• Besoin : Traitement et stockage massif des gros volumes de données.

• Limites : Ajouter plus de puissance aux machines :


• Stockage : Disque dur, mémoire…
• Traitement : CPU, parallélisme …

• Solutions : Archiver et traiter l’information de façon distribuée afin de


bénéficier de plus de capacité de puissance.

• Le big Data repose principalement sur les notions des systèmes distribués !
110

Concepts architecturaux
Scalabilité verticale vs. Scalabilité horizontale

Scale-up Hardware
Scale-up Limitation !

8 CPU
16 CPU
16 GB

32 GB

Augmenter la puissance d’un système en ajoutant du matériels plus puissants


111

Concepts architecturaux
Scalabilité verticale vs. Scalabilité horizontale
24 CPU, 48 GO

8 CPU Scale out 8 CPU 8 CPU 8 CPU

16 GB 16 GB 16 GB 16 GB

X CPU, Y GO

8 CPU 8 CPU 8 CPU 8 CPU ……


Scale out
16 GB 16 GB 16 GB 16 GB

Augmenter la puissance d’un système en ajoutant de nouvelles machines


112

Concepts architecturaux
Partitionnement - Sharding
• Répartir les données et
Collection A
traitements sur de multiples
serveurs sur un cluster.
1 TB
1 TB
• Le partitionnement permet 1 TB
d’absorber la charge (de stockage Cluster
Serveur logique
ou de traitement).

Nœud 1 Nœud 2 Nœud 3 Nœud 4

256 256 256 256


GB GB GB GB
113

Concepts architecturaux
Réplication
• Copier la donnée en de multiples exemplaires
sur plusieurs nœuds du cluster.
• Permet de garantir la disponibilité de l’ensemble Collection A
des données même quand un nœud du cluster
disparaît (maintenance, crash, …)
A B C RF = 3
• La probabilité de perte d’un nœud croît avec la
taille du cluster.
• Meilleur performance et sécurité.

Nœud 1 Nœud 2 Nœud 3 Nœud 4

A C A B B C A B C
114

Concepts architecturaux
Architecture des disques

• JBOD vs RAID
• JBOD : Jost a Bunch Of Disks (3 disques de 1T = 3to de stockage)
• RAID : Redundant Array of Independant Disks (réplication physique)

• Quand utiliser quoi ?


• JBOD : Système avec redondance  nœuds worker et de données
• RAID : Système sans redondance  Nœuds Master, gestion du sytème

• Avantage :
• JBOD : Gagner de l’espace disque, facile a mettre en place…
• RAID : Fiabilité de données, mais coûte plus cher…
115

Concepts architecturaux
Architecture des disques

JBOD RAID 0 RAID 1

A1 A64 A92 A1 A2 A1 A1
A2 A65 A93 A3 A4 A2 A2
A3 A66 A94 A5 A6 A3 A3
A4 A67 A95 A7 A8 A4 A4

Striping mirrorin
g
Disk 0 Disk 1 Disk 2 Disk 0 Disk 1 Disk 0 Disk 1

distribution réplication
116

Concepts architecturaux
Architecture des disques

RAID 5 RAID 6

A1 A2 A3 Ap A1 A2 A3 Ap Aq
B1 B2 Bp B3 B1 B2 Bp Bq B3
C1 Cp C2 C3 C1 Cp Cq C2 C3
Dp D1 D2 D3 Dp Dq D1 D2 D3
Eq E1 E2 E3 Ep

Disk 0 Disk 1 Disk 2 Disk 3 Disk 0 Disk 1 Disk 2 Disk 3 Disk 4

Single parity double parity


117

Concepts architecturaux
Architecture des disques
RAID 0 RAID 1

A1 A2 A1 A1
A3 A4 RAID 10
A2 A2
A5 A6 A3 A3
A7 A8 RAID 0 RAID 1
A4 A4
A1 A2 A1 A1
A3 A4 A2 A2
A5 A6 A3 A3
Disk 0 Disk 1 Disk 0 Disk 1 A7 A8 A4 A4

Disk 0 Disk 1 Disk 2 Disk 3


118

Concepts architecturaux
Architecture des nœuds – Master / Slave
• Les nœuds master sont soit impliquer dans les opérations, soit ils sont simplement un rôle mendiant
d’acheminement, d’orchestration des opérations.
Application
read Driver
SPOF
read write

Nœud Master

Peut s’occuper de sharding /


replication
A connaissance de la topologies
Nœud Slave Nœud Slave
119

Concepts architecturaux
Architecture des nœuds – Peer to Peer
• Tout les nœuds sont égaux
• Topologie connu par chaque nœud et non par le master

Nœud 1
75 - 99 0 - 24

R/W

Application
Nœud 4 Nœud 2
Driver

50 - 74 25 - 49
Nœud 3
120

Concepts architecturaux
Election des noeuds

Nœud Primaire
Master
Réplication Réplication

Nœud Secondaire Heartbeats Nœud Secondaire


Slave Slave

Election d’un nouveau nœud primaire

Nœud Primaire Nœud Secondaire


Master Slave
Heartbeats
121

Concepts architecturaux
Election des noeuds

Nœud Primaire
Master
Réplication

Nœud Secondaire Heartbeats


Arbiter
Slave

Election d’un nouveau nœud primaire


Utilisé simplement pour le vote

Nœud Primaire
Arbiter
Master
Heartbeats
122

Concepts architecturaux
Théorème de CAP

CAP (par Eric brewer en 2009 - conférence


ACM) Consistency
• The data is the same across
 Consistency (cohérence) : tous les • the cluster, as the same given
time
nœuds sont à jour sur les meme
données au même moment

 Availability (disponibilité) : la perte d’un


nœud n’empêche pas le systéme de
Availability Partition tolerance
fonctionner et de server l’intégralité des • the cluster continues to
• the ability to access the
données cluster even if a node in
function even if there is
a communication beaks
the cluster goes down
between two nodes
 Partition tolerance (résistance au
morcellement) : Chaque nœud doit
fonctionner de manière autonome
123

Concepts architecturaux
Théorème de CAP

Consistency
• The data is the same across
• the cluster, as the same given
time

Availability Partition tolerance


Most • the cluster continues to
• the ability to access the
cluster even if a node in
P2P function even if there is
a communication beaks
the cluster goes down
between two nodes
124

Concepts architecturaux
Théorème de CAP
Cassandra,CouchDB,Dynamo
Availability Partition-tolerance

Constrained by
CAP Theorem

Consistency
125

Les architectures Big Data


L’écosystème Hadoop
126

Les architectures Big Data


L’architecture Batch

(Parageaud, 2016)
127

Les architectures Big Data


L’architecture Batch Incrémentale

(Parageaud, 2016)
128

Les architectures Big Data


L’architecture temps réel
129

Les architectures Big Data


L’architecture Lambda
130

Les architectures Big Data


L’architecture Kappa
131

Les architectures Big Data


L’architecture SMACK ( Spark Mesos Akka Cassandra Kafka )
132

Les architectures Big Data


L’architecture Microservices

(Anita, 2016)
133

Les architectures Big Data


L’architecture Data Lake
134

Les architectures Big Data


Comparaison des architectures
Architecture Big Data Points Forts Inconvénients
Hadoop  Parallélisme,  La performance de la prise en charge de NoSQL et de grille de données
 Automatisation de la reprise sur erreurs,  Conçu pour traiter de très gros volume de données.

 Coût de stockage très raisonnable,


 Écosystème riche.
Traitements de type Batch  Simple à mettre en œuvre  Temps de traitement,
(incrémentaux)  les donnes récentes ne sont pas prises en compte.

Traitements temps réel  La modulabilité du temps de traitement,  Ne concerne que le traitement mais pas le stockage et l’interrogation.
 Amélioration du temps de traitements,
 Simple à mettre en œuvre,
 Solution évolutive.
Architecture Lambda  Conservation des données brutes et les  Deux logiques métier sont implémentées à la fois,
retraiter au besoin,  Il faut deux sources différentes des mêmes données : des fichiers pour le batch, et les web services
 La visualisation la plus fraîche possible, pour le temps réel.

 indépendant des technologies.


Architecture Kappa  Indépendant des technologies,  Pas de séparation entre les besoins,
 Plus simple que l’architecture Lambda.  Montée en compétence.
135

Les architectures Big Data


Comparaison des architectures
Architecture Big Data Points Forts Inconvénients
Architecture SMACK  Un minimum de solutions capable de  Intégration de nouveaux besoins et donc de nouveaux frameworkFramework,
traiter un très grand nombre de  Architecture complexe.
problématiques,
 Solutions matures du Big Data,
 Scalabilité des solutions,
Architecture Microservices  Compatible batch, temps réel, Lambda, ...  Testabilité
 Scalabilité (Elasticité)  Gestion des transactions
 découplage, ...

Architecture Data Lake  Parmi les solutions les plus utilisée et les  Ne gère que le stockage,
plus fréquentes,  Gouvernance des données obligatoire afin de suivre l’utilisation des données.
 Séparation entre stockage et exploitation
de la donnée,
 Coût de stockage réduit,
 Disponibilité,
 Évolutivité.
136

Les architectures Big Data


Critères de sélection d’une architecture

Architecture Critère principal Cas d’utilisation

Hadoop Coût faible du stockage des données Data Lake

Lambda Avoir une vision complète des données Chaîne de traitement / valorisation des données

Kappa Fournir une vision fraîche des données Données métier à destination des utilisateurs

SMACK Coût faible de traitement des données Analyse des données (Machine Learning)
137

Merci pour votre attention


Anass EL HADDADI
anass.elhaddadi@gmail.com

WHAT WHY WHERE WHEN WHO HOW

Vous aimerez peut-être aussi