Big Data ENSAH 2023-2024

BIG DATA et l’Ecosystème Data de
l’entreprise
Anass EL HADDADI
SDIC/ENSAH/UAE, Al-Hoceima, Maroc
@AnassELHADDADI
Formateur 2
• BIG DATA INTERNATIONAL TRAINER/CONSULTANT
• ARCHITECT BIG DATA
• PhD Business Intelligence & Competitive Intelligence

Tour de table 3
Introduction
.
5
Problématique
Le contexte économique actuel
 Nouvelle concurrence féroce et parfois déloyale
 Élargissement des marchés
 Obsolescence rapide des technologies
 Croissance soutenue des innovations
 Diminution des délais de la R & D (Recherche et Développement)
 Clientèle plus informée et plus exigeante
 Les technologies de l’information catalysent ces changements

6
Problématique
 Tirer parti de toutes les informations disponibles (Web, Open Data,

métier, SI, Big Data).
 Extraire des connaissances nouvelles de ces données.
 Valoriser ces connaissances déduites et les intégrer à la stratégie.
 Garder un coup d’avance.

7
Problématique
8
Big Data
de l’extraction des données massives à leurs visualisation
omprendre les concepts et les

enjeux du Big Data
Les technologies du Big Data

9
Data Visualisation
Retours d’expérience et
bonnes pratiques
10
Objectifs
Big Data
Atteindre une connaissance générale des

aspects méthodologiques, technologiques du Big
Data: intérêts, difficultés, solutions actuelles et
futures.
Collecte ETL Analyse Visualisation

Partie I
COMPRENDRE
L’ÉCOSYSTÈME DATA
BIG DATA
Les concepts et les enjeux
Il n’y a pas des projets data, mais une vision data des projets
13
Qu’est-ce qu’une donnée ?

Définition de la donnée
 Un élément brut.
 Une description élémentaire d’une réalité.
Exemple : une observation ou une mesure.
 température = 35°
 âge = 2 mois
14

Définition de la donnée
Connaissances
Informations
Données
15

La notion de l’information
 Une information est un renseignement qui accroît la connaissance concernant une personne,
un objet ou un événement déterminé.
L’information peut être:
Objective, quand elle reflète un ensemble de données porteur de sens;

Subjective, quand elle résulte de l’interprétation d’un ensemble de données.
 Une donnée ne devient une information que quand elle trouve son sens par rapport à un
référentiel (un contexte, un système de valeurs, un problème à résoudre … )
• (température = 35°) : temps chaud

• (âge = 2 mois) : nourrisson
16

La notion de la connaissance
 La connaissance est une information

comprise, c’est-à-dire assimilée et
utilisée, qui permet d’aboutir à une
action.
Exemples :
• temps chaud et enfant
nourrisson alors risque de
déshydratation
17

Le système d’information
 Dans les systèmes informatiques, la donnée est la traduction codée d’une information.
Les termes « donnée » et « information » sont donc souvent synonymes dans ce contexte.
 Le rôle du système d’information (SI) peut se définir par son objectif, qui est d’assurer la saisie,
la conversation, le traitement et la circulation des informations, de façon à ce que chacun, dans
l’organisation, puisse disposer au bon moment des données dont il a besoin pour remplir sa
tâche.
18
Quelles données ?
Les différents types de données
Structurées
Semi-Structurées
Non-Structurées
19
Quelles données ?
Les données structurées
 On l'appelle structurée car sa nature et sa fonction sont identifiées par des métadonnées.
Exemple:
ventes,
commandes,
expéditions,
transactions sur les points de vente,
statistiques d’appel ou transactions par carte de crédit
20
Quelles données ?
Les données semi-structurées
 Les données semi-structurées sont des informations encadrées par des balises spécifiques,
respectant des métadonnées.
Exemple:
HTML,
XML,
les fichiers log des serveurs Web,
les donnée des capteurs,
GPS,
Télémétrie.
21
Quelles données ?
Les données non-structurées
 Les données non structurées sont des données représentées ou stockées sans format prédéfini
Exemple:
champs de texte,
commentaires de clients,
documents,
journaux de maintenance.
22
L’ère de la data
Historique
SGF OLAP Data Science
Les principes de Document XML BD 3V

Bases des BD/SGBD HTML (W3C, 1986) (W3C, 1998) Parellèles
NoSQL Fast Data
Partage SQL2, Warehouse
Modèle Prototype SGBDR TempSQL Spatial Cloud Open Data
relationnel (1975) (1985) (1994)
1960-1969 1970 1980 2010 BIG DATA
COBOL Oracle (1977) SGBDR Multimédia

NF, SQL, Commercialisés Texte, image, Data visualisation
QUEL, QBE
Audio, Vidéo (1995)
23
L’or noir du XXIème siècle ?...

24
L’écosystème digital de l’entreprise

L’environnement inforamtionnel
Lois et règlements Marchés
Forces externes Technologie
Environnement Concurrence
Secteur Industriel
25

L’environnement inforamtionnel
Face à cette situation, que faire ?
- Les entreprises doivent améliorer:
• La qualité des produits & services

la maîtrise de l’information
• La connaissance des marchés et leur dynamique par un processus
d’intelligence tel que …
• Leur position face à la concurrence
• Les coûts de production La Business Intelligence

La veille Stratégique
• La connaissance des technologies pour en tirer Le Data Mining
profit Machine learning
……
Big Data ?
L’écosystème Data Interne
27

L’écosystème interne – Du transactionnel au décisionnel
• Les années 60 : les premières bases de données
• 1970 : E. F. Codd, chercheur au sein d’IBM, énonce huit formes normales pour concevoir un système transactionnel
robuste.
• Inventer le SGBDR , RDBMS en anglais.
• Devenir le socle indispensable de l’OLTP ( OnLine Transaction Processing, soit en français: processus de transaction en
ligne).
• OLTP : toutes les opérations de gestion de l’entreprise peuvent être modélisées comme des transactions.
• Une transaction est cohérente : elle modifie les objets de la base de données de telle manière qu’ils soient
28

• Les systèmes OLTP et les SGBDR ont littéralement envahi l’entreprise moderne.
• ERP ( Enterprise Resource Planning ou progiciel de gestion intégré ) , CRM (

Customer Relationship Management ou la Gestion de la Relation Client (GRC)),
gestions de stocks, comptabilité, caisses électronique …
• Remplissage des BdD transactionnelles :

• des millions d’enregistrements,
• des milliards de transactions,
• dans des milliers de tables liées les unes aux autres par un schéma complexe
• Normalisation
• Répond parfaitement au besoin de gestion de l’activité.
Reste opaque pour les gestionnaires de l’entreprise

29

• À partir de cette mine d’informations
• Augmenter la connaissance sur le fonctionnement de l’entreprise ?
• Sur les actions qui ont été profitables ?
• Sur les produits en forte croissance ?
• Sur les goûts des clients ?
• Sur la qualité de production ?
• Sur les niveaux de stock ?
Augmenter la connaissance pour améliorer
le processus de prise de décision : Décider
mieux et plus vite.
30

• Les services informatiques :
• Des algorithmes ;
• Des requêtes sur des bases transactionnelles.
• MAIS :
• Parcourir de nombreuses tables en suivant des relations complexes ;
• Les données sont volatiles ;
• Elles ne sont pas conservées en ligne mais sur des systèmes de sauvegarde ;
• Chaque logiciel possède son schéma de données ….
Comment rapprocher toutes ces informations ?

31

L’informatique décisionnelle, est l’ensemble des réponses à ce besoin. Il concentre les
différentes techniques qui permettent à une organisation de disposer de l’information
juste et à temps pour prendre des décisions et mesurer leurs résultats
Principe de base 2ème principe 3ème principe
OLAP (OnLine Analytical Processing)

– E. F. Codd (1993) La distribution ou la mise à Conserver les données produites
Une remise à plat du schéma disposition de l’information qui doit par les transactions dans une BdD
normalisé, la dénormalisation, être accessible facilement à un isolée des systèmes de production :
création d’axes d’analyse simples et utilisateur non initié. DW
orientés métier : les dimensions.
32

De l’ETL à l’EIM
L’EIM ou Enterprise Information Management est une solution permettant de :
Exemples : PowerCenter Informatica, SQL Server Integration Services
Exemples : Oracle MDM, SQL Server Master Data Services
Exemples : Caisse d’Epargne, Galerie Lafayette, regroupement de données applicatives
Exemples : Machine learning, Big Data, Internet des objets

33

Action globale des EIM :

34

Pour ce faire les EIM embarques des outils additionnels à la BI :
EII (Enterprise Information Integration)

35

EAI (Enterprise Application Integration)
36

37

L’écosystème Data Externe
39

L’écosystème externe – La veille stratégique
H. Lesca , (Equipe certifiée ISO 9001 en 1998 en : Recherche, Intervention et Formation en Veille Stratégique)
« La veille stratégique est le radar de l’entreprise, une composante fondamentale de l’intelligence de

l’entreprise. Par veille stratégique, nous désignons le processus informationnel par lequel l’entreprise se met à
l’écoute anticipative de son environnement socio-économique dans le but créatif d’ouvrir des fenêtres
d’opportunités et de réduire les risques liés à l’incertitude.»
L'AFNOR (norme XP X 50-053, avril 1998) donne une définition concise de la veille :
« Activité continue et en grande partie itérative visant à une surveillance active de l’environnement
technologique, commercial, concurrentiel,…, pour en anticiper les évolutions. »
40

L’écosystème externe – La veille stratégique
La veille stratégique est le processus par lequel l’entreprise :
Observe Recherche Localise Traite Analyse Diffuse
L’information stratégique à des buts: Décisionnels & Compétitifs
La veille est donc « un Système d’Information » ouvert sur l’extérieur ayant pour objet l’écoute de
l’environnement de l’entreprise pour capter et anticiper les grandes tendances à venir, et ainsi de conforter le
processus de décision interne.
41

La transformation numérique a submergé les entreprise …
42

Exploration
Extraction
Extraction des
Tirer parti de toutes les informations connaissances
disponibles (web, Open Data, métier,
SI, Big Data)
Valorisation
Exploitation
Valoriser les connaissances
La maîtrise de flux
déduites et les intégrer à la
d’information
stratégie
43

Management de la data
L’écosystème digital 44
de l’entreprise
Management de la data – Cycle
de vie de la donnée
45

Management de la data – Cycle de vie de la donnée
Organise Conditionne
• Gestion des • Management

connaissances • Intelligence stratégique de • Gouvernance des
Collective l’information systèmes Entreprise 4.0
d’information
Facilite Pilote
Le flux d’information 46
Problème
décisionnel
Analyse stratégique
Protection de l’information
Scénarios
Stratégie
Cibles
Veille Stratégique
Veille
Informations Informations
élaborées utiles Sources
Système d’information
47

Management de la data – Cycle de vie de la donnée
Data Data Data

Sourcing
Warehousing Analytics Visualisation
Big Data Mining : de l’extraction de données à leur visualisation

48
Big Data
de l’extraction des données massives à leurs visualisation
Les 3V
Analyse concurrentielle Outils d’analyse
(Michael Porter) de données
Big Data (ACM)
1967 1980 1985 1987 1989 1994 1997 2001 2009 2013
BDD et sources Rapport Martre

1ère définition La BI devient
d’informations (Henri Martre)
moderne (Harold une priorité
(Leonard Fuld) Des questions critiques
Wilensky)
pour le Big Data
La structure des SIE
(Ben Gilard, John E. Prescott)
BIG DATA, c’est quoi ?
Les concepts et les enjeux
50
Big Data
Pourquoi ?
 Explosion des volumes des données générées sur le web, web mobile...
 Réseaux sociaux: Facebook,T witter,..
 Moteurs de recherche : Google, Yahoo, Bing
 Internet des objets
 Sites commerciaux
 Appareils mobiles
 Capteurs
 Systèmes d’information des entreprises
 + Disponibilité, ouverture des données
 Open data: données ouvertes au grand public
 Gouvernement
 Industries
 Services : transports, météo, ...
 ...
51
Big Data
Pourquoi ?
 ..+ Limites des SGBD
 Capacités de stockage / traitement des SGBD

 1980 : Teradata database machine
 2010 : Oracle Exadata Database machine
 Nature/type des données
 Structurée ou semi-structurées
 Vitesse de stockage
 Temps de stockage ne suit pas le progrès en termes de vitesse des réseaux
 ...Passage à l’échelle des SGBD à quel coût ?

52
Big Data
Pourquoi ?
Exercice : Quel est le
coût de stockage de 48
heures de vidéo
extraites de Youtube
dans une base ORACLE
Exadata vs. système Big
Data dédié
53
Big Data
À quoi ça sert ?
 Prédire les conflits mondiaux
L’outil GDELT, développé par l’université de Georgetown et accessible de manière open source, compile toutes les
actualités (communiqués de presse, articles, discours...) parues depuis 1979. Il applique ensuite des techniques
d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension des événements récents et
des principes de cause à effet pour arriver à prédire les conflits mondiaux
 Gérer les catastrophes naturelles

En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la
Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en
optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013
 Faire de la veille sanitaire

Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but
d’aider à contrôler la propagation d’épidémies. De la même manière, la police de Chicago utilise le Big Data et la
visualisation de données pour contrôler les populations de rats dans la ville.
54
Big Data
À quoi ça sert ?
 Cibler les clients sur le web
Dans le marketing web par exemple, le phénomène d’enchères en temps réel (Real-Time-Bidding – RTB), s’appuie sur de
la data en mouvement pour proposer une publicité spécifique en fonction de l’utilisateur qui se connecte au site.
L’entreprise Turn par exemple, classe l’utilisateur dans un segment lorsqu’il se connecte au site, en fonction de son
historique de navigation et des informations issues de réseaux sociaux et lui affiche la publicité de l’annonceur ayant
fait la meilleure enchère pour ce segment...en moins de
10 millisecondes - http://www.data-business.fr/big-data-definition-enjeux- etudes-cas/#sthash.kRSvs3hq.dpuf
 Bien d’autres...
 Secteur des Télecom. : analyse de la qualité de service en temps réel
 Secteur des banques : prévention des fraudes et gestion du risque
 Secteur des transports : optimisation de trafics et des taux de
 remplissage
 Secteur de l’éducation : au travers des Massive Open Online Courses : pour comprendre les comportements des
apprenants, et adapter les programmes
 ...
55
Big Data, c’est quoi ?

Quelques Définitions
Définition 1 :
« data of a very large size, typically to the extent that its

manipulation and management present significant logistical
challenges » Oxford English Dictionary, « données de très grande
taille, dont la manipulation et gestion présentent des enjeux du point
de vue logistiques »
56

Définition 2 :
« datasets whose size is beyond the ability of typical database

software tools to capture, store, manage, and analyze » McKinsey,
2011, « collections de données dont la taille dépasse la capacité de
capture, stockage, gestion et analyse des systèmes de
gestion de bases de données classiques»
57

Définition 3 :
avantage concurrentiel au travers de

« Le Big Data vise à tirer un
méthodes de collecte, d’analyse et d’exploitation des données qu’on ne
pouvait utiliser jusqu’à présent du fait des contraintes économiques,
fonctionnelles et techniques liées aux volumétries, à la vitesse de
traitement et à la variété des données à considérer. »
Source “The 451 Group” & Gartner
58

Megadonnées « données structurées ou non dont le très grand volume requiert

des outils d’analyse adaptés »
59

Données provenant de plusieurs sources
60
C’est quoi la Big data?

Qu’est ce qui se passe chaque minute sur Internet ?
61

62

https://www.bondhighplus.com/2022/01/08/what-happen-in-
an-internet-minute/
https://www.domo.com/data-never-sleeps#
63

Big Data : Statistiques et Chiffres Clés en 2023
 Il y a 2,80 milliards d'utilisateurs
mensuels de Facebook lorsqu'il s'agit de
comptes actifs. Chaque jour, WhatsApp,
Messenger, Instagram et Facebook
reçoivent la visite de pas moins de 1,8
milliard d'utilisateurs.
 Chaque minute, plus de 500 000 tweets

sont publiés sur Twitter.
 Chaque jour, Google reçoit plus de 3,5

milliards de recherches. Parmi celles-ci,
pas moins de 15 % des nouvelles
requêtes n'ont jamais été effectuées
auparavant.
64

 Jusqu'à 65 milliards de messages sont
envoyés via WhatsApp chaque jour.
 Netflix économise 1 milliard de dollars

chaque année en utilisant le Big Data.
 Volume de données non structurées :

Chaque personne ajoutera 1,7
mégaoctet par seconde à l'Internet en
2020.
65

 L'incapacité à traiter les données non structurées est une préoccupation importante pour 95 % des
entreprises.
 Les données non structurées représentent désormais 80 à 90 % de tout ce que les internautes créent.
66
Big Data et la règle des 3V

Les 3V?
 La définition communément acceptée par les principaux “acteurs” se

résume à la création de valeur par la combinaison de ces 3V.
67

V comme Volume
• 150 millions de tweets par jour
• 60 millions de mises à jour sur Facebook
• 180 millions de blogs
• 135 millions de comptes linkedin
• 63,6 Millions de tablettes vendues en dans la monde en 2011
• En France
 19 millions de tweets par jour
 20 millions de mises à jour sur Facebook
 20 millions de blogs
 3 millions de comptes linkedin
 5 millions de comptes Viadeo, ….
68

V comme Variété
• Données relationnelles classiques (Tables, Transaction, relations, …)
• Les données de types texte (issues des réseaux sociaux, du web, ….)
• Les données Semi-structurées (XML)
• Les données graphiques
• Les données vidéo, ….
• Les données publiques (infos en ligne, météo, finances, …)

69

V comme Vitesse
• Il est ici question de la vitesse à laquelle les données sont créées et doivent être stockées, analysées et
visualisées.
• On dénombre environ :
• 100 heures de vidéo sur Youtube téléchargé / minute
• 200 millions de mails / minute
• 20 millions de photos visualisées 30.000 téléchargé sur Flickr par minute
• 2,5 millions de requêtes sur Google sont effectuées
• …
• Le défi à ce niveau pour les entreprises réside donc dans la capacité à capter, stocker et analyser ces
données pour une utilisation optimale.
70
Big Data et la règle des V

Des 3V au 4V
71

V comme Véracité
• Le modèle des 3V, toujours d’actualité, est complété par IBM qui ajouta
un 4ème V
• Avoir un grand nombre de données dans différents volumes entrant à

grande vitesse est sans valeur si les données sont incorrectes.
• Cette dimension est essentielle car elle apporte aux données, bientôt
transformées en information :
• De la fiabilité,
• De la qualité
• De la pertinence des données
• Elle élimine ainsi, les risques d’incertitudes avant les prise de décisions
72

Au delà des 4V: les 6V
Les Big Data ne se résument pas aux 4V, très descriptifs. Il devient
en effet fréquent de voir la définition des 4 V complétée par un Volume
5ème, voire un 6ème V
• V comme Valeur : la valeur représentée par ces données Visibilité Variété

apporte de nouvelles connaissances
• V comme Visibilité : pour la visibilité des données à travers les Big Data
TDB récapitulatifs ou Dashboard
Valeur Vitesse
Véracité
73

Et c’est pas fini …
• Data Visualisation : Pour la représentation intelligentes,
pratiques et interactives des données.
74

Et c’est pas fini …
Le Volume (Volume) La Véracité (Veracity)
La Vitesse (velocity) La Validité (Validity)

Les V de
Big Data
La Variété (Variety) La Vulnirabilité (Vulnirability)
La Variabilité (Variability) La Volatilité (Volatility)
La Valeur (Value) La Visualisation (Visualization)

75
Big Data
L’analyse de Big Data, c’est…
 Une stratégie technologique facilitant l’avantage

concurrentiel
 Travailler avec des données diverses et variées
 Le traitement en temps réel d’un flux continu de
données
 Des ressources décentralisées
 Un nouveau paradigme dans lequel l’informatique
collabore avec les acteurs commerciaux et les “Data
Scientists”
 Déplacer la prise de décision vers la base de l’entreprise
Modèles économique de Big Data et l’open data
77
Big Data
Les usages: les 3 p
 identifier un risque,
Prévention  identifier un danger
 et si possible, le prévenir.
Personnalisa- BIG
tion
DATA
 Connaissance client approfondie  pour mieux anticiper

 Personnalisation des offres  prévoir la demande, les problèmes,
 Offre sur mesure Prévision les comportements, les goûts
 des recommandations pertinentes
et personnalisées
78
Big Data
Pour qui ? Pourquoi ?
 Cibler et mieux comprendre les clients
 Engins de recommandations
 Modèles prédictifs pour la publicité et les offres de produits ciblés
 Rétention de la clientèle
 Influenceurs dans les réseaux sociaux
 Optimiser et mieux comprendre les processus d’affaires
 Gestion de la chaîne d’approvisionnement
 Gestion des risques
 Science et recherche
 Astrophysique
 Physique et chimie
 Sciences de la vie
 Science des matériaux
 Environnement
79
Big Data
 Monitoring des signes vitaux et améliorations de la performance physique personnelle
 Senseurs personnels (« wearables »)
 Soins de santé, médecine publique
 Génomique
 Médecine personnalisée
 Épidémiologie
 Diagnostic
 Études cliniques
 Performance sportive
 Programme d’entraînement
 Performance individuelle et d’équipe
80
Big Data
 Maintenance et optimisation de la performance de machines
 Diagnostic
 Maintenance préventive
 Ajustement des conditions d’opération
 Autonomie accrue
 La loi, l’ordre et la sécurité publique
 Contre-terrorisme
 Activités criminelles
 Détection de fraude
 Cyber-attaques
81
"Une donnée ouverte

(en anglais open data) Open Data
Site Web
est une information Définition
Web invisible
publique brute, qui a
Internet Newsgroups
vocation à être
Mailing-lists
librement accessible et
Newsletters
réutilisable. La
philosophie pratique des
données ouvertes 5000 Brevets
préconise une libre Banques
Info. Scientifiques - techniques
de données
disponibilité pour tous et professionnelles Données économiques
chacun, sans restriction
de copyright, brevets ou
Experts
d'autres mécanismes de Réseaux de
contacts
contrôle Organismes
Data Pipline
83
Data Pipeline
“Why are you using data and pipeline in the
same sentence?”
For those who don’t know it, a data pipeline is

a set of actions that extract data (or directly
analytics and visualization) from various
sources.
It is an automated process: take these columns

from this database, merge them with these
columns from this API, subset rows according
to a value, substitute NAs with the median and
load them in this other database. This is known
as a “job”, and pipelines are made of many
jobs.
84
Data Pipeline
85
Data Pipeline
86
87
Modèle logique NoSQL orienté documents
Agent de collecte XEW Agent de reformatage XEW
DATA LAKE
P2:RE P3:TR
P1:AQ
Vue réelle Vue conceptuelle
STRUCTURES P1:AQ – Acquisition des données

P2:RE – Reformatage des données
P3:TR – Transformation et génération des schémas logique
Les impacts du Big Data sur l’organisation
Étre sans Big Data, c’est comme être aveugle et sourd au milieu
d’une autoroute. Geoffry Moore
89
L’intérêt du Big Data pour les entreprises

Ouverture de nouvelles perspectives
De plus en plus de données sont disponibles en temps réel (interactions clients online, données de
géolocalisation et de capteurs)
Ces données peuvent être utilisées pour interagir en temps réel aux situations :
 Personnalisation des interactions clients
 Diagnostic temps réel des situations
Mais les systèmes actuels de traitements analytiques des données sont généralement asynchrones...
90

Si on sait les analyser, la valeur tirée du Big Data peut s’avérer extrêmement stratégique
Connaissance
clients
Smart Marketing
alarming relationnel
Nouveaux
Services
Marketing Maintenance
produit prédictive
Détection de
fraude
91

Les points à retenir
 Le volume des données collectées explose

 Les technologies ont convergé vers la disponibilité, l’accessibilité et la personnalisation
des données
 De nouvelles possibilités d’innovation et de création de valeur à partir des Big Data
émergent
 Il y a des implications fortes sur les résultats des entreprises et un effet d’une grande
portée sur l’économie
 Il y a des défis majeurs à prendre en considération pour tirer profit de cette
« révolution data »
92

Les principaux défis à relever
Politique des données Accès aux données
• « Privacy » - Accès aux données externes

• Sécurité des données - Intégration avec les données
• Propriété intellectuelle internes
Technologie Conduite du changement
• Déploiement des technologies • Manque de ressources

• Intégration avec les systèmes • Un management qui comprend
« historiques » les « Big Data »
• Innovation continue
93

L’impact économique du Big Data
 Le business des données pour les entreprises.
 Opportunité de monétisation des données.
 Valorisation et commercialisation des données.
 Le marketing.
 CRM.
94

• Ventes et marketing
• Acquérir plus de clients

• Retenir les clients existants
• Vente croisée / vente incitative
• Augmenter le panier d’achat
• Augmenter le trafic en magasin
• Optimiser la tarification et le rendement
• Augmenter le taux de conversion
• Améliorer l’efficacité et la publicité
95

• Opérations
• Optimiser la performance du réseau

• Prévoir les problèmes de maintenance
• Éliminer les abus
• Prévoir l’utilisation / capacité
• Augmenter les taux de service
• Réduire les ruptures de stock
• Consolider les fournisseurs
96

• Opérations
• Optimiser la performance du réseau

• Prévoir les problèmes de maintenance
• Éliminer les abus
• Prévoir l’utilisation / capacité
• Augmenter les taux de service
• Réduire les ruptures de stock
• Consolider les fournisseurs
97

Leviers de valeur économique du Big Data
Leviers du Big Data Impacts sur le monétisation des données
Données transactionnelles (sombres) : plus de Décisions plus granulaires et détaillées (localisation,
données transactionnelles détaillées (ex.: cartes de saisonnalité, multidimensionnelle )
crédit, RFID)
Données non structurées: divers données internes Décisions plus complètes et précises (nouvelles
(courriel, commentaires) et externes (réseaux métriques, dimensions et attributs dimensionnels)
sociaux, applications mobiles)
Vitesse des données : accès à faible latence (en Décisions plus fréquentes et opportunes (par heure
temps réel) et non par semaine : actualisations du modèle
analytique à la demande)
Analytiques prédictives : causalité, indicateurs, Décisions plus exploitables et prédictives (optimiser,
instrumentation, expérimentation recommander, prédire, évaluer et prévoir)
98

L’impact organisationnal du Big Data
• Supervision de l’activité
• Identification des perspectives
• Optimisation de l’activité
• Monétisation des données
• Métamorphose de l’entreprise
99
Chiffres Big Data : les nombres du présent

Le Big Data, c’est l’avenir, mais c’est aussi le présent.
• Data Scientist est le job numéro 1 du classement Glassdoor 2017: le

salaire médian est de 91 000 dollars.
• L’adoption des outils Cloud BI a augmenté de 50% en trois ans (2013-

2016)
• Le volume de données mondiales double tous les trois ans: Selon IBM,
90% des données mondiales ont été créées au cours des deux dernières
années. Chaque jour, 2,5 quintillions de bytes de données sont générés.
100

• Selon Evans Data, en 2017, 6 millions de développeurs travaillent sur des

outils Big Data.
• Selon SNS Research, les dépenses effectuées dans le Big Data ont atteint
57 milliards de dollars en 2017.
• Le marché de la Business Intelligence et des analyses de données a atteint

une valeur de 18,3 milliards de dollars en 2017. Ceci représente une
hausse de 7,3% par rapport à 2016. D’ici 2020, les analystes estiment que
le marché représentera 22,8 milliards de dollars.
101

• Selon Dell, 72% des employés américains ont déjà partagé des données
sensibles ou confidentielles de leur entreprise.
• 1,2 billion de dollars de plus pour les entreprises qui se servent du Big
Data
• 75% des entreprises comptent implémenter l’IA et le Big Data à leur

activité d’ici 2020.
• 203 milliards de dollars générés par le Big Data en 2020 (générer 130,1
milliards de dollars en 2016).
102

• Intel prédit 200 milliards d’objets connectés en 2020.
• Selon Gartner, 50% des requêtes BI sont effectuées vocalement en 2020.
• 1,7 megabyte de données créé chaque seconde par chaque personne en

2020.
• Chaque jour, les utilisateurs du monde entier génèrent environ

2,5 quintillions d'octets de données.
103

• Avec un débit internet moyen, il faudrait à une personne environ

181 millions d'années pour télécharger toutes les données
présentes sur l'internet en ce moment.
• Les gens passent 33 % de leur temps total sur Internet à utiliser

les réseaux sociaux.
• Chaque jour, les consommateurs passent près de 7 heures sur

Internet.
104

Le Big Data dans les affaires
• La plupart des entreprises consacrent beaucoup d'efforts au
Big Data et à l'IA, plus de 97 % des répondants à l'enquête
déclarant y investir.
• Le nuage héberge actuellement 67 % de l'infrastructure des entreprises.
• L'incapacité à exploiter le Big Data peut entraîner la faillite de près de 80

% des organisations.
• Les clients sont 23 fois plus susceptibles d'acheter à une entreprise qui
105
Chiffres Big Data : les nombres du futur

Les prédictions pour le futur
• Le marché de l'analyse du Big Data dans le secteur bancaire devrait

atteindre 62,10 milliards de dollars d'ici 2025.
• Le marché du Big Data pour l'analyse des soins de santé devrait atteindre
67,82 milliards de dollars d'ici 2025.
• Le marché mondial du Big Data et de l'analytique est évalué à 49 milliards

de dollars.
• Les clients sont 23 fois plus susceptibles d'acheter à une

entreprise qui utilise des données.
106
Chiffres Big Data : les nombres du futur

Inconvénients du Big Data
• Les cyber-escroqueries ont augmenté de 400 % depuis le début de la

pandémie.
Concepts architecturaux
Big Data
108
Architecture fonctionnelle
Vue d’ensemble
Processing
Data
Exchange Consume
Management
Storage
109
Limitations & Besoin
• Besoin : Traitement et stockage massif des gros volumes de données.
• Limites : Ajouter plus de puissance aux machines :

• Stockage : Disque dur, mémoire…
• Traitement : CPU, parallélisme …
• Solutions : Archiver et traiter l’information de façon distribuée afin de

bénéficier de plus de capacité de puissance.
• Le big Data repose principalement sur les notions des systèmes distribués !
110
Scalabilité verticale vs. Scalabilité horizontale
Scale-up Hardware
Scale-up Limitation !
8 CPU
16 CPU
16 GB
32 GB
Augmenter la puissance d’un système en ajoutant du matériels plus puissants

111
Scalabilité verticale vs. Scalabilité horizontale
24 CPU, 48 GO
8 CPU Scale out 8 CPU 8 CPU 8 CPU
16 GB 16 GB 16 GB 16 GB
X CPU, Y GO
8 CPU 8 CPU 8 CPU 8 CPU ……

Scale out
16 GB 16 GB 16 GB 16 GB
Augmenter la puissance d’un système en ajoutant de nouvelles machines

112
Partitionnement - Sharding
• Répartir les données et
Collection A
traitements sur de multiples
serveurs sur un cluster.
1 TB
1 TB
• Le partitionnement permet 1 TB
d’absorber la charge (de stockage Cluster
Serveur logique
ou de traitement).
Nœud 1 Nœud 2 Nœud 3 Nœud 4
256 256 256 256

GB GB GB GB
113
Réplication
• Copier la donnée en de multiples exemplaires
sur plusieurs nœuds du cluster.
• Permet de garantir la disponibilité de l’ensemble Collection A
des données même quand un nœud du cluster
disparaît (maintenance, crash, …)
A B C RF = 3
• La probabilité de perte d’un nœud croît avec la
taille du cluster.
• Meilleur performance et sécurité.
Nœud 1 Nœud 2 Nœud 3 Nœud 4
A C A B B C A B C
114
Architecture des disques
• JBOD vs RAID
• JBOD : Jost a Bunch Of Disks (3 disques de 1T = 3to de stockage)
• RAID : Redundant Array of Independant Disks (réplication physique)
• Quand utiliser quoi ?

• JBOD : Système avec redondance  nœuds worker et de données
• RAID : Système sans redondance  Nœuds Master, gestion du sytème
• Avantage :
• JBOD : Gagner de l’espace disque, facile a mettre en place…
• RAID : Fiabilité de données, mais coûte plus cher…
115
JBOD RAID 0 RAID 1
A1 A64 A92 A1 A2 A1 A1
A2 A65 A93 A3 A4 A2 A2
A3 A66 A94 A5 A6 A3 A3
A4 A67 A95 A7 A8 A4 A4
Striping mirrorin
g
Disk 0 Disk 1 Disk 2 Disk 0 Disk 1 Disk 0 Disk 1
distribution réplication
116
RAID 5 RAID 6
A1 A2 A3 Ap A1 A2 A3 Ap Aq
B1 B2 Bp B3 B1 B2 Bp Bq B3
C1 Cp C2 C3 C1 Cp Cq C2 C3
Dp D1 D2 D3 Dp Dq D1 D2 D3
Eq E1 E2 E3 Ep
Disk 0 Disk 1 Disk 2 Disk 3 Disk 0 Disk 1 Disk 2 Disk 3 Disk 4
Single parity double parity

117
RAID 0 RAID 1
A1 A2 A1 A1
A3 A4 RAID 10
A2 A2
A5 A6 A3 A3
A7 A8 RAID 0 RAID 1
A4 A4
A1 A2 A1 A1
A3 A4 A2 A2
A5 A6 A3 A3
Disk 0 Disk 1 Disk 0 Disk 1 A7 A8 A4 A4
Disk 0 Disk 1 Disk 2 Disk 3

118
Architecture des nœuds – Master / Slave
• Les nœuds master sont soit impliquer dans les opérations, soit ils sont simplement un rôle mendiant
d’acheminement, d’orchestration des opérations.
Application
read Driver
SPOF
read write
Nœud Master
Peut s’occuper de sharding /

replication
A connaissance de la topologies
Nœud Slave Nœud Slave
119
Architecture des nœuds – Peer to Peer
• Tout les nœuds sont égaux
• Topologie connu par chaque nœud et non par le master
Nœud 1
75 - 99 0 - 24
R/W
Application
Nœud 4 Nœud 2
Driver
50 - 74 25 - 49
Nœud 3
120
Election des noeuds
Nœud Primaire
Master
Réplication Réplication
Nœud Secondaire Heartbeats Nœud Secondaire

Slave Slave
Election d’un nouveau nœud primaire
Nœud Primaire Nœud Secondaire

Master Slave
Heartbeats
121
Election des noeuds
Nœud Primaire
Master
Réplication
Nœud Secondaire Heartbeats

Arbiter
Slave
Election d’un nouveau nœud primaire

Utilisé simplement pour le vote
Nœud Primaire
Arbiter
Master
Heartbeats
122
Théorème de CAP
CAP (par Eric brewer en 2009 - conférence

ACM) Consistency
• The data is the same across
 Consistency (cohérence) : tous les • the cluster, as the same given
time
nœuds sont à jour sur les meme
données au même moment
 Availability (disponibilité) : la perte d’un

nœud n’empêche pas le systéme de
Availability Partition tolerance
fonctionner et de server l’intégralité des • the cluster continues to
• the ability to access the
données cluster even if a node in
function even if there is
a communication beaks
the cluster goes down
between two nodes
 Partition tolerance (résistance au
morcellement) : Chaque nœud doit
fonctionner de manière autonome
123
Théorème de CAP
Consistency
• The data is the same across
• the cluster, as the same given
time
Availability Partition tolerance

Most • the cluster continues to
• the ability to access the
cluster even if a node in
P2P function even if there is
a communication beaks
the cluster goes down
between two nodes
124
Théorème de CAP
Cassandra,CouchDB,Dynamo
Availability Partition-tolerance
Constrained by
CAP Theorem
Consistency
125
Les architectures Big Data

L’écosystème Hadoop
126

L’architecture Batch
(Parageaud, 2016)
127

L’architecture Batch Incrémentale
(Parageaud, 2016)
128

L’architecture temps réel
129

L’architecture Lambda
130

L’architecture Kappa
131

L’architecture SMACK ( Spark Mesos Akka Cassandra Kafka )
132

L’architecture Microservices
(Anita, 2016)
133

L’architecture Data Lake
134

Comparaison des architectures
Architecture Big Data Points Forts Inconvénients
Hadoop  Parallélisme,  La performance de la prise en charge de NoSQL et de grille de données
 Automatisation de la reprise sur erreurs,  Conçu pour traiter de très gros volume de données.
 Coût de stockage très raisonnable,

 Écosystème riche.
Traitements de type Batch  Simple à mettre en œuvre  Temps de traitement,
(incrémentaux)  les donnes récentes ne sont pas prises en compte.
Traitements temps réel  La modulabilité du temps de traitement,  Ne concerne que le traitement mais pas le stockage et l’interrogation.
 Amélioration du temps de traitements,
 Simple à mettre en œuvre,
 Solution évolutive.
Architecture Lambda  Conservation des données brutes et les  Deux logiques métier sont implémentées à la fois,
retraiter au besoin,  Il faut deux sources différentes des mêmes données : des fichiers pour le batch, et les web services
 La visualisation la plus fraîche possible, pour le temps réel.
 indépendant des technologies.

Architecture Kappa  Indépendant des technologies,  Pas de séparation entre les besoins,
 Plus simple que l’architecture Lambda.  Montée en compétence.
135

Comparaison des architectures
Architecture Big Data Points Forts Inconvénients
Architecture SMACK  Un minimum de solutions capable de  Intégration de nouveaux besoins et donc de nouveaux frameworkFramework,
traiter un très grand nombre de  Architecture complexe.
problématiques,
 Solutions matures du Big Data,
 Scalabilité des solutions,
Architecture Microservices  Compatible batch, temps réel, Lambda, ...  Testabilité
 Scalabilité (Elasticité)  Gestion des transactions
 découplage, ...
Architecture Data Lake  Parmi les solutions les plus utilisée et les  Ne gère que le stockage,
plus fréquentes,  Gouvernance des données obligatoire afin de suivre l’utilisation des données.
 Séparation entre stockage et exploitation
de la donnée,
 Coût de stockage réduit,
 Disponibilité,
 Évolutivité.
136

Critères de sélection d’une architecture
Architecture Critère principal Cas d’utilisation
Hadoop Coût faible du stockage des données Data Lake
Lambda Avoir une vision complète des données Chaîne de traitement / valorisation des données
Kappa Fournir une vision fraîche des données Données métier à destination des utilisateurs
SMACK Coût faible de traitement des données Analyse des données (Machine Learning)
137
Merci pour votre attention

Anass EL HADDADI
anass.elhaddadi@gmail.com
WHAT WHY WHERE WHEN WHO HOW

Big Data ENSAH 2023-2024

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Big Data ENSAH 2023-2024

Transféré par

Droits d'auteur :

Formats disponibles

BIG DATA et l’Ecosystème Data de

• BIG DATA INTERNATIONAL TRAINER/CONSULTANT

• ARCHITECT BIG DATA

• PhD Business Intelligence & Competitive Intelligence

 Nouvelle concurrence féroce et parfois déloyale

 Élargissement des marchés

 Obsolescence rapide des technologies

 Croissance soutenue des innovations

 Diminution des délais de la R & D (Recherche et Développement)

 Clientèle plus informée et plus exigeante

 Les technologies de l’information catalysent ces changements

 Tirer parti de toutes les informations disponibles (Web, Open Data,

 Extraire des connaissances nouvelles de ces données.

 Valoriser ces connaissances déduites et les intégrer à la stratégie.

 Garder un coup d’avance.

omprendre les concepts et les

Les technologies du Big Data

Atteindre une connaissance générale des

Collecte ETL Analyse Visualisation

Qu’est-ce qu’une donnée ?

 Une description élémentaire d’une réalité.

Exemple : une observation ou une mesure.

Qu’est-ce qu’une donnée ?

Qu’est-ce qu’une donnée ?

L’information peut être:

Objective, quand elle reflète un ensemble de données porteur de sens;

• (température = 35°) : temps chaud

Qu’est-ce qu’une donnée ?

 La connaissance est une information

Qu’est-ce qu’une donnée ?

SGF OLAP Data Science

Les principes de Document XML BD 3V

1960-1969 1970 1980 2010 BIG DATA

COBOL Oracle (1977) SGBDR Multimédia

L’or noir du XXIème siècle ?...

L’écosystème digital de l’entreprise

Lois et règlements Marchés

Forces externes Technologie

L’écosystème digital de l’entreprise

- Les entreprises doivent améliorer:

• La qualité des produits & services

• Les coûts de production La Business Intelligence

L’écosystème digital de l’entreprise

• Inventer le SGBDR , RDBMS en anglais.

L’écosystème digital de l’entreprise

• ERP ( Enterprise Resource Planning ou progiciel de gestion intégré ) , CRM (

• Remplissage des BdD transactionnelles :

Reste opaque pour les gestionnaires de l’entreprise

L’écosystème digital de l’entreprise

L’écosystème digital de l’entreprise

Comment rapprocher toutes ces informations ?

L’écosystème digital de l’entreprise

Principe de base 2ème principe 3ème principe

OLAP (OnLine Analytical Processing)

L’écosystème digital de l’entreprise

Exemples : PowerCenter Informatica, SQL Server Integration Services

Exemples : Oracle MDM, SQL Server Master Data Services

Exemples : Caisse d’Epargne, Galerie Lafayette, regroupement de données applicatives

Exemples : Machine learning, Big Data, Internet des objets

L’écosystème digital de l’entreprise

Action globale des EIM :

L’écosystème digital de l’entreprise

EII (Enterprise Information Integration)