Académique Documents
Professionnel Documents
Culture Documents
l’entreprise
Anass EL HADDADI
SDIC/ENSAH/UAE, Al-Hoceima, Maroc
@AnassELHADDADI
Formateur 2
Problématique
Le contexte économique actuel
Problématique
Le contexte économique actuel
Problématique
Le contexte économique actuel
8
Big Data
de l’extraction des données massives à leurs visualisation
Data Visualisation
Retours d’expérience et
bonnes pratiques
10
Objectifs
Big Data
COMPRENDRE
L’ÉCOSYSTÈME DATA
BIG DATA
Les concepts et les enjeux
Il n’y a pas des projets data, mais une vision data des projets
13
Un élément brut.
température = 35°
âge = 2 mois
14
Connaissances
Informations
Données
15
Une information est un renseignement qui accroît la connaissance concernant une personne,
un objet ou un événement déterminé.
Une donnée ne devient une information que quand elle trouve son sens par rapport à un
référentiel (un contexte, un système de valeurs, un problème à résoudre … )
Exemples :
• temps chaud et enfant
nourrisson alors risque de
déshydratation
17
Dans les systèmes informatiques, la donnée est la traduction codée d’une information.
Les termes « donnée » et « information » sont donc souvent synonymes dans ce contexte.
Le rôle du système d’information (SI) peut se définir par son objectif, qui est d’assurer la saisie,
la conversation, le traitement et la circulation des informations, de façon à ce que chacun, dans
l’organisation, puisse disposer au bon moment des données dont il a besoin pour remplir sa
tâche.
18
Quelles données ?
Les différents types de données
Structurées
Semi-Structurées
Non-Structurées
19
Quelles données ?
Les données structurées
On l'appelle structurée car sa nature et sa fonction sont identifiées par des métadonnées.
Exemple:
ventes,
commandes,
expéditions,
transactions sur les points de vente,
statistiques d’appel ou transactions par carte de crédit
20
Quelles données ?
Les données semi-structurées
Les données semi-structurées sont des informations encadrées par des balises spécifiques,
respectant des métadonnées.
Exemple:
HTML,
XML,
les fichiers log des serveurs Web,
les donnée des capteurs,
GPS,
Télémétrie.
21
Quelles données ?
Les données non-structurées
Les données non structurées sont des données représentées ou stockées sans format prédéfini
Exemple:
champs de texte,
commentaires de clients,
documents,
journaux de maintenance.
22
L’ère de la data
Historique
Environnement Concurrence
Secteur Industriel
25
• 1970 : E. F. Codd, chercheur au sein d’IBM, énonce huit formes normales pour concevoir un système transactionnel
robuste.
• Devenir le socle indispensable de l’OLTP ( OnLine Transaction Processing, soit en français: processus de transaction en
ligne).
• OLTP : toutes les opérations de gestion de l’entreprise peuvent être modélisées comme des transactions.
• Une transaction est cohérente : elle modifie les objets de la base de données de telle manière qu’ils soient
28
• MAIS :
• Parcourir de nombreuses tables en suivant des relations complexes ;
• Les données sont volatiles ;
• Elles ne sont pas conservées en ligne mais sur des systèmes de sauvegarde ;
• Chaque logiciel possède son schéma de données ….
H. Lesca , (Equipe certifiée ISO 9001 en 1998 en : Recherche, Intervention et Formation en Veille Stratégique)
L'AFNOR (norme XP X 50-053, avril 1998) donne une définition concise de la veille :
« Activité continue et en grande partie itérative visant à une surveillance active de l’environnement
technologique, commercial, concurrentiel,…, pour en anticiper les évolutions. »
40
La veille est donc « un Système d’Information » ouvert sur l’extérieur ayant pour objet l’écoute de
l’environnement de l’entreprise pour capter et anticiper les grandes tendances à venir, et ainsi de conforter le
processus de décision interne.
41
Exploration
Extraction
Extraction des
Tirer parti de toutes les informations connaissances
disponibles (web, Open Data, métier,
SI, Big Data)
Valorisation
Exploitation
Valoriser les connaissances
La maîtrise de flux
déduites et les intégrer à la
d’information
stratégie
43
Management de la data
L’écosystème digital 44
de l’entreprise
Management de la data – Cycle
de vie de la donnée
45
Organise Conditionne
Facilite Pilote
Le flux d’information 46
Problème
décisionnel
Analyse stratégique
Protection de l’information
Scénarios
Stratégie
Cibles
Veille Stratégique
Veille
Informations Informations
élaborées utiles Sources
Système d’information
47
Big Data
de l’extraction des données massives à leurs visualisation
Les 3V
Analyse concurrentielle Outils d’analyse
(Michael Porter) de données
Big Data (ACM)
1967 1980 1985 1987 1989 1994 1997 2001 2009 2013
Big Data
Pourquoi ?
Explosion des volumes des données générées sur le web, web mobile...
Réseaux sociaux: Facebook,T witter,..
Moteurs de recherche : Google, Yahoo, Bing
Internet des objets
Sites commerciaux
Appareils mobiles
Capteurs
Systèmes d’information des entreprises
+ Disponibilité, ouverture des données
Open data: données ouvertes au grand public
Gouvernement
Industries
Services : transports, météo, ...
...
51
Big Data
Pourquoi ?
Big Data
Pourquoi ?
Exercice : Quel est le
coût de stockage de 48
heures de vidéo
extraites de Youtube
dans une base ORACLE
Exadata vs. système Big
Data dédié
53
Big Data
À quoi ça sert ?
Prédire les conflits mondiaux
L’outil GDELT, développé par l’université de Georgetown et accessible de manière open source, compile toutes les
actualités (communiqués de presse, articles, discours...) parues depuis 1979. Il applique ensuite des techniques
d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension des événements récents et
des principes de cause à effet pour arriver à prédire les conflits mondiaux
Big Data
À quoi ça sert ?
Cibler les clients sur le web
Dans le marketing web par exemple, le phénomène d’enchères en temps réel (Real-Time-Bidding – RTB), s’appuie sur de
la data en mouvement pour proposer une publicité spécifique en fonction de l’utilisateur qui se connecte au site.
L’entreprise Turn par exemple, classe l’utilisateur dans un segment lorsqu’il se connecte au site, en fonction de son
historique de navigation et des informations issues de réseaux sociaux et lui affiche la publicité de l’annonceur ayant
fait la meilleure enchère pour ce segment...en moins de
10 millisecondes - http://www.data-business.fr/big-data-definition-enjeux- etudes-cas/#sthash.kRSvs3hq.dpuf
Bien d’autres...
Secteur des Télecom. : analyse de la qualité de service en temps réel
Secteur des banques : prévention des fraudes et gestion du risque
Secteur des transports : optimisation de trafics et des taux de
remplissage
Secteur de l’éducation : au travers des Massive Open Online Courses : pour comprendre les comportements des
apprenants, et adapter les programmes
...
55
https://www.bondhighplus.com/2022/01/08/what-happen-in-
an-internet-minute/
https://www.domo.com/data-never-sleeps#
63
Les données non structurées représentent désormais 80 à 90 % de tout ce que les internautes créent.
66
• Les données de types texte (issues des réseaux sociaux, du web, ….)
• On dénombre environ :
• 100 heures de vidéo sur Youtube téléchargé / minute
• 200 millions de mails / minute
• 20 millions de photos visualisées 30.000 téléchargé sur Flickr par minute
• 2,5 millions de requêtes sur Google sont effectuées
• …
• Le défi à ce niveau pour les entreprises réside donc dans la capacité à capter, stocker et analyser ces
données pour une utilisation optimale.
70
• Le modèle des 3V, toujours d’actualité, est complété par IBM qui ajouta
un 4ème V
• Cette dimension est essentielle car elle apporte aux données, bientôt
transformées en information :
• De la fiabilité,
• De la qualité
• De la pertinence des données
• Elle élimine ainsi, les risques d’incertitudes avant les prise de décisions
72
• V comme Visibilité : pour la visibilité des données à travers les Big Data
TDB récapitulatifs ou Dashboard
Valeur Vitesse
Véracité
73
Big Data
L’analyse de Big Data, c’est…
Big Data
Les usages: les 3 p
identifier un risque,
Prévention identifier un danger
et si possible, le prévenir.
Personnalisa- BIG
tion
DATA
Big Data
Pour qui ? Pourquoi ?
Cibler et mieux comprendre les clients
Engins de recommandations
Modèles prédictifs pour la publicité et les offres de produits ciblés
Rétention de la clientèle
Influenceurs dans les réseaux sociaux
Optimiser et mieux comprendre les processus d’affaires
Gestion de la chaîne d’approvisionnement
Gestion des risques
Science et recherche
Astrophysique
Physique et chimie
Sciences de la vie
Science des matériaux
Environnement
79
Big Data
Pour qui ? Pourquoi ?
Monitoring des signes vitaux et améliorations de la performance physique personnelle
Senseurs personnels (« wearables »)
Soins de santé, médecine publique
Génomique
Médecine personnalisée
Épidémiologie
Diagnostic
Études cliniques
Performance sportive
Programme d’entraînement
Performance individuelle et d’équipe
80
Big Data
Pour qui ? Pourquoi ?
Maintenance et optimisation de la performance de machines
Diagnostic
Maintenance préventive
Ajustement des conditions d’opération
Autonomie accrue
La loi, l’ordre et la sécurité publique
Contre-terrorisme
Activités criminelles
Détection de fraude
Cyber-attaques
81
Data Pipeline
“Why are you using data and pipeline in the
same sentence?”
Data Pipeline
85
Data Pipeline
86
87
Modèle logique NoSQL orienté documents
Agent de collecte XEW Agent de reformatage XEW
DATA LAKE
P2:RE P3:TR
P1:AQ
Vue réelle Vue conceptuelle
Ces données peuvent être utilisées pour interagir en temps réel aux situations :
Personnalisation des interactions clients
Diagnostic temps réel des situations
Mais les systèmes actuels de traitements analytiques des données sont généralement asynchrones...
90
Connaissance
clients
Smart Marketing
alarming relationnel
Nouveaux
Services
Marketing Maintenance
produit prédictive
Détection de
fraude
91
Le marketing.
CRM.
94
• Ventes et marketing
• Opérations
• Opérations
• Supervision de l’activité
• Optimisation de l’activité
• Métamorphose de l’entreprise
99
• Le volume de données mondiales double tous les trois ans: Selon IBM,
90% des données mondiales ont été créées au cours des deux dernières
années. Chaque jour, 2,5 quintillions de bytes de données sont générés.
100
• Selon SNS Research, les dépenses effectuées dans le Big Data ont atteint
57 milliards de dollars en 2017.
• Selon Dell, 72% des employés américains ont déjà partagé des données
sensibles ou confidentielles de leur entreprise.
• 1,2 billion de dollars de plus pour les entreprises qui se servent du Big
Data
• 203 milliards de dollars générés par le Big Data en 2020 (générer 130,1
milliards de dollars en 2016).
102
• Les clients sont 23 fois plus susceptibles d'acheter à une entreprise qui
105
• Le marché du Big Data pour l'analyse des soins de santé devrait atteindre
67,82 milliards de dollars d'ici 2025.
Architecture fonctionnelle
Vue d’ensemble
Processing
Data
Exchange Consume
Management
Storage
109
Concepts architecturaux
Limitations & Besoin
• Le big Data repose principalement sur les notions des systèmes distribués !
110
Concepts architecturaux
Scalabilité verticale vs. Scalabilité horizontale
Scale-up Hardware
Scale-up Limitation !
8 CPU
16 CPU
16 GB
32 GB
Concepts architecturaux
Scalabilité verticale vs. Scalabilité horizontale
24 CPU, 48 GO
16 GB 16 GB 16 GB 16 GB
X CPU, Y GO
Concepts architecturaux
Partitionnement - Sharding
• Répartir les données et
Collection A
traitements sur de multiples
serveurs sur un cluster.
1 TB
1 TB
• Le partitionnement permet 1 TB
d’absorber la charge (de stockage Cluster
Serveur logique
ou de traitement).
Concepts architecturaux
Réplication
• Copier la donnée en de multiples exemplaires
sur plusieurs nœuds du cluster.
• Permet de garantir la disponibilité de l’ensemble Collection A
des données même quand un nœud du cluster
disparaît (maintenance, crash, …)
A B C RF = 3
• La probabilité de perte d’un nœud croît avec la
taille du cluster.
• Meilleur performance et sécurité.
A C A B B C A B C
114
Concepts architecturaux
Architecture des disques
• JBOD vs RAID
• JBOD : Jost a Bunch Of Disks (3 disques de 1T = 3to de stockage)
• RAID : Redundant Array of Independant Disks (réplication physique)
• Avantage :
• JBOD : Gagner de l’espace disque, facile a mettre en place…
• RAID : Fiabilité de données, mais coûte plus cher…
115
Concepts architecturaux
Architecture des disques
A1 A64 A92 A1 A2 A1 A1
A2 A65 A93 A3 A4 A2 A2
A3 A66 A94 A5 A6 A3 A3
A4 A67 A95 A7 A8 A4 A4
Striping mirrorin
g
Disk 0 Disk 1 Disk 2 Disk 0 Disk 1 Disk 0 Disk 1
distribution réplication
116
Concepts architecturaux
Architecture des disques
RAID 5 RAID 6
A1 A2 A3 Ap A1 A2 A3 Ap Aq
B1 B2 Bp B3 B1 B2 Bp Bq B3
C1 Cp C2 C3 C1 Cp Cq C2 C3
Dp D1 D2 D3 Dp Dq D1 D2 D3
Eq E1 E2 E3 Ep
Concepts architecturaux
Architecture des disques
RAID 0 RAID 1
A1 A2 A1 A1
A3 A4 RAID 10
A2 A2
A5 A6 A3 A3
A7 A8 RAID 0 RAID 1
A4 A4
A1 A2 A1 A1
A3 A4 A2 A2
A5 A6 A3 A3
Disk 0 Disk 1 Disk 0 Disk 1 A7 A8 A4 A4
Concepts architecturaux
Architecture des nœuds – Master / Slave
• Les nœuds master sont soit impliquer dans les opérations, soit ils sont simplement un rôle mendiant
d’acheminement, d’orchestration des opérations.
Application
read Driver
SPOF
read write
Nœud Master
Concepts architecturaux
Architecture des nœuds – Peer to Peer
• Tout les nœuds sont égaux
• Topologie connu par chaque nœud et non par le master
Nœud 1
75 - 99 0 - 24
R/W
Application
Nœud 4 Nœud 2
Driver
50 - 74 25 - 49
Nœud 3
120
Concepts architecturaux
Election des noeuds
Nœud Primaire
Master
Réplication Réplication
Concepts architecturaux
Election des noeuds
Nœud Primaire
Master
Réplication
Nœud Primaire
Arbiter
Master
Heartbeats
122
Concepts architecturaux
Théorème de CAP
Concepts architecturaux
Théorème de CAP
Consistency
• The data is the same across
• the cluster, as the same given
time
Concepts architecturaux
Théorème de CAP
Cassandra,CouchDB,Dynamo
Availability Partition-tolerance
Constrained by
CAP Theorem
Consistency
125
(Parageaud, 2016)
127
(Parageaud, 2016)
128
(Anita, 2016)
133
Traitements temps réel La modulabilité du temps de traitement, Ne concerne que le traitement mais pas le stockage et l’interrogation.
Amélioration du temps de traitements,
Simple à mettre en œuvre,
Solution évolutive.
Architecture Lambda Conservation des données brutes et les Deux logiques métier sont implémentées à la fois,
retraiter au besoin, Il faut deux sources différentes des mêmes données : des fichiers pour le batch, et les web services
La visualisation la plus fraîche possible, pour le temps réel.
Architecture Data Lake Parmi les solutions les plus utilisée et les Ne gère que le stockage,
plus fréquentes, Gouvernance des données obligatoire afin de suivre l’utilisation des données.
Séparation entre stockage et exploitation
de la donnée,
Coût de stockage réduit,
Disponibilité,
Évolutivité.
136
Lambda Avoir une vision complète des données Chaîne de traitement / valorisation des données
Kappa Fournir une vision fraîche des données Données métier à destination des utilisateurs
SMACK Coût faible de traitement des données Analyse des données (Machine Learning)
137