Vous êtes sur la page 1sur 54

Chapitre 1 : Introduction aux Big

Ministère de la défense
nationale Data
Sonia Ben Ticha Azzouz
Novembre 2023

Big Data 3ème année


Géomatique

Pourquoi?
Définitions
Les 5 V tablettes d’argile
Changement de paradigme
Domaines
Commerce (comptabilité)
d’application Littérature
Technologie Big Data
Mathématiques
Plan du cours

Aux origines du Big


Possibilité
Data IVème millénaire de recycler les tablettes via le
trempage dans
l’eau
avant J.C. Sécher pour rester
marquer

Babyloniens et
Sumériens utilisent des
2 Sonia Ben Ticha Azzouz
Aux origines du Big Data
Pourquoi?

Pendant des
siècles les
copistes
Définitions

reproduisent des ouvrages existants


Les 5 V
Changement de
paradigme
Domaines
d’application
Technologie Big
Data
1454 : Invention de l’imprimerie par
Johannes Gutemberg

Plan du cours

3 Sonia Ben Ticha Azzouz


d’application
Technologie Big Data

Plan du cours

Aux origines du Big Data


Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Domaines
Loi de Moore
(Co-fondateur
d’Intel, 1965) IBM: S/360 en 1965
Le nombre de
transistors sur un
circuit intégré
(une puce)
doublerait environ tous les deux ans
🡺 une augmentation régulière de la puissance de traitement Restées la plupart du temps dans
des ordinateurs et une diminution des coûts.
4 Sonia Ben Ticha Azzouz l’organisation qui les a produites

Aux origines du Big Data


de nos jours

Pourquoi?
Définitions connectés (IoT)
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples

Plan du cours Plan du cours


Pourquoi?
Définitions
Les 5 V
Changement
de
paradigme
Domaines
d’application Technologie Big Data 3ème explosion des
données

Cloud computing et Objet


5 Sonia Ben Ticha Azzouz

Aux origines du Big Data


de nos jours,

Pourquoi?
Définitions
Les 5 V
Changement de
paradigme
sont liées à l'ensemble des individus
Domaines

🡺Nous sommes
d’application
Technologie Big Data ayant accès à Internet.

Plan du cours actuellement dans l'ère du Zeta-octets


Le volume de données a explosé
Les données ne sont plus seulement des
yota-octets
Il est déjà prévu de parler en
données liées aux entreprises, Elles
d'ici dix ans maximum
6 Sonia Ben Ticha Azzouz

Données générées en
seulement une minute sur
internet en 2020:

Pourquoi?
500 heures de vidéos YouTube
Définitions
Les 5 V Changement de paradigme
Domaines d’application 347 000 story sur Instagram
Technologie Big Data
52 000 utilisateurs connectés sur
Plan du cours
Teams

150 000 messages partagés sur


Facebook

6659 colis envoyés par Amazon


Volume de données
en 1 minute Les données Plus de 40 millions de messages
sont omniprésentes! partagés sur WhatsApp
7 Sonia Ben Ticha Azzouz
1 Octet(byte)
103 kilo-octet(kilobyte)

106 Mega-octes(Megabyte)

109 Giga-octet (Gigabyte)


Pourquoi?
Définitions
Les 5 V 1012 Tera-octet (Terabyte)
Changement de paradigme
Domaines
1015 Peta-octet (Petabyte)
d’application
Technologie Big Data 1018 Exa-octet (Eaxbyte)

Plan du cours
1021 Zeat-octe (Zetabyte)

Evolution des valeurs de stockage


1024 Yotta-octet (Yottabyte)
Ordre Système international de
de
Unité
grande
ur
8 Sonia Ben Ticha Azzouz
données :

2010: 2 zettaoctets de données (2 milliards de

Pourquoi?
Définitions disques SSD de 1 Tb) 2019: 33
Les 5 V
Changement de paradigme
Domaines
d’application zetta-octets produits
Technologie Big Data

Plan du cours

Un déluge continue de données


2025: 175 zetta-octets
Expression utilisé pour qualifier ce volume de
données
2035: 2140
Nous sommes aujourd’hui dans ce qu’on peut
qualifier de big bang de données Le volume de zetta-octets
9 Sonia Ben Ticha Azzouz

données?
Quelles sont les
Pourquoi?
Définitions technologies à
utiliser?
Les 5 V
Changement de paradigme
Domaines
d’application
Technologie Big Data Est-ce que les
Plan du cours
approches
Problématique
traditionnelles
Comment gérer ce peuvent traiter toutes
flux continu de ces quantités de
données?
10 Sonia Ben Ticha Azzouz

Donnée, information, connaissance


Pourquoi?
Einstein)
Définitions
Les 5 V
Changement de paradigme Donnée: 33°C
Domaines
d’application Information: la température de la
Technologie Big Data
classe est 33°C Connaissance:
Plan du cours lorsque la température de la pièce
La connaissance s'acquiert par dépasse 30°C, il fait très chaud et il
l'expérience, tout le reste n'est est impossible de pouvoir se
que de l'information." (Albert concentrer en cours.
▪ on donne un sens à l’information en la acquis par expérience
connectant avec d’autres connaissances

11 Sonia Ben Ticha Azzouz

Les données sont de natures


différentes Données structurées:
Pourquoi? ▪ stockées dans des tables SQL,
Définitions
▪ fichier Excel,
Les 5 V
Changement de paradigme
▪ fichier csv,…
Domaines Données non structurées:
d’application
Technologie Big Data
▪ Texte: d’un document, d’un mail, d’un
message, d’un commentaire ▪ Image: photo,
Plan du cours ▪ Audio: chanson, discours, discussion…
La nature des données ▪ Vidéo: film, documentaire, publicité, …
Un mélange de tout cela
▪ Une publication facebook pour contenir un et vidéo

mixage de ces données 🠶 Structurée, image, audio

12 Sonia Ben Ticha Azzouz

Un nouveau concept est né pour


qualifier ce déluge de données et le
Pourquoi? traitement qui en découle.
Définitions
Les 5 V Big Data ou Données massives ou
Changement de paradigme
Mégadonnées: à prendre de grandes
Domaines
d’application quantités de données de sources
Technologie Big Data
différentes,
Plan du cours à utiliser ces données de natures très
Big Data différentes produites selon des rythmes
différents sans avoir forcément besoin
de les convertir dans des formats
spécifiques, correspondant à des objectifs
à stocker ces données de sorte différents,
qu’elles puissent servir en même temps Et à faire tout cela très vite, et même
à tout un tas d’analyses différentes parfois …. en temps réel.
13 Sonia Ben Ticha Azzouz

Aucune définition précise ou


universelle ne peut être donnée au
Pourquoi?
Définitions
Big Data.
Les 5 V
Changement de paradigme
Sa définition varie selon les
Domaines communautés qui s’y intéressent en
d’application
Technologie Big Data tant qu’usager ou fournisseur de
Plan du cours
services. Inventé par les géants du
Définitions web, le Big Data se présente comme
une solution destinée pour permettre En proposant une alternative aux
à tout le monde d’accéder en temps solutions classiques de bases de données
réel à des bases de données et d’analyse (tel que les plate-formes de
Business Intelligence)
géantes.
14 Sonia Ben Ticha Azzouz

Pourquoi? Définition 1: Le Big Data est un


Définitions
Les 5 V concept global constitué d’un
Changement de paradigme
Domaines
d’application
ensemble d’outils et d’algorithmes
Technologie Big Data
qui permettent de stocker, visualiser
Plan du cours
et d’analyser des quantités très
Définitions
importantes de données non machines capables de les traiter.
structurées grâce à des milliers de

15 Sonia Ben Ticha Azzouz

Plan du cours

Définitions
Pourquoi?
Définitions Définition 2 : Le Big Data désigne
Les 5 V
Changement de paradigme
l'ensemble des données numériques
Domaines produites par l'utilisation des nouvelles
d’application
Technologie Big Data technologies à des fins personnelles ou
professionnelles qui regroupe:
électronique,
les données d'entreprise (courriels, documents, des échanges sur les réseaux sociaux,
bases de données, historiques de processeurs des données transmises par les objets connectés
métiers, fichiers logs...) (étiquettes électroniques, compteurs intelligents,
des données issues de capteurs, smartphones...),
des contenus publiés sur le web (images, vidéos, des données de géolocalisation, etc.
sons, textes), des transactions de commerce

16 Sonia Ben Ticha Azzouz

Les 3V du Big Data


Pour arriver à produire une information de qualité, on est confronté au travers du Big
Pourquoi?
Data, à la problématique des trois V
Définitions
Variété
Les 5 V Plan du cours Vitesse
Changement de paradigme
Volume
Domaines
d’application
Technologie Big Data
17 Sonia Ben Ticha Azzouz
Domaines
d’application
Exemples

Plan du cours

Pourquoi? Les 3V du Big Data


Définitions
Les 5 V
Volume
Changement de paradigme
Technologie Big Data La quantité de données générées,
collectées et stockées. Le Big Data capteurs, les données publiques
implique des quantités massives concourent à une envolée de la volumétrie
d'informations qui peuvent aller de de données
gigaoctets à plusieurs péta-octets voire
plus.
Défis: Quelle architecture
informatique pour traiter cette
C’est l’élément le plus le plus visible du
masse de données?
Big Data

Source: le Web, les smartphones, les


18 Sonia Ben Ticha Azzouz

Les 3V du Big
Data Vitesse (Velocité)
Définitions
Les 5 V
Pourquoi? Changement de paradigme
Technologie Big Data des réponses quasi-instantanées.
Domaines
d’application
Exemples

Plan du cours
Fait référence à la rapidité à laquelle
de nouvelles données sont générées et
traitées. Les données peuvent être Défis: Comment être capable de
produites en temps réel ou à un rythme traiter et
très rapide, exigeant une analyse et d’analyser ce flux continu de données?

19 Sonia Ben Ticha Azzouz

Les 3V du Big
Data Variétés
Définitions
Les 5 V
Pourquoi? Changement de paradigme
Technologie Big Data Caméra de surveillance
Domaines Réseaux sociaux
d’application
Exemples
Musique
Capteur de pollution
Plan du cours
Données hétérogènes
Défis: Données non structurées
Structurées
incompatibles avec les bases de
Semi-structurées (XML, JSon)
données classiques
Non-structurées (email, video, audio, textes
bruts, transactions, etc.)

Différentes sources de données:


Capteur RFID
20 Sonia Ben Ticha Azzouz

Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples

Plan du cours

Les 2V supplémentaires Valeur


En croisant les 3 V on peut créer de la valeur pour l’entreprise
Objectifs
Calculer des informations à partir de données brutes (raw data)
Prédire le futur en utilisant l’expérience passée
Outils
Statistiques
Algorithmes de Machine learning/Data mining
Deep Learning, etc

21 Sonia Ben Ticha Azzouz

Avec l’augmentation de la
quantité, la qualité et la précision
Pourquoi?
des données diminuent.
Définitions
Les 5 V
Changement de paradigme Défis:
Technologie Big Data
Domaines Comment se trouver dans un déluge
d’application
Exemples
de hashtags ? Comment gérer les
données partielles ou incomplètes ?
Plan du cours
Besoin d’une grande rigueur dans la
Les 2V supplémentaires collecte, l’enrichissement et le
Véracité
croisement des données

22 Sonia Ben Ticha Azzouz

Approche traditionnelle de
gestion des données Approche
centralisée pour la gestion des
Pourquoi?
données
Définitions
Les 5 V
Stockage & traitement des
Changement de paradigme
Technologie Big Data données centralisés dans
Domaines
d’application
un SGBDR
Exemples

Plan du cours
SGBDR sur un serveur
central dans une
architecture Client/serveur

Serveur central est une


(1980)
machine très puissante
1ère génération Architecture 2-tiers
23 Sonia Ben Ticha Azzouz
Exemples

Plan du cours

Approche traditionnelle de
Pourquoi? gestion des données Comment
Définitions
résoudre le problème de la monté en
Les 5 V
Changement de paradigme
charge?
Technologie Big Data
Domaines
d’application
1. Répartir le traitement
▪ Serveur de données
Calcul réparti ▪ Serveurs métiers (serveurs
▪ Efforts concentrés sur le calcul d’applications)
intensif
▪ Serveur web
▪ Réseau peu performant imposant
▪ Serveur de fichiers
dé réduire le transféré des
données
Architecture n-tiers
▪ Serveur de messageries, etc Cluster de calcul

24 Sonia Ben Ticha Azzouz


Domaines
d’application
Exemples

Plan du cours

Pourquoi? Approche traditionnelle de la


Définitions
Les 5 V gestion des données Comment
Changement de paradigme résoudre le problème de la monté en
Technologie Big Data
charge?
2. Bases de données
Utilisation du modèle relationnel
depuis
les années 80
Traitement transactionnelles (ACID)
Données structurées (tables)
Très forte optimisation des SGBDR

Cluster de calcul
25 Sonia Ben Ticha Azzouz
3. Up sizing: augmenter les
performances des serveurs
Pourquoi? (loi de Moore)
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data Augmenter la puissance du
Domaines
d’application
traitement
Exemples ▪ Augmenter la puissance des processeurs
▪ Augmenter la taille de mémoire vive
Plan du cours (RAM)
Approche traditionnelle de la
gestion des données Comment Augmenter la puissance de
résoudre le problème de la monté en stockage
charge?
▪ la taille des disques de stockage
26 Sonia Ben Ticha Azzouz

Up Sizing
La performance d’un serveur est limitée par les
Pourquoi? composants de la machine Impossible
Définitions d’augmenter indéfiniment les performances des
Les 5 V
composants d’une machine (loi physique)
Changement de paradigme
Technologie Big Data L’augmentation du volume des données à traiter
Domaines est beaucoup plus rapide que l’augmentation des
d’application performances des composants (CPU, RAM,
Exemples disque)

Plan du cours Augmentation du temps de latence


Limites de l’approche Trop de charge sur le serveur

centralisée Augmenter le temps de latence: (durée entre le


lancement d’une requête et l’obtention du résultat) structurées

Stockage:SGBDR Adaptés pour les données structurées

Ne peuvent pas traiter les données non


27 Sonia Ben Ticha Azzouz
Faiblesse de l’approche centralisée

Google en 2002 est le premier à avoir


constaté la faiblesse de l’approche
Pourquoi? centralisée
Définitions Pour traiter un volume de données important
Les 5 V Pour stocker un volume de données important
Changement de paradigme
Technologie Big Data
Domaines
Avec le doublement des transistors sur les
d’application microprocesseurs tous les 18 mois et la
Exemples
baisse des coûts des ordinateurs
Plan du cours

Google Innovateur, 2002


la constitution de Data

🡺 Google a prévu que le


Centers composés de
plusieurs machines (les
clusters)
futur du traitement
informatique reposerait sur
28 Sonia Ben Ticha Azzouz
Exemples

Plan du cours

Nouveau paradigme pour la


Pourquoi? gestion des données Proposé
Définitions par Google
Les 5 V
Changement de paradigme
Technologie Big Data
Distribuer le stockage des données et
Domaines
d’application
Paralléliser leur traitement sur les
noeuds d’un cluster
La tolérance aux pannes est fournie
les traitements/calculs sont divisés en par un tout nouveau type de Système
tâches de Fichiers appelé "Système de
leur exécution est parallélisée dans un Fichier Distribué" (DFS)
cluster d’ordinateurs complètement
tolérant aux pannes

29 Sonia Ben Ticha Azzouz

Plan du cours

Nouveau paradigme pour la


gestion des données
Pourquoi?
Architecture distribuée
Définitions
Les 5 V
Changement de paradigme
Un clusteur : ensemble de serveurs
Technologie Big Data connectés
Domaines serveur: stockage et traitement
d’application
Exemples Chaque serveur (machine) est un nœud (node)
contenant des serveurs
connectés via Ethernet
Rack: une armoire

30 Sonia Ben Ticha Azzouz


Domaines
d’application
Exemples

Plan du cours

Pourquoi? Qui est concerné par le Big


Définitions
Les 5 V data?
Changement de paradigme
Technologie Big Data
continu
Toutes les organisations sont
concernées par le Big Data Traiter un volume immense de
données

3 principales catégories Découvrir et expérimenter


d’utilisation:
Analyser des données en flux
31 Sonia Ben Ticha Azzouz
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples
Pourquoi?
Définitions
Plan du cours
Analyser des données en flux
continu

Objectif: extraire une information pertinente à

partir d’un flux de données Social Media


Management : utiliser le potentiel d’influence des
médias sociaux pour Favoriser l’activité marketing des
entreprises
Etre au fait des mouvements d’opinions et de mobilisation
32 Sonia Ben Ticha Azzouz
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples

Pourquoi?
Plan du cours
Définitions
Les 5 V Analyser des données en flux
continu les analysent au travers d’algorithmes
spécifiques

Autres exemples
Analyse des logs de serveurs
Analyse des données de capteurs pour prévenir les pannes
Traitement temps réel des données issues d’accélérateurs
Des logiciels récupèrent via des API des de particules
données provenant des réseaux sociaux, puis
33 Sonia Ben Ticha Azzouz
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples

Pourquoi?
Plan du cours
Définitions
Les 5 V Traiter un volume immense de
données
Autres exemples
Traiter un volume conséquent de données et la Suivi de phénomène propagé comme une épidémie
capacité de croiser une très grande variété de Amélioration du trafic routier via le croisement des données
données pour en déduire de l'information. vidéos et
des
capteurs

Coupe du Monde 2014 –Equipe d’Allemagne


Partenariat avec SAP
Analyse d’une multitude de données des adversaires
Puces RFID dans les protège-tibias

34 Sonia Ben Ticha Azzouz

Pourquoi?
Définitions
Les 5 V
Changement de paradigme Domaines limitée d’utilisateurs de votre
d’application
Technologie Big Data
plate-forme
Plan du cours

Découvrir et expérimenter Exemple: Système de


recommandation de Amazon
Découvrir et expérimenter
consiste à générer différentes
informations comparatives à partir
de modifications de paramètres.
Tester en temps réel l’impact de
vos modifications sur une portion
35 Sonia Ben Ticha Azzouz

Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
élections US à partir d’analyse de
Domaines
d’application
tweets
Exemples
Découverte d’un effet
Plan du cours secondaire dû à la prise de deux
D’autres exemples médicaments par analyse des
d’utilisations requêtes d’internautes (Yahoo)
Étude des déplacements de
Décodage du génome humain: population (migration, tourisme,
le génôme d’une personne (env. circulation urbaine, etc)
100Go) décodé en 30mns
Prédiction des résultats des
36 Sonia Ben Ticha Azzouz
Google DataCenter :
70000 servers/data center et 16 data

Pourquoi? centers, ~1M de serveurs Facebook


Définitions
Les 5 V :
Changement de paradigme
Technologie Big Data 5 data centers
Domaines
d’application
Amazon :
Plan du cours
7 data centers, 450 000 severs
Exemples de Data Centers
Microsoft :
Data centers de quelques environ 1M serveurs

grands acteurs du Big Data


37 Sonia Ben Ticha Azzouz
contenus nécessite de nouvelles architectures
informatiques

Pourquoi?
Rupture technologique lancée
Définitions
Les 5 V par Google et Yahoo
Changement de paradigme
Technologie Big Data
Domaines
d’application Besoin de paralléliser le traitement sur un
Exemples
stockage distribué Besoin de permettre une
Plan du cours Plan du cours
montée en charge rapide et provisoire
Besoin de gérer des données non structurées
Rupture téchnologique
Besoin d’analyser des données en flux
continu
Crawler le web : indexer de nouveaux
38 Sonia Ben Ticha Azzouz

Parallélisme = MapReduce
Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples Montée en charge
=
Plan du cours Plan du cours
Cloud Computing

Nouvelles technologies
NoSQL

Flux continu =
outils comme Kafka

Données non structurées =BD


39 Sonia Ben Ticha Azzouz

Technologies
autour du Big
Data en 2012
Pourquoi?
Définitions
Les 5 V
Changement de
paradigme
Technologie Big
Data
Domaines
d’application
Exemples

Plan du cours

40 Sonia Ben Ticha Azzouz

Big Data, une multitude d’activités


Domaines
d’application Plan du cours
Pourquoi?
Exemples
Définitions
Les 5 V
Gestion de l’infrastructure Outils
Changement de paradigme
Technologie Big Data
analytiques

Bases de données NoSQL Outils

de visualisation Outils d’intégration

de données

Langages de programmation dédiés

Algorithmes spécifiques pour la


parallélisation des traitements

Intelligence artificielle avec le Machine


Learning et le Deep Learning
Technologies autour du Big Data en
2021

41 Sonia Ben Ticha Azzouz

Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data gestion des données Data Scientist:
Domaines
d’application
Exemples
spécialiste de l’analyse des données
massives Architecte Big Data:
Plan du cours

Les métiers du Big Data concepteur des solutions


Développeur Big Data: maîtrisant les
Le Big Data a créé des métiers avec langages de développement
des profils différents:
Administrateur Big Data: en charge
Chief Data Officer :en charge de la de l’opérabilité de la plate forme de
gouvernance des données pour Big Data
l’entreprise
Data Engineer: spécialisé dans la

42 Sonia Ben Ticha Azzouz


Hadoop
La plateforme technique la plus utilisée
aujourd’hui Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples

Plan du cours
Identification des solutions
(Architecte)
Développer et déployer
(Développeur)
Administrer
(Administrateur)
43 Sonia Ben Ticha Azzouz
Exemples

Plan du cours

Plan du cours
Pourquoi?
Définitions Les 5 V
Cours
Changement de paradigme
Technologie Big Data Chapitre 1: Introduction au Big
Domaines d’application
Data
Chapitre 2: Hadoop Chapitre 3: Traitement des
Hadoop, HDFS données
Hadoop, MapReduce Traitement par lot
Hadoop, MapRedue Patrons de Traitement par streaming
conception (Design Patterns) Chapitre 4, BD NoSQL

44 Sonia Ben Ticha Azzouz


Exemples

Plan du cours

Plan du cours
Pourquoi?
Définitions Les 5 V
TPs
Changement de paradigme
Technologie Big Data Chapitre 2: Hadoop
Domaines d’application
TP1: installation de Docker Design Patterns Chapitre
et Hadoop TP2: Utilisation 4, BD NoSQL
de HDFS TP5: Base de données
TP3: Hadoop MapReduce NoSQL
en python TP4: Mapreduce,

45 Sonia Ben Ticha Azzouz

Vous aimerez peut-être aussi