Académique Documents
Professionnel Documents
Culture Documents
Ministère de la défense
nationale Data
Sonia Ben Ticha Azzouz
Novembre 2023
Pourquoi?
Définitions
Les 5 V tablettes d’argile
Changement de paradigme
Domaines
Commerce (comptabilité)
d’application Littérature
Technologie Big Data
Mathématiques
Plan du cours
Babyloniens et
Sumériens utilisent des
2 Sonia Ben Ticha Azzouz
Aux origines du Big Data
Pourquoi?
Pendant des
siècles les
copistes
Définitions
Plan du cours
Plan du cours
Pourquoi?
Définitions connectés (IoT)
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples
Pourquoi?
Définitions
Les 5 V
Changement de
paradigme
sont liées à l'ensemble des individus
Domaines
🡺Nous sommes
d’application
Technologie Big Data ayant accès à Internet.
Données générées en
seulement une minute sur
internet en 2020:
Pourquoi?
500 heures de vidéos YouTube
Définitions
Les 5 V Changement de paradigme
Domaines d’application 347 000 story sur Instagram
Technologie Big Data
52 000 utilisateurs connectés sur
Plan du cours
Teams
106 Mega-octes(Megabyte)
Plan du cours
1021 Zeat-octe (Zetabyte)
Pourquoi?
Définitions disques SSD de 1 Tb) 2019: 33
Les 5 V
Changement de paradigme
Domaines
d’application zetta-octets produits
Technologie Big Data
Plan du cours
données?
Quelles sont les
Pourquoi?
Définitions technologies à
utiliser?
Les 5 V
Changement de paradigme
Domaines
d’application
Technologie Big Data Est-ce que les
Plan du cours
approches
Problématique
traditionnelles
Comment gérer ce peuvent traiter toutes
flux continu de ces quantités de
données?
10 Sonia Ben Ticha Azzouz
Plan du cours
Définitions
Pourquoi?
Définitions Définition 2 : Le Big Data désigne
Les 5 V
Changement de paradigme
l'ensemble des données numériques
Domaines produites par l'utilisation des nouvelles
d’application
Technologie Big Data technologies à des fins personnelles ou
professionnelles qui regroupe:
électronique,
les données d'entreprise (courriels, documents, des échanges sur les réseaux sociaux,
bases de données, historiques de processeurs des données transmises par les objets connectés
métiers, fichiers logs...) (étiquettes électroniques, compteurs intelligents,
des données issues de capteurs, smartphones...),
des contenus publiés sur le web (images, vidéos, des données de géolocalisation, etc.
sons, textes), des transactions de commerce
Plan du cours
Les 3V du Big
Data Vitesse (Velocité)
Définitions
Les 5 V
Pourquoi? Changement de paradigme
Technologie Big Data des réponses quasi-instantanées.
Domaines
d’application
Exemples
Plan du cours
Fait référence à la rapidité à laquelle
de nouvelles données sont générées et
traitées. Les données peuvent être Défis: Comment être capable de
produites en temps réel ou à un rythme traiter et
très rapide, exigeant une analyse et d’analyser ce flux continu de données?
Les 3V du Big
Data Variétés
Définitions
Les 5 V
Pourquoi? Changement de paradigme
Technologie Big Data Caméra de surveillance
Domaines Réseaux sociaux
d’application
Exemples
Musique
Capteur de pollution
Plan du cours
Données hétérogènes
Défis: Données non structurées
Structurées
incompatibles avec les bases de
Semi-structurées (XML, JSon)
données classiques
Non-structurées (email, video, audio, textes
bruts, transactions, etc.)
Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples
Plan du cours
Avec l’augmentation de la
quantité, la qualité et la précision
Pourquoi?
des données diminuent.
Définitions
Les 5 V
Changement de paradigme Défis:
Technologie Big Data
Domaines Comment se trouver dans un déluge
d’application
Exemples
de hashtags ? Comment gérer les
données partielles ou incomplètes ?
Plan du cours
Besoin d’une grande rigueur dans la
Les 2V supplémentaires collecte, l’enrichissement et le
Véracité
croisement des données
Approche traditionnelle de
gestion des données Approche
centralisée pour la gestion des
Pourquoi?
données
Définitions
Les 5 V
Stockage & traitement des
Changement de paradigme
Technologie Big Data données centralisés dans
Domaines
d’application
un SGBDR
Exemples
Plan du cours
SGBDR sur un serveur
central dans une
architecture Client/serveur
Plan du cours
Approche traditionnelle de
Pourquoi? gestion des données Comment
Définitions
résoudre le problème de la monté en
Les 5 V
Changement de paradigme
charge?
Technologie Big Data
Domaines
d’application
1. Répartir le traitement
▪ Serveur de données
Calcul réparti ▪ Serveurs métiers (serveurs
▪ Efforts concentrés sur le calcul d’applications)
intensif
▪ Serveur web
▪ Réseau peu performant imposant
▪ Serveur de fichiers
dé réduire le transféré des
données
Architecture n-tiers
▪ Serveur de messageries, etc Cluster de calcul
Plan du cours
Cluster de calcul
25 Sonia Ben Ticha Azzouz
3. Up sizing: augmenter les
performances des serveurs
Pourquoi? (loi de Moore)
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data Augmenter la puissance du
Domaines
d’application
traitement
Exemples ▪ Augmenter la puissance des processeurs
▪ Augmenter la taille de mémoire vive
Plan du cours (RAM)
Approche traditionnelle de la
gestion des données Comment Augmenter la puissance de
résoudre le problème de la monté en stockage
charge?
▪ la taille des disques de stockage
26 Sonia Ben Ticha Azzouz
Up Sizing
La performance d’un serveur est limitée par les
Pourquoi? composants de la machine Impossible
Définitions d’augmenter indéfiniment les performances des
Les 5 V
composants d’une machine (loi physique)
Changement de paradigme
Technologie Big Data L’augmentation du volume des données à traiter
Domaines est beaucoup plus rapide que l’augmentation des
d’application performances des composants (CPU, RAM,
Exemples disque)
Plan du cours
Plan du cours
Plan du cours
Pourquoi?
Plan du cours
Définitions
Les 5 V Analyser des données en flux
continu les analysent au travers d’algorithmes
spécifiques
Autres exemples
Analyse des logs de serveurs
Analyse des données de capteurs pour prévenir les pannes
Traitement temps réel des données issues d’accélérateurs
Des logiciels récupèrent via des API des de particules
données provenant des réseaux sociaux, puis
33 Sonia Ben Ticha Azzouz
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples
Pourquoi?
Plan du cours
Définitions
Les 5 V Traiter un volume immense de
données
Autres exemples
Traiter un volume conséquent de données et la Suivi de phénomène propagé comme une épidémie
capacité de croiser une très grande variété de Amélioration du trafic routier via le croisement des données
données pour en déduire de l'information. vidéos et
des
capteurs
Pourquoi?
Définitions
Les 5 V
Changement de paradigme Domaines limitée d’utilisateurs de votre
d’application
Technologie Big Data
plate-forme
Plan du cours
Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
élections US à partir d’analyse de
Domaines
d’application
tweets
Exemples
Découverte d’un effet
Plan du cours secondaire dû à la prise de deux
D’autres exemples médicaments par analyse des
d’utilisations requêtes d’internautes (Yahoo)
Étude des déplacements de
Décodage du génome humain: population (migration, tourisme,
le génôme d’une personne (env. circulation urbaine, etc)
100Go) décodé en 30mns
Prédiction des résultats des
36 Sonia Ben Ticha Azzouz
Google DataCenter :
70000 servers/data center et 16 data
Pourquoi?
Rupture technologique lancée
Définitions
Les 5 V par Google et Yahoo
Changement de paradigme
Technologie Big Data
Domaines
d’application Besoin de paralléliser le traitement sur un
Exemples
stockage distribué Besoin de permettre une
Plan du cours Plan du cours
montée en charge rapide et provisoire
Besoin de gérer des données non structurées
Rupture téchnologique
Besoin d’analyser des données en flux
continu
Crawler le web : indexer de nouveaux
38 Sonia Ben Ticha Azzouz
Parallélisme = MapReduce
Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data
Domaines
d’application
Exemples Montée en charge
=
Plan du cours Plan du cours
Cloud Computing
Nouvelles technologies
NoSQL
Flux continu =
outils comme Kafka
Technologies
autour du Big
Data en 2012
Pourquoi?
Définitions
Les 5 V
Changement de
paradigme
Technologie Big
Data
Domaines
d’application
Exemples
Plan du cours
de données
Pourquoi?
Définitions
Les 5 V
Changement de paradigme
Technologie Big Data gestion des données Data Scientist:
Domaines
d’application
Exemples
spécialiste de l’analyse des données
massives Architecte Big Data:
Plan du cours
Plan du cours
Identification des solutions
(Architecte)
Développer et déployer
(Développeur)
Administrer
(Administrateur)
43 Sonia Ben Ticha Azzouz
Exemples
Plan du cours
Plan du cours
Pourquoi?
Définitions Les 5 V
Cours
Changement de paradigme
Technologie Big Data Chapitre 1: Introduction au Big
Domaines d’application
Data
Chapitre 2: Hadoop Chapitre 3: Traitement des
Hadoop, HDFS données
Hadoop, MapReduce Traitement par lot
Hadoop, MapRedue Patrons de Traitement par streaming
conception (Design Patterns) Chapitre 4, BD NoSQL
Plan du cours
Plan du cours
Pourquoi?
Définitions Les 5 V
TPs
Changement de paradigme
Technologie Big Data Chapitre 2: Hadoop
Domaines d’application
TP1: installation de Docker Design Patterns Chapitre
et Hadoop TP2: Utilisation 4, BD NoSQL
de HDFS TP5: Base de données
TP3: Hadoop MapReduce NoSQL
en python TP4: Mapreduce,