Vous êtes sur la page 1sur 30

3ème année cycle d’ingénieur

Ingénierie Informatique et Technologies Emergentes (2ITE)

Gestion et Traitement
BIG DATA

Prof. HANINE Mohamed


Laboratoire Télécommunications, Réseaux et Informatique (TRI)
ENSA Eljadida, Université Chouaib Doukkali, Maroc
Email: m.hanine.ensaj@gmail.com Année universitaire 2020/2021
Objectifs
• Selon LinkedIn (2018), les compétences les plus recherchées depuis plusieurs années sont :
1) Cloud and Distributed Computing (Hadoop, Big Data,…)
2) Statistical Analysis and Data Mining (R, Data Analysis, Data Mining)

https://learning.linkedin.com/week-of-learning/top-skills#

Année universitaire 2020/2021


Objectifs
• A l’issue de ce module vous serez capable de :
• Comprendre le rôle stratégique de la gestion des données pour l'entreprise.
• Se familiariser aux concepts théoriques reliés à la gestion et au traitement de
données massives (Big Data) et d’Apprendre à utiliser un outil adapté à cet
effet (Framework Hadoop).
• Maitriser les techniques d’optimisation des requêtes sur les BIG DATA.

Année universitaire 2020/2021


Planning de Semestre
• Séance 1 : Introduction au BIG DATA
• Séance 2 : Hadoop + TP 1 : Installation + Manipulation HDFS
• Séance 3 : Hadoop + TP 2 : Solution Cloudera + MapReduce (en Java)
• Séance 4 : Hadoop + TP 3 : Solution HortonWorks + MapReduce ( en Python)
• Séance 5 : Rappel sur NoSQL +MapReduce avec MongoDB et/ou Scala + TP 4
• Séance 6 : Contrôle mi-semestre (Théorique et Pratique)
• Séance 7 : HBase + TP 5
• Séance 8 : PIG + TP 6
• Séance 9 : HIVE + TP 7
• Séance 10 :Exposés + Mini Projet
Examen Final

Année universitaire 2020/2021


Les modalités de calcul de la note finale du
module

• Gestion et Traitement BIG DATA


• Contrôle + Travaux à réaliser (TPs et Exposés) 40%
• Examen + Mini projet 60%

Année universitaire 2020/2021


Bibliographie
• Les cours et les supports de ce module reposent principalement
sur ces sources bibliographiques :

Année universitaire 2020/2021


Plan du chapitre 1 – Introduction Générale
(BIG DATA)
• Définition
• Caractéristiques
• Généralités sur Big Data
• Processus de chargement
• BI vs Big Data
• Domaines d’utilisation

Année universitaire 2020/2021


Évolution des ressources informatiques
• Stockage

Croissance du nombre de transistors dans les microprocesseurs


Intel par rapport à la loi de Moore. En vert, la prédiction initiale
voulant que ce nombre double tous les 18 mois.

Année universitaire 2020/2021


Évolution des ressources informatiques
• Conséquences
• Une forte utilisation des terminaux (PC, smartphone, tablettes, objets
connectés, ...
• De plus en plus d'utilisateurs
• De plus en plus d'applications en ligne (réseaux sociaux, commerces en
ligne, partage de contenu, multimédia, ...

De plus en plus de données produites chaque jour


Selon IBM, tous les jours nous produisons 2,5 Exa-Octets (2016)
Nom octet (O) Ko Mo Go To Po Eo Zo Yo
Puissances 100 octets 103 O 106 O 109 O 1012 O 1015 O 1018 O 1021 O 1024 O

Année universitaire 2020/2021


Définition de BIG DATA
• Le terme « Big Data » littéralement traduit par « grosse de données » ou « données
massives » qui désigne l’explosion de données.
• Le domaine de Big Data est un concept popularisé en derniers années pour traduire le fait
que les entreprises sont confrontées à des volumes de données à traiter de plus en plus
considérables et présentant un fort enjeux commercial et marketing.
• Ces données massives en deviennent difficiles à traiter ou gérer avec des outils classiques
de gestion comme les base de données.

Année universitaire 2020/2021


Objectifs du BIG DATA
• Problématique principale:
• Comment traiter/analyser efficacement des données massives ?

 Objectifs :
 Meilleure prise de décision
 Amélioration des processus opérationnels
 Amélioration de la connaissance client
 Réduction des coûts
 ….

Année universitaire 2020/2021


Caractéristiques de BIG DATA

• Gartner (2010)–3Vs
Vélocité Volume Variété

• IBM (2012)- 4Vs Vélocité Volume Variété

véracité

Année universitaire 2020/2021


Caractéristiques de BIG DATA
• À partir de 2015- 5Vs

Année universitaire 2020/2021


Caractéristiques de BIG DATA
 Volume
• Décrit la quantité de données générées et gérées par des entreprises.
• 90% des données actuelles ont été créées dans les deux dernières années
seulement (IBM, 2014)
• Internet :
• Google en 2015 : 10 Eo (10 milliards de Go),
• Facebook en 2014 : 300 Po de données (300 millions de Go), 4 Po de nouvelles
données par jour,
• Twitter, génère 7 To de données chaque jour.
• Prévision d’une croissance de 800% des quantités de données à traiter d’ici à
5ans.

Année universitaire 2020/2021


Caractéristiques de BIG DATA
Volume

Année universitaire 2020/2021


Caractéristiques de BIG DATA

Vélocité (vitesse)
• Décrit la fréquence à laquelle les données sont générées, capturées, partagées et mise a jour.
• Flux croissants de données doivent être analyses en temps réel. ex : bourse/information
économique, comportement de l'utilisateur d'un site de commerce électronique.
• Utilisation des données en temps réel (pour la détection de fraudes, analyse des données,…).

Année universitaire 2020/2021


Caractéristiques de BIG DATA
Variété
• La croissance de la variété des données est la conséquence des nouvelles données
multi structurelles et de l'expansion des types de données provenant de différentes
sources hétérogènes. Aujourd’hui, on trouve des capteurs d'informations aussi
bien dans les appareils électroménagers, les trains, les automobiles ou les avions,
qui produisent des informations très variées.
• Ces nouvelles données dites non-structurées sont variées :
• Des photos ;
• Des mails (avec l’analyse sémantique de leur contenu) ;
• Les données issues des réseaux sociaux (commentaires et avis des internautes)

Diversité des données Année universitaire 2020/2021


Caractéristiques de BIG DATA
Véracité
• Décrit la qualité, la fiabilité et la confiance des données. Souvent les données utilisées
peuvent être bruités, imprécises…
• 33% CHEFS D'ENTREPRISE ne font pas confiance à l'information qu'ils utilisent.
(Sondage 2016 à USA)
• Exemple: Mauvaise qualité des données généré par des agent russes sur Facebook à
influencer sur l'élection américaine de novembre 2016 en faveur de Donald Trump.
• Exemple: Cambridge Analytica

Année universitaire 2020/2021


Caractéristiques de BIG DATA
Valeur
• C’est bien d’avoir accès aux grosses données mais encore faut-il les transformer en valeur,
sinon c’est inutile !
• Evaluer les données à leur juste valeur pour qu'elles soient rentables
• Atteindre des objectifs stratégiques de création de valeur pour les clients et pour l’entreprise
dans tous les domaines d’activité.

Année universitaire 2020/2021


Caractéristiques de BIG DATA
• En 2017 -10Vs ??

https://le-datascientist.fr/les-10-v-du-big-data

Année universitaire 2020/2021


Généralités sur Big Data
• BI (Business intelligence) et Big Data (Problèmatique) (1/4)
• La méthodologie BI fonctionne sur le principe de regrouper toutes les données de l’entreprise
dans un serveur central (Datawarehouse ou entrepôt de données). Les données sont
généralement analyse en mode déconnecté.
• Les données sont généralement structurées en SGBDR.
• Ces systèmes (SGBDR) ont été construits avec une échelle à l'esprit (limité). Même les
entreprises n'ont pas été préparées à l’échelle des données produits aujourd'hui.
• Comme les exigences de ces entreprises ont augmenté au fil du temps, ils doivent repenser et
réinvestir dans l'infrastructure. Actuellement, le coût des ressources impliquées dans
l'extension de l'infrastructure, s’augmente avec un facteur exponentiel.

Année universitaire 2020/2021


Généralités sur Big Data
• BI (Business intelligence) et Big Data (2/4)
• Une solution Big Data, est différente d’une architecture BI dans les aspects
suivants :
 Les données sont conservées dans un système de fichiers distribué (DFS) et
scalable plutôt que sur un serveur central. Les données est divisé en morceaux ou en
petits blocs et réparti sur un nombre N de nœuds ou de machines.

Année universitaire 2020/2021


Généralités sur Big Data
• BI (Business intelligence) et Big Data (3/4)
• Une solution Big Data, est différente d’une architecture BI dans les aspects
suivants :
 La technologie Big Data s’appuie sur un traitement massivement parallèle. Les
machines travaillent en parallèle pour le traitement et l'analyse. Après le traitement, les
données sont fusionnées pour le résultat final recherché. (MapReduce)
 La tolérance aux pannes présente la réplication d'un seul bloc (ou Chunk) de données
plus qu'une fois. Par conséquent, même si l'un des machines est complètement en
panne, on peut obtenir les données à partir d'une autre machine ou d’un autre
«Datacenter».

Année universitaire 2020/2021


Généralités sur Big Data

• BI (Business intelligence) et Big Data (4/4)


• Une solution Big Data, est différente d’une architecture BI dans les
aspects suivants :
 Flexibilité, évolutivité et scalabilité: la facilité d'ajouter de plus en plus de nœuds
dans le cluster quand la demande pour l'espace augmente. De plus, la façon dont
les architectures de ces frameworks sont faites, convient très bien le scenario de
Big Data.
 Les données sont de formats différents, à la fois structurées, semi-structurées
ainsi que non structurées ;
 Les données sont analysées en temps réel ;

Année universitaire 2020/2021


Généralités sur Big Data
Architecture Big Data

Couche
visualisation
Couche d’ingéstion

Couche
management et
traitement

Couche stockage

Couche matériel

Année universitaire 2020/2021


Généralités sur Big Data
• Quelques domaines d’utilisation du Big Data (1/3)
 Les perspectives d’utilisation de ces données sont énormes, notamment pour
l’analyse d’opinions politiques, de tendance industrielles, la génomique, la
lute contre la criminalité et la fraude, les méthodes de marketing publicitaire et
de vente etc…

Année universitaire 2020/2021


Généralités sur Big Data
• Quelques domaines d’utilisation du Big Data (2/3)
Catégorie 1:les domaines qui manipulent quotidiennement des volumes de
données très important, avec des problématiques de vitesse associées
 Les Banques : la sanctuarisation de données anciennes dues à des contraintes
réglementaires ;
 La Télécommunication : l’analyse de l’état du réseau en temps réel ;
 Les Médias Numériques : le ciblage publicitaire et l’analyse de sites web ;
 Les Marchés Financier : l’analyse des transactions pour la gestion des risques et la
gestion des fraudes, ainsi que pour l’analyse des clients.

Année universitaire 2020/2021


Généralités sur Big Data
• Quelques domaines d’utilisation du Big Data (3/3)
Catégorie 2: les domaines qui sont plus hétérogènes, les besoins, mais aussi
l’utilisation qui est faite du Big Data, peuvent être très différents
 Les Services Publics : l’analyse des compteurs (gaz, électricité, etc.) et la gestion des
équipements ;
 Le Marketing : le ciblage publicitaire, l'analyse de tendance, l’analyse des sentiments et
analyse de comportements ;
 La Santé : l’analyse des dossiers médicaux et l’analyse génomique.
 La politique : l’analyse des opinions politiques

(New-York Times 2017)

Année universitaire 2020/2021


Technologies Big Data
• Il existe de nombreuses technologies pour résoudre le problème du stockage et du traitement
du Big Data. Ces technologies sont Apache Hadoop, Apache Spark, Apache Flink, Apache
Storm etc.
• Apache Hadoop: Le Big Data crée actuellement un impact important sur les industries. Par
conséquent, 50% des données du monde ont déjà été transférées vers Hadoop, le cœur du Big
Data. On prévoit que d'ici 2017, plus de 75% des données mondiales seront transférées vers
Hadoop et que cette technologie sera la plus exigeante du marché.
• Apache Spark: L'amélioration de cette technologie a conduit à l'évolution d'Apache Spark, un
moteur de calcul rapide et polyvalent pour le traitement à grande échelle. Il peut traiter les
données jusqu'à 100 fois plus rapidement que MapReduce.

Année universitaire 2020/2021


Questions
• Data Science vs Big Data vs Data Analytics ?
• Le problème de Cambridge Analytica ?

• Présentation de 5 min : BI vs Big Data


• Présentation de 5 min : 10 Vs

Vous aimerez peut-être aussi