Vous êtes sur la page 1sur 43

Support de Cours

Introduction au Big Data

Enseignant responsable: Hedi YAZID


hedi.yazid@gmail.com
Avant de commencer

❖ Posez des questions.


Si un point n'est pas clair, n'hésitez pas à poser des questions à tout
moment.
❖ Point de contact: hedi.yazid@gmail.com
Vous pouvez m'envoyer toute question par e-mail concernant le
cours, les TP’s ou les examen.
❖ Big Data: Tendance universelle… Alors, n’hésitez pas à Googler
Si vous rencontrez un problème, prenez le réflexe d'effectuer une
recherche – dans une majorité de cas, quelqu'un d'autre aura eu le
même problème que vous

2
Objectifs du Cours

❖ S’initier avec les notions du Big Data


❖ Découvrir le Paradigme du traitement des grandes masses de
données
❖ Découvrir la méthodologie map/reduce.
 Apprendre à installer et utiliser Hadoop.
 Apprendre à rédiger et exécuter des
programmes pour Hadoop
 Découvrir diverses solutions complémentaires
liées à Hadoop (Batch, Hive, Pig, etc.)
❖Appliquer le Hadoop sur des études de cas de la littérature
 Théories Fondamentales (Cours + Exercices
sur papier)
 Apprentissage basé sur la pratique (TP’s):
Installation, Configuration et études de cas

3
Chapitre I: Notions de Base de Big DATA

❖ Introduction

❖ Big Data: Généralités

❖ Les Solutions du Big Data

4
I. Introduction

Point Commun: Traitement des Données

5
I. Introduction

❖ Le Big data bouscule de fond en comble nos manières de faire du


"business".

❖ Le concept, tel qu'il est défini actuellement, englobe un ensemble de


technologies et de pratiques destinées à stocker de très grandes masses
de données et à les analyser très rapidement.

❖ Pour décrire le principe du big data, il est coutumier de résumer ses


caractéristiques majeures en utilisant 4 lettres "V" :
Volume,Velocity,Variety,Veracity.

6
I. Introduction

La fouille de données

Méthodes Data Mining


Le data mining est l’ensemble des : appliquées dans les grandes
➢ méthodes scientifiques masses de Données « Big
Data »
➢ destinées a l’exploration et l’analyse
➢ de (souvent) grandes bases de données informatiques
➢pour l’aide a la décision: On parle d’extraire l’information
de la donnée

Selon le MIT, c’est l’une des 10 technologies émergentes qui ≪ changeront


le monde ≫ au XXIe siècle

7
I. Introduction

”Le cloud computing est une technologie permettant de délocaliser les


données et les applications sur des infrastructures dématérialisées
accessibles depuis Internet.”

❖ Données en Cloud
➢ Platforms for data analysis
➢ Platforms for Update intensive workloads

❖ Data Platforms for Large Applications Besoin des


Solutions Big Data
❖ Multitenant Data Platforms

❖ Open Research Challenges

8
I. Introduction

❖ « DATA » (DONNEE): ENREGISTREMENT dans un Code d’un fait ( objet,


transaction, observation) du monde réel
❖ « INFORMATION» : Ce que je peux DEDUIRE d’un ensemble de DATA
Ex : Livre de Médecine Chinoise de 1000 pages en Chinois (ensemble de data
!) « tout le bruit du monde »

Adrian Mc Donough dans Information economics définit l'information comme


la rencontre d'une donnée (data) et d'un problème

❖ DATA : « OR GRIS » de ce millénaire !


▪ « Capital immatériel »; Stratégie du « KNOWING YOU » de Google;
▪ « COMMUNACTEUR » : acteur d’ enrichissement bottom up des
COMMONS (EX / Wikipedia, Open Source, Réseaux sociaux,…)

9
I. Introduction

10
I. Généralités du Big Data

Littéralement

 Grosse données ou volume massif de données structurées ou non.


 On parle aussi de Datamasse par similitude avec la biomasse.

Conceptuellement

 Ce terme vulgarise à la fois la représentation du volume des données

 Mais aussi les infrastructures liées au traitement de ces données.

11
I. Généralités du Big Data

Big Data = données massives

Surtout due à :
❖ La facilité d’acquisition des données:
 capteurs, télescopes, cartes de fidélité, traces sur les sites internet,
simulations, …
❖ La baisse des prix des supports de stockage
 Le prix du Go
 Que peut-on faire avec toutes ces données stockées ?

12
I. Généralités du Big Data

Big Data = données distribuées

❖ Les quantités de données à stocker sont tellement importantes


qu’il est inenvisageable d’utiliser une seule machine/disque

❖ Les données sont acquises à des endroits différents. Leur


transfert prendrait trop de temps

13
I. Généralités du Big Data

Big Data = données incertaines

❖ Les capteurs sont sujets à des imprécisions


 Les images transmises par un télescope sont altérées

❖ Les sujets observés sont difficilement identifiables:


 Identifier une personne qui a plusieurs numéros de téléphone

❖ Identifier un internaute avec son adresse IP

14
I. Généralités du Big Data

Big Data = Stream Data

❖ Les données arrivent en continu

❖ Les traiter efficacement revient à les prendre en charge quand elles


arrivent
 Proposer des algorithmes qui n’ont pas besoin de faire plusieurs
passes sur les données

15
I. Généralités du Big Data

Approche Traditionnelle Approche Big Data


Analyse Structurée et Répétée Analyse itérative et exploratoire

Responsable Métier Responsable IT


Déterminent quelles Fournissent une plate
questions poser forme pour permettre la
découverte créative

Responsable IT
Responsable Métier
Structurent les
données pour Explorent la plate forme
répondre à ces pour déterminer quelles
questions questions posées

16
I. Généralités du Big Data
Tous types de formats. , données structurées dans
Croissance sans cesse des données a gérer de tout
les BD traditionnelles. Informations créé à partir
type, souvent en teraoctets voir en Petaoctets
de diverses d'applications

Utilisation des données en temps réel (pour la Gestion de la fiabilité et de la véracité des
détection17de fraudes …) données imprécises et prédictives
I. Généralités du Big Data

Volume des Sources de données exponentielles Multiples de l’Octet?


1 kilo Octet (Ko)
❖ Actuellement, 2.5 Trillions d’octets produits chaque jour  (103 Octet)

❖ 90% de données crées dans les 4 dernières années 1 Mega Octet (Mo)
(106 Octet)
❖ D’ici à 5 ans, Prévision: Croissance de 800%
1 Giga Octet (Go)
(109 Octet)
❖ Diversité de Sources: Texte, Images,Vidéos, Capteurs,
achats en lignes, signaux GPS, Satellites, etc. 1 Téra Octet (To)
(1012 Octet)
1 Péta Octet (Po)
(1015 Octet)

1 Exa Octet (Eo)


(1018 Octet)
1 Zetta Octet (Zo)
(1021 Octet)
1 Yetta Octet (Yo)
(1025 Octet)

18 Source: Guide Share France


I. Généralités du Big Data

Evolution des technologies de Stockage

❖ Le Stockage au début de l’avènement des machines


 IBM 305 RAMAC 5Mb de stockage
 Sur disque 50 disques 24 pouces
 temps d’accès de 10 caractères par seconde.

❖ Le Stockage dans nos jours


 IBM FlashSystem 1 Petabyte
 22 millions d’IOPS
 Temps de latence en microseconde (μ= 10-6
secondes).

19
I. Généralités du Big Data

Evolution des technologies de Stockage


Progrès du stockage au niveau Automatique : Révolution
par IBM
❖ Innovation en 2012
❖Les chercheurs d’IBM ont réussi a stocker 1 bit sur seulement 12 atomes à l’aide
d’un microscope a effet tunnel très puissant.

20
I. Généralités du Big Data

Domaines d’application

Les perspective d’utilisations de ces données sont énormes!

 L’analyse d’opinions politiques


 L’analyse des tendances industrielles
 La génomique
 La lutte contre la criminalité et la fraude
 Les méthodes publicitaires et de vente
 Etc

21
I. Généralités du Big Data

22
I. Généralités du Big Data

Exemple du flot de données: Le réseau Social

23
I. Généralités du Big Data

24
I. Généralités du Big Data

Top utilisateurs des Solutions Big Data

25
I. Généralités du Big Data

Internet of Things (IoT) et Big Data: Le challenge en ascension

❖ Traduit de l’anglais « Internet of Things » (IoT), l’Internet des


Objets (IdO) désigne les objets capables de se connecter à Internet grâce
à des capteurs.
❖ Une fois connectés, les objets produisent et reçoivent des
données appelées Big Data.
L’objet connecté n’est pas qu’un simple objet
physique

❖ Tout comme le pétrole était la matière première de la seconde révolution


industrielle, la donnée représente la ressource au cœur de la révolution
numérique. Les entreprises l’extraient puis la transforment pour l’exploiter.
A noter qu'en 2015, seulement 1% des données produites par des
objets connectés a été exploité par les industriels.
26
I. Généralités de Big Data

Salariés Big Data: Des profils rares et bénéficiant d’une bonne rémunération, ont
pour mission d’extraire les informations à partir de data non structurées, pour les
transformer en actions et opérations bénéfiques pour l’entreprise

Selon LinkedIn, les compétences les plus recherchées en 2015


dans le monde sont :
▪ 1) Cloud and Distributed Computing (Hadoop, Big Data)
▪ 2) Statistical Analysis and Data Mining (R, Data Analysis)
▪ 8) Storage Systems and Management (SQL)
▪ 11) Data Engineering and Data Warehousing
▪ 12) Algorithm Design
▪ 13) Perl/Python/Ruby
▪ 14) Shell Scripting Languages

27
I. Généralités de Big Data

Quelques métiers:
❖ Data Analyst
❖ Chief Data Officier (CDO)  Rôle: techniques statistiques /
informatiques pour synthétiser et
 Rôle: Directeur de la Data et le traduire les informations
gardien de l’éthique  Salaire: <<40 K Euro >>
 Gouvernance des données
 Salaire: <<120 K Euro >>
❖ Le Data Miner (Fouilleur de données)
❖ Data Scientist  Rôle: dénicher les informations

 Rôle: Responsable de la collecte parmi des multiples données


et le traitement des données  Salaire : << 55 K Euro >>
massives
 Optimiser la stratégie de l’Ese
❖ Business Intelligence Manager, Data
 Salaire:<< 60 K euro >> protection Officier, Data Manager, etc.

28
II. Solutions de Big Data

On distingue historiquement deux approches/cas d'usage:

❖ 1ère Solution: Effectuer des calculs intensifs localement (recherche scientifique,


rendu 3D, etc.) - on souhaite avoir un cluster de machines local pour
accélérer le traitement.
Interprétation: Solution qui était jusqu'ici coûteuse et complexe à
mettre en œuvre.

❖ 2ème Solution: Exploiter la démocratisation de l'informatique moderne et la


bonne volonté des utilisateurs du réseau pour créer un cluster distribué via
Internet à moindre coût.

Interprétation: Solution qui suppose qu'on trouve des volontaires


susceptibles de partager leur puissance de calcul.

29
II. Solutions de Big Data

On distingue historiquement deux approches/cas d'usage:

❖ 1ère Solution: Effectuer des calculs intensifs localement (recherche scientifique,


rendu 3D, etc.) - on souhaite avoir un cluster de machines local pour
accélérer le traitement.
Interprétation: Solution qui était jusqu'ici coûteuse et complexe à
mettre en œuvre.

❖ 2ème Solution: Exploiter la démocratisation de l'informatique moderne et la


bonne volonté des utilisateurs du réseau pour créer un cluster distribué via
Internet à moindre coût.

Interprétation: Solution qui suppose qu'on trouve des volontaires


susceptibles de partager leur puissance de calcul.

30
II. Solutions de Big Data

Le problème qui se posait jusqu'ici pour ce cas d'usage:

❖ Avoir un framework déjà disponible, facile à déployer, et qui permette


l'exécution de tâches parallélisables – et le support et le suivi de ces tâches –
de manière rapide et simple à mettre en œuvre.

❖ L'idée étant d'avoir un outil « off the shelf » qui puisse être installé et
configuré rapidement au sein d'une entreprise/d'une université et qui
permettre à des développeurs d'exécuter des tâches distribuées avec un
minimum de formation requise.

❖ L'outil en question devant être facile à déployer, simple à supporter, et


pouvant permettre la création de clusters de taille variables extensibles à
tout moment.

31
II. Solutions de Big Data

Landscape 1.0

32 Source: www.cognossource.com
II. Solutions de Big Data
Landscape 2.0

33
II. Solutions de Big Data
Landscape 3.0

34 Source: www.cognossource.com
II. Solutions de Big Data

Les grands acteurs du web tel que Google, Yahoo, Facebook, Twitter, LinkedIn,
etc. ont été les premiers a être confrontés à des volumétries de données
extrêmement importantes et ont été à l’origine des premières innovations en
la matière
Essentiellement, portées principalement sur deux types de technologies :
➢ Les bases de données (NoSql)
➢ Les plateformes de développement et de traitement des données

❖ La majorité de ces entreprises ont décidés d’ouvrir ces développements


internes au monde Open Source.
❖Un certains nombre de ces technologies comme « hadoop » font partie de
la fondation Apache et ont été intégrés aux offres de « Big Data » des grands
acteurs tel que IBM, Oracle, Microsoft, EMC, etc.
35
II. Solutions de Big Data
Technologie
Société Type de la Technologie
Développée
Big Table SGBD distribuée proporiétaire reposant sur GFS
Google Plate forme de développement pour traitements
MapReduce
distribués
Plate forme Java destinée aux applications distribuées
Hadoop
de la gestion intensive des données
Yahoo
Plate forme de développement pour traitements
S4
distribués
Cassandra BD de type NoSql et distribuée
Facebook
Hive Logiciel d’analyse des données utilisant Hadoop
Storm Plateforme de traitement des données massives
Twitter
FlockDB Base de données distribuée de type graphe
Kafka Système distribué de gestion des messages
LinkedIn SenseiDB BD temps réel distribuée et semi-structurée
Voldemort BD distribuée destinée aux très grosses volémtries
36 Source: Lavoisier
II. Solutions de Big Data

HDFS: Un système de fichiers distribué qui stocke les


données sur les machines dédiées de base, fournissant
très haute bande passante globale sur le cluster
YARN: Plate-forme chargée de la gestion des ressources informatiques
dans les clusters et de les utiliser pour la planification des ressources
des applications utilisateurs

37
II. Solutions de Big Data

38
II. Solutions de Big Data

ID Utilisateur Cours 1 Cours 2 Cours 3 Cours 4

User01 Algorithmiques IHM NoSQL J2EE


User02 J2EE Algorithmiques IHM Angular
User03 BigData Algorithmiques J2EE IHM
User04 J2EE Angular IHM
User05 Scrum Algorithmiques Angular BigData
User06 BigData Angular NoSQL
User07 BigData NoSQL

39
II. Solutions de Big Data

Algorithmiques – J2EE 3
Big Data – NoSQL 2
Algorithmiques – IHM 2
IHM – J2EE 3
Algorithmiques – Angular 3
………

40
II. Solutions de Big Data

❖ Elles offrent des outils et un support commercial, ce qui réduit beaucoup


les efforts à mettre en œuvre, pas seulement pour le développement
mais aussi pour l'opérationnel. Une distribution contient différents
projets de l'écosystème Hadoop.
❖ Ceci assure que toutes les versions utilisées fonctionnent ensemble sans
problèmes. Il y a des releases régulières avec des versions mises à jour de
différents projets.

❖ Il y a plus ou moins trois grandes distributions Hadoop qui en ce


moment se distinguent : HortonWorks, Cloudera et MapR. Bien que
dans le même temps, d’autres distributions Hadoop voient aussi le jour.

41
II. Solutions de Big Data
Comment avoir une réponse aussi rapide quand vous lancez une requête de
recherche??

42
Bibliographie

❖Présentations et Tutorials
 Pierre Nerzik. Outils Hadoop pour le Big Data
 Olivier Jouannot. Présentation Générale de Big Data

❖ Cours
 Benjamin Renault, Introduction à Hadoop et MapReduce. Université Nice Sophia
Antipolis
 Serge Miranda. Des Bases de Données au Big Data. Université Nice Sophia
Antipolis

43

Vous aimerez peut-être aussi