Préparation à la certification :
Big Data
1
Chapitre 1 : Introduction
Approche et Vocabulaire
1 Big Data : Faits, Intérêts, Sources et Challenges
2 Qu’est-ce que le Big Data ?
3 Problématique et termes clés
4 Chiffres clés et forces majeurs
5 Importance et défis du Big Data
6 Big Data et décisionnel
7 Approche traditionnelle versus approche Big Data
8 Mise en place du Big Data : des chantiers de grande ampleur
9 Enjeux stratégiques
10 Enjeux technologiques
2
1.Big Data : Faits, Intérêts, Sources et Challenges Big Data : Faits
3
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Intérêts
4
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Intérêts
5
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Sources
6
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Challenges
L’évolution du SI amène
les entreprises à traiter de
plus en plus de données
issues de sources toujours
plus variées ;
Les prévisions de taux de
croissance des vo- lumes
de données trai- tées
dépassent les limites des
technologies tradition-
nelles ;
On parle de Petaoctet
(billiard d’octets) (ou Pe-
tabyte) voir de Zettaoc-
tet (Trilliard d’octets) (ou
Zettabyte).
⇒ Quelle solution pour
exploiter ces données ?
8
Qu’est-ce que le Big Data ? Définition
Définition
9
Qu’est-ce que le Big Data ? Définition
⇒ L’interopérabilité.
- Capacité de divers systèmes et organisations à travailler ensemble (inter-opérer). Dans
ce cas, c’est la capacité d’interopérer - ou entremêler - des ensembles de données
différents.
Little Data : Parfois utilisée pour permettre aux entreprises qui n’auraient
pas les 3V pour utiliser les technologies Big Data ;
Smart Data : La Smart Data permet de se focaliser uniquement sur les
données utiles. Nouvelle expression synonyme de Business Intelligence (Infor-
matique décisionnelle).
- En 2013, le Big Data s’est retrouvé au cœur de toutes les conversations. Cependant,
le Big Data c’est un gros volume de données parfois inexploitable et peu pertinent ;
- Toutes les données ne sont pas bonnes à prendre et demandent beaucoup de temps
à exploiter.
Attention à ne pas être confronté au final au Bad Data !
10
Qu’est-ce que le Big Data ? Est-ce une innovation ?
Bases de données d’analyse massivement parallèle (MPP) : Ces bases de données conformes
SQL sont conçues pour répartir le traitement des données sur plusieurs machines ;
Modèle Map-Reduce, Hadoop et autres approches NoSQL : Ces approches
permettent d’accéder aux données via des langages de programmation sans utiliser les interfaces
basées
sur SQL et permettent de répartir les données sur plusieurs machines distinctes.
11
Qu’est-ce que le Big Data ? Vocabulaire
Vocabulaire
12
Problématique et termes clés
13
Problématique et termes clés
14
Problématique et termes clés
Les lieux de stockage fiables (comme des SAN : Storage Area Network)
ou réseaux de stockage peuvent être très coûteux :
I Choisir de ne stocker que certaines données, jugées sensibles ;
I Perte de données, pouvant être très utiles, comme les Logs.
Comment déterminer les données qui méritent d’être stockées ?
I Transactions ? Logs ? Métier ? Utilisateur ? Capteurs ? Médicales ? Sociales ?.
⇒ Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
Problèmes :
I Comment stocker les données dans un endroit fiable, qui soit moins cher ?
I Comment parcourir ces données et en extraire des informations facilement et
rapidement ?
16
Problématique et termes clés
17
Problématique et termes clés
18
Problématique et termes clés
19
Problématique et termes clés
20
Problématique et termes clés
Chiffres clés
I Plus de 2 milliards de vidéos regardées sur Youtube chaque jour et 220 milliards de recherche
sur Google chaque mois ;
I 30 milliards de contenus statut, photo, vidéo, événement, etc. sont ajoutés sur Facebook par
mois par plus de 600 millions d’utilisateurs actifs ;
22
Chiffres clés et forces majeurs
Forces majeurs
23
Chiffres clés et forces majeurs Révolution de stockage
Forces majeurs
Révolution de stockage
24
Chiffres clés et forces majeurs Avènement d’une nouvelle science des données
Forces majeurs
Avènement d’une nouvelle science des données
25
Chiffres clés et forces majeurs Automatisation des échanges de données et les objets connectés
Forces majeurs
Automatisation des échanges de données et les objets connectés
Exemple :
- Chaque fois qu’on visite un site, qu’on clique sur un lien, depuis un ordinateur ou un
smartphone, le comportement de l’utilisateur sur le site est automatiquement
enregistré et analysé pour déterminer son profil, ses intentions d’achat et ses goûts.
- Chaque étape du parcours de l’utilisateur peut être analysée pour comprendre les
facteurs qui ont influencé sa décision d’achat et les critères qui lui sont indifférents.
- De la même façon, son décodeur TV analyse et transmet en temps réeldes informa-
tions sur ses comportements devant la télévision, connˆıtare ce qu’il regarde, s’il zappe
dès le début des publicités, s’il regarde plus souvent la télévision seulou à plusieurs,
etc.
26
Chiffres clés et forces majeurs Progrès de la visualisation de données
Forces majeurs
Progrès de la visualisation de données
27
Importance et défis du Big Data Importance du Big Data
28
Importance et défis du Big Data Défis du Big Data
Afin de déterminer la meilleure stratégie pour une entreprise, il est essentiel que les données
qu’on compte sur soient correctement analysées ;
Le laps de temps de cette analyse est important parce que certaines d’entre elles doivent
être effectuées fréquemment afin de déterminer rapidement tout changement dans l’envi-
ronnement des affaires ;
Nouvelles technologies⇒ problème organisationnel ;
La nécessité des spécialistes de l’informatique : pour qu’une entreprise prend l’initiative
du Big Data, elle doit soit engager des experts ou former les employés existants dans ce
nouveau domaine ;
La confidentialité et la sécurité : Comme le Big Data englobe une grande quantité de
données complexes,il est très difficile pour une entreprise de trier ces données selon des
niveaux privés et d’appliquer la sécurité adéquate. En outre, la plupart des entreprises
aujourd’hui font des affaires à travers des pays et continents et les différences entre les
lois privées sont considérables et doivent être pris en considération lors du démarrage de
l’initiative Big Data.
29
Big Data et décisionnel
Plan
1 Big Data : Faits, Intérêts, Sources et Challenges
2 Qu’est-ce que le Big Data ?
Historique & contexte
Définition
Est-ce une innovation ?
Vocabulaire
3 Problématique et termes clés
4 Chiffres clés et forces majeurs
5 Importance et défis du Big Data
6 Big Data et décisionnel
7 Approche traditionnelle versus approche Big Data
Approche traditionnelle
Approche Big Data
Fusion de deux approches
8 Mise en place du Big Data : des chantiers de grande ampleur
9 Enjeux stratégiques
Big Data : pour qui, pour quoi ?
Impacts du Big Data dans l’entreprise
10 Enjeux technologiques
30
Big Data et décisionnel
Le modèle OLAP, ou traitement analytique en ligne, est considéré l’ancêtre du Big Data ;
Il s’agit de volumes importants de données historiques quireprésentent toutes les données
de l’entreprise, et qui sont requˆetées afin d’obtenir des informations agrégées et statistiques
de l’activité de l’entreprise (décisionnel, ou Business Intelligence), ou pour extraire des
informations nouvelles de ces données existantes à l’aide d’algorithmes de traitement des
données (Data Mining).
Mais...
- Modélisation des données prélimi-
naires : Fait et Dimensions ;
- Structuration de données / à des be-
soins spécifiques ;
- Application à une analyse multi-
dimensionnelle des données, mais
pas pour fouille de données ou ap-
prentissage automatique.
31
Approche traditionnelle versus approche Big Data Approche traditionnelle
Approche Traditionnelle
Analyse structurée et répétée
32
Approche traditionnelle versus approche Big Data Approche Big Data
33
Approche traditionnelle versus approche Big Data Fusion de deux approches
34
Mise en place du Big Data : des chantiers de grande ampleur
35
Mise en place du Big Data : des chantiers de grande ampleur
Méthodologie
Une approche progressive et itérative
36
Big Data et décisionnel
Plan
1 Big Data : Faits, Intérêts, Sources et Challenges
2 Qu’est-ce que le Big Data ?
Historique & contexte
Définition
Est-ce une innovation ?
Vocabulaire
3 Problématique et termes clés
4 Chiffres clés et forces majeurs
5 Importance et défis du Big Data
6 Big Data et décisionnel
7 Approche traditionnelle versus approche Big Data
Approche traditionnelle
Approche Big Data
Fusion de deux approches
8 Mise en place du Big Data : des chantiers de grande ampleur
9 Enjeux stratégiques
Big Data : pour qui, pour quoi ?
Impacts du Big Data dans l’entreprise
10 Enjeux technologiques
37
Enjeux stratégiques Big Data : pour qui, pour quoi ?
38
Enjeux stratégiques Impacts du Big Data dans l’entreprise
39
Enjeux stratégiques Impacts du Big Data dans l’entreprise
40
Enjeux stratégiques Impacts du Big Data dans l’entreprise
Enjeux technologiques
Types d’outils utilisés dans le Big Data
42