Vous êtes sur la page 1sur 42

COURS

Préparation à la certification :
Big Data

1
Chapitre 1 : Introduction
Approche et Vocabulaire
1 Big Data : Faits, Intérêts, Sources et Challenges
2 Qu’est-ce que le Big Data ?
3 Problématique et termes clés
4 Chiffres clés et forces majeurs
5 Importance et défis du Big Data
6 Big Data et décisionnel
7 Approche traditionnelle versus approche Big Data
8 Mise en place du Big Data : des chantiers de grande ampleur
9 Enjeux stratégiques
10 Enjeux technologiques

2
1.Big Data : Faits, Intérêts, Sources et Challenges Big Data : Faits

Big Data : Faits

 Chaque jour, nous générons 2,5 trillions d’octets de données ;


 90% des données dans le monde ontété créées au cours des deux
dernières années.
 Sources :
- Capteurs utilisés pour collecter les informations climatiques ;
- Messages sur les médias sociaux ;
- Images numériques et vidéos publiées en ligne ;
- Enregistrements transactionnels d’achat en ligne ;
- Signaux GPS de téléphones mobiles ;
- ...
 Données appelées Big Data ou Données Massives

3
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Intérêts

Big Data : Intérêts

4
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Intérêts

Big Data : Sources (1)

 Sources multiples : sites, Bases de Données, téléphones, serveurs :


- Détecter les sentiments et les réactions des clients ;
Détecter les conditions critiques ou potentiellement mortelles dans les
hôpitaux, et à temps pour intervenir ;
- Prédire des modèles météorologiques pour planifier l’usage optimal des
éoliennes ;
- Prendre des décisions risquées basées sur des données transactionnelles
en temps réel ;
- Identifier les criminels et les menaces à partir de vidéos, sons et flux de
données ;
- Étudier les réactions des étudiants pendant un cours, prédire ceux qui
vont réussir, d’après les statistiques et modèles réunis au long des années
(domaine Big Data in Education).

5
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Sources

Big Data : Sources (2)

Les données massives sont le résultat de la rencontre de trois


éléments essentiels qui sont :
I Internet ;
I Les réseaux sociaux ;
I Les appareils intelligents : les ordinateurs, les tablettes, les smartphones, les objets
connectés...
L’Internet permet la transmission de l’information quelle que soit
sa forme sur les appareils intelligents :
I Appareil intelligent : création de données ;
I Utilisateur des réseaux sociaux : consommateur ;
I Internet : vecteur de transmission.

6
Big Data : Faits, Intérêts, Sources et Challenges Big Data : Challenges

Big Data : Challenges

 Réunir un grand volume de données variées pour trouver de


nouvelles idées ;
 Difficulté pour sauvegarder toutes ces données ;
 Difficulté pour traiter ces données et les utiliser ;
 Les données sont créées rapidement.
7
Qu’est-ce que le Big Data ? Historique & contexte

Historique & contexte

 L’évolution du SI amène
les entreprises à traiter de
plus en plus de données
issues de sources toujours
plus variées ;
 Les prévisions de taux de
croissance des vo- lumes
de données trai- tées
dépassent les limites des
technologies tradition-
nelles ;
 On parle de Petaoctet
(billiard d’octets) (ou Pe-
tabyte) voir de Zettaoc-
tet (Trilliard d’octets) (ou
Zettabyte).
⇒ Quelle solution pour
exploiter ces données ?

8
Qu’est-ce que le Big Data ? Définition

Définition

 Big Data : Exploration de très vastes ensembles de données pour


obtenir des renseignements utilisables ;
 Le terme Big Data se réfère aux technologies qui permettent aux
entreprises d’analyser rapidement un volume de données très important et
d’obtenir une vue synoptique. En mixant intégration de stockage, analyse
prédictive et appli- cations, le Big Data permet de gagner en temps, en
efficacité et en qualité dans l’interprétation de données ;
 Les objectifs de ces solutions d’intégration et de traitements des données
sont de traiter un volume très important de données aussi bien structurées
que non structurées, se trouvant sur des terminaux variés (PC, smartphones,
tablettes, objets communicants...), produites ou non en temps réel depuis
n’importe quelle zone géographique dans le monde.
⇒ Le Big Data sera un outil majeur à la fois pour la prise de décisions
et l’optimisation de la compétitivité au sein des entreprises ?

9
Qu’est-ce que le Big Data ? Définition

Définition : Autres notions


Autour du Big Data, on trouve également les termes :
 Open Data : Une donnée ouverte est une donnée qui peut être librement
utilisée, réutilisée et redistribuée par quiconque. Ce qu’ouvert signifie

⇒ L’interopérabilité.
- Capacité de divers systèmes et organisations à travailler ensemble (inter-opérer). Dans
ce cas, c’est la capacité d’interopérer - ou entremêler - des ensembles de données
différents.
 Little Data : Parfois utilisée pour permettre aux entreprises qui n’auraient
pas les 3V pour utiliser les technologies Big Data ;
 Smart Data : La Smart Data permet de se focaliser uniquement sur les
données utiles. Nouvelle expression synonyme de Business Intelligence (Infor-
matique décisionnelle).
- En 2013, le Big Data s’est retrouvé au cœur de toutes les conversations. Cependant,
le Big Data c’est un gros volume de données parfois inexploitable et peu pertinent ;
- Toutes les données ne sont pas bonnes à prendre et demandent beaucoup de temps
à exploiter.
Attention à ne pas être confronté au final au Bad Data !
10
Qu’est-ce que le Big Data ? Est-ce une innovation ?

Big Data : Est-ce une innovation ?


 L’explosion des volumes
des données nécessite une
innovation en terme de :
I Acceleration matérielle :
Abandon des disques durs
au profit des mémoires dy-
namiques DRAM (Dynamic
Random Access Memory :
mémoire vive dynamique)
ou flash.
⇒ Meilleur benefice des
processeurs multicœurs.

 Bases de données d’analyse massivement parallèle (MPP) : Ces bases de données conformes
SQL sont conçues pour répartir le traitement des données sur plusieurs machines ;
 Modèle Map-Reduce, Hadoop et autres approches NoSQL : Ces approches
permettent d’accéder aux données via des langages de programmation sans utiliser les interfaces
basées
sur SQL et permettent de répartir les données sur plusieurs machines distinctes.
11
Qu’est-ce que le Big Data ? Vocabulaire

Vocabulaire

 Not Only SQL / Bases sans schéma : Catégorie de systèmes de gestion de


base de données (SGBD) qui n’est plus fondée sur l’architecture classique des
bases relationnelles. L’unite logique n’y est plus la table, et les données ne
sont en general pas manipulees avec SQL ;
 MapReduce : modèle de programmation permettant de manipuler de grandes
quantités de données non obligatoirement structurées ;
 Hadoop / Cassandra / MongoDB : framework de développement d’applica-
tion utilisant le modèle Map Reduce ;
 Data Flow / Pig / Hive ... : logiciel et langage d’analyse de données
per- mettant d’utiliser Hadoop.

12
Problématique et termes clés

Problématique et termes clés (1)

 Le Big Data se caractérise par la problématique des 3V :


I Volume (Volume)
- L’entreprise est submergée de volumes de données croissants de tous
types.
I Variété (Variety)
- Gérer la complexité de plusieurs types de données et de schémas struc-
turés ou non structurés (texte, données de capteurs, son, vidéo, logs,
etc.).
I Vitesse (Velocity)
- Parfois, les données doivent être saisies et traitées au fil de l’eau, au fur et
à mesure de leur collection par l’entreprise, pour la détection des fraudes
(on qualifie de fraude toute action destinée à tromper. La falsification et
l’adultération sont des exemples de fraude) par exemple.

13
Problématique et termes clés

Problématique et termes clés (2)

 Vous êtes confrontés a une problématique de gestion de données cor-


respondant a ces trois critères ;
 Vous ne savez plus gérer ces données avec les architectures tradition-
nelles.
⇒ Vous avez une problématique de type Big Data.
 Il faut en effet penser a collecter, stocker puis analyser les données d’une
façon qui ne peut plus être traitée par une approche traditionnelle pour
permettre de satisfaire au 4ème V.
⇒ la Valorisation des données.
 Objectif : Relever ce qui est important et ce qui l’est moins.

14
Problématique et termes clés

Big Data : Volume (1)

 Le prix de stockage des données a beaucoup diminué ces 30 dernières


années :
I De $100.000 / Go (1980)
I A` $0.10 / Go (2013)
I Ordre de grandeur :
- Kilobytes : KB bytes
- Megabytes : MB
- Gigabytes : GB
- Terabytes : TB (10 12) bytes
- Petabytes : PB (10 15) bytes
- Exabytes : EB (1018) bytes
- Zettabytes : ZB (10 21) bytes
- Yottabytes : YB (10 24) bytes.

- 1 Yottabyte nécessite 250 trillion DVD ;


- Grand marché de données est estimé à croître de
45% par annnée pour atteindre 25 milliards de dol-
lars cette année (2015) ;
-∼ 1.8 ZB créées en 2011 ;∼ 8 ZB en 2015 ; ∼ 35
ZB en 2020
15
Problématique et termes clés

Big Data : Volume (2)

 Les lieux de stockage fiables (comme des SAN : Storage Area Network)
ou réseaux de stockage peuvent être très coûteux :
I Choisir de ne stocker que certaines données, jugées sensibles ;
I Perte de données, pouvant être très utiles, comme les Logs.
 Comment déterminer les données qui méritent d’être stockées ?
I Transactions ? Logs ? Métier ? Utilisateur ? Capteurs ? Médicales ? Sociales ?.
⇒ Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi.
 Problèmes :
I Comment stocker les données dans un endroit fiable, qui soit moins cher ?
I Comment parcourir ces données et en extraire des informations facilement et
rapidement ?

16
Problématique et termes clés

Big Data : Variété (1)

Pour un stockage dans des bases de données ou dans des entrepôts


de données, les données doivent respecter un format prédéfini ;
La plupart des données existantes sont non-structurées ou semi-structurées
Données sous plusieurs formats et types ;

On veut tout stocker :


I Exemple : pour une discussion dans un centre d’appel, on peut la stocker sous forme
textuelle pour son contenu, comme on peut stocker l’enregistrement en entier, pour
interpréter le ton de voix du client.
Certaines données peuvent paraître obsolètes, mais sont utiles pour
certaines décisions :
I Exemple : Pour le transport de marchandise, on a tendance à choisir le camion le plus
proche. Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent
intervenir.
I Besoin de : Données GPS, plan de livraison du camion, circulation, chargement du
camion, Niveau d’essence...

17
Problématique et termes clés

Big Data : Variété (2)


Données structurées versus Données non structurées

 Données structurées : Données que l’on peut clairement codifier et identifier ;


 Les données d’un tableur sont typiquement des données structurées ;
 On peut comprendre leurs significations en croisant les titres de la ligne et colonne dans
laquelle se trouent les données ;
 ⇒ Les systèmes d’analyse algorithmique ont depuis toujours été développés pour traiter
ce type de données.

Données non structurées :


Données qui ne répondent
pas à un codage qui per-
met d’en tirer de l’infor-
mation ;
C’est en analysant les
contenus des messages
que l’on déduit l’informa-
tion : fichiers texte, au-
dio, vidéo, etc. que l’on
peut clairement codifier et
identifier.

18
Problématique et termes clés

Big Data : Vélocité

 Rapidité d’arrivée des données ;


 Vitesse de traitement ;
 Les données doivent être stockées a l’arrivée, parfois même des Teraoctets par
jour
I Sinon, risque de perte d’informations.
 Exemple :
I Il ne suffit pas de savoir quel article un client a acheté ou réservé ;
I Si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique
d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé.

19
Problématique et termes clés

Big Data : Le 4ème V - La Visualisation (Valeur) (1)


Le Big Data, ce n’est pas simplement des volumes de données considérables échangés,
mais aussiune variété de contenus, de formats et de sources infinies, ainsi qu’une véritable
problématique de maîtrise de la vitesse de création et de mise à jour des données.
Enfin, et pas des moindres, la Big Data met en opposition deux nécessités a priori contra-
dictoires :
- Celle de rationaliser et rendre accessibles des données qui se comptent pourtant
en millions, milliards...C’est là qu’intervient le besoin d’une Visualisation de
données optimale et adaptée à une exploitation très opérationnelle de cette
Big Data, avec trois objectifs finaux : Créer de la valeur, découvrir des insights
différenciants, innover...le tout à un coût modéré !

20
Problématique et termes clés

Big Data : Le 5ème V - La Véracité


 On peut classifier les données traitées sous le chapeau du Big Data en
deux principaux types :
+ Données des entreprises : elles comportent les emails, les documents, les bases de
données, toutes les historiques des processus métiers (Logs)
+ Données en dehors des entreprises : elles englobent les bases de données externes
(publiques ou fournisseurs de données) contenues et échangées via les réseaux sociaux
, en ligne, les historiques de navigation et de recherche, les données transmises par
les objets connectés, etc.
⇒ Véracité : ou qualité de données s’introduit.
I Données doivent être nettoyées, essuyées et mises en cohérence avant de pou-
voir être analysées et croisées avec les données internes.
I La qualité des données dépend de deux facteurs :
- Données peuvent être inexactes, incomplètes ou structurées d’une ma-
nière qui les rendent difficile à analyser.
⇒ Il devient indispensable de vérifier la crédibilité de la source et la
qualité du contenu préalablement.
- Il n’est pas toujours facile d’anticiper quelles sont les données qui seront
utiles à l’entreprise.
⇒ Bien étudier et définir le besoin réel pour ne pas dépenser ses res-
sources à l’analyse de données qui peuvent être inutiles.
21
Chiffres clés et forces majeurs

Chiffres clés

Des chiffres importants qui s’ajoutent au nouveaux concepts et notions


soulevées par le Big Data :

I Plus de 2 milliards de vidéos regardées sur Youtube chaque jour et 220 milliards de recherche
sur Google chaque mois ;
I 30 milliards de contenus statut, photo, vidéo, événement, etc. sont ajoutés sur Facebook par
mois par plus de 600 millions d’utilisateurs actifs ;

I Le nombre d’appareils connectés à Internet a dépassé le nombre d’humains en 2008 ;


I La compagnie de Social Games traite 1 Petabyte (1 million de GB) de données chaque jour ;
I Le marché du Big Data et des Big Analytics (ou broyage de données) pourraient représenter
près de 250 milliards de dollars sur 4 ans ;
I Fin 2011, 20 foyers moyens on généré plus de trafic que la totalité des utilisateurs Internet
en 2008 ;
I On estime que des données de mauvaise qualité coûtent plus de 600 milliard de dollars par
année aux entreprises américaines.

22
Chiffres clés et forces majeurs

Forces majeurs

D’une manière générale, on identifie cinq forces majeures à l’origine de


l’accélération et l’augmentation du mouvement Big Data à savoir :
I La révolution du stockage grâce au Cloud ;
I L’avènement d’une nouvelle science des donnéel:Analytics avan-
cés ;
I Les nouvelles possibilités de monétisation ;
I L’automatisation des échanges de données et les objets connectés ;
I Les progrès de la visualisation de données.

23
Chiffres clés et forces majeurs Révolution de stockage

Forces majeurs
Révolution de stockage

 Massification des échanges de données + Augmentation des types de contenu


⇒ Dépassement des possibilités de stockage des entrepôts de données des
entreprises (SQL et MySQL pour les BDR).
 Année 2000 : ruptures importantes se sont produites sur le volet stockage de
l’information grâce à l’Internet :
I Proposer aux entreprises et aux particuliers des espaces de stockage flexibles dans les
nuages ou Cloud à des prix très compétitifs (Google, Amazon, etc.) ;
I Espaces accessibles à travers des interfaces en ligne (Google App Engine, etc.) ;
I Développement d’une nouvelle philosophie de stockage intelligent de données, sous
le vocable NoSQL, permettant des requêtes plus rapides et plus flexibles.
⇒ Grâce aux progrès technologique du Cloud et du NoSQL, le stockage et l’exploration du
Big Data devient une opportunité plutôt qu’un obstacle pour les entreprises.

24
Chiffres clés et forces majeurs Avènement d’une nouvelle science des données

Forces majeurs
Avènement d’une nouvelle science des données

 La révolution du Big Data va de pair avec l’emergence d’une nouvelle science


des données ;
 D’après Eric Moulines :
La valorisation des immenses volumes de données hétérogènes passe la mise
en œuvre d’analyses sophistiquéesu,n véritable passage à l’échelle dans la
conception des modèles d’analyse et la mise en œuvre des algorithmes.
 Analytics avancés :
I Statistiques non-paramétriques : Le modèle n’est pas décrit par un nombre fini de
paramètres (http ://cmatias.perso.math.cnrs.fr/Docs/cours stat np ensiie.pdf) ;
I Règles d’association ;
I Réduction de dimension : ACP, ACM, AFC, etc. ;
I Classification non supervisée (ou clustering) : k-moyennes, CMF, etc. ;
I Algorithmes génétiques.

25
Chiffres clés et forces majeurs Automatisation des échanges de données et les objets connectés

Forces majeurs
Automatisation des échanges de données et les objets connectés

 D’après Jean François Marcotorchino, Vice-Président et Directeur scientifique


de Thales France :
Le transfert extrêmement massif d’informations multimodales (vidéos, images,
sons, localisation en plus du texte et des données structurées) via les smart-
phones, les appareils connectés, les réseaux sociaux, mais aussi les opérateurs
de e-commerce sont des facteurs fondamentaux à l’origines des problématiques
Big Data..

Exemple :
- Chaque fois qu’on visite un site, qu’on clique sur un lien, depuis un ordinateur ou un
smartphone, le comportement de l’utilisateur sur le site est automatiquement
enregistré et analysé pour déterminer son profil, ses intentions d’achat et ses goûts.
- Chaque étape du parcours de l’utilisateur peut être analysée pour comprendre les
facteurs qui ont influencé sa décision d’achat et les critères qui lui sont indifférents.
- De la même façon, son décodeur TV analyse et transmet en temps réeldes informa-
tions sur ses comportements devant la télévision, connˆıtare ce qu’il regarde, s’il zappe
dès le début des publicités, s’il regarde plus souvent la télévision seulou à plusieurs,
etc.
26
Chiffres clés et forces majeurs Progrès de la visualisation de données

Forces majeurs
Progrès de la visualisation de données

 Les utilisateurs / décideurs doivent pouvoir visualiser et comprendre les résultats ;


 Le Reporting version Big Data doit être conçu pour pouvoir trouver une aiguille dans une
botte de foin.
⇒ On parle de data vizualisation.
 Exemple : Tableur, Qlikview, Gephi, etc.

27
Importance et défis du Big Data Importance du Big Data

Importance du Big Data

 Dans la technologie de l’information : améliorer la sécurité, diagnostiquer les anomalies et


le dépannage en analysant les structures dans les logs existants ;
 Au service chargé de la clientèle : en utilisant des informations des centres d’appels afin
d’obtenir les modèles de clientèle et donc d’améliorer la satisfaction du client par la per-
sonnalisation des services ;
 Dans l’amélioration des services et des produits : à travers l’utilisation du contenu des médias
sociaux. En connaissant les préférences des clients potentiels, l’entreprise peut modifier son
produit afin de répondre à une plus large gamme de personnes ;
 Dans la détection de la fraude : dans les transactions en ligne pour toute type d’industrie ;
 Dans l’évaluation des risques en analysant les informations provenant des transactions sur
le marché financier.

28
Importance et défis du Big Data Défis du Big Data

Défis du Big Data

Afin de déterminer la meilleure stratégie pour une entreprise, il est essentiel que les données
qu’on compte sur soient correctement analysées ;
 Le laps de temps de cette analyse est important parce que certaines d’entre elles doivent
être effectuées fréquemment afin de déterminer rapidement tout changement dans l’envi-
ronnement des affaires ;
 Nouvelles technologies⇒ problème organisationnel ;
 La nécessité des spécialistes de l’informatique : pour qu’une entreprise prend l’initiative
du Big Data, elle doit soit engager des experts ou former les employés existants dans ce
nouveau domaine ;
 La confidentialité et la sécurité : Comme le Big Data englobe une grande quantité de
données complexes,il est très difficile pour une entreprise de trier ces données selon des
niveaux privés et d’appliquer la sécurité adéquate. En outre, la plupart des entreprises
aujourd’hui font des affaires à travers des pays et continents et les différences entre les
lois privées sont considérables et doivent être pris en considération lors du démarrage de
l’initiative Big Data.

29
Big Data et décisionnel

Plan
1 Big Data : Faits, Intérêts, Sources et Challenges
2 Qu’est-ce que le Big Data ?
Historique & contexte
Définition
Est-ce une innovation ?
Vocabulaire
3 Problématique et termes clés
4 Chiffres clés et forces majeurs
5 Importance et défis du Big Data
6 Big Data et décisionnel
7 Approche traditionnelle versus approche Big Data
Approche traditionnelle
Approche Big Data
Fusion de deux approches
8 Mise en place du Big Data : des chantiers de grande ampleur
9 Enjeux stratégiques
Big Data : pour qui, pour quoi ?
Impacts du Big Data dans l’entreprise
10 Enjeux technologiques
30
Big Data et décisionnel

Big Data et décisionnel

 Le modèle OLAP, ou traitement analytique en ligne, est considéré l’ancêtre du Big Data ;
 Il s’agit de volumes importants de données historiques quireprésentent toutes les données
de l’entreprise, et qui sont requˆetées afin d’obtenir des informations agrégées et statistiques
de l’activité de l’entreprise (décisionnel, ou Business Intelligence), ou pour extraire des
informations nouvelles de ces données existantes à l’aide d’algorithmes de traitement des
données (Data Mining).
 Mais...
- Modélisation des données prélimi-
naires : Fait et Dimensions ;
- Structuration de données / à des be-
soins spécifiques ;
- Application à une analyse multi-
dimensionnelle des données, mais
pas pour fouille de données ou ap-
prentissage automatique.

31
Approche traditionnelle versus approche Big Data Approche traditionnelle

Approche Traditionnelle
Analyse structurée et répétée

 Les besoins métiers guident la conception de la solution ;


 Appropriée pour les données structurées ;
 Les opérations et les processus répétitifs, les sources relativement stables et les besoins sont
bien compris et cadrés.

32
Approche traditionnelle versus approche Big Data Approche Big Data

Approche Big Data (1)


Analyse itérative et exploratoire

 Les sources d’information guident la découverte créative.

33
Approche traditionnelle versus approche Big Data Fusion de deux approches

Fusionner l’approche Big Data avec l’approche


Traditionnelle
 La question n’est pas :
- Dois-je choisir entre l’approche classique et l’approche Big Data ?
 Mais plutôt :
- Comment les faire fonctionner ensemble ?

Approche Traditionnelle Approche Big Data


Analyse structurée et répétée Analyse itérative et exploratoire

34
Mise en place du Big Data : des chantiers de grande ampleur

Mise en place d’un projet Big Data


 Choisir d’investir dans le Big Data est un premier pas, encore faut-il que les besoins métier
soient identifiés en amont ;
 Deux étapes : Instruction & Conception
- Instruction : Essentielle à chaque projet et prend tout son poids dans ce type de chantiers.

35
Mise en place du Big Data : des chantiers de grande ampleur

Méthodologie
Une approche progressive et itérative

 Dans ce type de projets, le modèle clas-


sique du cycle en V est déconseillé ;
 Il faut au contraire construire la solution
progressivement, en prévoyant quelques
itérations comprenant des interactions
avec les futurs utilisateurs ;
 Données sont au cœur des attentes⇒ Un
dialogue permanent avec les utilisateurs
des données doit être établi.
 Les méthodes incrémentales sont donc adaptées à ce type de projet :
- Il s’agit de diviser le projet en incréments, c’est-à-dire en parties fonctionnelles cohé-
rentes ;
- Chaque incrément pouvant être testé séparément et faisant l’objet de plusieurs itéra-
tions ;
- L’objectif est d’impliquer les utilisateurs dans le développement, la fourniture des
exigences et l’évaluation des itérations.

36
Big Data et décisionnel

Plan
1 Big Data : Faits, Intérêts, Sources et Challenges
2 Qu’est-ce que le Big Data ?
Historique & contexte
Définition
Est-ce une innovation ?
Vocabulaire
3 Problématique et termes clés
4 Chiffres clés et forces majeurs
5 Importance et défis du Big Data
6 Big Data et décisionnel
7 Approche traditionnelle versus approche Big Data
Approche traditionnelle
Approche Big Data
Fusion de deux approches
8 Mise en place du Big Data : des chantiers de grande ampleur
9 Enjeux stratégiques
Big Data : pour qui, pour quoi ?
Impacts du Big Data dans l’entreprise
10 Enjeux technologiques
37
Enjeux stratégiques Big Data : pour qui, pour quoi ?

Big Data : pour qui, pour quoi ?


Des arômes et ingrédients qui déclinent dans tous les secteurs d’activité

38
Enjeux stratégiques Impacts du Big Data dans l’entreprise

Impacts du Big Data dans l’entreprise (1)

 La Big Data impacte l’ensemble de l’entreprise et permet de


remettre le client au cœur de la stratégie :
I Tous les départements sont concernés par l’exploitation du Big Data : Marketing,
Communication, Digital, RH, É tudes, Commercial, Finances, Innovation, Direction
Générale...
I Finie la démarche Top Down où la Marque pousse sa stratégie vers le consommateur,
en espérant que celle ci cadre avec les attentes de ses cibles. La Big Data permet,
via l’analyse data, de se défaire de cette angoisse puisqu’elle remet le consommateur
au cœur de la stratégie de l’entreprise.
Ainsi, le comportement du consommateur, ses centres d’intérêt et ses prises de parole
libres générés à grande échelle sont agrégés et analysés afin de créer ce fameux cadre
stratégique, qui devient par définition totalement ajusté aux besoins et attentes des
clients, et permet à la Marque d’alimenter toutes les directions de l’entreprise de
façon innovante et performante.

39
Enjeux stratégiques Impacts du Big Data dans l’entreprise

Impacts du Big Data dans l’entreprise (2)

40
Enjeux stratégiques Impacts du Big Data dans l’entreprise

Impacts du Big Data dans l’entreprise (3)


 L’emergence de nouveaux metiers capables de gérer vos données
d ternet et d’en extraire les bonnes informations :
I Architecte Big Data :
- Connaissance infrastructures et logiciels Big Data ;
Connaissances en modélisations.
I Data Analyst
- Connaissance des logiciels & langages Big Data ;
Connaissance en modélisations.
I Data Scientist :
- Connaissance des logiciels & langages Big Data ;
Connaissance en modélisations ;
Connaissances metiers.
I Chief-Data-Officer (Directeur des données) :
- Responsable des données et de leur gouvernance ( sauvegarde,
accès) ;
Responsable de l’analyse des données et aide à la decision.
⇒ Mettre en œuvre des équipes agiles & transverses.
41
Enjeux technologiques

Enjeux technologiques
Types d’outils utilisés dans le Big Data

 Où le traitement est hébergé ?


I Serveurs distribués / Cloud (exemple Amazon EC2)
 Où les données sont stockées ?
I Stockage distribué (exemple Amazon S3)
 Quel modèle de programmation ?
I Traitement réparti (exemple MapReduce)
 Comment les données sont stockées et indexées ?
I Bases de données à haute performance sans schéma (exemples MongoDB,
Cassandra)
 Quelles opérations sont effectuées sur des données ?
I Analytique / traitement sémantique

42

Vous aimerez peut-être aussi