Académique Documents
Professionnel Documents
Culture Documents
LIVRE BLANC
Sommaire
Les promesses du « Big Data » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
PRESENTATION DE LA SITUATION. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
AUTRES DÉFINITIONS : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
LE FACTEUR COMPÉTENCES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
CONCLUSION. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
iii
Livre blanc
iv
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
La notion de « Big Data » ne se définit ni par des quantités, ni par des seuils (puisque ceux-
ci varient constamment et s’appliqueront différemment, en fonction de la verticalité et du
segment de marché), mais plus par rapport à une nouvelle génération de technologies et
d’architectures, conçues pour retirer une valeur économique de gigantesques volumes
de données hétéroclites, en les capturant, en les explorant et/ou en les analysant en un
temps record.
Les nouvelles technologies aujourd’hui utilisées sur le marché pour gérer le phénomène
« Big Data » sont très médiatisées. Nous reviendrons sur certaines d’entre elles ainsi que
sur leur importance.
La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétries
de données de plus en plus massives qui obligent à réévaluer les stratégies de gestion
de l’information dans la majorité des entreprises ayant investi dans la business analytics.
La question est souvent posée : en quoi ce phénomène est-il nouveau ? Cette section
mettra en avant les différences entre la business analytics classique de l’ère « pré-Big
Data » et l’analytique « Big Data » de la nouvelle ère. Elle abordera également les différents
scénarios d’utilisation qui devraient, selon IDC, devenir monnaie courante dans différents
secteurs d’activité. 1
Livre blanc
Le cheminement vers l’analyse des « Big Data » sera itératif ; il convient donc de le planifier,
dans un contexte plus large. C’est là tout l’objet de cette section, qui fournit également
certaines recommandations aux DSI séduits par le potentiel de l’analytique « Big Data ».
PRESENTATION DE LA SITUATION
Pour preuve, une étude menée récemment auprès de 5 722 utilisateurs sur le marché
américain révèle que la business analytics fait partie des cinq premières initiatives
informatiques des entreprises. Pourtant les motivations premières de son adoption restent
encore très conservatrices et défensives. Le souci de maîtriser les coûts, de fidéliser la
clientèle et d’optimiser les opérations est sans doute le reflet de l’incertitude économique
persistante. Toutefois, les motivations varient considérablement en fonction de la taille de
l’entreprise et du secteur d’activité.
En février 2011, IDC a réalisé une enquête cette fois auprès de 693 entreprises
européennes qui elles aussi, à 51%, jugent les technologies décisionnelle et analytique
hautement prioritaires. Sur les marchés émergents, tels qu’en Asie/Pacifique, la priorité
consiste à surfer sur la prochaine vague de croissance.
2
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
Plus d’un millier de DSI et responsables de branches d’activité, interrogés en février 2011
pour le baromètre des décideurs Asie-Pacifique, citent la business analytics comme
le premier domaine technologique susceptible de conférer à leurs établissements un
avantage concurrentiel dans l’année .
Q : Vous (directeur informatique/technique) parlez de « miser sur les TIC pour dégager
un avantage concurrentiel » . . . Parmi les technologies ou solutions suivantes, lesquelles
choisiriez-vous en priorité pour tirer encore mieux parti des TIC ?
TOP 5
Décisionnel/
business analytics
Réseau
Médias sociaux/
Canaux en ligne
Collaboration (vidéo,
mobilité notamment)
Cloud computing/
services
0 5 10 15 20 25 30 35 %
Historiquement, les entreprises ont massivement investi dans l’applicatif afin d’automatiser
leurs processus métier et de recueillir des données visant à optimiser leur efficacité
opérationnelle . Nombre de ces projets sont toujours d’actualité, mais les dirigeants et
responsables métier de ces entités prennent conscience de leur incapacité à fournir aux
intervenants compétents en interne les informations pertinentes au moment opportun,
pourtant indispensables aux prises de décisions stratégiques, essentiellement en raison
d’une mauvaise intégration des systèmes, d’une qualité de données discutable, et d’un
manque de performance et d’évolutivité .
Face à cette situation, les directions fonctionnelles ont tendance à déployer leurs propres
solutions, créant une nouvelle vague d’investissements informatiques « parallèles » axés
sur la business analytics ; les DSI sont ensuite contraints de réexaminer ces projets avec
comme priorité d’aligner les pôles informatique et métier . À noter que ces problématiques
existent indépendamment de la dynamique « Big Data », qui ne fait que les aggraver,
plaçant ainsi l’analytique « Big Data » au cœur du débat .
3
Livre blanc
Dans ce Livre blanc, notre interprétation de Business Intelligence sera celle d’outils QRA .
Par « analytique », nous désignerons soit une analyse avancée (data mining, statistiques,
optimisation et prévisions), soit des applications analytiques (gestion de la performance
financière et de la stratégie, gestion de la relation client et analyse marketing, analyse de
la chaîne logistique, etc .) . La Business analytics selon la taxinomie IDC 2011 comprend
les deux et inclut également les technologies de data warehousing (voir Figure 2 ci-après):
Elaboration budgétaire, planification, Ventes, service clients, centre de contacts, Tableaux de bord, reporting de
consolidation, rentabilité, gestion de la stratégie marketing, analyse de site web, optimisation production, OLAP, requêtes ad hoc
tarifaire
Outils d’analyse avancés
Applications analytiques pour Applications analytiques pour
Data mining et statistiques
la chaîne logistique les opérations de services
4
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
Données non
Volume de structurées (vidéo,
données richmédia, etc)
Données semi-
structurées (logs
Web, flux de réseaux
sociaux, etc .)
Données =
volume,
complexité,
vitesse et variété
Durée
volume
L’univers des données structurées est celui dans lequel nous baignons . Il est celui des
magasins de données transactionnelles et de l’omniprésente traçabilité électronique
créée par les particuliers et les entreprises suite à une activité en ligne en plein essor .
Il se nourrit également de données sensorielles (de machine à machine) . Il se retrouve
également dans les entrepôts ou magasins de données existants dont l’envergure atteint
aujourd’hui plusieurs péta-octets de données .
Diversité
Autre facette du phénomène « Big Data » : la nécessité d’analyser des données semi-
structurées et non structurées . Or, l’analyse de texte, vidéo et autres formes de données
multimédias nécessitera une architecture et des technologies totalement différentes .
Face à l’engouement pour les réseaux sociaux, par exemple, nombre de services
marketing s’évertuent à effectuer leurs analyses de marque et de ressenti sur la base
des commentaires postés sur Facebook, Twitter et YouTube . Cette dynamique gagne
encore en complexité en Asie, avec la présence de sites sociaux locaux tels que RenRen
en Chine et Nate en Corée .
vitesse
Ces données exigeront également d’être analysées plus régulièrement – il s’agira, par
exemple, de prendre en compte la totalité des transactions, et non un échantillon, afin de
mesurer pleinement, en temps réel, le risque lié à une opération .
En résumé, le « Big Data » désigne ces tables de données dont le volume, la diversité, la
vitesse de prolifération et la complexité interdisent le stockage et la gestion par les bases
de données et architectures actuelles .
5
Livre blanc
IDC s’abstient de fixer un seuil (celui du téra-octet, par exemple), qui varierait forcément
en fonction du secteur et devrait obligatoirement être revu à la hausse dans la durée. Il
accordera davantage d’importance à la valeur ajoutée que les entreprises peuvent retirer
de ce phénomène — indissociable d’une démarche consistant à repenser leurs stratégies
informatiques.
AUTRES DÉFINITIONS :
Technologie Contexte
Big Table Système de base de données distribuée propriétaire reposant sur GFS (Google File
System). A inspiré HBase.
Cassandra SGDB Open Source (libre) conçu pour gérer d’énormes quantités de données
réparties sur plusieurs serveurs. Développé à l’origine par Facebook, ce système
est aujourd’hui l’un des projets de la Fondation Apache.
GFS (Google File Système de fichiers distribué propriétaire mis au point par Google ; a partiellement
System) inspiré Hadoop.
HBase Système Open Source (libre) de gestion de base de données non relationnelle
distribuée, prenant pour modèle Big Table de Google. Développé à l’origine par
Powerset, il est aujourd’hui l’un des projets de la Fondation Apache rattaché à
Hadoop.
MapReduce Framework logiciel introduit par Google autorisant certains types de calculs
à partir de tables de données très volumineuses, dans le cadre d’un système
distribué. Également implémenté dans Hadoop.
Base de données non Dans une base de données non relationnelle, le stockage des données n’est
relationnelle/KVS pas organisé en lignes et en colonnes, à la différence d’une base de données
(Key Value Store) relationnelle. Les KVS (Key Value Store) autorisent la gestion d’entités sans
schéma (NoSQL).
6
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
Certains de ces termes seront utilisés dans le présent livre blanc, mais il ne s’agit pas
ici de les analyser en détail car, comme l’a fait remarquer un responsable informatique
dernièrement, « connaître la technologie est une chose, mais savoir l’appliquer à
l’environnement adéquat en est une autre ».
Et aujourd’hui, une force extérieure baptisée « Big Data » oblige les DSI à repenser
l’architecture de leur infrastructure, à la lumière des modalités de déploiement des outils
analytiques dans l’entreprise.
Voici les changements constatés par IDC dans l’univers de l’infrastructure qui ont une
incidence croissante sur l’analytique « Big Data » :
7
Livre blanc
À partir des travaux et études menés par IDC dans ce domaine, trois suggestions
s’imposent aux DSI :
« Cloud bursting »
Le cloud privé (interne) sera en parfaite adéquation avec les besoins analytiques de
l’entreprise décrits précédemment. Encore faut-il que les DSI évaluent précisément
la charge de travail et limitent autant que possible les risques. L’évaluation du « cloud
bursting », autrement dit de la capacité à utiliser des services de cloud externes (sur le
modèle Iaas, Infrastructure as a Service), revêt une importance capitale, surtout lorsque
les entreprises commencent à exploiter des environnements analytiques en temps réel.
Il s’agit de s’assurer que les ressources d’infrastructure épousent la demande – et qu’il
n’existe aucun problème de performance et de disponibilité.
Appliance analytique
S’agissant des modèles de déploiement, IDC constate que les clients aux prises avec le
phénomène « Big Data » dégagent des gains de performances significatifs des appliances
analytiques. De plus, les logiciels étant optimisés et pré-intégrés avec les appliances, les
durées de déploiement sont considérablement écourtées.
Dans le cadre d’une récente enquête d’envergure mondiale, 10% des DSI interrogés ont
avoué s’intéresser au modèle de déploiement des appliances analytiques pour 2011. IDC
est d’ailleurs convaincu que la demande d’architectures de référence s’inscrira en hausse
compte tenu des efforts déployés par ces mêmes DSI pour intégrer ces appliances au
sein des environnements d’entreposage de données existants. Face à cet engouement
pour les appliances analytiques, les services informatiques, dans l’affectation de leurs
ressources budgétaires, « pénaliseront » les profils techniques (justifiant de connaissances
en installation, configuration et administration, par exemple) au profit des profils analytiques
de haut niveau, indispensables au pilotage décisionnel multidisciplinaire.
Architecture d’entreprise
Il faut également s’interroger sur la capacité à traiter des charges de travail mixtes (analytiques
et opérationnelles, par exemple) dans le même environnement d’infrastructure, comme
celui de l’appliance cité précédemment. Les DSI doivent s’intéresser aux outils qui, dans
la résolution de problématiques métier spécifiques, leur apporteront une véritable valeur
ajoutée, sans rien ignorer des standards et spécifications en matière d’architecture. Si
certains modèles de gouvernance internationaux interdisent d’utiliser plusieurs de ces
technologies au sein d’un environnement de production, les services informatiques
seront néanmoins contraints de réexaminer les modalités d’application de l’architecture
d’entreprise en local, compte tenu des attentes.
8
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétries
de données de plus en plus massives qui obligent à réévaluer les stratégies de gestion
de l’information dans la majorité des entreprises ayant investi dans la business analytics .
Pourtant, l’enjeu est énorme . Si vous vous ingéniez à optimiser le tarif de chacun des
articles proposés par une chaîne de distribution internationale ou à détecter la fraude en
temps réel, vous mesurez pleinement le genre de problématiques que l’analytique « Big
Data » peut résoudre .
Vitesse de traitement Par lots/en batch Proactive et dynamique (en temps réel
des données s’il y a lieu)
Néanmoins, malgré le potentiel évident de cette discipline analytique, il faut savoir qu’elle
ne sera pas nécessairement utile ou applicable à chaque fois . Pour IDC, les scénarios
d’utilisation envisageables s’articulent autour de deux dimensions inhérentes au
phénomène « Big Data », à savoir la vitesse et la diversité comme indiqué ci-après :
Détection des fraudes (à la carte bancaire) et délits financiers (lutte anti-blanchiment) dans le
secteur bancaire (analyse des médias sociaux incluse)
Vitesse des
Maintenance prédictive Analyse de sentiment sur les médias
données
dans l’aérospatiale sociaux
Analyse de pathologies à
Prévision de la demande dans
partir de dossiers médicaux
l’industrie
électroniques
Pour mesurer tout l’intérêt de l’analytique « Big Data », et sa valeur ajoutée pour l’entreprise,
examinons ces scénarios d’utilisation de plus près :
Voilà qui suppose, pour l’établissement bancaire, d’être capable de détecter, prévenir
et gérer la fraude sur plusieurs produits, activités et canaux. Il doit donc être en mesure
de retracer l’historique des différents types d’items (carte, compte, client, identifiant de
terminal ou adresse IP) associées aux transactions, en détectant immédiatement les
comportements clients anormaux dans les points de vente. Ces informations peuvent
être exploitées par plusieurs modèles prédictifs pour la détection de fraudes et l’évaluation
du risque de crédit.
La capacité d’un distributeur à optimiser, en temps réel, les tarifs pratiqués sur un large
éventail de produits, en fonction de scénarios d’anticipation de la demande (tenant compte
des offres promotionnelles, de l’incidence saisonnière et d’événements importants), est
déterminante pour ses marges. Si elle se double d’une analyse de sentiment sur les
médias sociaux, la demande de certains produits sera évaluée quasiment en temps réel.
Avec la modernisation des services de santé, un analyste peut à présent disposer des
antécédents médicaux d’un patient au format électronique. Voilà qui ouvrira de formidables
possibilités à l’analytique « Big Data ». Dans le cas de pathologies de type diabètes,
par exemple, la mise en corrélation des antécédents médicaux des patients avec des
données diététiques (potentiellement issues de l’analyse du panier de consommation
dans la grande distribution) et un programme d’exercices physiques adaptés seront
riches d’enseignements pour les praticiens.
LE FACTEUR COMPÉTENCES
IDC en est convaincu, la véritable valeur ajoutée de l’analytique « Big Data » résidera dans
l’analyse poussée des données générées par les entreprises, qui augmentent en volume,
en diversité et en rapidité. En Asie, la plupart des sociétés (hormis certaines multinationales
puisque le phénomène émane essentiellement des Etats-Unis et de l’Europe) ignorent
tout du type et du niveau de compétences requises. IDC justifie cette méconnaissance
par un manque de sensibilisation et un déficit historique de compétences en gestion
analytique de haut niveau (indépendamment du phénomène « Big Data »).
L’analytique de haut niveau exigera de nouvelles compétences dans deux domaines clés :
Profil technique
10
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
Concrètement, les données non structurées sont tellement nombreuses que les variables
et modèles analytiques risquent d’être entièrement nouveaux. D’où la nécessité de
repenser l’approche analytique des utilisateurs chevronnés en créant une « mentalité
d’explorateur » où il s’agit toujours de partir à la découverte. En règle générale, des
connaissances en data mining et en statistiques constituerait un excellent point de départ
pour ce type d’analyse.
À l’avenir, il y aura une demande de plus en plus marquée pour ces « scientifiques des
données ». Cette nouvelle génération d’analystes, versée dans les statistiques, sera
capable d’extraire des informations à partir d’une avalanche de données pour apporter
une valeur ajoutée à des experts non spécialisés en analytique. Elle sera de surcroît
parfaitement à même d’identifier les nouveaux algorithmes et modèles analytiques les
plus efficaces à court terme.
IDC insiste sur l’intérêt de ces profils analytiques. Leurs rôles et responsabilités ne
sont pas définis — mais ils entrent parfaitement dans le cadre de ce qui a été évoqué
précédemment, s’agissant de l’afflux de données non structurées et de variables et
modèles analytiques probablement inédits. Il s’agit aussi, pour eux, de faire preuve de
créativité par rapport à la gestion analytique qu’il convient d’appliquer à ces types et
structures de données d’un nouveau genre.
Prenons l’exemple des réseaux sociaux (qui contribuent au phénomène « Big Data » au
travers de données semi-structurées et non structurées) : nombre de services marketing
s’évertuent à réaliser des analyses de marque et de sentiment sur la base des contenus
publiés sur Facebook, Twitter et YouTube (soit de gigantesques quantités de données,
comme vous vous en doutez). Cette dynamique gagne encore en complexité en Asie,
par exemple avec la présence de sites sociaux locaux tels que RenRen en Chine et Nate
en Corée.
11
Livre blanc
Analytique Analytique
Impact Pilote Analytique « Big Data »
départementale d’entreprise
Profil du personnel Peu ou pas d’expertise en Accent mis sur la performance, Modélisateurs et « data Centre de compétences en business
(informatique) analytique ; connaissance de la disponibilité et la sécurité stewards » chevronnés, analytics (BACC) composé de « scientifiques
base des outils BI par l’équipe responsable des acteurs incontournables du des données »
entrepôts de données service informatique
Profil du personnel Connaissance fonctionnelle Rares analystes métier – Recours à des experts en Intégration de la résolution de problèmes
(métier/informatique) des outils BI usage limité d’outils d’analyse modélisation analytique et complexes au Centre de compétences en
avancée statisticiens business analytics (BACC)
Technologie et outils Reporting BI et tableaux de Implémentation d’entrepôts Data mining à l’intérieur de Large adoption de l’appliance pour des
bord simples sur des données de données, large emploi la base de données, et usage charges de travail multiples. Architecture
historiques d’outils décisionnels, peu restreint du traitement en et gouvernance pour les nouvelles
de magasins de données parallèle et de l’appliance technologies
analytiques analytique
Impact financier Aucun impact financier Instauration de certains Impact significatif sur le Stratégie commerciale et différenciation
substantiel. Absence de indicateurs de performance chiffre d’affaires (mesuré et concurrentielle reposent sur la gestion
modèles de retour sur clés (KPI), générateurs de contrôlé régulièrement) analytique
investissement revenus, avec un retour sur
investissement clairement
défini
Gouvernance des Inexistante ou presque Modèle d’entrepôt de données Définitions de données et Stratégie de gestion des données maîtres
données (attention : danger !) et architecture classiques modèles normalisés clairement définie (MDM)
Branches d’activité Mécontentes..... Visible Alignement (responsables de Inter-départemental (avec visibilité du PDG)
branches d’activité inclus)
12
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
Très peu d’entreprises ont atteint le niveau de maturité leur permettant de tirer véritablement
parti du potentiel représenté par l’analytique « Big Data » ; et, dans les faits, il est difficile
de remplir tous les critères, mais cette transformation est nécessaire pour permettre aux
entreprises de se différencier véritablement dans l’environnement économique actuel.
Le rôle joué par le DSI (avec le concours du service informatique) sera essentiel dans cette
transformation. La section suivante expose quelques suggestions qui, de l’avis d’IDC,
méritent d’être prises en compte dans ce contexte.
13
Livre blanc
Dans ce contexte, il s’agira de faire valoir des compétences d’un nouveau genre afin de
cerner toutes les nuances des commentaires exprimés sur les réseaux sociaux (par les
générations Y, Z voire millénaire).
À chaque fois qu’une nouvelle série de technologies intéressantes fait son apparition sur le
marché, les services informatiques ont tendance à les « bricoler » — ce qui a une incidence
immédiate sur la rentabilité de l’entreprise. Même si une certaine dose d’expérimentation
est souhaitable (et parfaitement avec phase avec la « mentalité d’explorateur » décrite
précédemment ; Hadoop et MapReduce font d’ailleurs indéniablement partie de cette
catégorie), les DSI doivent veiller à ce que ces expérimentations ne se fassent pas au
détriment de la création de valeur ajoutée.
Ce processus exige, dans un premier temps, que le DSI évalue son propre service
informatique afin d’identifier les niveaux de compétences et structures organisationnelles
appropriés. Dans certains cas, une refonte devra être opérée en interne pour que le
changement soit perceptible. Ensuite, les individus compétents doivent être habilités
à exécuter la stratégie analytique, en s’appuyant sur les processus et structures de
gouvernance en place, pour pouvoir répondre efficacement aux attentes métier.
C’est dans ce domaine que les investissements réalisés dans les technologies de
data warehousing, à condition d’avoir été judicieux, porteront leurs fruits. Les modèles
de données et l’architecture de référence adoptés par le pôle informatique garantiront
la cohérence des définitions de données et standards entre les différents services de
l’entreprise. Certes, il reste du travail à accomplir en gestion des données maîtresses
(MDM) pour combler le fossé opérationnel et analytique autour de la gouvernance des
données — mais, fondamentalement, cette plate-forme devrait procurer la gestion et la
maîtrise indispensables au pôle informatique.
14
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI
S’agissant du business enablement, IDC voit apparaître une nouvelle catégorie de projets
associant business analytics et gestion de processus métier — plus spécifiquement, des
logiciels de gestion décisionnelle comprenant des outils adaptés à la gestion des règles,
au data mining, aux requêtes et au reporting, au traitement d’événements complexes
(CEP), à la collaboration, aux suites BPM, aux recherches et à l’analyse de contenu.
CONCLUSION
Malgré des degrés de maturité et taux d’adoption différents, les entreprises sont prêtes
à exploiter des solutions et offres de business analytics plus évoluées. Elles doivent donc
opter pour une planification stratégique et élaborer une feuille de route solide avant de
s’y rallier. La nouvelle génération de décideurs, davantage sensibilisée aux avantages
concurrentiels liés au business analytics, mènera une politique d’adoption plus offensive.
Pour IDC, une approche nouvelle s’impose à l’avenir ; elle seule permettra d’effectuer les
changements nécessaires, en ce sens :
15
#AP14962U
Pour de plus amples informations sur IDC, consultez le site www.idc.com. Pour de plus
amples informations sur IDC GMS, consultez le site www.idc.com/gms.
IDC Asie/Pacifique, 80 Anson Road, #38-00 Fuji Xerox Towers, Singapour 079970.
Copyright 2011 IDC. Reproduction interdite sans autorisation. Tous droits réservés.
SAS Institute s. a. s. – DOMAINE DE GREGY - GREGY-SUR-YERRES - 77257 BRIE COMTE ROBERT - FRANCE
TEL. : +33(0) 1 60 62 11 11 FAX : +33(0) 1 60 62 11 99 www.sas.com/france
Copyright © 2012, SAS Institue Inc. Tous droits réservés. WP010FCE0312