Vous êtes sur la page 1sur 20

Analytique « Big Data » :

Architectures futures, compétences et feuilles de route


du DSI

LIVRE BLANC

SEPTEMBRE 2011 PAR PHILIP CARTER


Parrainé par SAS
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Sommaire
Les promesses du « Big Data » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

PRESENTATION DE LA SITUATION. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

L’essor de la business analytics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

PRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ?.4

DÉFINITION DU « BIG DATA ». . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

AUTRES DÉFINITIONS : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Hadoop, MapReduce, KVS (Key Value Store). . . . . . . . . . . . . . . . . . . . . . . . . . . 6

ANALYTIQUE « BIG DATA » :. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

La confrontation de deux ères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

LE FACTEUR COMPÉTENCES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Checklist du DSI dans la perspective de l’analytique « Big Data » . . . 13

CONCLUSION. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

iii
Livre blanc

SAS White Paper

iv
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Les promesses du « Big Data »


L’ère du « Big Data » est une réalité — entrepôts de plusieurs péta-octets de
données, interactions sur les réseaux sociaux, flux de données sensorielles
en temps réel, informations géospatiales et autres sources de données
nouvelles créent de multiples enjeux, tout en offrant de grandes opportunités
aux entreprises. Au moment où les DSI commencent à adopter la nouvelle
catégorie de technologies indispensables au traitement, à l’exploration et à
l’analyse de ces gigantesques tables inexploitables par des bases de données et
architectures classiques, il semble clair pour IDC que la véritable valeur ajoutée
résidera dans l’analyse poussée - l’analytique « Big Data » - des données de plus
en plus volumineuses, diverses et rapides qui sont générées par les entreprises.

L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi nous


sommes confrontés à l’ère du « Big Data » réside dans la collecte systématique de
données, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui,
du point de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ce
que l’on ne sait pas ». Les variables et modèles vont, par conséquent, être entièrement
nouveaux, nécessitant une stratégie différente en matière d’infrastructure et, surtout, de
nouvelles compétences.

Le présent livre blanc a pour objectif d’analyser l’incidence première du phénomène


« Big Data » sur les entreprises, notamment sur leurs services informatiques, contraints
de réévaluer leurs architectures, modèles de déploiement et feuilles de route. Il abordera
également en détail les points suivants :

Définition du « big data » .

La notion de « Big Data » ne se définit ni par des quantités, ni par des seuils (puisque ceux-
ci varient constamment et s’appliqueront différemment, en fonction de la verticalité et du
segment de marché), mais plus par rapport à une nouvelle génération de technologies et
d’architectures, conçues pour retirer une valeur économique de gigantesques volumes
de données hétéroclites, en les capturant, en les explorant et/ou en les analysant en un
temps record.

Hadoop, mapreduce, kvs ?

Les nouvelles technologies aujourd’hui utilisées sur le marché pour gérer le phénomène
« Big Data » sont très médiatisées. Nous reviendrons sur certaines d’entre elles ainsi que
sur leur importance.

Intérêt analytique... Du « big data ».

La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétries
de données de plus en plus massives qui obligent à réévaluer les stratégies de gestion
de l’information dans la majorité des entreprises ayant investi dans la business analytics.

En quoi l’analytique « big data » est-elle importante (et différente)

La question est souvent posée : en quoi ce phénomène est-il nouveau ? Cette section
mettra en avant les différences entre la business analytics classique de l’ère « pré-Big
Data » et l’analytique « Big Data » de la nouvelle ère. Elle abordera également les différents
scénarios d’utilisation qui devraient, selon IDC, devenir monnaie courante dans différents
secteurs d’activité. 1
Livre blanc

SAS White Paper

Le facteur compétences – émergence de « scientifiques des données ».

Avec la multitude de nouvelles technologies et de structures organisationnelles requises


par le phénomène « Big Data », une demande croissante de « scientifiques des données »
se fera jour. Cette nouvelle génération de professionnels de l’analyse, capables d’extraire
des informations de tables volumineuses pour apporter une valeur ajoutée à d’autres
experts, non spécialisés dans les données, sera de surcroît parfaitement à même
d’identifier les nouveaux modèles à mettre en place.

Migration planifiée vers l’analytique « big data ».

Le cheminement vers l’analyse des « Big Data » sera itératif ; il convient donc de le planifier,
dans un contexte plus large. C’est là tout l’objet de cette section, qui fournit également
certaines recommandations aux DSI séduits par le potentiel de l’analytique « Big Data ».

PRESENTATION DE LA SITUATION

L’essor de la business analytics


L’explosion des volumétries de données à l’échelle mondiale fait l’objet de nombreux
articles. D’après l’étude Digital Universe réalisée récemment par IDC, la quantité
d’informations créées et dupliquées dépassera 1,9 zetta-octets (1800 milliards de giga-
octets) en 2011, en progression d’un facteur sur cinq ans.

Dynamique née en apparence de manière soudaine, le phénomène « Big Data » est


pourtant loin d’être nouveau : aujourd’hui, il se démocratise et monopolise l’attention.
La montée en puissance du « Big Data » est favorisée par le faible coût de stockage,
la prolifération de capteurs électroniques et de technologies d’acquisition de données,
la multiplication des accès à l’information via le cloud et l’infrastructure de stockage
virtualisée, sans oublier des outils d’analyse et logiciels innovants. Rien d’étonnant donc à
ce que les DSI et responsables de branches d’activité s’intéressent à la business analytics
en tant que domaine technologique.

Pour preuve, une étude menée récemment auprès de 5 722 utilisateurs sur le marché
américain révèle que la business analytics fait partie des cinq premières initiatives
informatiques des entreprises. Pourtant les motivations premières de son adoption restent
encore très conservatrices et défensives. Le souci de maîtriser les coûts, de fidéliser la
clientèle et d’optimiser les opérations est sans doute le reflet de l’incertitude économique
persistante. Toutefois, les motivations varient considérablement en fonction de la taille de
l’entreprise et du secteur d’activité.

En février 2011, IDC a réalisé une enquête cette fois auprès de 693 entreprises
européennes qui elles aussi, à 51%, jugent les technologies décisionnelle et analytique
hautement prioritaires. Sur les marchés émergents, tels qu’en Asie/Pacifique, la priorité
consiste à surfer sur la prochaine vague de croissance.

2
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Plus d’un millier de DSI et responsables de branches d’activité, interrogés en février 2011
pour le baromètre des décideurs Asie-Pacifique, citent la business analytics comme
le premier domaine technologique susceptible de conférer à leurs établissements un
avantage concurrentiel dans l’année .

Figure 1 - L’essor de la business analytics (Source : IDC 2011)

Q : Vous (directeur informatique/technique) parlez de « miser sur les TIC pour dégager
un avantage concurrentiel » . . . Parmi les technologies ou solutions suivantes, lesquelles
choisiriez-vous en priorité pour tirer encore mieux parti des TIC ?

TOP 5
Décisionnel/
business analytics

Réseau

Médias sociaux/
Canaux en ligne

Collaboration (vidéo,
mobilité notamment)

Cloud computing/
services

0 5 10 15 20 25 30 35 %

Multipliant les investissements informatiques pour mieux surfer sur la vague de


l’hypercroissance dans les pays émergents, les entreprises en Asie recourent à des
solutions analytiques pour mieux connaître leurs clients, gérer plus efficacement les
risques et les indicateurs financiers et, en parallèle, se différencier véritablement de leurs
concurrents .

Historiquement, les entreprises ont massivement investi dans l’applicatif afin d’automatiser
leurs processus métier et de recueillir des données visant à optimiser leur efficacité
opérationnelle . Nombre de ces projets sont toujours d’actualité, mais les dirigeants et
responsables métier de ces entités prennent conscience de leur incapacité à fournir aux
intervenants compétents en interne les informations pertinentes au moment opportun,
pourtant indispensables aux prises de décisions stratégiques, essentiellement en raison
d’une mauvaise intégration des systèmes, d’une qualité de données discutable, et d’un
manque de performance et d’évolutivité .

Face à cette situation, les directions fonctionnelles ont tendance à déployer leurs propres
solutions, créant une nouvelle vague d’investissements informatiques « parallèles » axés
sur la business analytics ; les DSI sont ensuite contraints de réexaminer ces projets avec
comme priorité d’aligner les pôles informatique et métier . À noter que ces problématiques
existent indépendamment de la dynamique « Big Data », qui ne fait que les aggraver,
plaçant ainsi l’analytique « Big Data » au cœur du débat .

3
Livre blanc

SAS White Paper

PRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ?


La définition et l’emploi de la terminologie applicable à la business analytics sont loin
d’être simples . Du fait de la maturité du marché décisionnel, nombre de termes, depuis
longtemps en usage, sont devenus obsolètes ou ont été redéfinis au fil des ans . Le terme
anglo-saxon Business Intelligence, par exemple, peut être tour à tour utilisé dans un sens
restreint (désignant exclusivement des outils de requêtes, reporting et analyse) ou dans un
sens large, désignant alors tout ce que recouvre la business analytics dans l’acceptation
d’IDC (notamment le data warehousing et les applications analytiques en plus des outils
de restitution) .

Le terme « Analytique » est une notion relativement nouvelle, à la signification bien


souvent obscure — fait-il référence à l’analyse avancée, qui englobe analyse prédictive,
optimisation et prévisions, ou aux applications analytiques ? Pour certains sous-marchés,
comme l’analytique Web, le terme « analytique » n’est rien d’autre qu’un tableau de bord
superposé à certaines données .

Dans ce Livre blanc, notre interprétation de Business Intelligence sera celle d’outils QRA .

Par « analytique », nous désignerons soit une analyse avancée (data mining, statistiques,
optimisation et prévisions), soit des applications analytiques (gestion de la performance
financière et de la stratégie, gestion de la relation client et analyse marketing, analyse de
la chaîne logistique, etc .) . La Business analytics selon la taxinomie IDC 2011 comprend
les deux et inclut également les technologies de data warehousing (voir Figure 2 ci-après):

Figure 2 : Taxinomie Business Analytics IDC (source : IDC)

Gestion de la performance et applications analytiques Business Intelligence

Gestion de la performance financière Applications analytiques pour Outils de requêtes, de


et de la stratégie la gestion de la relation client reporting et d’analyse

Elaboration budgétaire, planification, Ventes, service clients, centre de contacts, Tableaux de bord, reporting de
consolidation, rentabilité, gestion de la stratégie marketing, analyse de site web, optimisation production, OLAP, requêtes ad hoc
tarifaire
Outils d’analyse avancés
Applications analytiques pour Applications analytiques pour
Data mining et statistiques
la chaîne logistique les opérations de services

Achats, logistique, stocks, fabrication Services financiers, enseignement, administration,


santé, télécommunications, etc.
Outils d’analyse de contenu
Applications analytiques pour la
planification de la production Applications analytiques pour les
Outils d’analyse des informations
Prévision de la demande, offre et planification ressources humaines
spatiales (SIG)
de la production

Plate-forme de gestion des entrepôts de données

Gestion d’entrepôts de données

Génération d’entrepôts de données

Extraction de données, transformation, chargement ; qualité des données

4
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

DÉFINITION DU « BIG DATA »


La notion de « Big Data » ne fait pas tant référence au contenu créé, ou même à
son exploitation . Elle désigne plutôt l’analyse des données et la manière dont celle-ci
doit s’effectuer . Loin d’être une réalité figée, il s’agit plutôt d’une dynamique/activité
couvrant plusieurs disciplines informatiques . IDC définit le « Big Data » comme suit :
« Les technologies Big Data correspondent à une nouvelle génération de technologies et
d’architectures, conçues pour retirer une valeur économique de gigantesques volumes
de données hétéroclites, en les capturant, en les explorant et/ou en les analysant en un
temps record . »

Figure 3 : Définition du « Big Data » (Source : IDC 2011)

Données non
Volume de structurées (vidéo,
données richmédia, etc)

Données semi-
structurées (logs
Web, flux de réseaux
sociaux, etc .)

Données =
volume,
complexité,
vitesse et variété

Durée

volume

L’univers des données structurées est celui dans lequel nous baignons . Il est celui des
magasins de données transactionnelles et de l’omniprésente traçabilité électronique
créée par les particuliers et les entreprises suite à une activité en ligne en plein essor .
Il se nourrit également de données sensorielles (de machine à machine) . Il se retrouve
également dans les entrepôts ou magasins de données existants dont l’envergure atteint
aujourd’hui plusieurs péta-octets de données .

Diversité

Autre facette du phénomène « Big Data » : la nécessité d’analyser des données semi-
structurées et non structurées . Or, l’analyse de texte, vidéo et autres formes de données
multimédias nécessitera une architecture et des technologies totalement différentes .
Face à l’engouement pour les réseaux sociaux, par exemple, nombre de services
marketing s’évertuent à effectuer leurs analyses de marque et de ressenti sur la base
des commentaires postés sur Facebook, Twitter et YouTube . Cette dynamique gagne
encore en complexité en Asie, avec la présence de sites sociaux locaux tels que RenRen
en Chine et Nate en Corée .

vitesse

Ces données exigeront également d’être analysées plus régulièrement – il s’agira, par
exemple, de prendre en compte la totalité des transactions, et non un échantillon, afin de
mesurer pleinement, en temps réel, le risque lié à une opération .

En résumé, le « Big Data » désigne ces tables de données dont le volume, la diversité, la
vitesse de prolifération et la complexité interdisent le stockage et la gestion par les bases
de données et architectures actuelles .

5
Livre blanc

SAS White Paper

IDC s’abstient de fixer un seuil (celui du téra-octet, par exemple), qui varierait forcément
en fonction du secteur et devrait obligatoirement être revu à la hausse dans la durée. Il
accordera davantage d’importance à la valeur ajoutée que les entreprises peuvent retirer
de ce phénomène — indissociable d’une démarche consistant à repenser leurs stratégies
informatiques.

AUTRES DÉFINITIONS :

Hadoop, MapReduce, KVS (Key Value Store)


La démocratisation du phénomène « Big Data » a donné naissance à toute une série
de nouvelles technologies. Le tableau ci-dessous les présente en contexte (liste non
exhaustive).

Tableau 1 - Technologies « Big Data » (terminologie)

Technologie Contexte

Big Table Système de base de données distribuée propriétaire reposant sur GFS (Google File
System). A inspiré HBase.

Cassandra SGDB Open Source (libre) conçu pour gérer d’énormes quantités de données
réparties sur plusieurs serveurs. Développé à l’origine par Facebook, ce système
est aujourd’hui l’un des projets de la Fondation Apache.

Entrepôt de données et Ensemble intégré de serveurs, solutions de stockage, système(s) d’exploitation,


Appliance analytique bases de données, outils décisionnels, logiciels de data mining et autres logiciels
(Data Warehouse et spécifiquement pré-installés et pré-optimisés pour l’entreposage de données.
Analytical Appliance)

Système distribué Recours à plusieurs ordinateurs, communiquant en réseau, pour résoudre un


problème de calcul. Ce dernier est décomposé en plusieurs tâches, résolues
individuellement par un ou plusieurs postes travaillant en parallèle. Amélioration
du ratio prix/performances, fiabilité optimisée et évolutivité accrue.

GFS (Google File Système de fichiers distribué propriétaire mis au point par Google ; a partiellement
System) inspiré Hadoop.

Hadoop Framework logiciel Open Source (libre) pour le traitement de gigantesques


volumes de données sur certains types de problèmes dans le cadre d’un système
distribué. Il s’inspire de Google MapReduce et de GFS (Google File System).
Développé à l’origine par Yahoo!, ce système est aujourd’hui l’un des projets de
la Fondation Apache.

HBase Système Open Source (libre) de gestion de base de données non relationnelle
distribuée, prenant pour modèle Big Table de Google. Développé à l’origine par
Powerset, il est aujourd’hui l’un des projets de la Fondation Apache rattaché à
Hadoop.

MapReduce Framework logiciel introduit par Google autorisant certains types de calculs
à partir de tables de données très volumineuses, dans le cadre d’un système
distribué. Également implémenté dans Hadoop.

Base de données non Dans une base de données non relationnelle, le stockage des données n’est
relationnelle/KVS pas organisé en lignes et en colonnes, à la différence d’une base de données
(Key Value Store) relationnelle. Les KVS (Key Value Store) autorisent la gestion d’entités sans
schéma (NoSQL).

6
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Certains de ces termes seront utilisés dans le présent livre blanc, mais il ne s’agit pas
ici de les analyser en détail car, comme l’a fait remarquer un responsable informatique
dernièrement, « connaître la technologie est une chose, mais savoir l’appliquer à
l’environnement adéquat en est une autre ».

Il convient de confronter la nouvelle technologie aux impératifs métier, et non pas de


la disséquer pour le plaisir. Cela étant, la plupart des décideurs informatiques ignorent
tout des technologies et tendances dans ce domaine — et, dans le cas contraire, leur
stratégie est de demander à deux ou trois membres de l’équipe architecture de tester les
nouvelles technologies (calcul en mémoire ou in-database, Hadoop, MapReduce, KVS,
etc.) censées gérer le phénomène « Big Data ».

ANALYTIQUE « BIG DATA » :

La confrontation de deux ères


La question a été posée maintes fois : en quoi ce phénomène est-il nouveau ? Cette
section oppose la business analytics classique de l’ère « pré-Big Data » à l’analytique
« Big Data » de la nouvelle ère. Elle aborde également les différents scénarios d’utilisation
qui devraient, selon IDC, devenir monnaie courante dans différents secteurs.

La majorité des structures informatiques ont su faire évoluer l’architecture de leurs


infrastructures avec le temps ; d’environnements essentiellement mainframe dans les
années 1980, elles sont successivement passées à des architectures client-serveur dans
les années 1990, puis au Web au début de ce siècle, pour adopter des infrastructures
communément baptisées « cloud privé ».

Ce présumé « nirvana » est constitué d’un ensemble consolidé et virtualisé de ressources


d’infrastructure (serveur, stockage et réseau) auto-allouées par les utilisateurs métier ; le
tout est assorti de contrats de niveaux de service (SLA) définissant de manière transparente
les engagements à respecter en matière de sécurité, de performance, de disponibilité et
de coûts. Rares sont les entreprises dont l’infrastructure à atteint ce « nirvana » ; la plupart
continuent à se débattre avec un enchevêtrement de ressources informatiques au sein de
leur centre de données, victimes d’un effet spaghetti.

Et aujourd’hui, une force extérieure baptisée « Big Data » oblige les DSI à repenser
l’architecture de leur infrastructure, à la lumière des modalités de déploiement des outils
analytiques dans l’entreprise.

Voici les changements constatés par IDC dans l’univers de l’infrastructure qui ont une
incidence croissante sur l’analytique « Big Data » :

Tableau 2 - Confrontation de deux ères (Infrastructure « Big Data »)

Ancienne ère Nouvelle ère

Colocation Infrastructure en silos Mise en commun des ressources

Architecture Performances « ajustées » Montée en capacité linéaire (traitement


parallèle distribué et stockage « en
mémoire »)

Modèle de déploiement Sur site Hybride (avec fonctionnalités de


« cloud bursting ») et large utilisation de
l’appliance

7
Livre blanc

SAS White Paper

À partir des travaux et études menés par IDC dans ce domaine, trois suggestions
s’imposent aux DSI :

« Cloud bursting »

Le cloud privé (interne) sera en parfaite adéquation avec les besoins analytiques de
l’entreprise décrits précédemment. Encore faut-il que les DSI évaluent précisément
la charge de travail et limitent autant que possible les risques. L’évaluation du « cloud
bursting », autrement dit de la capacité à utiliser des services de cloud externes (sur le
modèle Iaas, Infrastructure as a Service), revêt une importance capitale, surtout lorsque
les entreprises commencent à exploiter des environnements analytiques en temps réel.
Il s’agit de s’assurer que les ressources d’infrastructure épousent la demande – et qu’il
n’existe aucun problème de performance et de disponibilité.

Appliance analytique

S’agissant des modèles de déploiement, IDC constate que les clients aux prises avec le
phénomène « Big Data » dégagent des gains de performances significatifs des appliances
analytiques. De plus, les logiciels étant optimisés et pré-intégrés avec les appliances, les
durées de déploiement sont considérablement écourtées.

Dans le cadre d’une récente enquête d’envergure mondiale, 10% des DSI interrogés ont
avoué s’intéresser au modèle de déploiement des appliances analytiques pour 2011. IDC
est d’ailleurs convaincu que la demande d’architectures de référence s’inscrira en hausse
compte tenu des efforts déployés par ces mêmes DSI pour intégrer ces appliances au
sein des environnements d’entreposage de données existants. Face à cet engouement
pour les appliances analytiques, les services informatiques, dans l’affectation de leurs
ressources budgétaires, « pénaliseront » les profils techniques (justifiant de connaissances
en installation, configuration et administration, par exemple) au profit des profils analytiques
de haut niveau, indispensables au pilotage décisionnel multidisciplinaire.

Architecture d’entreprise

L’analytique d’entreprise requiert une architecture d’entreprise offrant une remarquable


montée en capacité — qu’il s’avère urgent d’adopter face à l’essor de l’analytique « Big
Data ». Les établissements doivent s’équiper d’un « environnement analytique hautes
performances » couplant gestion analytique in-database, traitement en parallèle et
stockage en mémoire pour gérer des données qui augmentent en volume, en rapidité
et en diversité. S’agissant des données non structurées, il convient d’accorder plus
d’attention à Hadoop — framework logiciel Open Source géré par Apache permettant le
traitement distribué de tables volumineuses entre des ordinateurs organisés en clusters.
Néanmoins, il existera perpétuellement des conflits entre les standards internationaux et
les impératifs locaux – et l’utilisation de Hadoop en est un parfait exemple.

Il faut également s’interroger sur la capacité à traiter des charges de travail mixtes (analytiques
et opérationnelles, par exemple) dans le même environnement d’infrastructure, comme
celui de l’appliance cité précédemment. Les DSI doivent s’intéresser aux outils qui, dans
la résolution de problématiques métier spécifiques, leur apporteront une véritable valeur
ajoutée, sans rien ignorer des standards et spécifications en matière d’architecture. Si
certains modèles de gouvernance internationaux interdisent d’utiliser plusieurs de ces
technologies au sein d’un environnement de production, les services informatiques
seront néanmoins contraints de réexaminer les modalités d’application de l’architecture
d’entreprise en local, compte tenu des attentes.

8
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétries
de données de plus en plus massives qui obligent à réévaluer les stratégies de gestion
de l’information dans la majorité des entreprises ayant investi dans la business analytics .
Pourtant, l’enjeu est énorme . Si vous vous ingéniez à optimiser le tarif de chacun des
articles proposés par une chaîne de distribution internationale ou à détecter la fraude en
temps réel, vous mesurez pleinement le genre de problématiques que l’analytique « Big
Data » peut résoudre .

Tableau 3 - Confrontation de deux ères (Analytique « Big Data »)

Ancienne ère Nouvelle ère

Tables Prédéfinies Globales et itératives

Vitesse de traitement Par lots/en batch Proactive et dynamique (en temps réel
des données s’il y a lieu)

Analyse des données Essentiellement historique Analyse prédictive, prévisions et


optimisation

Néanmoins, malgré le potentiel évident de cette discipline analytique, il faut savoir qu’elle
ne sera pas nécessairement utile ou applicable à chaque fois . Pour IDC, les scénarios
d’utilisation envisageables s’articulent autour de deux dimensions inhérentes au
phénomène « Big Data », à savoir la vitesse et la diversité comme indiqué ci-après :

Figure 4 - Analytique « Big Data » et scénarios d’utilisation potentiels

Risques de crédit et de marché dans le


en temps réel secteur bancaire

Détection des fraudes (à la carte bancaire) et délits financiers (lutte anti-blanchiment) dans le
secteur bancaire (analyse des médias sociaux incluse)

Marketing événementiel dans les services financiers et les télécommunications

Optimisation des démarques dans la grande distribution

Escroqueries et fraude fiscale dans le secteur public

Vitesse des
Maintenance prédictive Analyse de sentiment sur les médias
données
dans l’aérospatiale sociaux

Analyse de pathologies à
Prévision de la demande dans
partir de dossiers médicaux
l’industrie
électroniques

Entrepôt de données Analyse de vidéosurveillance


par lot Text Mining
traditionnel pour la sécurité publique

structurées semi-structurées non structurées


9
Variété des données
Livre blanc

SAS White Paper

Pour mesurer tout l’intérêt de l’analytique « Big Data », et sa valeur ajoutée pour l’entreprise,
examinons ces scénarios d’utilisation de plus près :

Détection de la fraude en temps réel dans le secteur bancaire

Voilà qui suppose, pour l’établissement bancaire, d’être capable de détecter, prévenir
et gérer la fraude sur plusieurs produits, activités et canaux. Il doit donc être en mesure
de retracer l’historique des différents types d’items (carte, compte, client, identifiant de
terminal ou adresse IP) associées aux transactions, en détectant immédiatement les
comportements clients anormaux dans les points de vente. Ces informations peuvent
être exploitées par plusieurs modèles prédictifs pour la détection de fraudes et l’évaluation
du risque de crédit.

Optimisation des démarques dans la grande distribution

La capacité d’un distributeur à optimiser, en temps réel, les tarifs pratiqués sur un large
éventail de produits, en fonction de scénarios d’anticipation de la demande (tenant compte
des offres promotionnelles, de l’incidence saisonnière et d’événements importants), est
déterminante pour ses marges. Si elle se double d’une analyse de sentiment sur les
médias sociaux, la demande de certains produits sera évaluée quasiment en temps réel.

Analyse de pathologies à partir de dossiers médicaux électroniques

Avec la modernisation des services de santé, un analyste peut à présent disposer des
antécédents médicaux d’un patient au format électronique. Voilà qui ouvrira de formidables
possibilités à l’analytique « Big Data ». Dans le cas de pathologies de type diabètes,
par exemple, la mise en corrélation des antécédents médicaux des patients avec des
données diététiques (potentiellement issues de l’analyse du panier de consommation
dans la grande distribution) et un programme d’exercices physiques adaptés seront
riches d’enseignements pour les praticiens.

LE FACTEUR COMPÉTENCES
IDC en est convaincu, la véritable valeur ajoutée de l’analytique « Big Data » résidera dans
l’analyse poussée des données générées par les entreprises, qui augmentent en volume,
en diversité et en rapidité. En Asie, la plupart des sociétés (hormis certaines multinationales
puisque le phénomène émane essentiellement des Etats-Unis et de l’Europe) ignorent
tout du type et du niveau de compétences requises. IDC justifie cette méconnaissance
par un manque de sensibilisation et un déficit historique de compétences en gestion
analytique de haut niveau (indépendamment du phénomène « Big Data »).

L’analytique de haut niveau exigera de nouvelles compétences dans deux domaines clés :

Profil technique

Des compétences techniques seront indispensables pour maîtriser la nouvelle catégorie


de technologies indispensables au traitement, à l’exploration et à l’analyse de ces
gigantesques tables de données inexploitables par des bases de données et architectures
traditionnelle (calcul en mémoire, Hadoop, MapReduce, KVS, etc.). Certaines de ces
technologies seront déployées sous forme d’appliance — pour tirer parti des données, il
faudra alors justifier de connaissances permettant de mieux appréhender les modalités
d’interaction du logiciel avec le matériel.

10
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Analyste/statisticien d’un nouveau genre

L’une des différences fondamentales entre l’analytique traditionnelle et ce


à quoi nous sommes confrontés à l’ère des « Big Data » réside dans la
collecte systématique de données, sans a priori sur le fait que la donnée
soit utile ou non à collecter — ce qui, du point de vue analytique, revient à
« considérer que l’on ne peut pas savoir a priori ce que l’on ne sait pas ».

Concrètement, les données non structurées sont tellement nombreuses que les variables
et modèles analytiques risquent d’être entièrement nouveaux. D’où la nécessité de
repenser l’approche analytique des utilisateurs chevronnés en créant une « mentalité
d’explorateur » où il s’agit toujours de partir à la découverte. En règle générale, des
connaissances en data mining et en statistiques constituerait un excellent point de départ
pour ce type d’analyse.

À l’avenir, il y aura une demande de plus en plus marquée pour ces « scientifiques des
données ». Cette nouvelle génération d’analystes, versée dans les statistiques, sera
capable d’extraire des informations à partir d’une avalanche de données pour apporter
une valeur ajoutée à des experts non spécialisés en analytique. Elle sera de surcroît
parfaitement à même d’identifier les nouveaux algorithmes et modèles analytiques les
plus efficaces à court terme.

IDC insiste sur l’intérêt de ces profils analytiques. Leurs rôles et responsabilités ne
sont pas définis — mais ils entrent parfaitement dans le cadre de ce qui a été évoqué
précédemment, s’agissant de l’afflux de données non structurées et de variables et
modèles analytiques probablement inédits. Il s’agit aussi, pour eux, de faire preuve de
créativité par rapport à la gestion analytique qu’il convient d’appliquer à ces types et
structures de données d’un nouveau genre.

Prenons l’exemple des réseaux sociaux (qui contribuent au phénomène « Big Data » au
travers de données semi-structurées et non structurées) : nombre de services marketing
s’évertuent à réaliser des analyses de marque et de sentiment sur la base des contenus
publiés sur Facebook, Twitter et YouTube (soit de gigantesques quantités de données,
comme vous vous en doutez). Cette dynamique gagne encore en complexité en Asie,
par exemple avec la présence de sites sociaux locaux tels que RenRen en Chine et Nate
en Corée.

Actuellement, l’infrastructure informatique est loin d’être prioritaire pour le directeur


marketing, qui n’est pas qualifié pour identifier les chantiers à entreprendre (et, dans de
nombreux cas, n’a toujours pas défini le rôle qu’il doit tenir dans les règles ou dans la
gouvernance d’utilisation des médias sociaux). La constitution du service informatique
mérite donc d’être réexaminée en termes de compétences techniques, métier et
relationnelles.

11
Livre blanc

SAS White Paper

Le modèle de maturité ci-après décrit l’évolution, selon IDC, de ces compétences


(techniques et métier) dans le contexte d’entreprises qui ont progressivement adopté
la business analytics . Leur évolution probable à l’ère de l’analytique « Big Data » est
également incluse :

Figure 5 - Modèle de maturité de l’analytique « Big Data »

Phase Ancienne ère Nouvelle ère

Analytique Analytique
Impact Pilote Analytique « Big Data »
départementale d’entreprise
Profil du personnel Peu ou pas d’expertise en Accent mis sur la performance, Modélisateurs et « data Centre de compétences en business
(informatique) analytique ; connaissance de la disponibilité et la sécurité stewards » chevronnés, analytics (BACC) composé de « scientifiques
base des outils BI par l’équipe responsable des acteurs incontournables du des données »
entrepôts de données service informatique

Profil du personnel Connaissance fonctionnelle Rares analystes métier – Recours à des experts en Intégration de la résolution de problèmes
(métier/informatique) des outils BI usage limité d’outils d’analyse modélisation analytique et complexes au Centre de compétences en
avancée statisticiens business analytics (BACC)

Technologie et outils Reporting BI et tableaux de Implémentation d’entrepôts Data mining à l’intérieur de Large adoption de l’appliance pour des
bord simples sur des données de données, large emploi la base de données, et usage charges de travail multiples. Architecture
historiques d’outils décisionnels, peu restreint du traitement en et gouvernance pour les nouvelles
de magasins de données parallèle et de l’appliance technologies
analytiques analytique

Impact financier Aucun impact financier Instauration de certains Impact significatif sur le Stratégie commerciale et différenciation
substantiel. Absence de indicateurs de performance chiffre d’affaires (mesuré et concurrentielle reposent sur la gestion
modèles de retour sur clés (KPI), générateurs de contrôlé régulièrement) analytique
investissement revenus, avec un retour sur
investissement clairement
défini

Gouvernance des Inexistante ou presque Modèle d’entrepôt de données Définitions de données et Stratégie de gestion des données maîtres
données (attention : danger !) et architecture classiques modèles normalisés clairement définie (MDM)

Branches d’activité Mécontentes..... Visible Alignement (responsables de Inter-départemental (avec visibilité du PDG)
branches d’activité inclus)

Implication du DSI Imperceptible Limitée Réelle Volonté de transformation

% de clients 20% 65% 10% 5%


(estimations IDC)

Pour disposer des compétences adaptées et les développer à l’ère de l’analytique


« Big Data », il sera primordial de créer un Centre de compétences en business analytics
(BACC) aux confins des pôles métier et informatique . Selon IDC, cette structure ne se
contente pas de clarifier les rôles et responsabilités des principaux acteurs de cette
transformation . Elle procure également une meilleure visibilité en interne, instaure un
mécanisme de formation et fait le lien entre les pôles informatique et métier (notamment
les équipes Marketing et Ventes, dont les principaux acteurs devront être représentés)
puisque l’amélioration des prises de décision du personnel en front-office constituera la
finalité première de ces projets .

12
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

En complément de sa vocation à cultiver les compétences, cette structure devrait, selon


IDC, s’investir de la sorte :

»» Identifier/déployer les technologies


»» Créer un business case et justifier du retour sur investissement
»» Instaurer un cadre de gouvernance des données assorti de principes d’action
clairs en matière de gestion des données maîtres, de qualité et de modèles de
données
»» Veiller à l’adéquation des pôles informatique et métier en associant les
principales parties prenantes au moment opportun
»» Associer le DSI à la refonte informatique, indispensable à l’impact commercial
recherché

Très peu d’entreprises ont atteint le niveau de maturité leur permettant de tirer véritablement
parti du potentiel représenté par l’analytique « Big Data » ; et, dans les faits, il est difficile
de remplir tous les critères, mais cette transformation est nécessaire pour permettre aux
entreprises de se différencier véritablement dans l’environnement économique actuel.
Le rôle joué par le DSI (avec le concours du service informatique) sera essentiel dans cette
transformation. La section suivante expose quelques suggestions qui, de l’avis d’IDC,
méritent d’être prises en compte dans ce contexte.

Checklist du DSI dans la perspective de l’analytique « Big Data »


Devenir un architecte du futur

Historiquement, les travaux analytiques étaient exécutés à l’aide de « palliatifs », en raison


du peu d’évolutivité du matériel sous-jacent. Nombre de services informatiques sont,
par conséquent, enclins à créer des vues matérialisées ou des structures de données
précalculées qui évitent aux utilisateurs de dégrader les performances des systèmes
traitant les données sous-jacentes. Grâce à la clusterisation, au traitement en parallèle et
aux technologies en mémoire, ces données sous-jacentes peuvent toutes être utilisées
dans l’environnement analytique.

Il est néanmoins essentiel de ne pas commettre l’erreur d’accroître aveuglément les


capacités, en misant sur la disponibilité. Il est impératif d’évaluer plusieurs modèles de
déploiement (le mode cloud, notamment pour ses fonctionnalités de « cloud bursting »,
les appliances analytiques, mais aussi le modèle client-serveur traditionnel ou encore
l’architecture Web à trois niveaux) au cas par cas, puisque la solution universelle est un
leurre.

Adopter une « mentalité d’explorateur »

L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi nous


sommes confrontés à l’ère du « Big Data » réside dans la collecte systématique de
données, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui, du
point de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ce que
l’on ne sait pas ». Concrètement, les données non structurées sont tellement nombreuses
que les variables et modèles analytiques risquent d’être entièrement nouveaux. D’où la
nécessité de repenser l’approche analytique observée par les utilisateurs chevronnés
dans le développement de modèles en créant une « mentalité d’explorateur », où il s’agit
toujours de partir à la découverte, en particulier dans les liens établis entre données non
structurées, semi-structurées et structurées.

13
Livre blanc

SAS White Paper

Dans ce contexte, il s’agira de faire valoir des compétences d’un nouveau genre afin de
cerner toutes les nuances des commentaires exprimés sur les réseaux sociaux (par les
générations Y, Z voire millénaire).

Modérer le « bricolage » informatique

À chaque fois qu’une nouvelle série de technologies intéressantes fait son apparition sur le
marché, les services informatiques ont tendance à les « bricoler » — ce qui a une incidence
immédiate sur la rentabilité de l’entreprise. Même si une certaine dose d’expérimentation
est souhaitable (et parfaitement avec phase avec la « mentalité d’explorateur » décrite
précédemment ; Hadoop et MapReduce font d’ailleurs indéniablement partie de cette
catégorie), les DSI doivent veiller à ce que ces expérimentations ne se fassent pas au
détriment de la création de valeur ajoutée.

Constituer l’équipe adéquate

Ce processus exige, dans un premier temps, que le DSI évalue son propre service
informatique afin d’identifier les niveaux de compétences et structures organisationnelles
appropriés. Dans certains cas, une refonte devra être opérée en interne pour que le
changement soit perceptible. Ensuite, les individus compétents doivent être habilités
à exécuter la stratégie analytique, en s’appuyant sur les processus et structures de
gouvernance en place, pour pouvoir répondre efficacement aux attentes métier.

Voilà qui suppose, pour le DSI, de mieux appréhender le potentiel de la technologie


analytique sous-jacente, mais aussi de collaborer avec les responsables de branches
d’activité afin de recruter des professionnels dotés d’un esprit analytique, capables
d’exploiter de manière optimale les capacités technologiques latentes.

Déployer les ressources analytiques à l’échelle de l’entreprise

La majorité des projets informatiques menés dans ce domaine consistent à créer un


entrepôt de données qui, couplé à divers outils décisionnels, permet de faire remonter
les informations sous-jacentes aux utilisateurs. Toutefois, faute d’expertise informatique
en fonctions analytiques élaborées, ces projets demeurent largement départementaux et
tactiques par nature, favorisant le cloisonnement des mentalités.

Ainsi, une évaluation de la rentabilité ajustée du risque (calculée à partir de données


financières, d’une cote de solvabilité et de données clients) serait impossible. Un
changement s’impose et, pour ce faire, il faut redéfinir le niveau de collaboration entre
les pôles informatique et métier, sous la houlette d’un DSI participant personnellement
au déploiement des outils analytiques à l’échelle de l’entreprise afin d’assurer la menée à
bien de ces projets.

Gouvernance et business enablement

C’est dans ce domaine que les investissements réalisés dans les technologies de
data warehousing, à condition d’avoir été judicieux, porteront leurs fruits. Les modèles
de données et l’architecture de référence adoptés par le pôle informatique garantiront
la cohérence des définitions de données et standards entre les différents services de
l’entreprise. Certes, il reste du travail à accomplir en gestion des données maîtresses
(MDM) pour combler le fossé opérationnel et analytique autour de la gouvernance des
données — mais, fondamentalement, cette plate-forme devrait procurer la gestion et la
maîtrise indispensables au pôle informatique.

14
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

S’agissant du business enablement, IDC voit apparaître une nouvelle catégorie de projets
associant business analytics et gestion de processus métier — plus spécifiquement, des
logiciels de gestion décisionnelle comprenant des outils adaptés à la gestion des règles,
au data mining, aux requêtes et au reporting, au traitement d’événements complexes
(CEP), à la collaboration, aux suites BPM, aux recherches et à l’analyse de contenu.

Pour IDC, les services informatiques qui, en complément de leurs précédents


investissements dans les technologies de data warehousing et décisionnelles, justifieront
d’une meilleure appréhension du processus décisionnel à chaque niveau ainsi que
des logiciels de gestion décisionnelle seront les mieux placés pour gérer le dilemme
gouvernance informatique-business enablement.

CONCLUSION
Malgré des degrés de maturité et taux d’adoption différents, les entreprises sont prêtes
à exploiter des solutions et offres de business analytics plus évoluées. Elles doivent donc
opter pour une planification stratégique et élaborer une feuille de route solide avant de
s’y rallier. La nouvelle génération de décideurs, davantage sensibilisée aux avantages
concurrentiels liés au business analytics, mènera une politique d’adoption plus offensive.
Pour IDC, une approche nouvelle s’impose à l’avenir ; elle seule permettra d’effectuer les
changements nécessaires, en ce sens :

»» Le rôle du DSI doit être affirmé, et celui-ci mieux à même de transformer


l’établissement en participant activement au déploiement de la stratégie
analytique d’entreprise — et en veillant à ce que ces technologies aient l’impact
commercial escompté.
»» Les autres modèles de déploiement (appliance, « en mémoire » et Hadoop pour
les « Big Data ») doivent être évalués.
»» Il s’agit de capter l’attention des responsables de branches d’activité alors
même que les projets de business analytics sont intégrés à des technologies de
traitement d’événements complexes (CEP) et de supervision des activités métier
(BAM) pour piloter une nouvelle catégorie de projets définis par IDC comme
relevant de la « gestion décisionnelle ».

Le rôle du DSI s’affirme progressivement au sein de la direction et celui-ci devient


incontournable dans l’achat d’applications évoluées, de business analytics notamment.
Le DSI et le service informatique n’ont d’autre choix que de tirer parti d’un large éventail
de fonctions de business analytics pour définir une nouvelle stratégie de gestion
de l’information capable de gérer la nouvelle dynamique « Big Data » et de doter les
intervenants métier d’outils décisionnels optimisés.

15
#AP14962U

À PROPOS DE CETTE PUBLICATION


Cette publication a été produite par IDC Go-to-Market Services. IDC Go-to-Market
Services propose les contenus IDC dans un large éventail de formats à diverses
entreprises, pour diffusion. Une licence de distribution de contenu IDC ne sous-entend ni
un cautionnement de son titulaire ni une quelconque opinion sur celui-ci.

DROIT D’AUTEUR ET RESTRICTIONS


Toute information IDC ou référence à IDC destinée à être utilisée dans une publicité, un
communiqué de presse ou un support promotionnel requiert au préalable l’approbation
écrite d’IDC. Pour les demandes d’autorisation, contactez GMS au 65-6829-7757 ou à
l’adresse gmsap@idc.com. Une autre autorisation d’IDC est requise pour la traduction et/
ou la localisation de ce document.

Pour de plus amples informations sur IDC, consultez le site www.idc.com. Pour de plus
amples informations sur IDC GMS, consultez le site www.idc.com/gms.

IDC Asie/Pacifique, 80 Anson Road, #38-00 Fuji Xerox Towers, Singapour 079970.

Tél. : 65.6226.0330 Fax : 65.6220.6116 www.idc.com.

Copyright 2011 IDC. Reproduction interdite sans autorisation. Tous droits réservés.

SAS Institute s. a. s. – DOMAINE DE GREGY - GREGY-SUR-YERRES - 77257 BRIE COMTE ROBERT - FRANCE
TEL. : +33(0) 1 60 62 11 11 FAX : +33(0) 1 60 62 11 99 www.sas.com/france
Copyright © 2012, SAS Institue Inc. Tous droits réservés. WP010FCE0312

Vous aimerez peut-être aussi