Vous êtes sur la page 1sur 8

Situation et perspectives

Le Concept « BIG DATA »


Nouveaux enjeux technologiques
par Jean-François Marcotorchino

Big Data : quelques de stabilisation au moins pour certaines ting a été très largement diffusé, nous
questions à se poser d’entre elles. Ceci augure-t-il une accep- allons brièvement réinterpréter les
tation plus délicate pour le Big Data ? Le conséquences qu’il induit en essayant de
Data Mining quant à lui, qui préexistait sérier les problèmes qui en découlent.
“Big Data” : au “Big Data”, et peut donc y être associé D’autres instituts de conjonctures éco-
révolution ou évolution naturelle ? plus directement encore, ne bénéficiait nomiques comme le Gartner Group par

L
pas jusqu’ici de structures d’accès et de exemple, (dont nous donnons ci-après
Le phénomène “Big Data”, par son distribution des données suffisamment la vision des 10 technologies les plus
intitulé simple et porteur, facilement rapides et souples pour pouvoir donner stratégiques pour 2012) ou IDC, ainsi
englobant, génère un intérêt mani- pleinement la mesure de ses potentia- que des laboratoires académiques d’uni-
feste et a droit à une couverture média- lités. Nous allons essayer de présenter, versités américaines et européennes
tique tout à fait exceptionnelle surtout quelques indications sur ce qui carac- célèbres (MIT, Stanford, Berkeley,
depuis 3 ou 4 ans. Ce “buzz” média- térise ce phénomène “Big Data” et sur Imperial College, Paris VI UPMC ainsi
tique est encore plus fort que celui qui ce qui relève ou non de son appellation. que de nombreux journaux d’informa-
s’est produit auparavant pour le “Data Nous déclinerons ensuite quelques-uns tion professionnelle ou spécialisée ont
8
Mining” et le “Cloud Computing”, qui de ses impacts et caractéristiques. publié des articles dédiés à cette thé-
l’ont précédé chronologiquement tout matique ou consacré des numéros spé-
en lui étant collatéralement associés. Le “Big Data” : ciaux à ce nouveau paradigme (comme
“Cloud Computing”, par exemple, a été fa- un nouveau phénomène de mode ?  la Harvard Business Review). Même des
cilement considéré par les spécialistes des journaux grand public comme le New
Systèmes d’Information comme une rup- Le “Big Data” est-il un nouveau phé- York Times, ont largement contribué à
ture dans la façon dont ils allaient fonc- nomène de mode? le besoin de ces la célébrité actuelle du phénomène “Big
tionner désormais. Pourtant il repose sur approches est-il vraiment incontour- Data” par des articles et des rapports
un substrat technologique et technique nable ? Ces questions ont été abordées repris par la presse informatique spécia-
paradoxalement plus facilement assimi- dès Juin 2011 par “Mac Kinsey Global lisée ou généraliste.
lable que celui qui caractérise l’ensemble Institute (MKGI)» au travers d’une étude
des approches “Big Data”, lesquelles Consulting détaillée sur le phénomène Après lecture de ces articles, il appa-
sont complexes, multiformes et en voie “Big Data”, ce document à visée marke- rait qu’il en va du phénomène “Big
Data” comme de beaucoup d’autres
phénomènes de nouvelles tendances
Top 10 Strategic(*) Technologies (2012) technologiques qui l’ont précédé  : il y
(Source Gartner Group 2012) a de facto du progrès réel à attendre
mais il y a aussi quelques exagérations
 Media Tablets qu’il convient de modérer. Nous allons
essayer de montrer les axes où nous
 Mobile Centric Applications and Interfaces pensons que ces progrès auront un
 Contextual and Social User Experience impact sérieux sur notre façon de four-
 Internet of Things nir des solutions à nos clients, tout en
Worldwide Data démystifiant, si nécessaire, certaines
 Apps Stores and Marketplaces fausses bonnes idées. Avant d’aller plus
Collections:
 Next Generation Analytics 7,9 ZETTABYTES loin, revenons sur quelques définitions
 Big Data by 2015 comme celles données ci-dessous qui
EQUIVALENT to sont traduites et extraites du rapport
 In-Memory Computing 18 MILLION du Mac Kinsey Global Institute à propos
 Extreme low Energy Servers Libraries of Congress des concepts reliés au “Big Data”, à com-
mencer d’ailleurs par la définition de ce
 Cloud Computing
que pourrait être la frontière des tailles
(*)Strategic Technology: one with a significant impact in the next Three years relatives au “Big Data”.

TELECOM n°169 / BIG DATA


Situation et perspectives

Comment faisait-on avant l’arrivée Intensif), un certain nombre de Centres


1 “Big data” fait référence à des du concept “Big Data” ? équipés de machines hyperpuissantes
ensembles de données dont la taille œuvrent pour l’Etat au bénéfice d’uti-
va au-delà de la capacité actuelle Voici d’autres questions  connexes : le lisateurs provenant essentiellement
des logiciels de gestion de base de besoin de ces approches est-il vraiment du milieu Scientifique et Recherche à
données pour capturer / stocker / si crucial et si incontournable que cela ? vocation plutôt académiques et universi-
gérer et analyser.
pourquoi ne pas pratiquer des sondages taires. Ainsi en est-t-il de l’IDRIS (Institut
par échantillonnages1 pour éviter d’analy- du Développement et des Ressources en
1 L
 es problèmes liés au “Big data”
ne sont pas seulement liés aux ser de trop grands volumes de données? la Informatique Scientifique) du CNRS, du
questions de volume des données, notion de “big sample”  (c’est-à-dire un pa- CINES (Centre Informatique National de
mais aussi aux questions de nel contenant jusqu’à 100 000 exemples l’Enseignement Supérieur) de Montpellier,
complexité de gestion de celles-ci extraits des bases de données globales2) du CCRT du CEA localisé sur le site de
(ex. grands graphes connectés dans n’est-il pas la panacée  ? Pourquoi les Bruyères-le-Châtel, et du CERFACS de
le champs sémantique) méthodes existantes issues du “Business Toulouse (Centre Européen de Recherche et
(source: Mac Kinsey Global Institute) Intelligence” ont-elles atteint leurs li- de Formation Avancée en calcul Scientifique).
mites, même si elles sont utilisées de façon Ces moyens de calcul servent à relever de
intensive aujourd’hui, en particulier dans grands défis scientifiques. Total (pour la
Le rapport du Mac Kinsey Global Insti­ le secteur du “Customer Relationship sismique), EADS (pour l’aérodynamique),
tute (voir alinéa n°2 de l’encart précé- Management” (CRM)  ? En fait, la vraie EDF (pour ses plans de charge réseau élec-
dent) et le tableau des 10 Technologies question qui les résume toutes pourrait trique), METEO France (pour les modèles
clefs de 2012 du Gartner Group, insistent être la suivante : en quoi l’afflux massif de d’analyses de prévision climatique) etc.,
bien sur le fait que le “Big Data” et données nécessite-t-il une adaptation de utilisent ces grands centres de calcul dont
l’“Advanced Analytics” (nouvelle géné- rupture pour les méthodologies d’analyse l’objectif est de développer des méthodes
ration d’outils scalables, que certains des données usuelles (data mining & data de simulation numérique avancées ainsi
appellent déjà le “Big Analytics”) sont clustering, advanced & visual analytics) ? que les solutions algorithmiques qui
étroitement liés. Il s’avère que le fait de Aboutissant de-facto à une prédéfinition adressent de grands problèmes scienti-
manipuler de grandes quantités de don- du concept de “Big Data” partagée par la fiques et techniques. Sur l’ensemble de
nées ne suffit pas à caractériser une ap- plupart des acteurs du domaine à savoir : ces Centres on constate que la puissance
plication ou un traitement de “Big Data”, de calcul est essentiellement dédiée à de
9
encore faut-il montrer que l’on a besoin grandes simulations dans le domaine de
1 L
 e paradigme “Big Data” c’est
d’être à la fois quasi exhaustif sur le la physique ou dans les sciences de la vie
l’association de collections
traitement des données et que l’on a réel- extrêmement volumineuses (simulations moléculaires in vitro), plus
lement besoin de l’analyse de toutes ces de données à des algorithmes rarement aux modèles financiers et qua-
collections à la fois. Il est important de totalement dédiés permettant des siment pas aux modèles liés à l’exploita-
comprendre dans ce contexte nouveau, exploitations allant bien au-delà de tion de données à valeur marchande. En
la dualité existante entre : l’application classique des processus conclusion ce qui différencie le “HPC”
et des méthodologies usuelles de et l’actuel phénomène “Big Data”  c’est
✔ les avancées réelles qu’apportent l’Analyse des données. d’une part le type de problématiques (et
le “Big Data”, au niveau du traitement donc de données) qui sont exploitées
d’applications qui étaient totalement dans les quatre centres cités (données
limitées et contraintes par des problé- Calcul Intensif (HPC) vs Big Data ? extrêmement spécialisées, adressés par
matiques de “scalabilité” ou de possibi- des équipes multidisciplinaires sous
lité de stockage, et qui deviennent, de On n’a pas attendu les années actuelles forme de défis techniques), d’autre
ce fait, accessibles à l’analyse. pour manipuler des masses considé- part le fait que c’est plus la difficulté
rables de données dans des Centres des calculs que la masse des données
✔ Et l’extension de certains processus dédiés et équipés de machines très puis- à analyser qui, pose problème dans le
d’analyse des données actuellement santes. Il est opportun de bien différen- cas du “HPC” (aspect combinatoire ver-
très répandus, qui utilisent des tech- cier ce qui relève du “Calcul Intensif” sus faisabilité calculatoire2). En effet ce
niques anciennes ou éprouvées, mais ou (“HPC” High Performance Computing), qui fait l’intérêt du “Big Data”, c’est une
qui bénéficieront à terme des nouvelles proprement dit, de ce qui relève de l’ap- exploitation systématique de grandes
capacités, offertes par le contexte “Big pellation “Big Data”. En effet en France, bases de données, devenues accessibles
Data”, ce qui permettra de les améliorer par exemple, sous la houlette du GENCI à des acteurs qui ne pensaient pas pos-
de façon très significative. (Grand Equipement National de Calcul sible leur exploitation, ou encore qui

[1] Un palliatif classique au couple Big Data /Big Analytics est le recours aux sondages. Ceci permet éviter l’aspect « Big » du problème. Malheureusement pour pratiquer d’excellents
sondages encore faut-il bien sûr connaître à l’avance (c’est rarement le cas) la population mère sur laquelle on travaille (du fait du redressement par quota et stratifications comme
pratiqué par l’IFOP, le CSA, Gallup, Opinion Way, etc. qui s’appuient eux sur le recensement INSEE pour faire leurs prévisions et c’est pour cela qu’elles sont bonnes). Enfin et c’est souvent
plus grave, dans des domaines comme le diagnostic médical, la détection de la fraude, l’octroi de crédits etc. on passe à côté des « niches » au sein de la population dans l’approche
par sondages, or une niche c’est souvent une « pépite » en tout cas une structure à comportement hors normes et à fort potentiel interprétatif et décisionnel (tant au niveau financier
que des risques générés).
[2] A titre d’exemple, de cet aspect hautement combinatoire, non lié à la taille des données : le partionnement optimal de structures à N éléments est un problème hautement combinatoire,
ainsi pour N=10000 Objets (ce qui n’est pas un très grand nombre en soi) , le nombre total de solutions possibles est de l’ordre de 1029000 (estimation obtenue grâce aux bornes de de
Bruijn et Berendt-Tassa(2010) , du nombre de Bell), nombre monstrueux par ailleurs. Même s’agissant d’heuristiques ‘ad hoc’ (la solution exacte étant inenvisageable ici), l’adéquation
d’une algorithmique puissante et de capacités de parallélisme permet d’éviter l’exploration systématique de toutes les solutions possibles. C’est du « calcul intensif » mais pas de
l’analyse « Big Data ».

BIG DATA / TELECOM n°169


Situation et perspectives

n’avaient pas perçu le tropisme “Data et des programmes de “cross selling”3 des algorithmes d’exploitation ou de
Driven Analytics” (laisser parler les don- raffinés et efficaces. La “segmentation de stockage qui tirent parti de la structure
nées) qui leur est associé. “HPC” n’est clientèle” en CRM consiste à découper la même des données qu’on analyse. Pour
donc pas synonyme de “Big Data” mais population globale en segments typés comprendre pourquoi les méthodes
peut en faire partie si l’on considère dans lesquels les clients ont des profils actuelles d’exploitation et d’analyse des
que la puissance des machines de trai- (au sens de la base de données) voisins grandes bases de données sont limi-
tement des données et les procédures ou similaires. Cette segmentation glo- tées quant à leur potentialité d’appli-
de parallélisation des codes sont des bale consiste donc en un “clustering” (ou cation sur ces très grands volumes de
composantes clés du processus. Ceci partionnement) de la base “big sample” données spécifiques, prenons le cas,
dit la taille importante des données ne en un nombre de classes que l’on doit es- (exemple pratiquement d’école), rela-
caractérise pas forcément un projet “Big timer et dont on cherche la “pertinence” tif à la recherche de “communautés”
Data”. Désambigüisons cette idée en (en l’occurrence, dans ce cas, un com- dans les réseaux sociaux. Ceci sert à
précisant ce que nous entendons par : promis entre le fait d’avoir des classes plusieurs types d’applications certaines
différenciées en nombre raisonnable et relevant par exemple du Marketing (“e-
le fait d’avoir des classes suffisamment reputation”, “propagation de rumeurs”,
“Big Data par extension” homogènes). On aboutit, en général, à “social marketing”) ou de la Sécurité du
des segmentations4 à une quarantaine territoire (recherche de communautés
vs “Big Data intrinsèque” de classes maximum, (information fon- de hackers en Cyber Sécurité, recherche
damentale sur la structure de la popula- de communautés de fraudeurs (aux
a) Le “Big data par extension”  tion étudiée), que l’on va exploiter par- paiements par carte en “e-business”,
Il consiste à gérer pratiquement et tiellement ou totalement. En effet, une ou aux remboursements ou aux presta-
concrètement les applications métier fois validé un nombre de classes adéquat tions étatiques : Sécurité Sociale, CNAV,
dont on a besoin sans être obligé, tout au pour des objectifs fixés, on réaffecte l’en- CNAM etc.) ou encore recherche de com-
moins à l’heure actuelle, de faire de l’ex- semble des clients de la base mère (celle munautés agissantes dans le domaine
ploitation exhaustive de toutes les don- des millions de clients) sur les segments du COIN (Counter Insurrection), etc.).
nées dont on dispose, même si celles-ci trouvés, cette fonction de réaffectation Posons alors clairement le problème  :
sont en très grand nombre. L’apport par comparaison vectorielle aux profils pour analyser les communautés qui
des méthodologies “Big Data” pouvant représentatifs des classes est typique- pourraient éventuellement nous inté-
être un facteur d’amélioration considé- ment une opération “Big Data”, car resser, encore faudrait-il les identi-
10
rable d’un processus d’analyse qui donne elle porte sur l’exhaustivité de la base. En fier, avant même d’analyser le contenu
néanmoins déjà une certaine satisfac- effet, nous venons de le voir, on peut ex- de ce que ces communautés ont échan-
tion. Pour illustrer ce point, considérons traire par sondages simulés “big sample”, gé ou sont en train d’échanger entre
le cas du service Marketing d’un grand toutes les informations dont on a besoin. leurs membres (par des techniques de
opérateur du B2C qui veut segmenter Nous sommes alors typiquement dans traitement et d’extraction sémantique
sa clientèle pour adapter ses offres à des du “Big Data par extension», puisque de type TAL (Traitement Automatique
clients divers et qui désire les fidéliser la taille certes monstrueuse des données du Langage) ce qui est l’étape ultérieure
dans un contexte de concurrence exacer- ne conditionne nullement les traite- du traitement et qui n’est pas simple
bée et de guerre des prix. Pour se faire ments et l’exploitation qui en est faite. non plus. Donnons quelques chiffres
on ne travaille pas exhaustivement sur la Le “Big Data par extension” c’est donc sur quelques réseaux sociaux pour nous
base des profils de plusieurs millions de l’existence d’un potentiel d’amélioration rendre compte de l’immensité du champ
clients (pour certains opérateurs connus) très conséquent au niveau de processus d’observation: Facebook (1,260 Billion
que l’on a renseignée mais sur un  “big d’analyse qui utilisent aujourd’hui un Noeuds, 93 Billion liens, Twitter (0,400
sample” représentatif des clients que l’on certain nombre d’artefacts méthodolo- Billion Noeuds), LinkedIn (0,205
possède. Sur ce “big sample” (qui peut giques comme palliatifs des incapacités Billion Noeuds) etc. Dans ce cas, nous
aller jusqu’à 100 000 individus) on pos- ou limitations calculatoires. sommes vraiment dans du “Big Data” à
sède des renseignements traditionnel- proprement parler ou “Big Data intrin-
lement présents dans les bases, plus des b) Le “Big Data intrinsèque» sèque”, et la problématique consistant à
informations particulières sur ces clients Dans ce cas, contrairement au cas pré- délimiter les communautés les unes par
tests, ce qui peut représenter des cen- cédent, où il existe des échappatoires, rapport aux autres est un challenge si
taines de variables comportementales, on est confronté dès le départ à une complexe que de nombreuses univer-
biométriques et sociologiques. Parmi complexité de la problématique à ré- sités prestigieuses s’y sont attaqué et
les exploitations basiques et très clas- soudre qui se situe simultanément au continue à le faire (il s’agit ici, côté amé-
siques de ces bases de données “sample” niveau de la taille des données à mani- ricain : du MIT, de Stanford, de Cornell,
deux résultats sont attendus : une “seg- puler et au niveau de la combinatoire etc. côté européen encore une fois  :
mentation de clientèle” gérable par les des calculs à effectuer. On ne peut gérer de l’Imperial College de Londres, de
“business lines” (agences commerciales) cet environnement sans faire appel à l’Université d’Helsinski de l’Université

[3] Le « Cross Selling », recouvre le concept de la « vente croisée », outil fondamental du CRM en B2C, il se déroule en 3 étapes et consiste 1) à segmenter une grosse sous-population
de clientèle puis 2) à qualifier chaque segment de clientèle trouvé, enfin, 3) à rechercher dans la population mère totale des individus ayant un profil voisin de celui des membres des
segments qui ont déjà acheté un certain nombre des produits de cette compagnie.

[4] Sur un échantillon de taille non négligeable, la segmentation de clientèles devient un problème non trivial si elle est pratiquée dans les règles de l’art (voir la remarque de la note de bas
de page n°3). C’est la raison pour laquelle, certains utilisent la méthode des K-means (où l’on fixe a l’avance le nombre de classes) pour pratiquer la segmentation de clientèle sans
complexe. Bien qu’erronée cette approche est pourtant très largement pratiquée……

TELECOM n°169 / BIG DATA


Situation et perspectives

de Louvain, du Laboratoire “Complex cier de cette propriété de linéarité locale. Une dépendance à la technologie ?
Networks” de l’université Paris VI etc.). Un tel critère existe, il a été introduit
Le problème est tout à fait identifié et il y à 8 ans par deux physiciens améri- En effet, au départ des ruptures impor-
porte un nom très précis : il s’agit de la cains : Mark Newman et Michelle Girvan. tantes se sont produites dans la façon de
modularisation de très grand graphes, Une fois les communautés détectées, stocker l’information, du fait du passage
dont nous donnons ci dessous une re- il importe si nécessaire de les analy- à l’“échelle internet”. Ces ruptures ont été
présentation illustrée : ser communauté par communauté, au poussées par les acteurs fondamentaux
niveau du contenu des échanges entre du Net que sont Google, Yahoo, Amazon,
les membres de ces communautés. Pour Facebook, et, dans une moindre mesure,
se faire, on utilise des outils d’analyse LinkedIn, Twitter, e-Bay. Le contexte in-
sémantique d’extraction d’entités nom- dustriel particulier à ces entreprises est
mées. Cet exemple montre ce qu’est souvent sous-estimé. Elles ont comme
une vraie procédure d’exploitation “Big point commun une culture d’entreprise
Data” intrinsèque. guidée par l’innovation et n’ont aucun
état d’âme à mettre en œuvre les trans-
formations technologiques et organi-
Pourquoi l’avènement du sationnelles nécessaires à la réussite de
leur modèle. Ces ruptures se sont bâties
concept Big Data maintenant ? en tenant compte de résultats de cher-
cheurs éminents comme Eric Brewer
Modulariser un graphe c’est faire appa- Parmi les causes totalement intuitives de Berkeley (Théorème CAP5) ou Jon
raître automatiquement les clusters la- de la montée en puissance du concept Kleinberg de Cornell (Théorème CIA)
tents du graphes (en l’occurrence dans le de “Big Data” ces toutes dernières an- qui ont été associés aux équipes de
cas des réseaux sociaux : les communau- nées, l’augmentation des collections de recherche de Google, Yahoo, Facebook
tés cachées). L’analyse exhaustive de- données, accessibles par de nombreuses et Amazon et qui tous, ont contribué à
vient une nécessité ici, car on ne connaît industries qui ne pouvaient ou ne pen- l’essor, sous le vocable de NoSQL (Not
pas a priori le nombre et la nature des saient pas pensable le stockage de l’in- Only SQL) d’une nouvelle philosophie
communautés. La découverte de ces formation massive, est certainement de stockage intelligent des données.
clusters peut paraître un problème l’un des facteurs majeurs. Une seconde Bref générant une plus grande sou-
11
simple (quand il n’y a que quelques cause est fondamentalement l’aspect de plesse de stockage des informations,
centaines de sommets) mais il devient plus en plus multimodal et multiforme permettant des requêtages accélérés,
quasi insurmontable quand on s’adresse des données transmises, adressables ou avec une capacité adaptation et une
au graphe du réseau de Twitter par échangées, (vidéos, images, sons etc. flexibilité fortes, liées aux structures
exemple (avec ses 400 millions de en plus du texte et des données numé- de données elles mêmes: le contraire
nœuds et ses milliards de liens – un riques structurées). Les données de type de la “pensée unique” SQL/MySQL
lien [i,j] étant simplement le fait qu’au images, vidéos sons et textes nécessitent imposée par le modèle des bases de
moins une fois le nœud “i” et le nœud des capacités de stockage beaucoup plus données relationnelles. En résumé  :
“j” se sont envoyé un tweet –). On voit importantes que celles requises jadis par une simplification des procédures
tout de suite le challenge, il faut pouvoir les données numériques structurées. d’indexation associée à une affectation
stocker les données (et l’on verra aux Enfin bien entendu le développement du claire du type d’architecture par grands
paragraphes suivants que ceci n’est pas “Cloud Computing”, qui est intrinsèque- domaines d’activité (ainsi les approches
un challenge trivial, mais qu’il existe dé- ment un générateur de problématiques massivement distribuées adossées
jà des architectures et des technologies “Big Data”. Le transfert d’information aux structures fondées sur les “bases
de stockage qui tiennent compte de l’as- multimodales extrêmement massives de données orientées colonnes” type
pect réticulaire des données position- via les smart phones, les réseaux sociaux, Cassandra ou HBase sont-elles adap-
nées sur les nœuds du réseau, exemple : mais aussi au travers des opérateurs du tées aux métiers des sites marchands
InfinityGraph ou Neo4j). Mais il faut “e-commerce” est également à l’origine du du Web comme Amazon par exemple,
en même temps pouvoir découvrir les phénomène “Big Data”, ne serait ce que d’autres plutôt liées aux propagations
communautés (cliques du graphe) de par rapport à la question cruciale mais arborescentes que l’on rencontre dans
façon automatique : pour cela il faut un évidente  : comment stocker toute ces les réseaux sociaux sont adaptées à l’ex-
critère de partitionnement en modules informations  ?. Toujours est-t-il que la ploration des grands graphes du Net,
ou clusters qui soit efficace (en l’occur- tendance aux transmissions de données telles : InfinityGraph, Neo4j etc.). Enfin
rence il est impératif qu’il soit linéaire à mobiles et dynamiques a coïncidé avec le des compromis entre “disponibilité”,
la fois globalement et localement à tous démarrage des premiers articles consa- “Tolérance au Partitionnement des
les niveaux du graphe, pour que l’algo- crés au concept de “Big Data”, prônant données” et “Consistency” sont à trou-
rithme adéquat (forcément dans ce cas d’ailleurs au départ une rupture dans la ver pour ne pas perdre les bonnes fonc-
une heuristique ad hoc) puisse bénéfi- façon de stocker les données. tionnalités des approches SQL (type

[5] En effet le « Théorème CAP » (Consistancy, Availability (disponibilité) , Partition Tolerance (tolérance au Partitionnement), propose un cadre théorique structurant au domaine des
grandes architectures de bases de données massivement partagées au travers des 3 propriétés suivantes dont seules 2 sont possiblement vérifiables en simultanéité : 1)Consistance
(Consistency /C) : Tous les clients voient la même vue même lorsqu’il y a des mises-à-jour, en fait il s‘agit du ‚Atomicity‘ des propriétés ACID des bases relationnelles. 2)Disponibilité
(Availability /A) : L’ensemble des clients peuvent trouver des données répliquées, même lorsqu’une avarie survient quelque part. 3)Tolérance au Partitionnement (Partition-tolerance /P)
: Le système est tolérant au partitionnement, c‘est-à-dire au découpage pré-établi des index.

BIG DATA / TELECOM n°169


Situation et perspectives

HIVE au dessus de Hadoop, permettant que cela veuille dire pour eux. Certaines
d’utiliser Hadoop avec une syntaxe proche 1 B
 DD Orientées colonnes : (HBase, d’entre elles ont choisi de s’appuyer
de SQL) vont sans doute se développer Hypertable ou Cassandra, etc.), sur Hadoop et MapReduce c’est le cas
de façon plus intensive, dans une op- elles sont fondées sur le concept de d’IBM et d’Oracle. Mais elles doivent
BigTable de Google
tique appelée BASE (“Basically Available, réagir vite et innover sous peine de
Soft state and Eventually consistant”). Le 1 B
 DD fondées sur la théorie des lourdes déconvenues potentielles.
besoin initial est effectivement venu graphes (Euler, implémentée par
du “Web Searching”, via les des opéra- Neo4J, InfinityGraph, etc.).
teurs du Net que sont Google, Amazon, 1 B
 DD Orientées clé-valeur Des technologies novatrices
Facebook pour faire de l’exploration (Voldemort, Dynamo, Riak etc.).
à partir d’un mode de stockage plus
qui tirent le concept “Big Data”
1 B
 DD Orientées documents, comme
adéquat que les approches par bases (CouchDB. ou MongoDB.)
=>(le “Big Analytics) 
de données relationnelles, qui ne pou-
vaient satisfaire la contrainte de “mul-
ti-colonnes non figées”. Ces entreprises Le besoin associé à la diversification Si l’on s’en réfère à la liste des tech-
pionnières, fortement influencées par du recueil de données  niques et technologies, telle qu’elle
la culture Open Source Software (OSS), apparaît dans le rapport MKGI, on est
ont fini par mettre à disposition leurs Soit parce que la crainte de la “non sca- surpris de voir citées des approches qui
bases de code : la base Cassandra a été labilité” de certains processus d’ana- ne sont pas directement associées de fa-
transférée en 2008 par Facebook à la lyse tend à disparaître, soit parce que çon indiscutable avec le paradigme “Big
fondation Apache et a sans doute été certains types de données sont enfin Data”, et qui préexistaient avant son
le signal de départ d’un mouvement recueillis et stockés en vue de futures avènement. En passant en revue cette
d’appropriation de ces outils par la com- exploitation, toujours est-il que l’uni- liste, qui a le mérite d’exister et d’être
munauté OSS et par ricochet a engen- vers des possibles s’agrandit du fait souvent citée par les consultants “Big
dré un fort intérêt dans les domaines de la nouvelle capacité offerte d’adres- Data”, nous en avons extrait quelques-
connexes tels que les bases orientées ser des bases de données de tailles unes qui relèvent intrinsèquement du
documents non-structurés et orientées gigantesques en mode  : “Data driven” paradigme “Big Data”, soit parce qu’elles
graphe. Un exemple très simple et clair (exploitation totale et exhaustive des nécessitent des temps de calcul variant
du principe d’adéquation différenciant bases) à l’opposé de ce qui était pratiqué linéairement avec le nombre d’items à
12
les approches par “Web Search” des en général aujourd’hui via des requê- analyser, soit parce qu’elles sont assez
stockages par Data Bases classiques (re- tages orientés, au travers de SQL ou de facilement parallélisables.
lationnelles, relevant de SQL) est celui l’OLAP (“On Line Analytical Process”) en
donné par la liste de A. Deshpande de mode  : “Hypothesis driven”. Souvent, a) Les règles d’association
l’Université du Maryland : d’ailleurs, au lieu d’opposer ces deux (affinity analysis)
approches devrait-on les considérer Cette technique est l’une des rares de la
comme complémentaires. Un exemple liste MKGI qui relève vraiment du para-
1 D
 atabases Structures ensure ACID
(Atomicity, Consistency, Isolation,
du croisement du “data driven mode” et digme “Big Data”. Inventée par Rakesh
Durability) du “hypothesis driven mode”, est donné, Agrawal et Ramakrishnan Srikant en
par exemple, par la navigation dite 1994, elle utilise le principe de “mat-
1 W
 eb search engines don’t care about par “Intelligent Query” (vous posez une chings  de listes” vectoriels et de calculs
most of those properties but must
question à une base de données et le de produits scalaires linéaires, elle pro-
be aligned with the CAP Theorem
constraints: système vous renvoie non seulement la duit des indices d’affinité. Dans le cas où
réponse à votre requête mais également l’on fait jouer le temps comme paramètre
1 B
 rewer’s CAP Theorem constraints==> les réponses “voisines” en relaxant cer- sous-jacent on appelle cette technique  :
Among Consistency, Availability, and taines contraintes de votre question). “Sequential Patterns  discovery”. En tout
tolerance to Partitions properties,
état de cause, elle relève tout à fait du
you must choose Two. Verifying
simultaneously those 3 constraints is Une Complémentation de l’offre processus “Big Data” en ce sens qu’elle a
impossible (ex: Databases structures logicielle classique par des exten- été utilisée pour traiter des affinités dans
choose essentially A &C whilst Web sions orientées “Big Data” l’association d’achat de produits à partir
search engines choose essentially A & des bases de logs de magasins USA, sur
P or C&P Microsoft, Oracle et IBM ont investi plus de 300 000 000 de tickets de caisse
1 A
 compromise? the “BASE” concept: au cours de la vague de rénovation IT sur une nomenclature produits de 150
(Basically Available, Soft-state and démarrée en 2005 des milliards de dol- 000 items. Très rapide et efficace, elle per-
Eventually consistent) ==> be flexible lars6 en R&D, marketing, acquisitions met des calculs optimisés en O(n). C’est
and accept not to fulfill entirely the et offres qu’ils ont bien l’intention de vraiment une solution algorithmique qui
explicit constraints continuer à rentabiliser. L’enjeu est porte bien haut le label “Big Analytics”.
pour eux double  : continuer à suppor-
ter la base installée de leurs produits et b) Classification
Classification par catégorie de quelques prendre des parts de marché sur le seg- Le cas de la classification supervisée7 (sauf
architectures de stockage NoSQL : ment en croissance du Big Data, quoi dans la partie du processus où l’on pro-

[6] 16 Milliards de $ pour IBM par exemple

TELECOM n°169 / BIG DATA


Situation et perspectives

cède à la simple affectation d’un individu f) Genetic algorithms de transfert propres au modèle d’affec-
dans une classe prédéterminée et qui, Prises à la lettre et dans un contexte al- tation en classes prédéterminées sont
elle, relève d’une approche de compa- gorithmique général les approches par linéaires ou quasi linéaires, on peut
raison vectorielle par produits scalaires algorithmes génétiques ne sont ni plus considérer que les réseaux de neurones
donc linéaire en O(n)) ne relève pas à ni moins que des heuristiques ou méta (on dirait dans ce cas réseaux de neu-
proprement parler du label “Big Data”, heuristiques particulières (au même rones simples à peu de couches relèvent
en particulier si l’on doit déterminer les titre que les “colonnes de fourmis” (ants de l’approche “Big Data”. En aucun cas
classes de séparations (techniques des columns), les “méthodes du Déluge” les méthodes de clustering non super-
SVM (Support Vector Machine), ou si l’on ou celles de “Recuit simulé” (simulated visés type “Cartes de Kohonen” qui sont
doit avant de commencer le processus de annealing). Elles sont, ceci dit, effecti- dérivées des réseaux de neurones, elles
classification pratiquer ce qu’on appelle la vement rapides, souvent en O(n log n) sont quasiment en 0(n2Logn) voire plus.
réduction de dimensions (qui comme son donc assimilables à des méthodologies
nom l’indique sert de palliatif à l’impos- “Big Data”. Cependant, quoique très h) Network analysis (analyse de
sibilité de traiter de grands ensembles de générales et ne nécessitant aucune données réticulaires)
données en approche brute. connaissance particulière a priori des Bien que les problèmes qui relèvent de la
modèles structurant la problématique à recherche de plus courts chemins dans les
c) Cluster analysis résoudre (c’est ce qui fait d’ailleurs leur graphes ou de modularisation de réseaux
Cette technique, qui consiste à regrou- grand intérêt), elles ne sont pas systé- via la mise en exergue de cliques ou clusters
per des items similaires dans des classes matiquement les plus adaptées pour (du type de celui que nous avons détaillé en
de comportements ou de profils voisins, traiter des problèmes d’optimisation ou Figure n°2) semblent excessivement com-
on pourrait la qualifier, elle, de  non su- de structuration (souvent NP Complets plexes dès lors que l’on explore des graphes
pervisée, (nous l’avons déjà abordée dans ou NP difficiles), lorsque ces derniers à millions de nœuds et milliards de liens, il
le paragraphe sur la modularisation de ont, par chance, des structures linéaires se trouve que l’on est capable aujourd’hui
graphes), relève du label “Big Data”, à associées, pour lesquelles on leur pré- d’adresser ces énormes problèmes grâce
la condition expresse que les critères de férera des algorithmes heuristiques aux approches “Big Data”. Comme on
clustering utilisés soient linaires ou tout ad hoc, tirant parti directement du l’a vu précédemment ce sont même des
du moins linéarisables par des artefacts modèle8. Donc algorithme génétique  : cas d’école qui ont permis de poser réel-
de notation. On parle dans ce cas bien sûr oui du fait de son extrême généralité et lement le problème des “Big Data” et lui
de processus heuristiques. Les processus adaptabilité, si l’on a de grandes difficul- ont donné ses lettres de noblesse. A titre
13
algorithmiques optimaux sont de l’ordre tés à structurer une problématique don- d’exemple la recherche du plus court che-
de K O(n Log n), où K est une constante née par un modèle sous-jacent, souvent min dans un graphe avec l’algorithme le
qui dépend néanmoins de la structure complexe, non si ce modèle préexiste plus rapide aujourd’hui celui de Lawrence
des données et peut parfois avoir une va- et qu’il est représentable par des équa- Friedman et Robert Tarjan de (1984) est
leur assez forte. Les méthodes K-means tions linéaires même de grandes tailles. en O(E+ n log n) (voir également [37])
relèvent de ces caractéristiques, bien que où E est le nombre d’arêtes En utilisant
la fixation a priori du nombre de classes g) Neural networks la modularisation on diminue d’ailleurs la
soit un facteur limitatif fort dans cer- Dans le cas où l’on utilise des réseaux de valeur de E dans l’exploration (car E réfère
tains types de problèmes. neurones en mode classification super- dans ce cas à la taille du cluster dans lequel
visée et dans la mesure où les fonctions on doit naviguer).
d) Crowdsourcing
C’est une technique de collecte et de
fusion de données obtenues à partir
des remontées d’information de larges
groupes d’usagers (d’où le nom “crowd”)
à travers des media connectés en ré-
seaux. Exemple : “Waze” ceci revient à
de la collaboration de masse.

e) Data mining
Là il y a typiquement ambiguïté puisque
l’on confond l’ensemble et les parties de
l’ensemble. Ainsi les techniques de “règles
d’association”, les techniques de clus-
tering, de crowdsourcing, de Networks
Analysis, d’affectation en mode super-
visé sont toutes des techniques de “Data
Mining”. Graphe complexe représenté sous TULIP

[7] La classification « supervisée », consiste à fixer à priori (ou après calculs antérieurs sur une population d’apprentissage ou de test) des catégories ou des classes, auxquelles on va
affecter par la suite tous les éléments d’une population étudiée pour leur donner un label, un score ou un type correspondant par exemple au numéro de chacune des catégories définies
précédemment, ou une règle d’appartenance associée à ces catégories.
[8] C’est le cas par exemple des heuristiques de recherche de consensus en théorie des votes, des algorithmes d’optimisation de réseaux de transport, ou encore des méthodes de parti-
tionnement multidimensionnels, qui quoique NP Complets tirent parti des modèles linéaires de description associés.

BIG DATA / TELECOM n°169


Situation et perspectives

i) Data Visualization(I) matique), c’est un outil C++ Open va aller de pair avec un renforcement de
Comme il est mentionné dans le rapport Source qui est capable de gérer des l’aspect “data driven”13 qui est la princi-
MKGI, il est indispensable à la fin d’une grands graphes (2000000 nodes, pour pale justification de l’exploitation des
chaîne d’analyse de grandes collections de les calculs cachés de structure) et qui grandes bases de données en mode semi
données de pouvoir interpréter les résul- offre la possibilité des sous parties d’un exhaustif. L’arrivée de méthodes rapides
tats obtenus. La visualisation graphique graph e au travers d’une base de visua- de requêtage “intelligent” et supportant
est l’un de ces moyens fondamentaux lisation efficace (environ 30 000 nœuds la multi modalité sera le nec plus ultra
permettant d’aider à l’interprétation. max dans un processus de zooming). des nouveaux outils de “Data Querying”.
Cependant et paradoxalement, malgré Tulip a été choisi par Thales comme Cette approche intermédiaire en fait
le rôle indispensable des méthodes de “technology partner”. entre “Hypothesis driven mode” (à la SQL)
représentation graphique, les progrès et “Data driven mode” va prendre tout
techniques qui leur ont été associés n’ont son sens dans l’univers “Big Data”, nous
pas été jusqu’ici à la hauteur de ceux liés avons déjà développé ce point.
aux technologies d’ analyse elles-mêmes. Conclusion : l’Impact du “Big Data”
En effet, du fait des limitations des ca- sur les applications métiers La Segmentation des données
pacités humaines9 à naviguer dans des pour “customiser” les actions
espaces multidimensionnels10,il est assez
décevant11 de constater que la plupart des L’exploitation des données en univers Base fondamentale des problèmes d’étude
outils graphiques “nouveaux”12, même les “Big Data” ne peut en aucun cas être de grands “repositories” de données, tota-
meilleurs, sont assez peu adaptés pour considérée comme une continuation sans lement adoptée et intensivement utilisée
l’instant à la représentation de données rupture des usages d’analyse des données par les tenants des procédures de CRM, la
hautement multidimensionnelles et plé- tels qu’ils étaient pratiqués jusqu’ici. En segmentation de clientèle (en fait l’ap-
thoriques. effet la nécessité d’avoir des algorithmes proche appelée «clustering” ou “unsuper-
puissants adressant les problématiques vised clustering” par les experts) est l’une
j) DataVisualisation (II) : de “scalabilité” et “d’exhaustivité” oblige des méthodes phares de l’exploitation
outils de manipulation de graphes  à une adaptation ou un reconditionne- “Big Data” des bases de données clients
Ce sont de réels outils “Big Data”, ils ont ment de certains de ceux qui étaient uti- (lorsque ces dernières contiennent des
bénéficié de progrès constants et d’amé- lisés de façon usuelle. Soit que l’on utilise données démographiques, des données
liorations tant en capacité de visualiser la potentielle découpe des algorithmes comportementales, des données finan-
14
des graphes de tailles importantes que en modules parallélisés, pour pouvoir cières etc.). Mais en fait les méthodolo-
de calcul inhérents à leur compréhension bénéficier de la notion de distributivité gies de “clustering” s’appliquent de façon
(modularisation, plus courts chemins, offerte par l’architecture de certains types générique à un très grand nombre de
calcul de flots et coupes etc.). Nous en de bases de données NoSQL (approche problématiques touchant au “Big Data”,
citerons deux parmi d’autres qui se dis- MapReduce), soit que l’on privilégie des autres que la “segmentation de clientèle”.
tinguent d’une abondante production par heuristiques à difficulté calculatoire de En effet elles permettent tout d’abord de
le fait qu’ils sont Open source et mis type quasi linéaire, il faudra de toute fa- décomposer de grandes masses de don-
constamment à jour, il se trouve en plus çon inscrire ce reformatage des algorith- nées en sous populations plus homo-
qu’ils sont français : miques comme un passage obligé et in- gènes et de tailles nettement moindres
- Gephi (cited in the Big Data Glossary contournable qui ne pourra être esquivé. que la population mère (nous l’avons
Report) : c’est un produit Open source vu pour la modularisation de graphes)
Java, qui permet de créer des visua- Des outils de Requêtage adaptés et donc plus faciles à analyser  ; de plus,
lisations de réseaux à partir de don- à l’univers “Big Data” elles permettent de greffer sur l’analyse
nées brutes sur les nœuds et liens de plus exhaustive de ces sous-populations
graphes. II est tout à fait adapté à la Rendre les données plus facilement acces- homogénéisées, des outils d’aide à la déci-
manipulation et la visualisation de sibles et transparentes dans l’univers “Big sion ad hoc qui seront d’autant plus effi-
Réseaux Sociaux l’un des fondateurs de Data” n’est plus “nice to have” mais fon- caces qu’ils ne seront plus utilisés sur la
Gephi a été embauché par LinkedIn, et damentalement nécessaire. On a vu pré- population hétérogène totale (exemple  :
Gephi est utilisé de façon native pour cédemment à quel point l’accès à l’infor- les techniques de “scoring”, les “classi-
les visualisations de LinkedIn. mation et les temps d’attente autour de fications supervisées”, les “modèles de
- Tulip : Il est Developpé au LABRI/ sa récupération étaient des sujets clefs. pricing par types etc.). En conclusion un
INRIA (Laboratoire Bordelais d’Infor- De plus l’aspect multimodal des données ensemble d’outils qui relève du paradigme

[9] dues au manque de perception des reliefs, et de repères en dimension supérieures à 3, pour les humains non entrainés
[10] On touche ici à l’aspect « Facteurs Humains » dans les problèmes de cognition et de représentation
[11] sauf peut être dans le domaine de la représentation des « grands graphes », où l’on a assisté à l’arrivée d’outils puissants de nouvelle génération, fort agréables à utiliser et offrant
une large panoplie d’usages.
[12] par « nouveaux » on entend ici: allant au-delà des classiques « camemberts » (« pie charts »), « histogrammes » (« bar charts », ou « skycraper charts »), par exemple les « Parallel
Coordinates » de Al Inselberg.
[13] Avinash Kaushik. :”Seven steps to creating a data driven decision making culture, October 2006”
[14] Comme on l’avions signalé dans la note de bas de page n° 3 à propos du rôle des sondages par échantillonnages aléatoires pour permettre l’utilisation d’ approches travaillant sur
un traitement non exhaustif de l’ensemble des données, le recours aux méthodes de « random sampling » sont d’autant plus efficaces que l’on connaît la population mère à étudier avec
le maximum de détails (pour les aspects redressements, stratifications, profiling etc.). Or la connaissance de cette population mère nécessite elle même des traitements exhaustifs pour
être optimale (c’est le cas du recensement de l’INSEE), très couteux et portant sur la population totale obtenu par des renouvellements partiels des questionnaires adressés à des sous
populations choisies tous les deux ans). En dehors de ce cas clair dont le résultat profite à l’ensemble des instituts de sondage en France, la connaissance de la population mère est un
problème complexe, car quand on ne la connait pas on suppose sa composition en classes de spécificité (segmentation implicite). D’où un cercle vicieux.

TELECOM n°169 / BIG DATA


Situation et perspectives

“Big Data” permettant de générer de la tionnelles systématiquement, nous avons différente, chacune ayant ses spécifici-
valeur ajoutée14 sur les données en mode vu que dans certaines conditions parti- tés et simplifiant la manipulation d’un
“Data driven  (avec une possibilité supplé- culières, notamment si la “consistance” certain type de données. L’adéquation
mentaire de rajouter de la différentiation est souhaitée en même temps que la type de données / type de mode
en ayant recours aux Open Data, qu’elles “disponibilité”, elles offrent une alterna- NoSQL, donc le choix du mode de base
proviennent de l’Etat (ETALAB), ou de tive incontournable, mais bien sûr ceci de données NoSQL, devient donc fon-
structures d’EPIC). se fera au détriment du temps d’accès damentalement la clef du processus “Big
aux données. D’autre part, l’habitude Data” auquel on veut faire face. Ce choix
Le rajout de procédures automa­tiques acquise de poser des questions aux Bases fondamental à faire impacte d’ailleurs
d’apprentissage ou d’affectation de Données Relationnelles via le langage les outils de “data analysis” et les outils
comme outils d’aide à la décision SQL, fait que si la connexion a du sens décisionnels qu’il sera possible d’utiliser
et est compatible avec l’application qu’on sur les collections de données stockées.
Parmi les applications du “Big Data” veut dérouler, utiliser un environne- Ainsi le choix d’Hadoop, par exemple,
qui peuvent se greffer sur les outils de ment SQL dans un “framework” NoSQL conditionne-t-il l’utilisation d’outils ana-
segmentation générale, présentés au peut être une excellente solution (c’est le lytiques comme R-Hipe et R-Hadoop
paragraphe précédent, des outils auto- cas de HIVE en surcouche de Hadoop). dans le cas où l’on veut se servir de la li-
matiques visant à minimiser les risques, En réalité, chaque famille apporte une brairie “open source R”, les API “R” ayant
à dériver des scoring décisionnels, à forme de représentation des données été conditionnées pour Hadoop16. 
optimiser des tarifications par types ou
l'auteur
classes de comportements, à affecter à
des classes préétablies, à définir auto- Jean-François Marcotorchino est actuellement vice-président,
matiquement des alertes, représentent directeur scientifique de Thales Division SIX, et « Thales Fellow ». Il est
un échantillon de l’ensemble des tech- par ailleurs Segment Manager à Thales R&T Directorate du « Corporate
niques qu’il est possible d’utiliser en Key Technology Domain » : Process, Control and Cognition (PCC),
complément une fois l’analyse des don- c'est-à-dire le domaine Méthodes et Algorithmes de Thales.
nées pratiquée. Tous ces outils allant de Parallèlement à son activité Thales, Jean-François Marcotorchino est
la réaffectation automatique d’indivi- titulaire du titre de « Professeur des Universités » (CNU Mathématiques
dus (au sens statistique du terme) à des 26), directeur de Recherche et Professeur associé à l’Université UPMC
classes préétablies (voir le paragraphe (Paris VI) aux Laboratoires LSTA et LIP6.
Il fut auparavant, et pendant 10 ans, directeur du Centre Scientifique IBM 15
“Big Data par extension») ou la mise en
place de modèles d’apprentissage auto- de Paris et de l’European Centre for Applied Mathematics d’IBM EMEA.
matique (“rule based systems”) dès qu’ils
sont quasi linéaires en temps de calcul,
relèvent du paradigme “Big Data”. Les
Bibliographie
meilleures pratiques où ces outils ont été [1] R. Agrawal, R. Sikrant : "Fast Algorithms for Mining Association Rules", Research Report of the IBM
appliqués de façon systématique sur de Almaden Research Center, pp : 1-10, Almaden (1994)
grandes masses de données après un épi- [2]  E. Brynjolfsson, L. M. Hitt, and H. H. Kim: "Strength in numbers: How does data-driven decision
making affect firm performance?", Publication of the MIT disponible à : http://ssrn.com/
sode de “clustering”, donnent des résul- abstract=1819486 ou http://dx.doi.org/10.2139/ssrn.1819486 (2011)
tats remarquables. [3] A. Costan: "A survey of Large Scale Storage Systems for Data Intensive Applications", in Actes du Séminaire
Aristote « Le Déluge de Données », Ecole Polytechnique, (2011)
[4] S. Fermigier: “Big Data et Open Source : une convergence inévitable”, Publication Internet sur le Blog de S.
Les stratégies de choix de modèles Fermigier (2011)
de bases de données [5] S. Gilbert et N. Lynch: “Brewer’s Conjecture and Feasibility of Consistent, Available, Tolerant to Partition
Web Services” in ACM Sigact News, Vol: 33, n°2, (2002)
[6] M.Girvan, M.E.J. Newman: “Community structure in social and biological networks”, Proceedings of the
Les données qu’on va utiliser et exploiter, National Academy of Sciences USA, Vol: 99, pp: 7821–7826, (2002)
[7] J.L. Guillaume, M. Latapy : “Complex Network Metrology”, Complex Systems Journal, n°16, pp: 83-94,
avec les outils d’analyse ou de requêtage (2005).
que nous venons de présenter, doivent [8] A. Inselberg : “The Plane with Parallel Coordinates”. Visual Computer 1, n° 4, pp : 69–91, (1985)
être au préalable stockées dans des archi- [9] A. Kaushik : «Seven steps to creating a data driven decision making culture», disponible à l’adresse : http://
www.kaushik.net/avinash/2006/10/seven-steps-to-creating-a-data-driven-decision-making-culture.
tectures de bases de données qui per- html, (2006)
mettent l’accès rapide et des temps de [10] J. Kleinberg : “An Impossibility Theorem for Partitioning”, Publication du Computer Science Department,
Cornell University, Ithaca, (2002).
récupération de l’information en quasi [11] T. Kohonen : “Self-Organizing Maps”, vol. 30, Book by Springer Verlag, (1995).
temps réel. Ceci pose donc le problème [12] S. Lohr : « Savoir Exploiter le Déluge de Données », article du New York Times, traduit en français dans le
Figaro du 18 Février (2012)
du choix du mode de stockage, dès lors [13] Mac Kinsey Global Institute: “Big data: The next frontier for innovation, competition, and productivity”,
que nous aurons affaire à des tailles allant Report by McKinsey & Company (2011)
jusqu’à quelques péta octets de données. [14] « R » Bibliothèque Open Source (Apache Foundation), disponible sur : http://www.r-project.org (2010)
[15] R .E. Tarjan:, “Depth-first search and linear graph algorithms”, dans SIAM Journal on Computing, vol. 1,
Or nous avons vu que nous disposons de no 2, p. 146–160 (1972)
quatre modes de stockage plus ou moins [16] V. Vapnik: “The Nature of Statistical Learning Theory”, Springer-Verlag, (1995).
[17] E. Viannet : «  Recherche de Communautés dans les Grands Réseaux Sociaux  », in Revue des Nouvelles
adaptés à telle modalité ou à tel type de Technologies de l’Information, RNTI A3, pp:145-160, Cepadues Editions, Paris, (2009)
données. Ceci ne veut pas dire que nous [18] P. Warden: “Big Data Glossary”, Book as a guide to new generation of Data Tools, 0’Reilly Publishing,
allons refuser les bases de données rela- Cambridge, (2011)

[16] Dans beaucoup d’ applications « Big Data » existantes des choix de bases NoSQL ont été faits qui ont privilégié l’environnement Hadoop (le « framework » Hadoop) avec recours à la
fonction de distribution et de parallélisme MapReduce sur un substrat de base Orientée Colonne HBase, ou Cassendra..

BIG DATA / TELECOM n°169

Vous aimerez peut-être aussi