Vous êtes sur la page 1sur 2

Big Data : un ADN utilisateur séquençable pour moins de 1000 $

LE CERCLE. (par Pierre Delort) - La revue "Nature" a popularisé en 2008 le terme « Big
Data(1) », le traitement massif des données générées en quantités croissantes par les capteurs
(Internet des objets), les machines (séquenceurs ADN(2)…), les logs Internet…

Écrit par

Pierre Delort DSI

Le Big Data se trouve, schématiquement, au confluent de quatre perspectives, de nature :


- technique avec l’effondrement continu des coûts de réseau et de stockage ;
- commerciale avec la généralisation de l’offre de bases de données « innovantes »
(Datawarehouse(3)...) ;
- économique ; l’institut de recherche d’un conseil en entreprise, présentant le Big Data comme le
futur de l’innovation et de la compétition ;
- et éventuellement politique avec l’open data.

Des technologies en capacités croissantes

La capacité des réseaux (publics) double tous les 21 mois, la capacité de stockage tous les 13 mois,
suscitant l’utilisation de nouvelles unités (Peta, Exa, demain Zetta-octets…) et peut être plus
important, la division par mille depuis 10 ans du coût des mémoires flash (technologie NAND) et la
généralisation des architectures 64 bits.

Une offre commerciale désormais abondante

Tous les acteurs majeurs du logiciel offrent aujourd’hui des technologies d’utilisation de ces masses de
données. Datawarehouse innovants (conjuguant mémoire disque et flash, pré-chargement de données,
chargement et consultation en parallèle du stockage…), bases de données colonne (conçues pour un
balayage plutôt qu’une saisie/consultation des champs), NoSQL (Not Only SQL incluant d’autres
modes d’accès aux données que les requêtes « standard ») ainsi que les dérivés, en libre de droits, des
technologies des majors d’Internet, Google principalement (Hadoop pour MapReduce, HFS pour
Google File System, HBase pour Big Table…). Relativement aux bases de données classiques, le gain
en performance (temps de cycle) va d’un facteur 50, à plusieurs centaines.

Des statistiques inductives … induisant l’innovation

Economiquement et managérialement, des consultants présentent le Big Data comme facteur clef de
gains économiques (300 md$/an pour le système de Santé US, +60% de marge opérationnelle pour les
distributeurs…). En conjonction avec une culture du quantitatif et des statistiques inductives (besoin
avancé, avant 2020 aux Etats-Unis, de 150 000 analystes et de 2 millions de décideurs aptes à les
comprendre), le Big Data favoriserait l’innovation (expérimentations rigoureuses avec tests
d’hypothèse…) ainsi que les performances des firmes (meilleures décisions, opérations plus
performantes…).

Un volontarisme politique

Sous le terme d’ « Open Data » les Etats-Unis depuis 2009 sur data.gov, et la France depuis fin 2011
sur data.gouv.fr, mettent à disposition des « données publiques » produites par leurs différentes
institutions. Ceci est annoncé dans un double but de transparence de la démocratie et de gains
économiques par la création de nouveaux services.

La recherche, défricheur du Big Data…

La science, quant à elle, est présentée par la Harvard Business Review(4) comme vivant, avec le Big
Data, sa quatrième étape, les trois premières étant ;
1. la recherche, en Grèce ancienne et en Chine, d’une explication aux phénomènes naturels par des lois
plutôt que des acteurs surnaturels ;
2. l’expérimentation de Newton, au XVIIeme siècle vérifiant les hypothèses par expérimentation ;
3. et l’utilisation, fin XXeme siècle, de l’informatique pour explorer des modèles jusque là hors de
portée, comme le climat ou la formation des galaxies.

Le Big Data permet, lui, de découvrir, parmi les masses de données disponibles, des corrélations
pouvant révéler des causalités, et ce par utilisation massive de l’induction(5). Ce principe est
désormais largement admis en biosciences(6) au-delà de la médecine personnalisée.

…maintenant relayée par des entreprises pionnières

Les défricheurs du Big Data se trouvent parmi les entreprises Internet ; sites marchands comme
priceminister ou notrefamille.com ou services à ces sociétés comme AT Internet, ainsi qu’en
témoignent les travaux de l’ANDSI(7) .

Ceci est sans doute dû à un mix d’abondance des logs Internet, dont l’analyse est vitale pour la
performance, et de capacité d’innovation sur les process internes de décision.

Pour beaucoup, et avec effet sur la chaine de la valeur, le client sera placé « au centre » de l’entreprise
; la richesse d’informations sur sa personne promeut en effet une personnalisation des produits, à
l’instar des moteurs de recherche Internet dont les algorithmes sophistiqués permettent de conjecturer
le présent à l’aide du passé.

Maintenant, existe-t-il beaucoup d’industries où le client, ainsi qu’une partie de son futur, est inscrit
dans son ADN qui somme 3,2 milliards de paires de bases soit un peu moins d’un giga-octet,
aujourd’hui(8) séquençable en une journée et pour moins de 1 000 $ ?

Notes

(1) Nature/Vol 455/ 4 sept 2008.


(2) Cf. Journée DSI Inserm 2011, « Big data ».
(3) ou entrepôt de données, technologie qualifiée de « décisionnelle », le Big Data étant plutôt à
utilisation « exploratoire », sans étanchéité absolue entre les deux.
(4) The Next Scientific Revolution, Hey T. HBR, nov 2010.
(5) « Gloire de la Science et scandale de la Philosophie », Charles Broad, 1926.
(6) « l’information fournie par les données obtenues en masse […] sans a priori constitue une
alternative valable, complémentaire et parfois nécessaire aux approches classiques basées sur
l’hypothèse initiale formulée » Meinnel T., Inserm, DL 2012.
(7) Association Nationale des Directeurs des Systèmes d’Information.
(8) NatureNewsBlog, janvier 2012, séquenceur Ion-Proton annoncé pour 2012, à 250 000 $ environ,
serveur inclus.

(Pierre Delort sera intervenant au congrès Big Data Paris les 20 et 21 mars prochains à la Cité
Universitaire de Paris)

Vous aimerez peut-être aussi