Vous êtes sur la page 1sur 25

#64

JUIN 2017

VOYAGE
AU CŒUR
DU BIG DATA
CONTEXTE − TECHNOLOGIES − DOMAINES D’APPLICATION − PERSPECTIVES
LE BIG DATA SOMMAIRE


PAR
DÉFINITION DANS CE NUMÉRO
ALEXEI GRINBAUM

Big Data :
(Direction de la recherche fondamentale)

VOYAGE AU CŒUR
INTRODUCTION / DÉFINITION DU BIG DATA 2

DU BIG DATA
SOMMAIRE 3

Alexei Grinbaum est physicien


de quoi parle-t-on ? LE POINT DE VUE DE THIERRY BRETON, PDG D’ATOS

LA PLACE DE LA FRANCE ET LA STRATÉGIE DU CEA


4

et philosophe. Il travaille au Laboratoire

7
de recherche sur les sciences de la matière C’est dans les années 1990 que le terme Big Data prend sa signification
(Institut de recherches sur les lois actuelle : un défi technologique à relever pour analyser de grands ensembles
fondamentales de l’Univers du CEA). de données, d’abord scientifiques, mais de plus en plus souvent collectés au LES TECHNOLOGIES DU BIG DATA
quotidien par divers moyens techniques. Big Data désigne à la fois la production de
DE LA PRODUCTION À L’EXPLOITATION DES DONNÉES 7
données massives et le développement de technologies capables de les traiter
afin d’en extraire des corrélations ou du sens. Définition en sept étapes… Les algorithmes prédictifs 8
OCTET L’apprentissage automatique 10
Unité de mesure de la quantité de données Les systèmes distribués 12
pouvant être produites ou stockées. L’exploitation des données issues des codes de simulation 14
Un kilooctet (Ko) correspond à mille octets LA VISUALISATION DES DONNÉES 17
(quelques Ko, c’est le poids d’un simple fichier VOLUME épistémologiques actuels [voir page 4].
L’interface homme/données 17
texte), un mégaoctet (Mo) à un million d’octets Qui dit données massives dit volumes allant du La plateforme Mandelbrot 18
(un CD-Rom fait 650 Mo), un gigaoctet (Go) kilooctet au petaoctet , dépassant toute capacité de
BIAIS
à un milliard d’octets (la taille d’une clef USB traitement rapide par le cerveau humain. Certaines données peuvent contenir des biais ou être
LA PROTECTION DES DONNÉES 19
varie usuellement de 1 à 8 Go, certaines allant discriminatoires. Leur traitement automatique trans-
jusqu’à 128 voire 256 Go) et un teraoctet (To) VÉLOCITÉ mettra ces biais aux conclusions qui en seront tirées.

21
à mille milliards d’octets, soit la capacité de L’éthique du Big Data cherche à en éviter les consé-
Fréquence à laquelle les données sont générées, trai-
stockage d’un disque dur performant. quences néfastes en préconisant des procédures de
tées et mises en réseau. Cette fréquence étant de plus
en plus élevée, il est très souvent nécessaire d’em-
contrôle et vérification des données. LES DOMAINES D’APPLICATION
ALGORITHME ployer les ressources du calcul haute performance Rapport Stratégie France IA : www.enseignementsup-
(extreme computing). Climatologues [voir page 27], recherche.gouv.fr/cid114739/rapport-strategie-
Description, traduisible sous forme d’un LES DONNÉES DE LA SCIENCE 22
astrophysiciens [voir page 32] comme spécialistes france-i.a.-pour-le-developpement-des-technolo-
programme dans un langage informatique, en génomique [voir page 33] en sont de fervents gies-d-intelligence-artificielle.html Une approche théorique de la donnée 22
d’une suite finie d’étapes à exécuter pour utilisateurs. Physique des particules 24
obtenir, à partir de données en entrée, des TRAÇABILITÉ Climatologie 27
données en sortie en vue d’un objectif VARIÉTÉ Il doit être possible de suivre les actions d’un système
Astrophysique 30
prédéterminé.
Les données peuvent être textuelles, visuelles ou qui apprend en analysant les données (machine lear- LA SANTÉ 33
sonores, scientifiques ou provenant de la vie courante, ning) par la mise à disposition d’un journal suffisam-
CALCUL HAUTE PERFORMANCE structurées ou non. D’où la nécessité de les analyser ment détaillé. C’est même essentiel pour déterminer L’ÉNERGIE 39
automatiquement par des algorithmes pour en les responsabilités et fonder, le cas échéant, un re- LES DONNÉES DE L’INDUSTRIE 42
Représenter virtuellement des objets, des
extraire des corrélations et des connaissances (data cours juridique.
phénomènes ou des systèmes particulièrement mining) et, quelquefois, de les représenter sous forme LES DONNÉES DE LA VIE QUOTIDIENNE 43
complexes nécessite d’utiliser des calculateurs Initiative IEEE : www.standards.ieee.org/develop/
visuelle (data visualisation).
extrêmement puissants (les supercalculateurs). indconn/ec/autonomous_systems.html
Aujourd’hui, les plus performants sont capables CORRÉLATION EXPLICABILITÉ
de réaliser plusieurs millions de milliards

45
d’opérations à la seconde (petaflop/s). L’analyse de données permet de dégager des corréla-
Dans certains cas, le machine learning inventera et
tions souvent insoupçonnées et instructives (data ana-
D’où le terme de calcul haute performance utilisera des repères ou des concepts qui lui sont
(ou HPC pour High Performance Computing)
lytics). Cependant, l’existence de corrélations ne signi-
fie pas la réalité des liens de cause à effet entre leurs
propres, et dont l’humain ne comprendrait pas néces-
sairement la signification. Le compromis entre la per-
PERSPECTIVES
qui désigne également, par extension, la référents. Et une corrélation n’équivaut pas une signi-
formance de l’apprentissage et l’explicabilité doit être L’IMPACT DU BIG DATA SUR LA PRATIQUE SCIENTIFIQUE 45
science développée autour de ces équipements fication ou une connaissance. La tension fondamentale
(matériels, logiciels etc.). apprécié en fonction de l’usage. L’IMPACT SOCIÉTAL DES DONNÉES 47
entre une science fondée sur la causalité et une analyse
qui s’appuie sur les corrélations est au centre des débats Travaux de la Cerna : www.cerna-ethics-allistene.org

2 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 3
POINT DE VUE CONTEXTE

Construire ensemble
une confiance numérique durable
par Thierry Breton, « Le calcul intensif et la
modélisation / simulation
Président-Directeur général d’Atos, ancien ministre ont historiquement tiré
« Nous anticipons, avec les technologies et les
le CEA, l’ère à venir : celle usages du numérique,
de l’ordinateur quantique, sur en donnant une place
laquelle nos équipes de plus en plus centrale
travaillent déjà en étroite aux données liées
relation avec les siennes, aux supercalculateurs.»
ainsi que la cryptographie
“ quantum-safe ”. »

L’ Le CEA relève
augmentation exponentielle des données tions publiques. Des cadres juridiques sont progressi-
est, en particulier, portée par les objets in- vement renforcés dans ce but. •
telligents, qui seront plus de 50 milliards
dans le monde en 2020. À cette échéance,
Face à ce double défi, une seule réponse possible : PAR JEAN-PHILIPPE
construire, ensemble, une confiance numérique durable. BOURGOIN ET

le défi du Big Data


ce sont 40 000 milliards de milliards de données qui se-
Confiance, d’abord, dans notre capacité technologique
ront générées… Davantage que d’étoiles dans l’Univers !
à traiter et exploiter des millions puis des milliards de JEAN-PHILIPPE NOMINÉ
Ces données, il nous faudra les collecter puis savoir les milliards de données par seconde, ce que fait déjà le (Direction des analyses statégiques)
compter, les identifier et les isoler, mais aussi les mettre supercalculateur Bull Sequana. Confiance, ensuite, que
en relation les unes avec les autres à tout moment, et les citoyens peuvent accorder à la gestion des données
donner des ordres aux différents objets. C’est le premier personnelles, y compris celles générées par l’Internet
défi à relever. Pour y parvenir, il faut des machines des objets, la cybersécurité étant au cœur de nos enga- Le CEA prend toute sa place dans les initiatives méthodes éducatives, des métiers... Le tout sur fond
de protection des données privées et d’ouverture des
d’une puissance exceptionnelle, les supercalculateurs, gements et de notre excellence opérationnelle. mises en œuvre aux niveaux national
données publiques. Après l’explosion des activités
et des logiciels de nouvelle génération, qui fonctionnent
Plus largement, nous anticipons, avec le CEA, l’ère à venir :
et européen pour dynamiser la recherche économiques et sociales sur le web, le développement
différemment de l’informatique que nous mettons en et l’innovation dans le domaine du Big Data.

R
celle de l’ordinateur quantique, sur laquelle nos équipes de l’Internet des objets (IoT) est annoncé comme le
œuvre depuis 30 ans et dont le « batch » est la base.
travaillent déjà en étroite relation avec les siennes, ain- Jean-Philippe Bourgoin est directeur prochain horizon de notre monde ultra-connecté, pour
Finie l’époque où les informaticiens avaient le temps de echerche, industrie, économie et société
si que la cryptographie « quantum-safe ». D’ici à 2030,
sauvegarder les données, de les restaurer ou de relancer des analyses stratégiques du CEA. sont en profonde mutation face à lequel les données sont l’objet de toutes les attentions.
de nouvelles inventions écloront dans tous les secteurs,
un traitement en cas de panne. Désormais les systèmes l’accroissement exponentiel de la quantité
créant des emplois et une croissance durable, loin de la La puissance de calcul s’invite dans le cycle de
sont temps réel ou presque et apprennent de façon au- de données produites par les entreprises,
stagnation séculaire redoutée par certains. Le XXI è production/traitement des données, carburant de
tonome. les particuliers et les scientifiques. La maîtrise et
siècle sera ainsi pleinement le siècle de la valorisation l’innovation et de la croissance. La prise de conscience
l’exploitation de ces données représentent des enjeux
Le second défi sera de sécuriser ces données, qu’il des données en temps réel et de la construction de la est mondiale. Les États-Unis sont en tête, avec des
majeurs. Quelques exemples : l’émergence de
s’agisse de données personnelles ou industrielles, de confiance numérique, qui sont l’avers et le revers d’une initiatives fédérales sur le Big Data, l’analyse de
celles des Etats, des collectivités locales ou des institu- même médaille. nouveaux paradigmes de découverte scientifique par
analyse et exploitation intensive des données, sans données et le calcul haute performance. L’Europe
nécessité a priori d’un modèle décrivant le réel ; la inscrit la création d’un marché unique numérique
Jean-Philippe Nominé est chef décision des grands industriels d’inscrire la maîtrise dans ses priorités : technologies et usages du
Retrouvez l’intégralité de la tribune de Thierry Breton sur : de projet numérique à la Direction des données au cœur de leur transformation numérique et du calcul haute performance y ont une
cea.fr/multimedia/Pages/editions/clefs-cea/voyage-au-coeur-du-big-data/confiance-numerique-durable.aspx des analyses stratégiques du CEA. numérique ; l’évolution des services aux usagers, des place centrale. La France a des atouts : compétences

4 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 5
CONTEXTE LES TECHNOLOGIES DU BIG DATA

© P. Stroppa / CEA
mathématiques, politique de soutien au calcul contexte d’un réseau dense de collaborations
intensif, réseau de recherche national structuré [1], nationales, dont le cluster Teratec, européennes et
infrastructure réseau et de calcul de qualité, tissu internationales qu’il a construit depuis quinze ans.
industriel et de services fort de groupes majeurs et de
PME dynamiques. Outre sa participation aux actions Dans le cadre de ses missions d’appui à l’industrie, le
CEA développe, principalement au List [5], des
européennes, la France a mis en place des initiatives
solutions pour la transformation numérique en
pour doper la recherche et l’innovation dans le
s’appuyant sur une tradition forte de traitement du
domaine du Big Data [2 et 3].
signal, et de couplage entre matériel et logiciel. Il a
Le CEA prend toute sa place dans cette dynamique structuré son activité autour de 7 thèmes : traitement
scientifique et en appui à l’industrie nationale, avec des données brutes, analyse de scènes, systèmes auto-
une stratégie qui repose sur deux piliers : une politique adaptatifs distribués, modélisation et visualisation des
intégrée du calcul intensif [4] appliqué à la simulation données, architectures proches des capteurs pour la
vision, architectures neuromorphiques, conception
numérique et au traitement massif de données ; une
temps réel critique. Digitec, pôle de recherche sur les

LES TECHNOLOGIES
offre pour la transformation numérique de l’industrie
systèmes numériques créé sur le campus Paris-Saclay,
regroupant data intelligence, capteurs et IoT,
est l’emblème d’une dynamique de collaborations
manufacturing avancé, cybersécurité.
académiques et industrielles sur ces sujets.
Le calcul intensif et la modélisation/simulation ont
« Le CEA a structuré son activité

DU BIG DATA
historiquement tiré les technologies et les usages du
Enfin, la formation aux métiers nouveaux requis par
ces domaines en évolution permanente et rapide
autour de 7 thèmes :
numérique, en donnant une place de plus en plus
centrale aux données liées aux supercalculateurs. Ces
retient l’attention toute particulière du CEA. traitement des données brutes,
outils sont aujourd’hui indispensables à Le domaine du Big Data mêle donc défis et chances à analyse de scènes,
l’accomplissement de l’ensemble des missions du
CEA, qui a reçu de l’État la mission nationale de
saisir, tant pour les progrès de la connaissance que systèmes auto-adaptatifs
comme accélérateur de croissance économique. C’est
développer les technologies du calcul intensif dans un un domaine essentiel pour le CEA, qui s’y implique distribués, modélisation
partenariat industriel, mené avec ATOS/Bull, dans le très fortement. et visualisation des données, Producteur et exploitant de grandes masses de données du fait de ses
architectures proches activités de recherche, le CEA s’implique activement, seul ou avec des
partenaires scientifiques et industriels, dans le développement de technologies
Retrouvez la version longue de cet article sur : des capteurs pour la vision,
capables de les traiter, les stocker, les réutiliser et les protéger au mieux.
cea.fr/multimedia/Pages/editions/clefs-cea/voyage-au-coeur-du-big-data/cea-et-defi-big-data.aspx architectures neuromorphiques,
conception temps réel critique. »

De la production à l’exploitation des données 7

La visualisation des données 17

[1] Alliance des sciences et technologies La protection des données 19


du numérique : www.allistene.fr
[2] Comité d’Orientation du NUMérique de
l’Enseignement supérieur et de la Recherche
[3] Économie des données de la Nouvelle
France Industrielle, pilotée par le ministère
de l’économie et des finances
[4] JORF n° 0219 du 21 septembre 2014
et n° 0150 du 29 juin 2016
[5] Le List est l’un des trois instituts de
Le supercalculateur Cobalt du CCRT recherche technologique de CEA Tech,
© P. Stroppa / CEA dédié aux systèmes numériques intelligents

6 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 7
LES TECHNOLOGIES DU BIG DATA LES ALGORITHMES PRÉDICTIFS LES ALGORITHMES PRÉDICTIFS LES TECHNOLOGIES DU BIG DATA


PAR CÉDRIC GOUY-PAILLER Prédire à partir de données :
une efficacité déraisonnable ?
(Direction de la recherche technologique)

Définie de manière relativement floue sur le plan épistémologique, l’ère du Big


Data se caractérise par deux volontés intrinsèquement liées : d’une part la Pour aller plus loin
recherche de l’exhaustivité et d’une résolution fine (spatiale, temporelle,
Cédric Gouy-Pailler est chercheur au
individuelle…) dans la production de données ; d’autre part l’absence d’a priori Les biais d’apprentissage :
Laboratoire analyse de données et intelligence www.ajlunited.org
des systèmes (Département de métrologie, dans leur utilisation pour bâtir des modèles mathématiques et informatiques,
instrumentation et information) du CEA / List. qui sont jugés à l’aune de leur pouvoir prédictif.
Modélisation 3D d’un bâtiment.
Séance de travail collaborative

© P. Stroppa / CEA
autour d’une maquette numérique.
Énergie

Sports / loisir

données, ou encore formuler une démarche analy- prentissage modélise les relations statistiques entre
Écologie / animaux
tique à partir d’une question scientifique ou d’une les caractéristiques et la variable et établit un modèle
problématique industrielle. L’ère du Big Data se ca- prédictif ; enfin, en phase d’exploitation, ce modèle
Reconnaissance de gestes ractérise en partie par son pragmatisme, conduisant est utilisé sur de nouvelles caractéristiques pour
les data scientists à minimiser l’utilisation d’a priori inférer la variable à prédire.
Publicité web dans la construction des modèles et à mesurer leur
qualité par leur pouvoir prédictif. Ces modèles sont Dangers actuels et verrous
omniprésents dans nos vies. Ils influencent le résultat
Physique / météorologie L’analyse de gros volumes de données, à la recherche
de nos recherches sur Internet, les publicités que

Assurance
nous voyons ou les produits culturels qui nous sont
de corrélations sur lesquelles baser un système pré-
dictif, n’est pas dénuée de risques. On peut observer
« L’ère du Big Data se
recommandés. Plus largement, ils interviennent dans
des domaines économiques variés, par exemple en
des corrélations fallacieuses [2] quand le jeu de don- caractérise en partie
par son pragmatisme,
nées d’apprentissage n’est pas représentatif de son
Lien dans les réseaux médecine pour aider à l’interprétation de certaines
contexte d’exploitation (biais d’apprentissage) ou
données ou dans la domotique pour doter les ther-
E-commerce / ventes
mostats de capacités d’adaptation aux habitudes des
quand les données sont multipliées, ce qui augmente
la probabilité de découvrir des relations qui ne sont conduisant les data
scientists à minimiser
occupants d’un logement.
que du bruit. Ces deux observations militent pour la
Santé / médecine Des données aux modèles prédictifs création de systèmes interprétables, permettant aux
exploitants de comprendre la décision générée. Enfin, l’utilisation d’a priori
La démarche de modélisation prédictive se fait géné- certains verrous limitent l’utilisation des méthodes
dans la construction des

L’
ralement en trois temps : d’abord les données sont d’analyse prédictive dans certains contextes. Ainsi, on
explosion des moyens d’enregistrement des informations variées sur l’usage ou les réactions des
accumulées pour définir des caractéristiques mesu-
rables ou découlant de mesures (taux de CO2, lumi-
peut mentionner quelques axes de recherche :
l’apprentissage incrémental (apprentissage couplé à
modèles et à mesurer
des données et le foisonnement de
nouvelles approches d’analyse
utilisateurs. La baisse des coûts de télécommunication
et l’augmentation des débits a ensuite permis de
nosité, niveau de bruit moyen dans un logement…) l’acquisition), l’interprétabilité des décisions et le leur qualité par leur
pouvoir prédictif. »
et choisir la variable à prédire (1/0 pour la présence/ développement de modèles assurant la confidentialité
Graphe des problématiques proposées multiplient les applications possibles simplifier le recueil des données, réduisant le temps absence dans un logement) ; puis un algorithme d’ap- des données d’apprentissage.
au public par l’intermédiaire des plateformes en science, dans l’industrie et pour l’aide à la décision. entre leur production et leur mise à disposition pour
www.kaggle.com et www.drivendata.org Si la volonté de produire et de conserver des données exploitation. Enfin, le stockage des données a connu
à l’occasion de compétitions de exhaustives et finement résolues existe depuis deux évolutions primordiales, d’une part la baisse [1] Une multiplication par deux de l’espace de stockage est réalisée, sans effet de seuil majeur, en doublant le nombre de machines nécessaires.
« data science ». Un nœud représente une plusieurs dizaines d’années dans certains domaines constante de son coût unitaire, d’autre part le [2] C.S. Calude et G. Longo, The deluge of spurious correlations in Big Data, Foundations of Science, pp 1-18, 2016 :
(météorologie, finance…), la vague actuelle est inédite
compétition et les arêtes entre les nœuds développement de systèmes de fichiers distribués www.hal.archives-ouvertes.fr/hal-01380626/
dans la multiplicité et la diversité des activités (comme HDFS, SciDB) favorisant le passage à
symbolisent des thématiques proches.
transformées par l’essor de cette démarche. Trois l’échelle à coût quasi-linéaire [1].
Un algorithme de regroupement de données évolutions ont permis cette transformation. D’abord
a permis de faire apparaître certaines la production de la donnée est aujourd’hui peu Accumuler des données : dans quel but ?
grandes catégories, codées par couleurs coûteuse, permettant d’installer des capteurs
et détaillées en partie à gauche. observant le fonctionnement d’un objet ou donnant La connaissance et la valeur ne découlent pas direc-
La taille des nœuds est modulée par le volume des informations sur son environnement tement de l’accumulation de données. Ainsi de nou- Les données sont accumulées pour Un algorithme d’apprentissage Ce modèle est utilisé sur de nouvelles
des données prétraitées (les volumes bruts sont (température, luminosité), mais elle est également veaux rôles sont apparus dans les organisations, définir des caractéristiques modélise les relations statistiques caractéristiques
souvent 10 à 100 fois plus importants). ubiquitaire, en ce sens qu’il est possible de recueillir pour, par exemple, assurer l’intégrité et la qualité des mesurables ou découlant de mesures entre les caractéristiques et la variable pour inférer la variable à prédire

8 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 9
LES TECHNOLOGIES DU BIG DATA L’APPRENTISSAGE AUTOMATIQUE L’APPRENTISSAGE AUTOMATIQUE LES TECHNOLOGIES DU BIG DATA

Loin du sur-apprentissage constaté avec les VisionLab de Thales, ou encore l’extraction d’informa-
méthodes classiques, le deep learning permet tion textuelle LIMA intégrée dans certains processus
d’apprendre à partir de nombreux exemples et d’ab- de Bureau Veritas (veille réglementaire et l’analyse
sorber beaucoup de connaissances en conjuguant de rapports d’inspection).
l’apprentissage d’une représentation des données
Aujourd’hui, les recherches concernent notamment
d’entrée adaptée à la tâche considérée et celle d’une
des problématiques d’utilisabilité dans un cadre
fonction de décision. Le réseau d’Hinton apprenait
industriel. Elles visent à accompagner les industriels
ainsi 1 000 classes à partir de 1,2 millions d’images
dans leurs démarches d’apprentissage automatique.
annotées.
La découverte de connaissances permet d’identifier

Pour aller plus loin


La classification automatique par apprentissage l’ontologie constitutive de sa connaissance propre à
profond a permis d’atteindre des niveaux de préci- partir de documents internes. L’auto-apprentissage
sion très importants. Et ouvert la voie à l’intégration permet d’aller chercher automatiquement sur le
de ces méthodes dans de nombreux procédés indus- Web des exemples annotés (des photos de la tour Le travail de Geoffrey Hinton
triels afin d’accélérer certaines opérations jusque-là Eiffel par exemple) et d’apprendre des réseaux à et son équipe : « ImageNet
réalisées par des humains, voire d’en permettre de partir de ces exemples. L’explicabilité dote les classification with deep convolutional
nouvelles jusqu’ici trop onéreuses. systèmes de la capacité à exprimer si l’apprentissage neural networks »; by Alex Krizhevsky,
a bien été réalisé et ce qui leur manque pour mieux
Ilya Sutskever, Geoffrey E. Hinton -
Le deep learning au CEA apprendre.
Advances in Neural Information

Le deep learning
Dans le cadre de sa mission de transfert technolo- Le CEA / List a également développé N2D2, une Processing Systems 25 (NIPS 2012) :
gique de l’innovation, la Direction de la recherche plateforme logicielle de deep learning en open www.papers.nips.cc/paper/
technologique du CEA (DRT) développe de nom- source. N2D2 permet d’explorer et générer des 4824-imagenet-classification-
breuses applications intégrant du deep learning réseaux de neurones profonds optimisés et d’évaluer with-deep-convolutional-
auprès d’industriels. Par exemple : la détection automatiquement la meilleure cible d’exécution
neural-networks

à l’ère industrielle
d’incidents par des capteurs en usine, l’analyse de matérielle au travers de fonctions d’évaluation,
défauts dans les laminoirs, la vision par ordinateur selon des critères comme le coût ou la consomma- Le laboratoire VisionLab :
développée dans le cadre du laboratoire commun tion d’énergie. www.kalisteo.eu/en/index
L’analyseur LIMA :
www.github.com/aymara/lima
La plateforme N2D2 :
New AI methods
www.github.com/CEA-LIST/N2D2
• Les méthodes d’apprentissage profond (deep learning en anglais) ont révolutionné (deep learning)

PAR BERTRAND l’intelligence artificielle. Les performances obtenues sur plusieurs problèmes Most learning

Performance
DELEZOIDE applicatifs permettent d’envisager l’intégration de systèmes à apprentissage algorithms

(Direction de la recherche technologique) au sein de nombreux processus industriels. Illustration du phénomène


de sur-apprentissage : Un réseau de neurones convolutifs (CNN)

L’
Amount of data la qualité atteint un plateau est une méthode d’apprentissage
apprentissage automatique est un ordinateurs de la perception de leur environnement,
lorsqu’on ajoute des données pour apprendre. automatique reposant sur l’apprentissage profond.
champ d’étude de l’intelligence artifi- aider au diagnostic, analyser les marchés boursiers...
cielle qui permet à une machine Cependant, la précision des résultats était insuffi-
d’adapter son comportement de manière sante pour une utilisation industrielle.
dynamique, en se fondant sur une connaissance
Bertrand Delezoide est préalablement acquise. Dans ces systèmes, le modèle Les méthodes d’apprentissage profond Feature maps
responsable de l’équipe multimédia de connaissance est créé de manière automatique à
C’est début 2010 que les méthodes dites d’appren- Feature maps
du Laboratoire vision et ingénierie partir de données brutes, comme des exemples
tissage profond (deep learning) sont apparues : il Input Feature maps
des contenus (Département d’entrées-sorties souhaitées.
s’agit des réseaux de neurones. Ceux-ci modélisent
intelligence ambiante et systèmes Un problème classique d’apprentissage automatique
Output
les fonctions entrées-sorties souhaitées grâce à des
interactifs) du CEA / List. ROBOT
est celui de la classification. Il s’agit d’étiqueter architectures comprenant différentes transforma-
chaque donnée en entrée d’un système, en y tions non-linéaires. Dans le deep learning, les
associant une classe. Apprendre un modèle de cette neurones sont structurés en couches successives
décision implique de disposer d’un ensemble de fournissant des représentations de plus en plus
données préalablement annotées avec les « bonnes » abstraites, jusqu’à arriver à une prise de décision.
classes. En général, plus la masse des données est L’apprentissage est dit profond car il s’appuie sur un
importante, plus le modèle construit est précis et nombre important de couches. Le réseau convolutif
conduit à de bonnes décisions.
développé en 2012 par l’équipe de Geoffrey Hinton
La classification automatique a été appliquée, à partir pour reconnaître des images d’objets visuels inté- Convolutions Subsampling Convolutions Subsampling Fully connected
des années 50 jusqu’à la fin des années 2000, à un graient ainsi 650 000 neurones et 60 millions de
vaste ensemble de problématiques : doter des connections sur 8 couches paramétrées.

10 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 11
LES TECHNOLOGIES DU BIG DATA LES SYSTÈMES DISTRIBUÉS LA MODÉLISATION AU SERVICE DU BIG DATA LES TECHNOLOGIES DU BIG DATA

• •
CONTRIBUTEURS CONTRIBUTEURS

Gérer la complexité des


(Direction de la recherche technologique) (Direction de la recherche technologique)

Sara Tucci est responsable programme


données et des analyses Jean-Pierre Gallois est ingénieur-chercheur
blockchain au Département d’ingénierie au Laboratoire d’ingénierie dirigée
logiciels et systèmes du CEA / List. Pour traiter les enjeux liés au volume et à l’hétérogénéité des données du par les modèles pour les systèmes
Big Data, le Laboratoire d’ingénierie dirigée par les modèles pour les systèmes embarqués (Département d’ingénierie logiciels
embarqués (Lise) du CEA / List développe des techniques de modélisation et et systèmes) au CEA / List.
analyse qualitative, sur la base de sa plateforme Papyrus.

L
a croissance explosive des données en d’analyse. En particulier, sur la base de sa plate-
Hassan Sleiman est responsable de circulation dans l’espace numérique, et la forme de modélisation Papyrus [2], le LISE développe
problématique sous-jacente de manipula- des méthodes de modélisation et analyse qualitatives.
plateforme multi-agents au Laboratoire

Interactions sous contrôle


tion d’énormes quantités d’informations À la différence des approches quantitatives habituelles,
analyse de données et intelligence Arnaud Cuccuru est ingénieur-chercheur au
ont généré ces dernières années des développements ces méthodes ne requièrent pas de paramètres
des systèmes (Département de méthodologie, majeurs en termes de technologies de stockage et de
Laboratoire d’ingénierie dirigée par les modèles
numériques. Les analyses reposent sur des relations
instrumentation et information) du CEA / List. traitement des données (cloud computing, bases de pour les systèmes embarqués (Département
d’ordre ou de dépendance, et s’adaptent donc par
données et algorithmes à haute performance). d’ingénierie logiciels et systèmes) au CEA / List.
nature aux bases de données imprécises mais rela-
Les systèmes distribués permettent de réaliser les échanges des données Néanmoins, pour des domaines tels que la production
tionnelles, produites par les expériences, et qu’on
retrouve typiquement dans le Big Data [3].
d’une application déployée à l’échelle d’une ville ou à l’échelle mondiale, tout en et le stockage d’énergies renouvelables [1], le volume

préservant la confiance numérique.


et l’hétérogénéité des données collectées sont tels
que les méthodes numériques traditionnelles
Ces approches peuvent être très utiles pour structurer « De nouvelles techniques doivent
et améliorer la qualité de nos connaissances sur de
être imaginées pour intégrer

L
(comme la simulation) peinent à faire émerger des grands systèmes complexes et les données associées.
Anthony Larue est chef du Laboratoire es systèmes distribués sont un élément clé données et de confiance entre les acteurs. Autant configurations optimales. De nouvelles techniques
Les travaux du LISE sur des modèles dédiés à la efficacement autant de données,
analyse de données et intelligence de notre vie quotidienne, toujours plus dire que le défi est de taille ! doivent être imaginées pour intégrer efficacement
des systèmes (Département de méthodologie, connectée et numérisée par des applica- autant de données, venant de sources variées :
simulation numérique et les réflexions en cours sur venant de sources variées :
d’autres modèles consacrés à la simulation stochas-
instrumentation et information) du CEA / List. tions informatiques. Prenons l’exemple La communauté scientifique travaille sur le problème météorologie, production et stockage de l’énergie,
tique laissent penser que leur intégration dans une météorologie, production
depuis des années et des  résultats d’impossibilité  réseau de distribution, consommation.
d’une application emblématique comme le
porte-monnaie électronique : Chloé a une voiture semblent mettre en péril l’existence même de approche globale basée sur le raisonnement qualitatif et stockage de l’énergie, réseau
électrique et, compte-tenu du prix de l’énergie, elle
solutions techniques adéquates. Si, théoriquement, Le Laboratoire d’ingénierie dirigée par les modèles serait pertinente et efficace [4 et 5]. Des techniques
de modélisation et analyse complémentaires sont
de distribution, consommation. »
il est impossible de garantir à la fois la cohérence et pour les systèmes embarqués (LISE) du CEA / List
décide de vendre son énergie en connectant sa voi- également développées, notamment pour gérer des
la disponibilité des données, la question se pose des élabore des solutions innovantes, basées sur son
ture au réseau électrique. Sa vente sera matérialisée ensembles de modèles évolutifs (évolutions régle-
compromis à trouver en pratique. À cet égard, le expertise en ingénierie dirigée par les modèles
dans son application par une certaine somme de (IDM). L’IDM est une approche qui consiste à ex- mentaires, technologiques, etc.) et pour minimiser
CEA travaille sur des solutions dites blockchain pour
monnaie numérique, qu’elle dépensera demain en pliciter, sous formes de modèles, toute information le volume de données à stocker en ligne en fonction
une meilleure confiance et développe des applica- [1] www.projekt-eweline.de
Önder Gürcan est ingénieur-chercheur au connectant sa voiture à une borne en centre-ville. Ce tions distribuées basées sur une plateforme multi-agents pertinente pour une démarche de conception ou des objectifs d’analyse.
Laboratoire d’ingénierie dirigée par les modèles type d’applications met en relation un nombre utilisée dans plusieurs projets. Cette plateforme, [2] www.eclipse.org/papyrus
pour les systèmes embarqués (Département conséquent d’acteurs géographiquement distribués déployée aujourd’hui dans le cadre du projet euro- [3] Anne Siegel, Carito Guziolowski, Philippe
ingénierie logiciels et systèmes) du CEA /List. qui entament des interactions complexes dans le péen MAS2TERING coordonné par le CEA, réalise
Veber, Ovidiu Radulescu, Michel Le Borgne.
temps. Les réseaux et algorithmes sous-jacents une négociation automatique et sécurisée pour les
doivent répondre à différentes problématiques de
« Optimiser un plan d’expérience à partir de
achats et ventes d’énergie entre acteurs locaux et la
confidentialité, d’intégrité, de disponibilité des planification optimale des appareils ménagers.
modèles qualitatifs ». Biofutur,
Elsevier - Cachan : Lavoisier, 2007, 275,
pp.27-31. <inria-00178791>

 RÉSULTATS D’IMPOSSIBILITÉ  [4] J-P. Gallois, J-Y. Pierron :


« Qualitative simulation and validation of
Pour aller plus loin Dans le domaine de l’informatique théorique, il existe plusieurs résultats d’impossibilité. Parmi eux, le théorème CAP, également nommé
théorème de Brewer (du nom de l’informaticien Eric Brewer), déclare qu’il est impossible pour un système informatique distribué de fournir
complex hybrid systems ». ERTS 2016.
Le site du projet européen simultanément plus de deux des trois garanties suivantes : cohérence (chaque lecture reçoit la donnée la plus récente ou une erreur), [5] S. Medimegh, J-Y. Pierron, J-P. Gallois,
MAS2TERING : disponibilité (chaque requête reçoit une réponse) ; tolérance à la partition (le système continue à fonctionner malgré un nombre arbitraire F. Boulanger. « A New Approach of Qualitative
www.mas2tering.eu de messages supprimés ou retardés par le réseau entre les nœuds) - Voir Lynch, Nancy, and Seth Gilbert. « Brewer’s conjecture and the Simulation for the Validation of Hybrid Systems ».
feasibility of consistent, available, partition-tolerant web services. » ACM SIGACT News, v. 33 issue 2, 2002, p. 51-59. GEMOC 2016.

12 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 13
LES TECHNOLOGIES DU BIG DATA L’EXPLOITATION DES DONNÉES ISSUES DES CODES DE SIMULATION L’EXPLOITATION DES DONNÉES ISSUES DES CODES DE SIMULATION LES TECHNOLOGIES DU BIG DATA

© D. Sarraute / CEA
les solutions dites in transit. En jouant à la fois, pour calculateurs à base de processeurs Intel Xeon E5 v3
Vue du supercalculateur Tera 100 les codes, le rôle d’écrivain pour les uns et de lecteur et Intel Xeon Phi), le Département de physique
des données pour les autres, PaDaWAn permet un théorique et appliquée (DAM/DIF/DPTA) développe
• enchaînement d’applications sans recours aux un nouveau code de dynamique moléculaire
CONTRIBUTEURS unités de stockage. Les approches helper cores et classique : ExaStamp. Dès à présent, ce code
staging nodes, liées à la localisation de l’application s’exécute sur des centaines de nœuds hybrides de
(Direction des applications militaires) destinataire, sont proposées à l’utilisateur. L’analyse type Intel Xeon Phi® et autorise des simulations
en vol a très tôt évalué ce mode opératoire et la
visualisation entre à présent dans cette évolution.
comportant plusieurs milliards d’atomes. Le
traitement des imposants volumes de données « Effectuer l’analyse des
ExaStamp : démonstrateur générés nous a amené à envisager une solution données en même temps
d’un nouveau système finement intégré que le calcul de la
technique associant les modes in situ, helper cores et
staging nodes (Fig. 1). Cette solution permettra de

Nicolas Bergeret est ingénieur au


Afin de répondre aux caractéristiques des
architectures HPC de type Tera 1000-2 (plusieurs
répondre à la majorité des scénarios d’études conçus
par les physiciens du DPTA (Fig. 2).
simulation intéresse tout
Département des sciences de la simulation particulièrement les
et de l’information à la Direction
des applications militaires du CEA. physiciens de la Direction
des applications militaires
Système de fichiers
Nœud de calcul
multi cœurs du CEA. »
MPI
MPI

Vers la mise en place


Laurent Colombet est chercheur au Analyse staging mode
Département de physique théorique
et appliquée à la Direction

de traitements en vol
des applications militaires du CEA.
Nœud de calcul Nœud de calcul Nœud de calcul
multi cœurs multi cœurs multi cœurs Fig. 1 : schéma du système
in situ avec helper cores
et staging nodes prévu pour ExaStamp.
MPI (Message Passing Interface)
Sans évolution majeure des pratiques, l’accroissement de la capacité de est le procédé le plus communément adopté
calcul des prochaines générations d’ordinateurs conduira à une explosion du Simulation Analyse Simulation Analyse Simulation Analyse par les codes de simulation pour échanger
Olivier Durand est chercheur au Département in situ in situ in situ
volume des données produites par la simulation numérique. Avec ExaStamp des informations entre les différents processeurs
de physique théorique et appliquée à la Direction qui interviennent dans un calcul parallèle.
des applications militaires du CEA. nous expérimentons la mise en place d’une solution alternative.

L’
exploitation des résultats d’une Plus élaboré, le mode in situ traduit l’intervention
simulation est fondée sur un d’une application directement dans la mémoire
séquencement calcul-écriture-lecture- allouée par une autre. L’utilisation de nœuds Fig. 2 : après la réflexion
calcul. L’accroissement des capacités de distincts, « staging nodes », isole plus grandement d’un choc sur une surface
calcul génère une augmentation massive du volume
de données produites. Elle est beaucoup plus rapide
encore la simulation. Ces deux approches sont
proposées par PaDaWAn.
Simulation du micro-jetting rainurée, un jet, de forme plane,
se développe (en haut)
Laurent Soulard est chercheur
au Département de physique théorique
que l’accroissement de la capacité des systèmes de
fichiers (filesystems) censés gérer les données. Dans PaDaWAn : de la délégation par dynamique moléculaire classique. puis se brise en gouttelettes
ces conditions, l’engorgement des filesystems est des I/O à l’enchaînement de codes (en bas). Calcul effectué avec
et appliquée à la Direction Le micro-jetting résulte de la réflexion d’un choc sur la surface externe
inéluctable. Le remplacement de la phase écriture- d’un matériau. La présence d’un défaut surfacique, comme une rayure,
le code ExaStamp
des applications militaires du CEA.
lecture, usuelle pour l’enchaînement des Elaboré par le Département des sciences de la peut engendrer le développement d’un micro-jet de matière qui se sur la machine TERA-100.
applications, par un traitement en vol, contribue à simulation et de l’information (DAM/DIF/DSSI), le brisera en petits fragments (figure 2).
en réduire l’utilisation. Effectuer l’analyse des logiciel PaDaWAn (Parallel Data Workflow for
données en même temps que le calcul de la Analysis) constitue un relais entre un code et les La dynamique moléculaire classique est un outil de calcul fondamental
simulation intéresse tout particulièrement les disques de stockage. En s’appuyant sur l’interface pour appréhender les mécanismes de la rupture du jet. Pour être
physiciens de la Direction des applications militaires I/O (Input/Output ou entrées/sorties) en place, il représentative des systèmes réels, la simulation doit comporter
(DAM) du CEA. Ce parallélisme est dit « helper déporte les opérations de transfert sur des plusieurs centaines de millions d’atomes et près de 30 % du temps de
cores » lorsque les applications se partagent les ressources informatiques distinctes, libérant les calcul global est consacré à l’analyse des teraoctets de données
cœurs d’un même nœud. Nos premières logiciels de simulation des aléas du filesystem. Son produites. Avec ExaStamp, ces calculs peuvent être réalisés sur des
expérimentations avec cette approche ont montré intervention, au niveau des informations envoyées architectures préfigurant les futurs calculateurs exaflopiques, comme
une amélioration de l’efficacité globale du système. par le code et durant leur transfert, le range parmi Tera 1000-2.

14 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 15
LES TECHNOLOGIES DU BIG DATA LA CHAIRE ENS PARIS-SACLAY / ATOS / CEA L’INTERFACE HOMME / DONNÉES LES TECHNOLOGIES DU BIG DATA

Accélérateur
Exemple de gant à retour d’effort pour les interactions dextres
en environnement virtuel. Ce gant a été développé dans le cadre du projet
ANR MANDARIN pour lequel l’équipe de Florian Gosselin a reçu le prix ANR

de Data Science
de l’Impact Economique 2017.

PAR FRANÇOIS GELEZNIKOFF
(Direction des applications militaires)

L’ENS Paris-Saclay, Atos et le CEA ont créé fin 2016 la Chaire « Industrial Data PAR
Analytics & Machine Learning ». La formation, la recherche et le soutien au FLORIAN GOSSELIN ET
développement de startups sont les piliers d’un projet unique de création d’une MARGARITA ANASTASSOVA
filière Data Science en France, au cœur du plateau de Saclay. (Direction de la recherche technologique)

L
e CEA, le groupe Atos et l’École normale & Massive Data Analysis » créée en 2012 autour de François Geleznikoff

© CEA  /  Florian Gosselin
supérieure Paris-Saclay ont décidé de 12 chercheurs. Enfin, le troisième axe est celui de est le directeur des applications
s’associer pour créer une filière sur la l’innovation et du partage d’expérience au bénéfice militaires du CEA.
science des données (ou Data Science) en de la dynamique de start-up et de PME du plateau
France. Ce partenariat, signé le 19 octobre 2016, de Saclay.
s’inscrit dans une stratégie du CEA, et en particulier de

Humanité augmentée
sa Direction des applications militaires (la DAM), pour Cette chaire permettra l’émergence de nouveaux
Florian Gosselin est responsable
soutenir et dynamiser les compétences scientifiques métiers et de nouveaux outils dans le domaine de la
et industrielles françaises nécessaires à la réalisation Data Science pour répondre à des enjeux straté-
scientifique du Département intelligence
de ses missions. Ainsi, depuis le début des années giques, technologiques ou économiques majeurs de
ambiante et systèmes interactifs
2000, la DAM collabore avec Bull, maintenant Atos, notre société. C’est le rôle du CEA, en tant qu’acteur du CEA / List.
pour développer des calculateurs de puissance per- de l’État, d’être partie prenante de ce projet, porteur
formants, qui répondent aux besoins de la Défense, d’excellence pour notre pays.
mais qui profitent également à la recherche et à l’in- Les systèmes informatiques génèrent de plus en plus de données. Pour les
dustrie. Ces supercalculateurs génèrent des données analyser, il est important d’y accéder facilement, y naviguer et interagir avec
massives qui posent la question cruciale de leur trai- elles. Au-delà des problématiques habituelles de visualisation de ces données,
tement et de leur analyse, c’est-à-dire la question du
Big Data. le CEA travaille au développement de techniques et d’interfaces multimodales
destinées à améliorer l’interaction homme/données.
La Chaire « Industrial Data Analytics & Machine Margarita Anastassova est experte

A
Learning », créée à l’ENS Paris-Saclay, en partena- au Laboratoire d’interfaces sensorielles et
vec les progrès du calcul haute perfor- données mais, en l’absence d’un retour haptique, ambiantes (Département intelligence ambiante
riat avec Atos et le CEA, mobilise sur le sujet du Big
mance, l’utilisation de modèles toujours l’utilisateur ne ressent pas physiquement leur pré- et systèmes interactifs) du CEA / List.
Data étudiants, enseignants, chercheurs et indus-
plus précis génère une quantité croissante sence et ne peut pas les toucher. Le Laboratoire de
triels au meilleur niveau. Elle s’articule autour de
de données. Il en va de même avec l’aug- Robotique Interactive développe des interfaces à
trois axes. Le premier concerne la formation (initiale
mentation de la résolution des équipements scienti- retour d’effort qui permettent, sous réserve d’asso-
et continue) avec pour pilier le Master « Mathéma-
fiques, sans parler du web et de l’Internet des objets. cier des propriétés physiques aux données, d’intera-
tiques, Vision et Apprentissage » orienté sur la modéli-
gir avec elles de façon naturelle par le geste, en ressen-
sation des données, les techniques mathématiques et Des défis très importants sont donc à relever pour tant des interactions à leur proximité ou à leur « Développées à l’origine
algorithmiques. Le deuxième porte sur la recherche,
avec pour pilier le Centre de mathématiques et leurs
stocker de manière fiable et sécurisée ces données,
mais aussi pour les rendre accessibles. Si, dans
contact. Développées à l’origine pour commander
des robots à distance ou interagir avec des simula-
pour commander des robots
applications (CMLA) et son équipe « Machine Learning certains cas, leur affichage sur un écran à très haute tions numériques industrielles, ces techniques per- à distance ou interagir avec
résolution suffit pour les appréhender, il est souvent
nécessaire d’y naviguer et les manipuler. Le CEA / List
mettent à la fois de manipuler des objets virtuels et des simulations numériques
de faciliter les gestes de l’opérateur. Leur usage
a mis au point des techniques et des interfaces pourrait facilement être étendu au Big Data. De industrielles, ces techniques
d’interaction multimodales répondant à ce besoin. même pour les technologies mises au point par le permettent à la fois
Pour aller plus loin Signature de la convention de partenariat ENS Paris-Saclay / Atos / CEA Le Laboratoire de simulation interactive a, par
Laboratoire d’Interfaces Sensorielles et Ambiantes :
interfaces tangibles pour faciliter la manipulation de de manipuler des objets
Le communiqué de presse le 19 octobre 2016, avec, de gauche à droite, Jean-Marie Simon, Directeur exemple, développé des solutions logicielles inté-
grant des périphériques de capture de mouvement
contenus éducatifs ; objets physiques intelligents virtuels et de faciliter
diffusé le 20 octobre 2016 : Général d’Atos France, Pierre-Paul Zalio, Président de l’ENS-Paris-Saclay
et François Geleznikoff, Directeur des applications militaires du CEA. à des environnements de simulation de scènes in-
pour interagir avec des données d’analyse de situa-
tions de crise en cybersécurité ; utilisation de sur-
les gestes de l’opérateur. »
www.cea.fr/presse/Pages/ dustrielles. Elles permettent de mesurer de façon
© CADAM / CEA faces rendues intelligentes.
actualites-communiques/ très naturelle les mouvements d’un utilisateur, donc
institutionnel/ens-atos-cea-chaire- de commander par le geste un système informa- Ces quelques exemples montrent que le CEA / List
data-science.aspx tique. Cette solution est efficace pour naviguer dans dispose d’une panoplie très large de solutions pour
un environnement numérique et manipuler des l’interaction homme/données.

16 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 17
LES TECHNOLOGIES DU BIG DATA LA VISUALISATION DES DONNÉES LA PROTECTION DES DONNÉES LES TECHNOLOGIES DU BIG DATA


MARTIAL MANCIP Data-visionnaires •
CONTRIBUTEURS
(Direction de la recherche technologique)

Entretien avec Martial Mancip, ingénieur de recherche au CNRS et responsable


de l’animation de la plateforme Mandelbrot à la Maison de la Simulation.

© Inria / Maison de la simulation /  Photo H. Raguet


Martial Mancip est ingénieur de Florent Kirchner est chef du
recherche au CNRS et responsable Laboratoire pour la sécurité et sûreté
de l’animation de la plateforme du logiciel (Département d’ingénierie
Mandelbrot à la Maison de la logiciels et systèmes) au CEA / List.
Simulation.

« Aujourd’hui, compte-tenu
des volumes et de la complexité
Julien Signoles est ingénieur au
grandissante des données Laboratoire pour la sécurité et sûreté du
produites par la simulation, logiciel (Département d’ingénierie logiciels
la visualisation ne peut plus et systèmes) au CEA / List.

Assurer une
se limiter à une simple étape Analyse et visualisation des traces
d’exécution pour comprendre et améliorer
de post-traitement les performances d’une application.

confiance sans faille


des résultats du calcul. »

Sara Tucci est responsable programme


blockchain au Département d’ingénierie
GPU En quoi consiste votre travail ? d’avoir de très nombreux scénarios de travail sur le logiciels et systèmes du CEA / List.
Processeur graphique (Graphics Processing mur. Les données à visualiser sont traitées par ce Mathématiques et raisonnements automatisés sont des stratégies d’innovation
La Maison de la Simulation est une unité de service cluster composé de 4 nœuds de rendu (128 Go de
Unit) utilisé pour accélérer le calcul, et d’expertise dans le domaine du calcul intensif,
face aux verrous de la cybersécurité.
mémoire, 12 cœurs, 2  GPU  NVIDIA K5000) et
du fait de sa structure hautement parallèle.

D
ouverte sur les communautés scientifiques. C’est dans d’un  nœud SMP  très performant (2 To de mémoire,
ce cadre qu’avec la plateforme Mandelbrot, partie 1 GPU K5000, 64 cœurs) et disposant également de
NŒUD SMP es babyphones aux installations indus- Lorsqu’un intrus veut prendre le contrôle d’un
prenante du projet Digiscope, nous développons, 80 To de stockage Lustre. Deux sources sont égale- trielles, le numérique prend une place système, il utilise très souvent les erreurs dans ses
Nœud de calcul disposant de multiples pour les chercheurs, des méthodologies de visualisa- ment disponibles dans la salle, dont une en HDMI, importante dans notre vie. Les logiciels programmes informatiques. Pour le contrer, il faut
processeurs identiques à mémoire partagée tion scientifique et d’analyse des données.
pour des branchements « en direct ». pilotent et produisent de nombreuses détecter ces erreurs dans des millions de lignes de
(Symmetric shared Memory Multiprocessor Aujourd’hui, compte-tenu des volumes et de la com- données sur les états des systèmes et de leurs inte- code. La plateforme d’analyse de code Frama-C met
ou SMP) servant à augmenter la puissance Qu’apportent ces performances ? ractions. Ce sont des cibles privilégiées pour qui en œuvre des techniques de raisonnement pour dé-
plexité grandissante des données produites par la
de calcul. simulation, par exemple en climatologie [voir page voudrait les compromettre à des fins stratégiques, montrer l’absence de certaines failles. Utilisés no- « Face aux milliards
Elles sont indispensables pour développer des mé-
27] ou en imagerie médicale [voir page 36], la visua- thodologies qui contribuent à accélérer et faciliter le
criminelles ou de vandalisme. tamment dans des domaines comme l’énergie ou les d’objets intelligents
transports, ces outils sont étendus pour l’analyse de
lisation ne peut plus se limiter à une simple étape de
post-traitement des résultats du calcul. Il faut mettre
temps d’analyse de données de simulation produites Or, la confidentialité et l’intégrité des données sont politiques de sécurité complexes et les certifications qui nous entourent, et
au point des outils innovants et interactifs à l’usage
en masse, notamment quand il s’agit de comparer ou
de trier des séries de résultats, comme c’est le cas
essentielles pour assurer qu’elles ne sont pas divul-
guées ou manipulées sans autorisation. Différentes
de sécurité. dont le numérique forme
Pour aller plus loin de tous : c’est l’objectif de notre démarche.
pour le climat ou l’imagerie cérébrale. techniques existent, dont la cryptographie avec des Au-delà de ces deux thématiques, le CEA développe l’infrastructure invisible,
Comment se caractérise cette plateforme ?
Ces développements ouvrent également la voie à
outils de signature et de chiffrement, reposant sur des approches de sécurisation cognitive des réseaux, nos équipes se positionnent
www.maisondelasimulation.fr des garanties mathématiques éprouvées. Elles évo- d’analyse des menaces et de résistance des circuits
Il s’agit d’un mur d’image stéréoscopique de 4,3 par l’affichage temps réel des données issues des grands luent aujourd’hui pour chiffrer les données de bout électroniques, dans le cadre de programmes trans- de façon unique pour
La plateforme Mandelbrot, 2,4 mètres permettant d’offrir une résolution de 33 calculateurs nationaux. Objectif : offrir aux utilisa- en bout, y compris lors des phases de traitement. verses. Face aux milliards d’objets « intelligents » relever le défi de sécurité. »
partie prenante du projet Digiscope : millions de pixels et relié à une régie vidéo capable de teurs la capacité d’interagir, de conduire le calcul et Combinées à des stratégies décentralisées de répli- qui nous entourent, et dont le numérique forme
www.digiscope.fr gérer 12 sources DVI, issues entre autres d’un cluster de contrôler les valeurs de paramètres qui guident la cation, elles rendent possible la création de bases de l’infrastructure invisible, ses équipes se positionnent
graphique très performant. Cette régie nous permet simulation. données distribuées, transparentes et infalsifiables. de façon unique pour relever le défi de sécurité.

18 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 19
LES TECHNOLOGIES DU BIG DATA LA PROTECTION DES DONNÉES LES DOMAINES D’APPLICATION

Le RSSI face au Big Data


LES DOMAINES
Le responsable de la sécurité des systèmes d’information d’une entreprise aime
rarement les nouvelles pratiques. D’un naturel méfiant, certains le pensent même

D’APPLICATION
• paranoïaque… Quelle attitude va-t-il adopter face au Big Data ?

U
JEAN-MARC ZUCCOLINI
ne fois n’est pas coutume, le RSSI aime le Big
(Direction centrale de la sécurité) Data pour la simple raison qu’il en est lui-
même un fervent utilisateur ! La volumétrie
des données engendrées par la supervision

© CEA BMR 2011


des systèmes d’information a montré, depuis quelques
années, les limites des procédés de traitement Les technologies Big Data développées par le CEA profitent à l’ensemble
traditionnels (il y a 10 ans, on était très soucieux de la
performance de nos bases  SQL ). Les technologies Big
de ses domaines de recherche : défense et sécurité, énergie nucléaire
Data ont permis non seulement de collecter, stocker et Représentation et navigation 3D et renouvelable, recherche fondamentale en sciences de la matière et
Jean-Marc Zuccolini est le fouiller des volumes massifs de données de moins en dans les données issues de la supervision sciences du vivant, recherche technologique.
responsable de la sécurité des moins structurées mais également de valoriser la somme
systèmes d’information du CEA. des informations collectées pour identifier ce qui est
potentiellement dangereux, par exemple une tentative
ou une cyberattaque aboutie dans l’activité de 20 000 sous l’aspect de la donnée isolée mais de l’information
utilisateurs sur le système d’information d’entreprise. qu’elle permet d’acquérir par sa massification. Or, cette Les données de la science 22
Cette évolution n’est pas qu’opportuniste, elle est aussi confidentialité à géométrie variable est bien plus difficile
contrainte. Qui peut imaginer que l’analyse humaine soit à cerner. Comment aborder la perte d’intégrité sur la
encore envisageable sans « machine » quand la
croissance permanente des volumes est au moins
donnée unitaire dans cette masse opaque ? Quel impact
la modification d’une donnée, par erreur ou malveillance, La santé 33
proportionnelle à celle de la cybermenace ? Il n’est donc peut-elle avoir sur la qualité du traitement global et
pas surprenant que les systèmes de supervision du CEA comment la détecter ? Enfin, comment assurer la
SQL
reposent sur des technologies comme Splunk
(commercial) ou Elasticsearch (open source) pour
disponibilité d’un système de traitement de plus en plus L’énergie 39
réparti et dépendant du réseau entre ses différents
Structured Query Language. extraire des pépites des données massives que
nœuds, surtout dans des environnements contraints et
SQL est un langage informatique constituent les journaux de logs.
isolés ? Si l’outil Big Data a montré son efficacité, il doit
normalisé servant à exploiter des Par ailleurs, le Big Data génère également de nouvelles encore faire les preuves de sa résistance et de sa Les données de l’industrie 41
bases de données relationnelles. inquiétudes. Il ne faut plus aborder la confidentialité résilience.

Les données de la vie quotidienne 43


BIG DATA ET INTELLIGENCE ÉCONOMIQUE

Entre prudence et opportunité •

E
n matière d’intelligence économique, les enjeux cataloguer, les sécuriser et prévoir leur évolution. PAR FRÉDÉRIC
liés à l’exploitation des données sont triples : Améliorer l’approche méthodologique, ainsi que les outils de MARIOTTE,
sur le plan défensif, le profilage détaillé de gouvernance et de gestion de la sécurité, est donc nécessaire.
l’activité d’une organisation à partir de données JEAN-PIERRE CHICAN
ouvertes est désormais possible ; sur le plan stratégique, Partager ou protéger l’information ? Sa valeur résidant ET JEAN-FRANÇOIS
dans la réactivité de son exploitation et sa diffusion, la
en extrayant de la connaissance, les décideurs peuvent
disposer d’un avantage compétitif ; et, juridiquement, confidentialité ne doit pas être un prétexte pour la thé- PROFICHEL
des questions se posent, par exemple sur l’inter- sauriser. Néanmoins, il convient de passer à une vision (Direction centrale
connexion de plusieurs fichiers à la finalité différente. globale de la sécurité. C’est moins la sensibilité indivi-
de la sécurité du CEA)
duelle de l’information que la connaissance déduite
Aujourd’hui, les données sont omniprésentes au CEA. d’une somme d’informations, en apparence anodines,
Au-delà de les traiter et les stocker, il faut également les qui doit être considérée.

Retrouvez la version longue de cet article sur : cea.fr/multimedia/Pages/editions/clefs-cea/voyage-au-coeur-du-big-data/intelligence-economique.aspx


Dossier complet dans Les Défis du CEA (n° 218) : cea.fr/multimedia/Pages/editions/defis.aspx

20 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 21
LES DOMAINES D’APPLICATION UNE APPROCHE THÉORIQUE DE LA DONNÉE UNE APPROCHE THÉORIQUE DE LA DONNÉE LES DOMAINES D’APPLICATION

Comprendre le Big Data



PAR

Science & villes


LENKA ZDEBOROVÁ

avec la physique statistique



(CNRS)
PAR
MARC BARTHELEMY
(Direction de la recherche fondamentale)
Des méthodes issues de plusieurs décennies de recherche sur les matériaux La disponibilité récente d’une grande masse de données sur les systèmes urbains
désordonnés sont utilisées pour décrire les transitions de phases algorithmiques permet d’entrevoir la possibilité d’une science des villes avec des bases solides
et concevoir de nouveaux algorithmes pour l’apprentissage automatique. et testées empiriquement.

À
Lenka Zdeborová est chargée de recherche
CNRS à l’Institut de Physique théorique une période où les décideurs politiques néaire H~P^β(β<1) avec la population P. Jusqu’à
(CEA / IPhT). Elle a reçu la médaille de bronze sont activement à la recherche de nou- présent, aucun modèle théorique d’économie spatiale
du CNRS en 2014 et le Prix Philippe Meyer Marc Barthelemy est chercheur veaux paradigmes pour la planification ni les simulations agents-centré ne sont capables
de l’École normale supérieure en 2016. à l’Institut de physique théorique du urbaine, comprendre et modéliser la d’expliquer ce fait empirique. Nous avons alors
© Kates Photography CEA et expert en physique structure et l’évolution des villes est plus important proposé un modèle simple - dont les prédictions
statistique des systèmes complexes. que jamais. Construire une science des villes per- sont en accord avec les données empiriques - qui
mettant d’éclairer les décisions urbanistiques montre que la congestion du trafic routier est au
semble maintenant à portée de main, grâce à cœur de la formation de structures polycentriques.
l’énorme masse de données disponibles. Il reproduit bien l’évolution sous-linéaire du nombre
de centres d’activités mais permet également de pré-
Les nouvelles sources de données, telles que le GPS
De même qu’une baisse de la température dire l’évolution superlinéaire de l’émission de CO2
Liquide Liquide surfondu Solide ou la téléphonie mobile en particulier, permettent
induit un ordre dans la nature, en analyse une photographie instantanée et inédite de l’activité
par les transports et du temps passé dans les embou-
de données, l’augmentation du nombre d’une ville et de sa structure. En mesurant la posi-
teillages en fonction de la population de la ville.
d’échantillons par dimension simplifie Impossible Difficile Simple tion de chaque utilisateur, la densité ainsi construite
Vérifiés sur des données pour des villes américaines
Densité (qui augmente du plus clair et des pays de l’OCDE, ces résultats suggèrent
l’apprentissage sur le plan algorithmique. au plus foncé) d’utilisateurs de téléphones révèle le caractère monocentrique des petites villes
Les transitions de phases abruptes (un seul centre d’activités) et, pour des villes plus qu’une ville basée sur la voiture individuelle n’est
mobiles (en matinée) pour Saragosse et Bilbao. pas durable et que ce type d’organisation se heurte-
apparaissent dans les deux. grandes, une structure polycentrique avec plusieurs

L’
A Saragosse, la densité décroit autour d’un ra nécessairement à des problèmes insurmontables.
centres d’activités (cf. schéma).
analyse de données et l’apprentissage En science des données, les modèles servent habi- centre unique, alors qu’à Bilbao, Cet exemple illustre bien comment les données
automatique trouvent leur application tuellement à guider la conception des algorithmes. on voit plusieurs centres d’activités qui, On peut ainsi caractériser le degré de « polycentri- contribuent à la construction de théories robustes,
dans de nombreux domaines des En physique, les modèles (souvent les mêmes) sont dans ce cas particulier, forment une structure cité » par son nombre H de centres d’activités et qui peuvent ensuite aider à la prise de décision pour
sciences fondamentales - la physique étudiés, dans une optique un peu plus académique, spatiale non triviale. nous avons montré qu’il varie de manière sous-li- la planification urbaine.
théorique n’y faisant pas exception [1]. Mon équipe d’abord pour comprendre leur comportement.
à l’Institut de Physique théorique (IPhT) conduit des En particulier, la physique statistique traite souvent des
travaux dans la direction opposée en tirant parti de transitions de phases, c’est-à-dire des changements
méthodes initialement développées pour étudier des abrupts de comportement.
matériaux, comme les verres ou les aimants désor- Or, curieusement, il existe une correspondance
donnés, afin de comprendre théoriquement des pro- étroite entre les phases physiques (liquide, liquide « Les nouvelles sources de
blèmes de science des données et d’apprentissage surfondu ou verre, solide) et les régions des paramètres données, telles que le GPS ou la
[1] L. Zdeborová (2017). automatique (machine learning). pour lesquelles une tâche spécifique d’analyse de
Machine learning : New tool in the box. données est algorithmiquement impossible, difficile
téléphonie mobile en particulier,
Nature Physics. Dans l’expression Big Data, l’adjectif « Big » signifie ou simple. L’identification de ces phases dans divers permettent une photographie
non seulement qu’un gros disque dur est nécessaire
[2] F. Krzakala, M. Mézard, F. Sausset, pour stocker les données, mais aussi que la dimen-
problèmes de science des données est l’un des prin-
cipaux objectifs des recherches de mon groupe.
instantanée et inédite de l’activité
Y.F. Sun, et L. Zdeborová (2012). sionnalité de chaque point de donnée est grande. d’une ville et de sa structure. »
Statistical-physics-based Un exemple simple : la régression linéaire. De façon remarquable, cette activité axée sur la com-
reconstruction in compressed sensing. Si deux paramètres suffisent à ajuster une droite à préhension des modèles en soi inspire également le
Physical Review X, 2(2), 021005. l’ensemble des points de données, les applications développement de nouvelles classes d’algorithmes.
actuelles traitent généralement de données où Des exemples développés à l’IPhT incluent la
[3] F. Krzakala, C. Moore, E. Mossel, Densité Densité
chaque point se trouve dans un espace de grande conception de protocoles de mesures d’acquisition
J. Neeman, A. Sly, L. Zdeborová, [0.0158,0.16) [0.175,0.665)
et P. Zhang (2013).
dimension, et où le nombre de paramètres à déter-
miner correspond à cette dimension. Une grande
comprimée, inspirés par la nucléation en physique [2]
et d’une nouvelle classe d’algorithmes spectraux
[0.16,0.2)
[0.2,0.26)
[0.665,1.04)
[1.04,2.2) Pour aller plus loin
Spectral redemption in clustering partie des défis théoriques en statistique résultent pour traiter les ensembles de données peu reliés [3]. [0.26,0.668) [2.2,4.08)
sparse networks. Proceedings précisément de cette grande dimensionnalité. Or, Actuellement, l’équipe bénéficie d’un ERC Starting [0.668,1.28) [4.08,7.15) Tout sur les systèmes urbains
[1.28,1.81) [7.15,12.6)
of the National Academy of Sciences, certains modèles étudiés en physique statistique Grant pour poursuivre ces recherches en se focalisant [1.81,3.67) [12.6,20.7)
et la géographie quantitative :
110(52), 20935-20940. sont mathématiquement équivalents à ceux des sur les différents types de réseaux neuronaux mis en [3.67,9.72) [20.7,70) www.quanturb.com
statistiques en grande dimension. œuvre dans le deep learning. Saragosse [9.72,3.06e+( [70,3.98e.03) Bilbao

22 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 23
LES DOMAINES D’APPLICATION BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / PHYSIQUE DES PARTICULES BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / PHYSIQUE DES PARTICULES LES DOMAINES D’APPLICATION

La genèse du Worldwide centres  Tier2 , près ou dans les laboratoires,


reçoivent ces données pour analyse et simulent les
LHC Computing Grid (WLCG) événements pour confronter les prédictions
À la fin des années 90, avec le succès grandissant théoriques aux observations. Cet effort a été soutenu Fig. 2 : observation du boson de Higgs
d’Internet, l’idée a émergé de construire une grille
par l’Europe avec une succession de projets et a dans le détecteur ATLAS dans les canaux
abouti à la création de la grille EGI. La grille de désintégration Higgs en deux photons
de calcul et de données distribuée, en s’appuyant sur
américaine OSG et celle des pays nordiques (en haut) et Higgs en 4 leptons (en bas).
les centres nationaux existants en physique des
(NorduGRID) sont inter-opérées avec EGI. Au total,
hautes énergies et les réseaux. Dans ce modèle
WLCG comporte actuellement 14 Tier1 et environ
(MONARC), le CERN joue le rôle de centre primaire 200 Tier2, tous interconnectés (Fig. 1) par les
( Tier0 ), relié aux centres nationaux ( Tier1 ) via le réseaux de recherche GEANT en Europe et
réseau privé statique LHCOPN. Le Tier0 et chaque RENATER en France. Un nouveau réseau dédié
Tier1 pérennisent, sur support magnétique, les dynamique (LHCONE) relie, depuis 2013, les gros
données brutes sortant des détecteurs puis les centres Tier2 et les Tier1 pour soulager les liens
traitent en reconstruisant les événements. Les Internet souvent saturés.

Fig. 1 : à gauche, une illustration de la structure hiérarchisée de WLCG.


À droite, une vue instantanée de la grille en action (début mars 2017) avec 368 244 tâches
en exécution et un flux de données échangées de 27,61 Go / s. Chaque ligne verte
sur la figure de droite représente un échange de données entre deux sites de la grille.
5,000
27PB
4,500
4,000
23PB
alice
3,500
15PB ams

Transferred Data Amount (TB)


3,000 atlas

Big Data au LHC :


cms
2,500
PAR compass
2,000
JEAN-PIERRE MEYER lhcb

15 ans déjà !
1,500 na61
ET BRUNO MANSOULIÉ ntof
1,000
(Direction de la recherche fondamentale) other
500
user
2009 2010 2011 2012 2013
Time

Relever le défi du traitement des données du Large Hadron Collider (LHC) a Fig. 3 : quantités de données écrites sur bandes magnétiques au Tier0 pendant les premières années de prise de données du LHC.
Jean-Pierre Meyer est responsable nécessité d’être inventif, pragmatique et patient. Des évolutions sont maintenant Environ 75 % des données proviennent du LHC.
scientifique de la Grille de recherche de nécessaires pour faire face à l’augmentation par un ordre de grandeur du volume
l’Ile-de-France au Service de physique
des particules (Institut de recherches sur de données, pour la période à haute luminosité du LHC (HL-LHC).

E
les lois fondamentales de l’Univers) du CEA.
n physique des particules, pour détecter depuis plus de 25 ans dans la conception et la LOI DE MOORE
MODÈLE STANDARD
des processus rares, il faut mettre le construction du  Large Hadron Collider (LHC)  LARGE HADRON COLLIDER - CERN
paquet, de particules bien sûr, d’énergie Il s’agit de la meilleure description connue de l’ensemble des Elle s’applique à l’évolution, en moyenne tous les 18 mois, de
au  CERN  et de trois de ses quatre détecteurs Pour explorer les constituants et les lois de l’Univers, le CERN la puissance des ordinateurs et de la complexité du matériel
aussi - si l’objet recherché est lourd - et constituants élémentaires de la matière et des interactions
(ALICE, ATLAS et CMS). Les objectifs scientifiques utilise notamment le Large Hadron Collider (LHC) : informatique.
du temps. Du temps pour concevoir une machine et fondamentales (forte, faible et électromagnétique) qui
étaient alors la recherche du boson de Higgs et d’une c’est un anneau de 27 kilomètres, dans lequel 2 faisceaux de
des détecteurs gigantesques capables de reproduire s’exercent entre eux. La cohérence de ce modèle repose sur TIER0, TIER1 et TIER2
nouvelle physique, au-delà du  modèle standard . Tout particules de haute énergie circulent à une vitesse proche de
les conditions qui ont existé au tout début de la vie l’existence d’une particule très spéciale, le boson de Higgs,
Bruno Mansoulié est chercheur pour le était à inventer et nous ne savions pas comment celle de la lumière avant d’entrer en collision. Ce tier-là vient de l’anglais et signifie niveau. On l’utilise pour
de l’Univers. dont le CERN a annoncé la découverte en 2012.
projet ATLAS au Service de physique des faire face aux 10  Petaoctets  (Po) que le LHC allait La collision crée de nouvelles particules observées et désigner des ressources européennes (Tier0), nationales
particules (Institut de recherches sur Au CEA, l’Institut de recherches sur les lois produire chaque année, mais nous comptions sur le enregistrées par 4 détecteurs : ALICE, ATLAS, CMS et LHCb. PETAOCTETS Voir définition p. 2 (Tier1) et locales (Tier2), complémentaires entre elles.
les lois fondamentales de l’Univers) du CEA. fondamentales de l’Univers (IRFU) est engagé temps de construction et la  loi de Moore .

24 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 25
LES DOMAINES D’APPLICATION BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / PHYSIQUE DES PARTICULES BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / CLIMATOLOGIE LES DOMAINES D’APPLICATION

WLCG au CEA métrie, les fichiers sont copiés directement sur le événements. Le CERN propose également de
Les modèles numériques de climat sont construits autour de deux « cœurs dynamiques »,
poste de travail ou sur un cluster du laboratoire. créer un « Cloud données et calcul » dédié au
L’IRFU s’est engagé en 2003 au côté de l’IN2P3 La dernière étape d’analyse - optimiser le rapport LHC avec une dizaine de centres interconnectés
l’un pour l’océan et l’autre pour l’atmosphère, résolvant les équations de la mécanique des fluides
(CNRS) dans la réalisation d’un Tier1 commun, signal sur bruit et estimer les erreurs - est géné- à 1 puis 10 T0/s et les seuls Tier2 possédant une sur une sphère tournante. C’est le modèle dit « système Terre ». La figure montre les maillages
le CC-IN2P3 à Lyon. En 2005, il a créé, avec ses ralement effectuée localement. bande passante de l’ordre de 100 G0/s pour des deux cœurs dynamiques. Le maillage sur les continents est celui de l’atmosphère.
partenaires, un Tier2 distribué en Ile-de-France : apporter de la puissance de calcul à la simulation. Chaque milieu utilise comme conditions limites les informations fournies par l’autre modèle,
GRIF. Grâce à cette infrastructure, les données à Les nouveaux défis de WLCG Les ressources HPC disponibles dans certains avec une fréquence d’échange allant de l’heure à la journée.
analyser sont accessibles aux physiciens de pays, dont les États-Unis, seraient également
Malgré la découverte du boson de Higgs, de
l’IRFU moins de 4 heures après la prise de données
nombreuses questions demeurent. Quelles sont davantage mises à contribution, comme c’est déjà •
au CERN.
les propriétés quantiques de cette particule ? le cas de manière opportuniste. PAR OLIVIER MARTI
Quelle est la physique au-delà du modèle
Trouver le Higgs L’adaptation des réseaux et des moyens de calcul (Direction de la recherche fondamentale)
standard ?
en France est un enjeu essentiel, pour que les
Pour mettre en évidence, en 2012, l’existence
Le CERN a défini la feuille de route du LHC au physiciens des laboratoires nationaux conservent
d’une nouvelle particule ayant les caractéristiques
moins jusqu’en 2035 (Fig. 4). Elle alterne le rôle très important qu’ils ont joué jusqu’à
du boson de Higgs (Fig. 2), nous avons traité une
campagnes de prise de données de 2 ou 3 ans et présent dans la recherche au LHC, notamment
quantité phénoménale de données : reconstruc-
périodes d’amélioration du LHC et des

© CEA
dans la découverte du boson de Higgs.
tion des traces, des énergies, des événements
détecteurs. À chaque campagne le nombre de
entiers, tris statistiques etc. En parallèle, il a fallu

Au plus près
collisions produites par seconde augmente, donc
produire un très grand nombre d’événements
le volume de données enregistré : 35 Po ont été Olivier Marti est chercheur
simulés à partir de la théorie pour les comparer produits en 2016 par RUN2 et on prévoit, par an, au Laboratoire des sciences du climat
aux données expérimentales. environ 100 Po pour RUN3 et 400 Po pour la et de l’environnement du CEA.
période HL-LHC (RUN4).

des données
Fin 2012, le LHC avait produit 50 Po de données
(Fig. 3), réparties dans des dizaines de millions Cette fois, on ne peut plus compter sur
de fichiers. L’unité utilisée pour les analyses est l’augmentation à prix constant de la densité JOHN VON NEUMANN
le jeu de données (dataset) regroupant les fichiers d’intégration, pour le calcul comme le stockage.
de données prises dans les mêmes conditions. Un
John Von Neumann (1903-1957) est un
Il est nécessaire de changer en profondeur les
ensemble de catalogues centralisés au CERN est mathématicien et physicien américain.
modèles de calcul et de distribution des données.
répliqué dans chaque site et permet d’accéder à Il a apporté d’importantes contributions
Pour RUN2, WLCG a déjà utilisé de façon de plus
ces informations partout sur la grille. Une analyse dans différents domaines scientifiques dont
en plus importante la seule ressource qui Les simulations climatiques produisent des petaoctets de résultats qui sont mis à la l’informatique en donnant son nom à
consiste donc à sélectionner les événements continue de croître, la bande passante réseau,
possédant une même signature dans un ensemble pour diminuer ses besoins en stockage sur
disposition de la communauté scientifique pour un partage d’expertise autour de la l’architecture utilisée dans la quasi-totalité des
de jeux de données. La requête d’analyse est disque. Ceci se traduit par moins de réplications validation des modèles, de la compréhension du climat et des études d’impact. ordinateurs modernes.

D
envoyée à un système central qui la découpe en de données, plus d’accès distants et des routes
tâches individuelles transmises vers les centres
ENIAC
dynamiques pour remédier aux coupures réseau
ès 1946,  John Von Neumann  envisage entier se coordonnent pour développer la science de
disponibles. L’utilisateur peut suivre en temps à la volée. Pour RUN3, il est envisagé d’exporter Acronyme d’Electronic Numerical Integrator And
d’utiliser l’ ENIAC  pour la prévision nu- la modélisation climatique et produire des scénarios
Computer, l’ENIAC (1946-1955) est le premier

© CERN
réel l’évolution des tâches et récupérer les fichiers seulement les données reconstruites vers les
mérique du temps. Avec le météoro- climatiques du futur en fonction les scénarios de
produits par son code d’analyse. Suivant la volu- Tier1, soit un gain d’un facteur 20 sur la taille des
logue Jule Charney, ils réalisent une développement socio-économique. La mise à dispo-
ordinateur entièrement électronique, construit
première prévision météorologique en 1950. Loin sition des résultats permet une expertise partagée pour résoudre des problèmes calculatoires.
d’être parfait, le résultat, est encourageant : c’est le autour de la validation des modèles et de la compré- GIEC
coup d’envoi de la prévision numérique du temps et hension du climat, mais aussi des études d’impact.
de la modélisation du climat. Dans les années 90, les équipes fournissent des
Le Groupe d’experts intergouvernemental
Fig. 4 : le planning du LHC : le RUN3 devrait permettre de collecter 10 fois plus de données que le RUN1 et le RUN4 10 fois plus que le RUN3. sur l’évolution du climat a été créé en 1988.
moyennes mensuelles des variables climatiques sur
Les modèles progressent aussi vite que les ordina- des périodes de quelques décennies. Ces données
LHC HL-LHC teurs. La résolution augmente. L’échéance de la pré- sont centralisées. En 2011, la communauté crée la
vision passe de quelques heures à quelques jours. Earth System Grid Federation, un réseau de centres
Run 1 Run 2 Run 3 Run 4 - 5... Vers 1970, les premières études climatiques simulent de calcul et de stockage associé à une base de don-
un mois de janvier et de juillet. Aujourd’hui, des nées commune qui permet à plusieurs dizaines de
LS1
13 TeV
EYETS 13,5-14 TeV LS2 14 TeV LS3 14 TeV
energy
simulations de plusieurs siècles sont courantes, milliers de scientifiques dans le monde d’accéder à Pour aller plus loin
injector upgrade atteignant même plusieurs millénaires. Les modèles plusieurs centaines de petaoctets de données.
splice consolidation cryo Point 4 5 to 7x
7 TeV 8 TeV button collimators DS collimation Cryolimit HL-LHC nominal luminosity intègrent progressivement la représentation des sols Une histoire de la modélisation
interaction regions installation
R2E project P2-P7 (11 T dip.)
et de la végétation. Les modèles dits « système Aujourd’hui, l’utilisateur doit récupérer les données
Civil Eng. P1-P5 du climat : www.history.aip.org/
Terre » apparaissent dans les années 90, couplant qu’il veut analyser sur son ordinateur. Mais les
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 2037
scientifiques souhaitent accéder à des hautes
history/climate/GCM
océan, glace de mer, atmosphère, sols et végétation,
Radiation damage comme le cycle du carbone ou la chimie atmosphé- fréquences (journalières ou horaires) pour étudier Le site du GIEC : www.ipcc.ch
experiment experiment experiment rique. Les simulations d’ensemble permettent les statistiques d’événement extrêmes (tempêtes,
75%
nominal beam pipes nominal luminosity upgrade phase 1 upgrade phase 2 d’étudier les incertitudes. sécheresses, inondations…), les trajectoires de Le site de l’ESGF
luminosity 2 x nominal luminosity cyclone etc. Il devient donc nécessaire de développer (Earth System Grid Federation) :
integrated
Après le premier rapport du  GIEC  en 1990 et le des capacités d’analyses, et donc de calcul, au plus www.esgf.llnl.gov
30 fb-1 150 fb-1 300 fb-1 3000 fb-1 luminosity sommet de Rio (1992), les climatologues du monde près des données.

26 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 27
LES DOMAINES D’APPLICATION BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / CLIMATOLOGIE BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / CLIMATOLOGIE LES DOMAINES D’APPLICATION

• La traque des Le cloud au


gaz à effet de serre service de la météorologie
PAR
FRÉDÉRIC CHEVALLIER
(Direction de la recherche fondamentale) Les transferts
de données
Au sein du Service de surveillance de l’atmosphère du programme européen Plusieurs dizaines de satellites observent la Terre en permanence et permettent de se font à un rythme
Copernicus, le CEA est en charge du suivi des sources, des puits et des suivre des indicateurs climatiques importants. Cela n’aurait pas été possible sans le de l’ordre de
concentrations de dioxyde de carbone dans le monde. développement informatique de ces dernières décennies. 10 Mo/sec.

D
Frédéric Chevallier est directeur ans un contexte d’évolution de la qualité aussi développé et exploite la chaîne de traitement
de recherche au CEA et responsable de l’air et du climat, un nombre grandis- pour le CO2. Deux fois par an, cette chaîne analyse
sant de secteurs de la société sont en les gradients spatio-temporels dans les concentra- Image d’artiste d’un satellite
de l’équipe Modélisation inverse d’observation de la Terre en orbite
demande d’informations fiables sur la tions atmosphériques mesurées sur le globe au cours
pour les mesures atmosphériques
composition atmosphérique, de l’échelle locale à des quatre dernières décennies afin d’en déduire les
et satellitaires du Laboratoire des sciences
du climat et de l’environnement du CEA.
l’échelle mondiale. L’exigence de fiabilité concerne
à la fois la qualité de l’information et la continuité
sources, les puits et les concentrations de ce gaz sur
la même période, avec une précision croissante.

des flux de données pour développer des stratégies PAR
à long terme (d’atténuation, d’adaptation, de com- Ce problème inverse est mathématiquement mal
posé et a une dimension particulièrement importante
FRANÇOIS-MARIE
merce, etc.). Le Service de surveillance de l’atmos-
phère du programme européen Copernicus (CAMS) (10 millions de variables à estimer à partir de 8 mil- BRÉON
recueille des mesures sur l’atmosphère à partir lions d’observations). Il est résolu statistiquement (Direction de la recherche fondamentale)
APPROCHE BAYÉSIENNE d’une large gamme de systèmes d’observation et les par une  approche bayésienne  sophistiquée et à l’aide
combine avec des modèles physiques sophistiqués d’informations sur le transport atmosphérique. La
Approche fondée sur l’inférence bayésienne, génération de chaque produit prend 1 mois sur en-
pour fournir ces informations. Ce service opérationnel
méthode permettant de déduire la probabilité viron 350 cœurs mobilisés de façon intermittente
est géré par une institution internationale, le Centre
d’un événement à partir de celles d’autres européen pour les prévisions météorologiques à sur les moyens du Centre de calcul recherche et
événements déjà évalués. Elle s’appuie moyen terme, basé à Reading au Royaume-Uni. technologie (CCRT) du CEA. Il génère 200 Go de
principalement sur le théorème de Bayes. données. Par rapport aux autres produits d’inver-
Le CEA participe à cette aventure depuis sa création sion disponibles dans la communauté scientifique,

L’
Issu des travaux du révérend Thomas Bayes François-Marie Bréon est
en 2005 en supervisant la composante attachée à la les caractéristiques de ce produit sont sa longue
(1702-1761), édités à titre posthume, observation satellitaire de la tion, en temps réel ou légèrement différé. Les chercheur et directeur adjoint du
surveillance des sources, des puits et des concentrations série chronologique et le traitement des données
ce théorème a été confirmé ensuite des principaux gaz à effet de serre fortement affectés récentes : le retard des produits sur le temps réel, de Terre a débuté dès 1960, soit EN DATA transferts de données se font à un rythme de Laboratoire des sciences du climat
par le mathématicien français Pierre-Simon par les activités humaines : dioxyde de carbone moins de deux ans, est dû à la disponibilité des trois ans seulement après le pre- l’ordre de 10 Mo/sec. Ainsi, et malgré l’opti- et de l’environnement du CEA.
de Laplace (1749-1827). (CO2), méthane (CH4) et oxyde nitreux (N2O). Il a mesures plutôt qu’à des limitations du traitement. mier Spoutnik. Une prévision misation du format des données, un instru-
météorologique de qualité nécessite, en effet, ment transmet chaque jour plusieurs cen-
une observation globale de l’atmosphère - y taines de Go.
compris dans les régions non couvertes par
Colonne totale de CO₂, 2 juin 1980, 12:00 TU Après étalonnage, ces mesures se présentent
l’instrumentation au sol. C’est donc la météo- Satellite
rologie, et les applications liées à la Défense, sous la forme d’une  luminance  dans une
80°N 343
342,5
Estimation des flux  bande spectrale  donnée. Pour les transformer
342
de surface de CO2 (bas) qui ont tiré le développement des satellites
40°N
341,5
341 d’observation. Les premières mesures ont été en paramètres utilisables (température, com-
340,5 et de la colonne totale (haut) position, vitesse du vent…), des algorithmes
340
réalisées dans le domaine spectral solaire,

339,5
339 au 2 juin 1980 à 12:00 TU. de traitement sont appliqués. Ce traitement,
apportant une information similaire à celle de
Pour aller plus loin
338,5
338
337,5
Par convention, les valeurs négatives l’œil humain (comme sur la couverture nua- Station de réception parfois gourmand en temps de calcul, conduit
40°S
 LUMINANCE 
337
336,5
336 des flux représentent des puits geuse). Puis, les instruments embarqués ont généralement à une compression de l’informa-
Le programme européen Copernicus : 80°S
335,5
335 (comme sur la plupart des permis de mesurer, dans un domaine spectral tion, avec un produit «final» moins volumi- Densité spatiale de flux lumineux.
www.atmosphere.copernicus.eu 100°W 0° 100°E ppm écosystèmes terrestres tempérés bien plus vaste - de l’UV aux ondes radios - la neux que la mesure brute.
Flux de CO₂ à la surface du globe, 2 juin 1980, 12:00 TU de l’hémisphère nord, pendant température de la surface ou de l’atmosphère, La distribution des mesures et produits issus  BANDE SPECTRALE 
Le centre européen pour les prévisions la composition atmosphérique, la distribution Centre de traitement
80°N 15
la saison de croissance et en milieu et de distribution de ces observations est libre et généralement Fraction de l’intensité
météorologiques à moyen terme : de journée), et les valeurs positives de végétation, le niveau des mers… D’où l’in-
gratuite. Du fait du volume de données à gé- lumineuse transmise
13
11

www.ecmwf.int térêt d’utiliser également ces satellites pour


indiquent des émissions
9
40°N 7 rer, des centres de traitement et de distribu- pour une longueur d’onde donnée.
5 des applications climatiques. Plus récemment,
3
(comme en Inde pendant la mousson tion spécialisés ont été créés. Ils permettent
1
certains ont été spécifiquement développés
Le Centre de calcul recherche 0° -1
-3 et pendant la nuit). un accès (Web, FTP) aux données brutes comme
dans cet objectif.
et technologie (CCRT) du CEA : 40°S
-5
-7 aux produits et, pour certains, de travailler -
-9
www-ccrt.cea.fr -11
-13
Les satellites envoient leurs observations sous Mise à disposition sans les transférer - sur les données spatiales
80°S -15
© CAMS forme numérique vers des stations de récep- gratuite des données via un compte utilisateur.
100°W 0° 100°E gC/m2/jour

28 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 29
LES DOMAINES D’APPLICATION BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / ASTROPHYSIQUE BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / ASTROPHYSIQUE LES DOMAINES D’APPLICATION

Big Bang

PAR JEAN-LUC STARCK
(Direction de la recherche fondamentale)

EN CHIFFRES

Mission
et Big Data
Caractérisation de la nature Les nouveaux projets internationaux font entrer les cosmologistes dans l’ère du Big Jean-Luc Starck est directeur de recherche

Euclid
de l’énergie sombre Data. Nos interrogations sur la matière noire ou l’énergie sombre, qui compose à elles et chef du laboratoire CosmoStat au sein du
Service d’Astrophysique (Institut de recherches
Date de lancement 2020 deux 95 % du contenu notre Univers, nous imposent de nouveaux défis algorithmiques, sur les lois fondamentales de l’Univers) du CEA.
Partenaire ESA computationnels et théoriques. Le quatrième concerne la recherche reproductible,
Instruments VIS, NISP concept fondamental pour la vérification et la crédibilité des résultats publiés.

aime les données E


Position En orbite au point n cosmologie, le Big Data pourrait aider à Le Big Data génère un nouveau type d’erreur, les er-
de Lagrange L2 résoudre les mystères de l’Univers, voire reurs d’approximations. L’estimation de certaines va-
(situé à 1,5 millions de km de la Terre) mettre en défaut la théorie de la relativité leurs étant difficile avec la technologie actuelle, des
Durée de vie 6 ans et 3 mois d’Einstein. Mais le volume des données
acquises pose de sérieux problèmes de calibration,
approximations sont introduites dans les équations
pour accélérer le temps de calcul ou obtenir une solu-
Pour aller plus loin
d’archivage et d’accès comme d’exploitation scienti- tion analytique. Maîtriser ces erreurs est essentiel pour Laboratoire CosmoStat :
fique des produits obtenus. dériver des résultats corrects mais nécessite un effort
www.cosmostat.org

© ESA
théorique significatif.
Les défis algorithmiques et computationnels Image du fond diffus cosmologique :
Le défi de la recherche reproductible www.cosmostat.org/research/
• Tout l’enjeu est d’analyser ces jeux de données avec des
cmb/planck_wpr2
PAR MARC SAUVAGE algorithmes capables de mettre en évidence des Avec d’énormes volumes de données et des algo-
(Direction de la recherche fondamentale)
Euclid est un satellite de l’Agence spatiale européenne, dont le lancement est signaux à très faible rapport sur bruit et intégrant des rithmes très complexes, il est souvent impossible pour « A Manifesto for Reproductible Science »
prévu fin 2020. Il ambitionne d’élucider la nature de l’énergie noire, ce facteur méthodologies avancées : techniques d’apprentissage, un chercheur de reproduire les figures d’un article. Or, www.nature.com/articles/
outils statistiques, concepts provenant de l’analyse la reproductibilité des résultats est au cœur de la dé- s41562-016-0021
cosmologique auquel on attribue l’accélération de l’expansion de l’Univers. Un harmonique. Disposer de tels algorithmes est un enjeu marche scientifique. D’où le principe qui consiste à
véritable défi en termes de gestion des flux de données ! de taille : la capacité à y parvenir conditionne le retour publier, en plus des résultats, les codes sources ayant La charte de « reproducible science »

L
scientifique de l’engagement des équipes dans les mis- servi à analyser les données et les scripts utilisés pour www.nature.com/articles/
sions internationales. traiter les données et générer les figures. Ce principe s41562-016-0021/tables/1
a mission spatiale Euclid, où le CEA joue Le flot de données brutes produites, à plus de 1,5
Ces défis ont fait émerger une communauté unissant de recherche reproductible est rigoureusement appli-
un rôle majeur, a pour principal objectif milliard de km de la Terre, sera de l’ordre de 100 Go
astrophysique, statistique, informatique, traitement qué par le laboratoire CosmoStat.
d’élucider la nature de l’énergie noire. par jour durant les six ans de mission, auquel s’ajoutera
Marc Sauvage est astrophysicien du signal… Son objectif : promouvoir des méthodolo-
Cette composante essentielle mais inexpli- un volume au moins équivalent de données complé-
et responsable scientifique du Segment Sol gies, développer de nouveaux algorithmes, diffuser les
quée de l’Univers (elle représente presque 70 % de son mentaires issues des observatoires au sol.
de la mission Euclid au sein du Service contenu énergétique) est responsable de l’accéléra-
codes, les utiliser pour l’exploitation scientifique des
d’astrophysique (Institut de recherches sur données et former de jeunes chercheurs à l’interface

© CEA - Bruno Vaquet


tion de son expansion. Le défi tient autant dans ce volume que dans les
les lois fondamentales de l’Univers) du CEA. entre plusieurs disciplines. Un tel laboratoire d’as-
exigences de traitement : les images sont à traiter
Observer l’énergie noire représente un immense tro-statistique a ainsi été créé au CEA : CosmoStat.
immédiatement après leur réception pour détecter
défi. Pour y parvenir, Euclid déploiera une méthode
très indirecte : la mesure de l’évolution des grandes
d’éventuelles dégradations de la performance à Le défi théorique
bord. Il faut aussi étroitement contrôler les algo-
structures massives de l’Univers, qui est le fait de
CCD rithmes de traitement, du fait de la précision requise Pendant longtemps, les erreurs sur l’estimation des
deux forces antagonistes - la gravité qui structure la
Dispositif à transfert de charges pour extraire le signal d’intérêt cosmologique. Enfin, paramètres cosmologiques provenaient d’effets
matière noire en filaments et amas, l’énergie noire
des traitements de plus haut niveau doivent être stochastiques comme le bruit instrumental ou la
(Charge-Coupled Device en anglais) utilisé qui agit comme une force de pression répulsive.
réalisés sur l’ensemble de la surface couverte par le variance cosmique liée à une couverture très partielle
dans les capteurs photographiques Euclid cartographiera les structures de l’Univers à
relevé, complexifiant l’organisation du process qui du ciel. D’où l’utilisation de détecteurs de plus en plus
différentes époques de son évolution, en exploitant
ne peut pas simplement suivre le rythme d’acquisition. sensibles et l’observation de champs du ciel de plus en
le fait que ces structures affectent la propagation
plus grands.
des rayons lumineux en proportion de leur masse
(phénomène de lentille gravitationnelle) déformant Pour ce faire, Euclid s’appuiera sur plusieurs centres -500 500 μK

les images des objets qui se situent derrière elles. de données, répartis en Europe. Un système or-

Pour aller plus loin Euclid mesurera ces déformations sur les images
d’un milliard et demi de galaxies en couvrant plus
chestrateur distribuera, au fur et à mesure de la ré-
ception des données et de la disponibilité des centres Image de la toute première lumière de l’Univers, appelée le fond diffus cosmologique
Le site de la mission Euclid : d’un tiers du ciel. À cette fin, il emportera deux de calcul, des jeux complets de données à traiter, et Retrouvez la version longue de cet article sur : ou encore rayonnement à 3 kelvins, publiée par des chercheurs du Service d’astrophysique du CEA.
www.euclid-ec.org caméras formées de 36  CCD  côté visible et de 16 organisera les traitements de haut niveau à partir cea.fr/multimedia/Pages/editions/clefs-cea/ D’une précision exceptionnelle, elle a été reconstruite à partir des données enregistrées
détecteurs côté infrarouge. d’un deuxième système d’archive distribuée. voyage-au-coeur-du-big-data/big-bang-et-big-data.aspx par les télescopes spatiaux WMAP et Planck, à l’aide de méthodes mathématiques très poussées.

30 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 31
LES DOMAINES D’APPLICATION BIG DATA ET GRANDS INSTRUMENTS SCIENTIFIQUES / ASTROPHYSIQUE LA SANTÉ / GÉNOMIQUE LES DOMAINES D’APPLICATION

Des simulations

CONTRIBUTEURS
(Direction de la recherche fondamentale) Préparation d’une cellule à flux continu (flowcell),

plus réalistes
support des échantillons à séquencer
dans les techniques de séquençage haut-débit.


Afin de comprendre les objets célestes composant l’Univers, les astrophysiciens
Allan Sacha Brun est chef du Laboratoire CONTRIBUTEURS
développent des simulations numériques tridimensionnelles et dépendantes (Direction de la recherche fondamentale)
dynamique des étoiles, des (exo)-planètes
et de leur environnement et chargé de mission
du temps. Elles génèrent une quantité sans cesse croissante de données,
qu’il faut efficacement analyser afin de lever les nombreux voiles entourant

© P. Latron / LookatSciences - CEA


HPC à l’Institut de recherches sur les
lois fondamentales de l’Univers du CEA. les mystères de notre Univers.

L’
Univers est composé d’une multitude nu physique) représentés par des nombres réels
d’objets (planètes, étoiles, milieu in- dits  « double précision »  (stockés sur 8 octets). Pierre Le Ber est Directeur adjoint de
terstellaire, galaxies…) au comporte- Plusieurs milliers de pas de temps sont nécessaires
l’Institut de biologie François Jacob du CEA.
ment dynamique souvent non linéaire, pour former des moyennes temporelles statistique-

La génomique reine du Big Data


associé à une large gamme d’échelles spatiales, éner- ment significatives. On voit très vite l’ampleur de la
Patrick Hennebelle est astrophysicien gétiques et temporelles. La simulation numérique tâche s’il faut multiplier cette volumétrie pour
au Laboratoire de Modélisation des Plasmas haute performance (HPC) est un outil idéal pour parcourir l’espace des paramètres, d’autant que
Astrophysiques à l’Institut de recherches comprendre leur fonctionnement, en résolvant par l’exaflop/s permettra demain d’exécuter des simulations
sur les lois fondamentales de l’Univers du CEA. approximations numériques les équations com- comportant plus de mille milliards de cellules !
plexes de la dynamique des plasmas, couplées à des Depuis la fin des années 1990 et le projet « génome humain », les technologies
processus tels que la compressibilité, le magnétisme, Pour exploiter au mieux les données produites,
le rayonnement, la gravitation... Pour améliorer le précisons que corrélation n’est pas raison. En astro- de séquençage de l’ADN connaissent une véritable révolution qui fait aujourd’hui Claude Scarpelli est Chef du Laboratoire
réalisme de ces simulations, de plus en plus de ré- physique, si un lien physique clair n’est pas établi entrer la génomique dans l’ère du Big Data. d’informatique scientifique du Genoscope

D
solutions spatiales ou spectrales (en énergie ou lon- entre les variables, une corrélation n’a que très à l’Institut de biologie François Jacob du CEA.
gueur d’ondes) et de processus physiques doivent peu d’intérêt et la dynamique des corps célestes ne epuis une quinzaine d’années, le volume données à manipuler et la quasi-impossibilité de
être pris simultanément en compte, générant de peut être reconstruite par des processus de data mi- des données générées dans le domaine calibrer le temps d’exécution. Il s’agit de To de don-
vastes jeux de données à explorer et analyser. Ainsi, ning traditionnels. Pour palier cette difficulté, la de la génomique a crû en proportion nées et de fichiers de plusieurs dizaines ou centaines
Damien Chapon est ingénieur au Laboratoire
la  discrétisation  spatiale des objets simulés nécessite communauté internationale développe des bases de inverse du coût du séquençage [1] : ainsi, de Go, ce qui impose qu’elles soient au plus près des
d’ingénierie logicielle pour les applications de plus en plus de cellules pour reproduire la réalité, données ouvertes (Open Data) favorisant leur analyse le plan France Médecine Génomique 2025, annoncé moyens de calcul, avec des capacités en lecture/écri-
scientifiques à l’Institut de recherches les calculs les plus ambitieux sur les calculateurs grâce à des interfaces augmentées et leur réutilisation, en 2016, prévoit de produire plusieurs dizaines de Po ture adaptées [2]. Pour les projets génomiques
sur les lois fondamentales de l’Univers du CEA. pétaflopiques actuels atteignant jusqu’à 64 milliards par le plus grand nombre. Le CEA a lancé une telle de données par an d’ici 5 ans. Leur stockage, leur d’envergure, l’utilisation des technologies du cloud
de cellules. Chaque cellule suit, au cours du temps, base de données dédiée aux simulations astrophy- accessibilité et leur exploitation sont donc des computing en coordination avec les systèmes HPC
plusieurs champs ou variables physiques (leur siques, dans le cadre du projet COAST (COmputa- problématiques à part entière. Trois domaines sont bien connu du monde de la physique ou plus préci-
nombre augmentant d’autant plus qu’il y a de conte- tional ASTrophysics at Saclay). particulièrement concernés : l’exploration de la sément leur évolution HTC permettra de bénéficier
DISCRÉTISATION diversité du vivant et des écosystèmes complexes, la des points forts de ces différents modèles, à savoir
génomique fonctionnelle (voir encadrés) et la méde-
Découpage en petites cellules du domaine de calcul. la performance en termes d’entrées/sorties et de
cine génomique de précision, qui implique la re-
DOUBLE PRÉCISION
Retrouvez la version longue de cet article sur :
cea.fr/multimedia/Pages/editions/clefs-cea/voyage-au-coeur-du-big-data/astro-simulations.aspx
cherche de biomarqueurs par l’analyse d’ensembles
calcul pour le HTC, et les caractéristique d’élasticité et
d’adaptation à la demande du cloud computing [3].
Pour aller plus loin
de données hétérogènes. La question du volume des
Système d’écriture des nombres utilisé en
informatique et mobilisant 64 bits (la simple
données est par ailleurs indissociable de celle de leur Pour finir, revenons sur deux enjeux essentiels en Le plan France Génomique 2025 :
accumulation au cours de projets s’étalant sur plu- génomique humaine. En premier lieu, le partage des www.inserm.fr/actualites/
précision ne mobilise que 32 bits). Chaque nombre sieurs années : dans le cas de la médecine de préci-
est écrit sous la forme : s×m×2e. données : étant donnée la rareté des événements rubriques/actualites-evenements/
Simulation HPC 3-D à la résolution sion, c’est l’enrichissement des bases de données,
« s » est le signe (+ ou –), « m » est la mantisse génétiques, les données générées pour un individu plan-france-medecine-
avec des données de séquences, phénotypiques,
contenant les chiffres significatifs et « e » est (2000x2048x4096) du Soleil complet avec le ne prennent de sens et de valeur que si elles peuvent genomique-2025
environnementales, médicales, et leur confrontation
l’exposant de 2 (il indique l’ordre de grandeur). code ASH (Brun et al. 2017). être croisées avec de nombreuses bases de données,
permanente avec celles précédemment acquises qui Sur la confidentialité des données :
Nous montrons la composante radiale de la idéalement avec l’ensemble des génomes connus [4].
permet, par un mécanisme d’auto-apprentissage,
En second lieu, la confidentialité des données : rien www.humangenomeprivacy.
vitesse (bleu = descendants). d’affiner les diagnostics et d’identifier des biomar-
n’est plus identifiant que la séquence génomique org/2015/index.html
On remarque les 2 zones, celle interne dite queurs originaux.
« radiative » où des ondes gravito-inertielles se d’un individu qui porte des informations prédictives, Le site du Genoscope :
propagent et celle externe, dite Pour le traitement des données, deux grands types et même au-delà des informations touchant ses des- www.ig.cea.fr/drf/ig/Pages/
Pour aller plus loin « convective » où les mouvements turbulents d’usages ont de gros besoins en calcul : l’assemblage
(la reconstitution de novo de génomes à partir de
cendants, ascendants ou sa fratrie. Cet aspect reste
critique et des solutions élégantes émergent, comme
Genoscope
génèrent des écoulements à grande échelle et
Le site du projet COAST : données brutes de séquençage) et la comparaison de le chiffrement homomorphe, qui permet de calculer Le site de Tara Océans :
du magnétisme par effet dynamo fluide.
www.irfu.cea.fr/Projets/COAST séquences avec celles déjà connues (Fig. 1). Ces deux sur une donnée chiffrée et d’obtenir un résultat lui- www.oceans.taraexpeditions.org
approches ont en partage l’importante quantité de même chiffré.

32 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 33
LES DOMAINES D’APPLICATION LA SANTÉ / GÉNOMIQUE LA SANTÉ / GÉNOMIQUE LES DOMAINES D’APPLICATION

Préserver

1
Merge Fastq, Quality Control (FastQC)
& Adapter Trimming (cutadapt) Explorer le vivant et les PAR PHILIPPE DENIEL
Complete? écosystèmes complexes (Direction des applications militaires)

l’intégrité des données


3
Fastq Splitting
& Alignment (BWA)
SV (mrsFast + VariationHunter Le projet Tara Océans, dont le Genoscope
4
CNV (cn.mops, ExomeDepth,
est un acteur majeur, vise à explorer par une
Merge Bam &
Remove Duplicates (Picard)
CoNIFER, XHMM approche dite métagénomique le plus grand
Bam per Chr? 5
2
Exoncov écosystème planétaire que représente le
BQSR* (GATK) 8
plancton océanique. Encore très peu étudiés,

L
& Split to Chr 6
SNPs/Indels (samtools, GATK VQSR** (GATK)
Unified Genotyper and 9 ces écosystèmes contiennent de 10 à 100
Indel Realignment (GATK)
& Bam Merging
Complete Bam?
Haplotype Caller, Platypus ROH (Allegro)
milliards d’organismes par litre d’eau de mer. e séquençage massif du génome, désormais Elles arrivent via Internet sur des machines de dépôt
7
Alignment & Enrichment Leur impact sur les cycles géochimiques possible, ouvre la voie à de nombreux dédiées. Des tests permettent de certifier leur Philippe Deniel est chef du Laboratoire
Statistics (Picard)
globaux et le climat est extrêmement important champs de recherche dans toutes les conformité et leur intégrité. Elles sont alors architecture du stockage et des systèmes
puisqu’ils absorbent la moitié de notre d i s c i p l i n e s  : b i o l o g i e , m é d e c i n e , envoyées automatiquement dans un système (Département des sciences de la
Modules finished? production en CO2 et dégagent 50 % de l’oxygène agronomie, biodiversité etc. (voir p. 34). Face à cette d’archivage informatique afin de les « sanctuariser ». simulation et de l’information) à la DAM.
de la planète. Malgré cela, leur extraordinaire évolution qui transforme radicalement l’approche Au sein de celui-ci, elles sont référencées dans une
dbSNP, 1000Genomes, 10
EVS, GERP, dbVAR, Combine Vcfs biodiversité reste encore à découvrir ! des sciences du vivant, le projet France Génomique base de données et conservées en double copie sur
DGVa, HGMD
ENSEMBL, Polyphen,
a mis en place dès 2011 une infrastructure Big Data, plusieurs bandes magnétiques.
11 Func (Annotation)
SIFT, GERP, MaxEntScan capable de répondre à ses besoins. Cette
infrastructure (voir illustration) opérationnelle de Les données sont recopiées simultanément sur l’un
Modules finished?
collecte et traitement est installée au Centre de des systèmes de fichiers parallèles du TGCC, afin
* BQSR: Base Quality Score Recalibration
calcul recherche et technologie (CCRT) au sein du d’être accessibles depuis les supercalculateurs. Les

© S.Nicaud / CEA / Tara Expeditions
12 Transfer, Cleanup
** VQSR: Variant Quality Score Recalibration Très grand centre de calcul du CEA (TGCC), sur le fichiers du projet France Génomique sont, là encore,
site DAM/Ile-de-France.
identifiés comme critiques et des copies multiples
Fig. 1 : workflow d’analyse d’exome [2]. Les analyses visent à identifier, dans l’ensemble des lectures, les déterminants génétiques (disques et bandes) sont conservées dans ce second
Mis en œuvre dans le cadre des « infrastructures
(les mutations) impliqués dans différents pathologies (maladies rares ou complexes, cancers). système.
nationales en biologie/santé » des Investissements
Le workflow commence par analyser un ensemble de « lectures » du génome, tout d’abord en comparant chacune d’entre elles
d’avenir, France Génomique s’inscrit aujourd’hui
(environ 300 millions de lectures par génome) à un génome de référence. Les résultats d’alignement sont ensuite réindexés dans la stratégie santé e-2020 décidée en 2016 par
La conservation des résultats expérimentaux et la
en fonction de leur position sur le génome, ce qui permet de déterminer, position par position, pour chaque échantillon l’ensemble le gouvernement. Le TGCC abrite le stockage des
préservation de leur intégrité sont ici les maîtres-
des différences (mutations ponctuelles, insertions, délétions, remaniement génomiques…) relatives au génome de référence Carte satellite des 3 îles marquisiennes. Les tourbillons données expérimentales de France Génomique et les mots de l’architecture informatique dédiée mise en
(« variant calling »). Finalement, l’ensemble des polymorphismes détectés, de l’ordre de 3 millions par génome, doit être comparé de couleur indiquent la présence de plancton. Le rouge résultats des traitements numériques de ces place. Des pannes informatiques (corruption
à un ensemble de bases de données de connaissances pour trouver des associations génétiques ou fonctionnelles avec des représente les zones les plus concentrées en phytoplancton. données. Ces dernières proviennent des expériences silencieuse du contenu d’un support informatique,
fonctions biologiques ou des états pathologiques. Cette phase, d’annotation, génère pour chaque échantillon analysé un fichier au L’orange, le jaune et le vert une concentration décroissante. menées par les chercheurs sur les séquenceurs ADN. panne matérielle sur un équipement informatique)
format standardisé « vcf » (variant calling format), fichier d’échange qui peut être ré-exploité, réinterrogé ou redistribué. Le bleu, une abscence de plancton en surface. Elles ne sont donc pas reproductibles simplement, ou des erreurs humaines (fausse manipulation)
contrairement aux simulations exécutées sur les peuvent survenir. Il est ainsi toujours possible

© P. Stroppa / CEA
supercalculateurs. Ces données doivent donc bénéficier d’accéder à une copie de la version déposée
d’un traitement spécial pour garantir leur préservation. initialement dans le système par les chercheurs.

• 2007-2017, une décennie


[1] Wetterstrand KA. DNA Sequencing Costs:
Data from the NHGRI Genome Sequencing Program (GSP) PAR d’analyse fonctionnelle Vue de l'infrastructure de stockage et de traitement
des données du projet France Génomique.
www.genome.gov/sequencingcosts. MATTHIEU GÉRARD
(Direction de la recherche fondamentale)
des génomes mammifères Zone de dépôt

[2] Kawalia et al. Leveraging the power of high performance


Les premiers séquenceurs à haut débit ont favorisé l’essor
computing for next generation sequencing data analysis: sans précédent de l’analyse fonctionnelle des génomes
tricks and twists from humains et d’organismes modèles tels que la souris. Réseau
a high throughput exome workflow, PLoS One, 5; 10(5): Ils ont permis de définir, à l’échelle du génome entier, France Génomique Zone de travail
Serveur
e0126321 (2015). les profils de distribution de facteurs de transcription Point d’entrée de dépôt
et de marques d’histones, qui contribuent à la régulation réseau
[3] www.doi.org/10.1186/s13742-016-0132-7,
épigénétique du génome [5]. Cette approche
Recommendations on e-infrastructures for next-generation Matthieu Gérard est chef du expérimentale, le ChIP-seq (immuno-précipitation de
sequencing - O. Spjuth, E. Bongcam-Rudloff, J. Dahlberg, Laboratoire épigénomique des Frontale d’accès
chromatine couplée au séquençage massif), au succès calculateur
M. Dahlö, A. Kallio, L. Pireddu, F. Vezzi, E. Korpelainen, mammifères (Institut des sciences mondial, continue à être largement utilisée et de
Gigascience (2016) 5 (1): 1-9 du vivant Frédéric Joliot du CEA). nouveaux protocoles ont été développés pour caractériser
[4] Philippakis et al. The Matchmaker Exchange: les phénomènes de transcription, de dynamique de la Pour aller plus loin
chromatine, ainsi que l’architecture 3D du génome
A Platform for Rare Disease Gene Discovery, Le site de France Génomique :
mammifère. La gestion, l’analyse et l’interprétation des
Hum Mutat. 36(10): 915-21 (2015) Zone d’archivage www.france-genomique.org/spip
données de génomique fonctionnelle, qui s’accumulent de
Mouvement de données géré par les utilisateurs Calculateur
[5] A. Barski, S. Cuddapah, K. Cui, T.Y. Roh, D. E. Schones, façon exponentielle, nécessite des compétences de plus en La présentation du CCRT :
Z. Wang, G. Wei, I. Chepelev, K. and Zhao (2007). plus variées. Un effort de collaboration sans précédent Mouvement de données automatiques géré par le centre de calcul
www-ccrt.cea.fr/fr/le_ccrt/
entre biologistes et informaticiens est essentiel pour faire
« High-resolution profiling of histone methylations Chemin de dépôt presentation_generale
face au rythme des découvertes et de l’apparition de
in the human genome ». Cell 129, 823-837. Chemin d’utilisation Données expérimentales Résultat de traitement
nouvelles approches expérimentales.

34 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 35
LES DOMAINES D’APPLICATION LA SANTÉ / IMAGERIE MÉDICALE LA SANTÉ / IMAGERIE MÉDICALE LES DOMAINES D’APPLICATION

Améliorer
Original online algorithm Original online algorithm Proposed algorithm
1 1
1 full epoch 24 epoch 2 epoch, reduction r =12

l’imagerie du cerveau
L’
Imagerie du cerveau en couleur, suivi de fibres. 235h run time 10h run time 10h run time
imagerie cérébrale est un outil de réfé-
• rence en neurosciences car c’est la prin-
cipale manière non invasive d’aborder
PAR la structure et le fonctionnement du
BERTRAND THIRION cerveau. C’est particulièrement vrai de l’imagerie
(Inria) par résonance magnétique (IRM) dont le dévelop- patient. Récemment, l’équipe Parietal a mené une et pèsent jusqu’à un Go : traiter rapidement des milliers Fig. 2. : dans le cadre du projet Human
pement depuis les années 90 permet de mesurer étude sur environ 900 cas, collectés auprès de 17 d’images devient un véritable fardeau informatique ! Connectome, le jeu de données IRM de cerveaux
l’organisation et l’activité cérébrale. Récemment, il centres et mis en évidence que la mesure des inte- au repos (4 800 volumes par sujet, sur 1 100 sujets)
est cependant apparu que les conclusions tirées de ractions entre les régions périphériques du cerveau Avant même d’avoir atteint les limites de la capacité a pour objectif de délimiter les principaux

© P. Stroppa / CEA
jeux de données obtenus par IRM pouvaient être débouchait sur un diagnostic pour seulement 68 % mémoire des systèmes actuels, ces blocs de données
réseaux cérébraux ayant une activité commune
fragiles d’un point de vue statistique - ce qui a poussé d’entre eux (la chance était de 50 %). Décevant ? massives rendent le calcul dramatiquement inefficace.
au cours du temps. Le volume de données
la communauté scientifique à se tourner vers l’ac- Oui, mais la précision augmente presque linéaire- Le développement d’algorithmes de compression
quisition et l’analyse de données massives.
qui en résulte est de 2 To. Le temps de calcul
ment avec le nombre de cas pris en compte (Fig. 1) adaptés est crucial pour faciliter le traitement des
– ce qui montre que de plus vastes études conduiraient
est prohibitif avec les techniques
images et leur analyse statistique, comme des algo-
Bertrand Thirion dirige l’équipe Les images médicales ne se prêtent pas aisément à probablement à des résultats bien meilleurs. Autre les plus en pointe de dictionary learning (à
rithmes d’apprentissage (voir l’exemple développé
Parietal (Inria / CEA) intégrée une collecte massive : une telle collecte est à la fois découvertes, il est également de plus en plus essentiel information positive tirée de cette étude : la variabi- par l’équipe Parietal en Fig. 2). Nous avons besoin
gauche). Il s’améliore avec le sous-échantillonnage
au sein de la plateforme NeuroSpin onéreuse et chronophage, d’où l’habitude très de partager données et outils d’analyse en support lité entre les sites, bien que source majeure d’incer- d’algorithmes plus puissants et plus efficaces ainsi de données (au milieu) mais au détriment de la
du CEA à Saclay. répandue de collecter les données de 20 à 30 sujets des publications. titude, n’est pas plus nuisible que la variabilité d’un qualité. Il peut être réduit avec des méthodes
que du développement du calcul distribué.
seulement. Beaucoup d’hypothèses peuvent être individu à l’autre quand on prend en compte des stochastiques en ligne qui utilisent des flux
testées sur ces « petits » jeux de données mais ils ont Impact sur les études psychiatriques échantillons suffisamment larges. Etant donné le coût de la collecte de données, leur de données (à droite) tout en conservant
souvent été surexploités et conduit à des conclusions
Prenons l’exemple de la psychiatrie, où les images
partage et leur réutilisation sont les clefs du futur un aussi bon résultat que l’original à gauche.
statistiques erronées : vous ne pouvez pas jouer aux Avec des jeux de données plus grands, éventuelle- développement de l’imagerie cérébrale, ainsi que le
cérébrales servent à comprendre certaines pathologies, Tiré de A. Mensch et al., 2016 [2].
devinettes avec la nature et gagner chaque fois ! ment associés à davantage de tests, nous espérons montrent les grands projets américains et britan-
Notre communauté scientifique a donc réalisé qu’il comme les troubles du spectre autistique, pour obtenir des informations plus précises et fiables - ce niques (projet Human Connectome, ADNI, UK Bio-
était nécessaire d’améliorer l’ensemble du processus lesquels le diagnostic des patients demeure un véri- qui pourrait, à terme, se concrétiser par une meil-
bank). C’est dans cette même perspective que
et de travailler sur des cohortes plus grandes. Ces table enjeu. Les marqueurs de l’imagerie cérébrale leure répartition des sujets en groupes de patients.
l’équipe Parietal a développé une bibliothèque open
cohortes peuvent rarement être obtenues sur un seul peuvent apporter de précieux indices pour com-
source en Python, appelée Joblib, qui optimise l’uti-
site, d’où la nécessité de partager les données entre prendre la nature de ces pathologies et fournir une Les défis techniques à relever
lisation de machines et mémoires multi-cœurs avec
plusieurs centres. Par souci de reproductibilité des information quantitative sur l’état du cerveau du
La principale difficulté rencontrée avec l’augmentation un très faible surcoût sur le code. Parallèlement,
de la taille des jeux de données est le coût du calcul pour favoriser la réutilisation de données, d’importants
lié aux différentes étapes de l’analyse. Pour mé- efforts sont à consentir en termes de standardisation
moire, les images fonctionnelles du cerveau sont en des formats et de l’organisation des données, comme
quatre dimensions (à la fois spatiales et temporelles) les formats BIDS.

Fig. 1 : gain en efficacité statistique par l’utilisation [1] Alexandre Abraham, Michael Milham,
de cohortes plus grandes en neuroimagerie. Adriana Di Martino, R. Cameron Craddock, Dimitris
Dans cette étude, l’objectif est de distinguer Samaras, Bertrand Thirion, Gaël Varoquaux.
les patients autistes de contrôles en utilisant Deriving reproducible biomarkers from multi-site
l’imagerie (connectivité fonctionnelle). Sur chaque resting-state data: An Autism-based example.
courbe, on peut voir que la classification correcte NeuroImage, Elsevier, 2016.
augmente avec le nombre d’individus considérés. Pour aller plus loin
En outre, le recours à une population plus large, [2] Arthur Mensch, Julien Mairal, Bertrand Thirion,
bien que plus hétérogène (figure de droite) permet Présentation de NeuroSpin : www.i2bm.cea.fr/drf/i2bm/english/Pages/NeuroSpin/Presentation.aspx
Gaël Varoquaux. Dictionary Learning for Massive
un pronostic bien plus précis. Présentation de l’équipe Parietal : www.team.inria.fr/parietal/
Matrix Factorization International Conference on
Tiré de A. Abraham et al., 2016. [1] La bibliothèque open source en Python, Joblib : www.pythonhosted.org/joblib Machine Learning, Jun 2016, New York,
Les formats BIDS : www. bids.neuroimaging.io United States. JMLR Workshop and Conference
Proceedings, 48, pp.1737-1746, 2016.

36 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 37
LES DOMAINES D’APPLICATION LA SANTÉ / IMAGERIE MÉDICALE L’ÉNERGIE LES DOMAINES D’APPLICATION

CATI agrège les données




CONTRIBUTEURS
(Direction de la recherche fondamentale)
CONTRIBUTEURS

de la recherche clinique
(Direction de l’énergie nucléaire)

Créée en 2011 par un consortium de laboratoires de recherche en neuroimagerie, dont


Jean-Francois Mangin est directeur celui du CEA, la plateforme CATI joue un rôle de concentrateur de technologie national en Gilles Arnaud est chercheur au Service de
du Centre d’acquisition et de traitement mettant rapidement en production, à destination de la recherche clinique, les avancées thermohydraulique et de mécanique des fluides
d’images (CATI) au sein de NeurosSpin
(Institut des sciences du vivant Frédéric réalisées en France ou ailleurs. (Direction des activités nucléaires de Saclay)

L
du CEA.
Joliot) du CEA.
a plateforme CATI est née en 2011 d’un groupe En rendant l’imagerie multicentrique financièrement
de laboratoires de recherche en neuroimagerie abordable grâce à des gains d’échelle, CATI a accéléré
associant NeuroSpin (CEA), des unités mixtes l’émergence de nouvelles études cliniques. Ainsi, au-
de recherche Inserm-UPMC- CNRS-INRIA, jourd’hui, plus d’une trentaine d’études font appel à ses
l’AP-HP et l’Institut du cerveau et de la moelle (ICM) à services, sur un large spectre de pathologies : Alzheimer,
l’hôpital de la Pitié Salpêtrière. Créée dans le cadre du
s
démences à corps de Lewy, démences fronto-temporales,
plan Alzheimer (2008-2012) pour soutenir l’essor de la

Neutronique et Big Data


Parkinson, Huntington, sclérose latérale amyotrophique,
neuroimagerie multicentrique dans les programmes de Jean-Marc Martinez est chercheur au Service
Marie Chupin est co-directeur troubles bipolaires…
recherche clinique sur les démences, elle joue aujourd’hui de thermohydraulique et de mécanique
opérationnel de CATI au sein de
un rôle de concentrateur de technologie national. Objectif : CATI a déjà analysé les images issues de plus de 10 000 des fluides (Direction des activités nucléaires
NeurosSpin (Institut des sciences
mettre rapidement en production, à destination de la sujets, générant une base de données nationale harmo- de Saclay) du CEA.
du vivant Frédéric Joliot) du CEA. recherche clinique, les avancées réalisées en France ou
nisée multi-pathologies sans équivalent dans le monde.
ailleurs. Elle valorise ainsi de nombreux logiciels initia-
lement conçus au sein de laboratoires français acadé-
Cette base sera peu à peu mise à disposition de la com- La problématique des données massives n’est pas entièrement nouvelle en
munauté du machine learning pour identifier les biomar-
miques et mène ses propres programmes de R&D pour
queurs utiles au diagnostic précoce et différentiel, au
neutronique… Notamment quand il s’agit de traiter les résultats provenant d’un
minimiser autant que possible les biais liés à la multiplicité
des types de scanners, en optimisant les paramètres pronostic clinique, aux essais et au suivi thérapeutique. nombre élevé de simulations numériques dans le but d’optimiser, simultanément
d’acquisitions et la robustesse des algorithmes d’analyses. Les standards d’acquisition mis en place pour la recherche sous plusieurs critères et contraintes, la configuration et les performances
pourront alors être étendus à l’ensemble du parc national
Yann Cointepas est co-directeur
Elle dispose d’un réseau d’une centaine de services associées d’un cœur de réacteur nucléaire. Jean-Michel Do est chercheur au Service
d’imagerie harmonisés, maillant le territoire et une partie d’imageurs pour exploiter ces biomarqueurs en routine.
d’études de réacteurs et de mathématiques

C
opérationnel de CATI au sein de de l’Europe. Les images collectées par un service web À moyen terme, CATI pourrait intégrer l’ensemble des
appliquées (Direction des activités nucléaires
NeurosSpin (Institut des sciences sont contrôlées puis analysées avec un niveau de qualité données produites au sein des hôpitaux, de manière à omprendre et maîtriser l’ensemble des quement, par des modélisations appropriées, la
de Saclay) du CEA.
du vivant Frédéric Joliot) du CEA. et de productivité industriel. disposer de plusieurs millions d’individus. phénomènes qui affectent la population dimension du problème à résoudre pour satisfaire
neutronique dans un cœur de réacteur un critère coût-précision exigeant (par exemple, un
nucléaire en toute situation de fonction- calcul de cœur en quelques secondes). Les calculs
nement est essentiel (Fig. 1). dits de référence (High Fidelity) veulent être les plus
« CATI a déjà analysé Les calculs de neutronique dits calculs de cœur per- exhaustifs possible, ce qui peut représenter plu-
les images issues de plus mettent d’accéder aux paramètres clés de sûreté : sieurs centaines de millions de valeurs.

de 10 000 sujets, générant facteurs de point chaud (pics de puissance dans le


Dans les deux cas, les solveurs de calcul ont besoin
Karim Ammar est chercheur au Service
cœur), coefficients de réactivité (sensibilité de la

© G. Operto
une base de données réaction en chaîne à la variation de paramètres d’être alimentés en amont par un très important
d’études de réacteurs et de mathématiques
Schéma du flux de données
nationale harmonisée au sein de la plateforme CATI
physiques tels que la température du combustible volume de données nucléaires, pouvant atteindre
plusieurs teraoctets pour des études très fines. La
appliquées (Direction des activités nucléaires
nucléaire et celle du modérateur), marge d’anti-ré- de Saclay) du CEA.
multi-pathologies sans activité (amplitude de la réduction de la réactivité problématique des données massives n’est donc pas
équivalent dans le monde. » du cœur ou niveau de sous-criticité) lors d’un arrêt entièrement nouvelle en neutronique ! Elle nous
automatique du réacteur. conduit aujourd’hui à repenser les codes de neutro-
niques pour exploiter pleinement les nouvelles
Les approches de modélisation et de simulation adop-
opportunités offertes par les ressources du HPC.
tées en neutronique sont en général de deux sortes,
déterministe et probabiliste. Les données à mobiliser Au-delà de cet aspect, notre préoccupation est aussi
dans un calcul de cœur d’un réacteur nucléaire sont de
Pour aller plus loin différentes natures (nucléaires, technologiques, de fonc-
de traiter les résultats provenant d’un nombre élevé
de simulations numériques dans le but d’optimiser,
tionnement…) et couvrent plusieurs échelles physiques
Le site de la plateforme CATI : d’espace, de temps et d’énergie.
simultanément sous plusieurs critères et contraintes,
www.cati-neuroimaging.com la configuration et les performances associées d’un
Les calculs industriels requièrent de réduire drasti- cœur de réacteur nucléaire.

38 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 39
LES DOMAINES D’APPLICATION L’ÉNERGIE L’ÉNERGIE LES DOMAINES D’APPLICATION

Stratégie efficiente Dans son principe, le processus d’optimisation Application à la conception Fig. 2 : caractérisation de configurations réacteur selon une approche génétique Fig. 3 : algorithme évolutionnaire
consiste à générer au hasard un ensemble d’indi-
d’optimisation des cœurs de réacteur du réacteur ASTRID
vidus (la population initiale), classer les individus
Dans le domaine de l’optimisation, les algorithmes en fonction du degré de satisfaction des critères Cette stratégie d’optimisation est notamment
dits évolutionnaires sont utilisés depuis les années retenus et éliminer ceux ne les respectant pas, mise en œuvre pour la conception de la prochaine
1960 pour traiter des problèmes multi-objectifs créer une nouvelle population par sélection, croi- génération de réacteurs nucléaires qui nécessite
ou multicritères. Ce sont des algorithmes à popula- sement et mutation et l’évaluer vis-à-vis des critères d’explorer un nombre conséquent de configura-
tion : chaque individu de la population représente définis (Fig. 3). tions possibles, chacune soumise à une série de
une solution potentielle et elle évolue avec critères et de contraintes. Prenons le cas du pro-
l’apparition et la disparition d’individus par Le résultat de ce type d’optimisation ne se résume totype de réacteur ASTRID - Advanced Sodium
phase successive appelée génération. pas à un seul individu (une seule configuration Technological Reactor for Industrial Demonstra-
réacteur) mais à une population d’individus (un tion - de 4ème génération, d’une puissance de 600
Dans notre cas, nous avons utilisé les algorithmes ensemble de configurations réacteur) appelée MWe  : il doit répondre aux contraintes environ-
génétiques, une classe particulière d’algorithmes population  Pareto  optimale (impossible d’amé- nementales et démontrer sa viabilité industrielle
évolutionnaires, où un individu représentant un liorer un critère sans pénaliser les autres) et en ayant un niveau de sûreté au moins équivalent
cœur de réacteur est caractérisé par son génotype occupant dans l’espace des critères une région aux réacteurs de 3ème génération, en intégrant le
et son phénotype (Fig. 2). dite front de Pareto. retour d’expérience de l’accident nucléaire de
Fukushima et en permettant la transmutation des
actinides mineurs [1 et 2].
Fission nucléaire © P. Stroppa / CEA
Ici, plusieurs critères sont à minimiser, dont la
Rayonnement γ
variation en réactivité en fin de cycle, le coeffi- PARETO
Produit de fission
cient de vidange, la température maximale du
Noyau fissile sodium durant une séquence acciden- Du nom du sociologue et économiste italien
Neutron libéré telle  ULOF … Et différentes contraintes sont à Vilfredo Pareto (1848-1923)
respecter comme la variation maximale de la  
Neutron libre
 réactivité sur un cycle  (2 600 pcm), la fourchette ULOF
du gain de régénération (-0,1 - +0,1), le nombre
Produit de fission
maximal de  dpa   (140), le volume maximal du
Unprotected Loss Of Flow Accident :
Rayonnement γ
cœur (13,7 m3), la température maximale du transitoire accidentel induit par l’ébullition
sodium durant une séquence accidentelle ULOF  du sodium suite à un arrêt des pompes
(1 200°C) et la température maximale du combus- non protégé.
tible en fin de cycle (2 500°C).
Réactivité sur un cycle / pcm
Les performances de plus de dix millions de
réacteurs ont été évaluées pour sélectionner les Quantité sans dimension permettant
Réaction en chaîne configurations optimales vis-à-vis de ces critères d’évaluer les petites variations du facteur
et contraintes. L’exploration dans l’espace de de multiplication des neutrons. Sa valeur
Couvercle
de la cuve
recherche s’est faite par l’intermédiaire de étant très petite, elle est généralement
méta-modèles (dont les réseaux de neurones) exprimée en cent millièmes, en prenant
pour réduire les temps de calcul. pour unité le pcm (pour cent mille).
Cette étude a abouti à la caractérisation d’une
population Pareto optimale de 25 000 indivi-
dpa
dus-réacteurs. Elle a fourni des résultats via une (Nombre de) déplacements par atome,
Sortie Entrée visualisation en coordonnées parallèles où une des grandeurs caractérisant les
eau primaire eau primaire
chaque fil correspond à un individu (un réacteur)
dommages induits par les neutrons dans les
et chaque barre la plage de variation, au sein de
Cœur matériaux soumis à leur irradiation.
la population, des caractéristiques (critères, pa-
ramètres, propriétés) des individus.
Cuve du Modélisation d’Astrid projetée sur le mur d’images de la DEN
réacteur
Ces travaux et d’autres ont attiré l’attention sur
des améliorations possibles pour traiter des pro-
blématiques où le nombre d’objectifs est élevé.
D’autres domaines de recherche sont ouverts,
notamment l’optimisation sous incertitudes, qu’il Pour aller plus loin
s’agisse d’incertitudes aléatoires ou/et épisté-
Fig. 1 : de la fission élémentaire induite par neutron à la production d’énergie électrique par centrale nucléaire. La neutronique, ouvrage collectif,
miques liées aux marges d’imprécision due à un
[1] E. Hourcade, F. Gaudier, G. Arnaud, D. Funtowiez, K. Ammar,  «Supercomputing application for reactors code design and optimization », Monographie de la Direction
manque de connaissances, de retour d’expérience
Joint International Conference on Supercomputing in Nuclear Applications and Monte Carlo 2010, Tokyo, Japan, October 17-21, 2010. de l’énergie nucléaire,
ou d’informations partagées sur un système.
Retrouvez la version longue de cet article sur : [2] K. Ammar, « Conception multi-physique et multi-objectif des cœurs de RNR-Na hétérogènes : développement d’une méthode CEA / Éditions Le Moniteur, 2013
cea.fr/multimedia/Pages/editions/clefs-cea/voyage-au-coeur-du-big-data/neutronique-et-big-data.aspx d’optimisation sous incertitudes », thèse de doctorat, Université Paris Sud, 2015.

40 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 41
LES DOMAINES D’APPLICATION LES DONNÉES DE L’INDUSTRIE LES DONNÉES DE LA VIE QUOTIDIENNE / MOBILITÉ LES DOMAINES D’APPLICATION

La fabrique de l’avenir

CONTRIBUTEURS
(Direction de la recherche technologique)

Le Big Data est au cœur de l’usine du futur. Car cette usine est connectée : elle

produit une quantité extraordinaire de données qu’il faut ensuite analyser de la
CONTRIBUTEURS
façon la plus pertinente possible. (Direction de la recherche technologique)

L’
Anthony Larue est chef du Laboratoire analyse de larges quantités de données Le CEA / List développe de nombreuses solutions
analyse de données et intelligence est un enjeu crucial pour l’usine du futur. d’analyse de données pour ces usages industriels sur
Selon un rapport du site britannique sa  plateforme Factory Lab . L’Institut a lancé deux
des systèmes (Département métrologie,
SCM World, 47 % des manufacturiers projets autour de la maintenance prédictive : MaPOP
instrumentation et information) du CEA / List.
pensent que les technologies associées au Big Data avec Actemium, PSA, Safran et plusieurs PME
représenteront une rupture pour cette usine, et le spécialistes de l’analyse de données pour cartogra-
nombre d’applications à forte valeur ajoutée se multiplie. phier les solutions existantes, et SMART avec PSA, Anthony Larue est chef du Laboratoire
Bureau Veritas et Technip pour développer des analyse de données et intelligence
À l’origine de cette quantité de données, l’utilisation
logiciels d’extraction d’information sémantique et de des systèmes (Département métrologie,
massive de capteurs sur les lignes de production.
configuration des connaissances métier. Objectif : instrumentation et information) du CEA / List.
Grâce aux technologies de monitoring des systèmes
exploiter efficacement les informations non structu-
industriels - souvent appelées l’Internet des objets
rées provenant de rapports d’intervention.
Juan Cadavid est responsable des affaires industriels, il est possible d’enregistrer de nom-
européennes pour le Département ingénierie breuses données sur les outils de production. Ces Enfin, concernant le suivi de l’activité opérateurs, le
logicielle et systèmes du CEA / List. données peuvent ensuite être analysées en ligne ou CEA / List mène le projet IMPROVE avec PSA et deux
propagées au sein de l’entreprise voire au-delà, grâce PME pour exploiter les remontées des chaînes de
au  cloud computing.  production, présenter des informations contextuali-
sées à ces opérateurs et ainsi faciliter la gestion de la

Quand la ville
De multiples possibilités diversité des modèles.
Sara Tucci est Responsable Programme
pour valoriser l’intelligence des données Blockchain au Département d’ingénierie
logiciels et systèmes du CEA / List.
Le retour sur investissement des technologies Big

devient intelligente
Data se concrétise de multiples façons : analyse en
Sara Tucci est responsable programme temps réel de la performance de l’usine, replanification CLOUD COMPUTING
blockchain au Département d’ingénierie en temps réel de tâches en fonction des contraintes et
Le cloud computing (ou informatique en nuage) est l’exploitation
logiciels et systèmes du CEA / List. aléas de production, gestion intelligente de la chaîne
logistique, analyse de la qualité de la production, de la puissance de calcul ou de stockage de serveurs informatiques
gestion et analyse de la performance des équipements distants par l’intermédiaire d’un réseau et loués à la demande.
industriels et modèles d’anticipation de pannes Les données et leur exploitation permettent d’optimiser la gestion des
PLATEFORME FACTORY LAB Juan Cadavid est responsable des affaires
(maintenance prédictive), gestion efficace de l’énergie, infrastructures de la ville et ouvrent de nouveaux horizons à des échelles plus européennes pour le Département ingénierie
suivi de l’activité des opérateurs pour une meilleure Factory Lab est un hôtel à projets d’innovations pour l’industrie
gestion de la production et de leur bien-être. du futur. larges comme service à l’usager et pour une gestion globale plus performante. logiciels et systèmes du CEA / List.

L
Sylvie Naudet est chercheur au Laboratoire es technologies Big Data sont déjà présentes Pour la gestion des infrastructures et des réseaux de

© Vincent Guilly / CEA
dans de nombreux systèmes de la vie quo- distribution, les méthodes de machine learning sont
vision et ingénierie des contenus (Département
tidienne : smartphones et objets connectés, souvent utilisées pour prédire des consommations ou
intelligence ambiante et systèmes interactifs)
bâtiments dits intelligents, véhicules auto- des usages. Mais le pilotage de telles infrastructures
du CEA / List. nomes… La collecte et l’exploitation des données gé- nécessite aussi de développer des outils de détection
nérées par ces systèmes sont très avancées industriel- de comportements anormaux qui utilisent des
lement et la vague de digitalisation des usages s’est méthodes d’intelligence artificielle. Dans le cadre du
déjà attaquée à des systèmes plus grands tels que les projet européen SmartWater4Europe, le CEA/ List a
transports, les réseaux de distribution d’eau, de gaz
et d’électricité, la collecte des déchets…
ainsi développé des algorithmes d’analyse en flux de
signaux de réseaux d’eau pour la détection de fuites.
Pour aller plus loin
Le projet SmartWater4Europe :
L’exploitation de ces données s’avère complexe car De même, dans le contexte de son partenariat avec www.sw4eu.com
Margarita Anastassova est experte Vue intérieure du bâtiment de la plateforme de transfert technologique Midi-Pyrénées. elles sont très hétérogènes du fait de leur nature, leur TIGF qui opère un réseau de distribution de gaz, il a
au Laboratoire d’interfaces sensorielles origine et des opérateurs qui les collectent. Leur croi- mis en œuvre sa plateforme logicielle de système Transport Infrastructures Gaz France
et ambiantes (Département intelligence sement par les technologies Big Data est tout aussi expert EXPRESSIF (t) pour optimiser les décisions (TIGF) : www.tigf.fr/accueil
difficile car il faut réaliser une agrégation perfor- d’actions de maintenance sur le réseau avec une aug-
ambiante et systèmes interactifs) du CEA / List.
Pour aller plus loin mante de ces données pour le stockage et le traite- mentation de leur pertinence d’un facteur 5. Enfin,
La plateforme de R&D :
www-list.cea.fr/innover-pour-
ment, tout en conservant leurs dimensions tempo- l’institut s’intéresse au pilotage optimisé de réseaux,
Le rapport de SCM World : www.scmworld.com/the-digital-factory relle comme spatiale. Pour le stockage, le CEA / List notamment énergétiques, à l’échelle locale (smart l-industrie/nos-atouts-pour-les-
Le site de Factory Lab : www.factorylab.fr/#innovations travaille sur des outils d’ingénierie dirigés par les building and smart grid), par des technologies d’in- industriels/plateformes-de-r-d
modèles pour réaliser une modélisation performante. telligence distribuée.

42 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 43
LES DOMAINES D’APPLICATION LES DONNÉES DE LA VIE QUOTIDIENNE / L’INTERNET DES OBJETS PERSPECTIVES


PAR
VINCENT BONTEMS
• ET ETIENNE KLEIN
(Direction de la
PAR LEVENT GÜRGEN recherche fondamentale)
(Direction de la recherche technologique)
Levent Gürgen
est chef de projets R&D au CEA / Leti.

Vers un monde interconnecté Etienne Klein est physicien


et chef du Laboratoire de recherche
sur les sciences de la matière
(Institut de recherches sur les lois
Couvrant autant les aspects sociaux qu’économiques, l’Internet des objets et les données fondamentales de l’Univers du CEA).

Le Big Data va-t-il


massives générées offrent d’innombrables possibilités pour améliorer la qualité de vie et
la sécurité des citoyens, tout en réduisant les inégalités et en fournissant de nouvelles
sources de revenus aux entreprises qui font preuve d’initiatives - des grands groupes et

changer la science ?
administrations publiques aux PME, startups et entrepreneurs du Web.

A
ujourd’hui, les données sont omniprésentes, applications en temps réel nécessitent habituellement de
générées par les nouveaux dispositifs de l’Internet faibles latences, rendant ainsi insuffisante une solution de
des objets (IoT), les systèmes existants, le nombre
Vincent Bontems est philosophe
cloud centralisé, étant donné que le réseau est toujours consi-
des sciences au LARSIM.
croissant de réseaux sociaux, les applications déré comme un goulet d’étranglement potentiel. En outre, En juin 2008, Chris Anderson, rédacteur en chef de Wired Magazine, publiait un article
mobiles, les dépôts de données en libre accès, les données web dans bien des cas, le fait de placer des données sensibles dans
etc. Ces données devraient être exploitées de manière intelli- un service extérieur est mal accepté par les utilisateurs. Le
au titre provocateur : " The End of Theory: The Data Deluge Makes the Scientific Method
gente pour l’analyse descriptive, prédictive et prescriptive qui stockage et le traitement de données à proximité des sources Obsolete". Selon lui, lorsque nous disposerons de suffisamment de données, les
sert à la prise de décision dans les entreprises et la société en (par ex., en marge) sont donc préférables et facilitent native- nombres parleront d’eux-mêmes et les corrélations ainsi dévoilées remplaceront les « Aucune méthode inductive
général. La création de valeur qui découle peut devenir un
moteur essentiel de l’économie européenne.
ment la protection de la vie privée et la diffusion de l’informa-
tion en temps réel. relations de causalité que postulent les théories. La science pourra alors se développer ne peut conduire aux
sans faire d’hypothèses explicites. concepts fondamentaux
Le CEA coordonne un nouveau projet collaboratif entre
Le Cloud Computing fournit déjà un environnement d’exécu-
de la physique.

L
tion virtuel flexible pour traiter des données sur un nombre l’Europe et le Japon, baptisé BigClouT, qui aborde les défis
potentiellement infini de ressources, s’adaptant de manière inhérents au foisonnement des sources de données dans les e Big Data, ce sont des données brutes et raisonnement scientifique à l’induction. En 1915, Einstein L’incapacité à le comprendre
dynamique aux besoins spécifiques. Il met en œuvre, en par-
ticulier, de nouveaux modèles économiques basés sur une
environnements urbains. Ce projet met en pratique un système
d’information distribué, diffusé en temps réel et desservant
silencieuses analysées par des algorithmes pour
y détecter des régularités, par exemple dans le
publia la théorie de la relativité générale, alors qu’on avait
peu de données sur l’Univers : il ignorait, par exemple,
est la plus grave erreur
facturation à l’usage qui réduit l’investissement initial et les quatre villes pilotes (Grenoble, Bristol, Fujisawa et Mitaka). Il comportement des consommateurs, des qu’existassent d’autres galaxies. Ses équations ont philosophique de nombreux
coûts d’exploitation associés, et aide les nouveaux fournisseurs offre au CEA l’opportunité de valider sa plateforme open
source, sensiNact, via des applications dans les domaines du
machines, des indices économiques, du trafic routier…
De ces régularités, ils infèrent des règles prédictives que
parfaitement intégré la quantité gigantesque de données penseurs du XIXe siècle. »
de services, en particulier pour les PME, à pénétrer un vaste recueillies depuis lors et elles ont, en outre, permis de
marché avec un minimum de contraintes en matière de ges- tourisme, du transport, de l’énergie et de la télédétection nous avons tendance à considérer comme des lois prédire l’existence des trous noirs ou des ondes Lettre datée du 24 avril 1920,
tion d’infrastructures. participative. sensiNact vient de rejoindre la communauté générales, alors qu’elles ne sont que la condensation de ce gravitationnelles. in « Albert Einstein, Lettres à Maurice Solovine »,
Eclipse pour dessiner les villes intelligentes du futur avec dif- qui a déjà eu lieu. Elles ne prédisent l’avenir qu’à la Gauthier-Villars, Paris.
Imaginons maintenant que nous ayons commencé avec
Cependant, l’intégration du paradigme « cloud computing » férents acteurs comme les municipalités, les grandes et petites condition qu’il prolonge le passé, sans surprise ni
toutes les données à disposition aujourd’hui, mais sans
présente des barrières technologiques et économiques. Les entreprises, les startups, les centres de recherche etc. invention.
connaître la théorie de la relativité générale. Pourrions-
Le fait que cette détection de régularités s’opère nous, par une sorte d’induction théorique passant des
automatiquement, sans préjugé théorique, ouvre des données aux lois, découvrir les équations d’Einstein ? La
perspectives fascinantes, mais on peut aussi craindre que réponse de ce dernier aurait été négative : « Aucune méthode
de multiples corrélations soient interprétées à tort comme inductive, écrivit-il à son ami Maurice Solovine, ne peut
Pour aller plus loin
Pour aller plus loin
des relations de causalité : Coluche ne déconseillait-il pas conduire aux concepts fondamentaux de la physique.
d’aller à l’hôpital au motif qu’on y meurt plus souvent que L’incapacité à le comprendre est la plus grave erreur
L’article de Chris Anderson :
chez soi ? philosophique de nombreux penseurs du XIXe siècle ».
Le projet BigClouT: www.bigclout.eu - La communauté Eclipse : www.projects.eclipse.org/proposals/eclipse-sensinact www.wired.com/2008/06/pb-theory
Avec le Big Data, la tentation est grande de réduire le Le XXIè siècle pourrait-il changer la donne ?

44 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 45
PERSPECTIVES INFORMATION / ABONNEMENTS

#65
• À DÉCOUVRIR EN NOVEMBRE
PAR
PHILIPPE WATTEAU

LA TRANSITION
#64
(Direction de la recherche technologique) JUIN 2017

Philippe Watteau est directeur du CEA / List.


ENERGETIQUE
La nouvelle frontière
Clefs CEA N° 64 - Juin 2017

Revue éditée par le CEA


Direction de la communication
« Il est désormais possible, Bâtiment Siège
à partir de gigantesques bases de La quantité exponentielle d’informations numériques à disposition dans le monde
91 191 Gif-sur-Yvette Cedex - FR
Tél. : (+33) 1 64 50 10 00
données, de repérer les tendances ouvre de nouvelles perspectives pour créer de la valeur. À la condition de bien
commerciales, de prévenir les définir leurs usages.
Directeur de la publication
Xavier Clément

W
maladies aussi bien que de lutter
La gouvernance des données, Rédacteur en chef
contre la criminalité. almart, géant multinational de la
distribution de détail, gère plus d’un préoccupation majeure des entreprises. Laetitia Baudin
Bien gérées, les données peuvent million de transactions clients par laetitia.baudin@cea.fr
ainsi être utilisées pour débloquer heure, alimentant des bases de
données estimées à plus de 2,5 petaoctets - l’équivalent
L’inflation du volume de données dont disposent les
entreprises pose de nouveaux défis liés à l’envolée des Comité éditorial
de nouvelles sources de valeur. » de 167 fois le contenu de la Bibliothèque du Congrès coûts de stockage, la conformité réglementaire ou la Bernard Bonin, Cécile Castille, Etienne Klein,
des États-Unis. Facebook abrite plus de 40 milliards sécurisation… Ces enjeux seront, dans les années à Gérard Sanchez, Jean-Luc Sida,
de photos. De même, le décodage du génome humain venir, une priorité. Malgorzata Tkatchenko
- qui implique l’analyse de 3 milliards de paires de
La monétisation des données : Iconographie
bases - et a pris 10 ans la première fois ou il a été réa-
vers de nouveaux business modèles. Thinkstock
lisé, est aujourd’hui effectué en quelques heures.
Dans tous les secteurs économiques, les entreprises Abonnement
Vous voulez continuer de nous lire :
Ce « déluge » d’informations numériques, qui continue
prennent conscience de la valeur de leurs données L’abonnement à la revue Clefs CEA
de croître exponentiellement, est également une
confirmez votre abonnement par e-mail !
pour des partenaires externes. Elles commencent à
véritable mine d’or : il est désormais possible, à partir (version papier) est gratuit.
élaborer des modèles économiques leur permettant
de gigantesques bases de données, de repérer les Les demandes d’abonnement
de générer des revenus additionnels, tout en respec- Envoyez votre nom, prénom,
tendances commerciales, de prévenir les maladies doivent être adressées, de préférence
tant le cadre réglementaire évolutif et la confidentia- adresse postale et adresse e-mail (recommandé) à :
aussi bien que de lutter contre la criminalité. Bien lité. Des « pure players » apparaissent déjà pour ac- par Internet, à l’aide du formulaire
clefs-cea@cea.fr
Pour aller plus loin
gérées, les données peuvent ainsi être utilisées pour quérir, recouper et enrichir ces données, avant de disponible à l’adresse : www.cea.fr
débloquer de nouvelles sources de valeur. livrer des analyses clés en main. ou par télécopie au 01 64 50 20 01
Quelques analyses prospectives : Quatre grandes tendances émergent des analyses Open Data & Open Innovation : ISSN 0298-6248
www2.deloitte.com/global/en/pages/ prospectives qui foisonnent sur le sujet. partager ses données pour créer de la valeur. Dépôt légal à parution
À l’exclusion des illustrations, la reproduction totale ou partielle des informations contenues
deloitte-analytics/articles/analy- dans ce numéro est libre de tous droits, sous réserve de l’accord de la rédaction et de la mention
tics-trends-2015 L’extension de la performance La valeur qu’on peut extraire des données est d’autant Réalisation
et de la connaissance métier grâce au Big Data. plus importante qu’elle s’appuie sur de plus grands d’origine. Agence Heidi
www.mckinsey.com/business-func- volumes. Cela amène les entreprises à mutualiser www.agence-heidi.fr
tions/mckinsey-analytics/our-insights/ Les approches analytiques concerneront bientôt leurs données pour enrichir leurs offres respectives, à © 2017 CEA
the-age-of-analytics-competing-in-a- l’ensemble des métiers et fonctions de l’entreprise l’instar des collectivités et opérateurs publics, qui RCS Paris B 775 685 019 Impression
data-driven-world (finance, RH, achats, etc.) dans une approche intégrée cherchent à dynamiser les territoires ou améliorer la Siège social : Bâtiment Le Ponant D, Imprimerie de la Centrale - Lens
de l’usine numérique. qualité de service. 25 rue Leblanc, 75015 Paris Imprimé sur papier recyclé.

46 - Voyage au cœur du Big Data Les voix de la recherche - #64 - Clefs Clefs - #64 - Les voix de la recherche Voyage au cœur du Big Data - 47
Pour en savoir plus ou
retrouver tous
les dossiers thématiques

www.cea.fr

Abonnez-vous !
www.newsletters.cea.fr/contact

Vous aimerez peut-être aussi